Национальный центр интеллектуального анализа текста - National Centre for Text Mining

Национальный центр интеллектуального анализа текстов (NaCTeM)
Создано	2004
Материнская организация	Департамент компьютерных наук Манчестерского университета
Принадлежность	Манчестерский университет
Директор	Проф. София Ананиаду
Расположение	Манчестер, объединенное Королевство
Интернет сайт	www.nactem.ac.Великобритания

В Национальный центр интеллектуального анализа текста (NaCTeM)^[1] финансируется государством интеллектуальный анализ текста (TM) центр. Он был создан для оказания поддержки, советов и информации о технологиях ТМ и для распространения информации от более широкого сообщества ТМ, а также для предоставления специализированных услуг и инструментов в ответ на требования академического сообщества Соединенного Королевства.

В программного обеспечения Инструменты и услуги, предоставляемые NaCTeM, позволяют исследователям применять методы интеллектуального анализа текста к проблемам в их конкретных областях интересов - примеры этих инструментов выделены ниже. Помимо предоставления услуг, центр также участвует и вносит значительный вклад в сообщество исследователей текстового анализа как на национальном, так и на международном уровне в таких инициативах, как Европа PubMed Central.

Центр расположен в Манчестерский институт биотехнологии и управляется и организуется Департамент компьютерных наук Манчестерского университета. NaCTeM вносит свой вклад в обработка естественного языка и извлечение информации, в том числе признание именного объекта и извлечение сложных отношений (или событий), которые существуют между названными объектами, наряду с параллельными и распределенными системами интеллектуального анализа данных в биомедицинских и клинических приложениях.

Сервисы

TerMine

TerMine - это независимый от предметной области метод автоматического распознавания терминов, который можно использовать для поиска наиболее важных терминов в документе и автоматического ранжирования их.^[2]

AcroMine

AcroMine находит все известные расширенные формы акронимы как они появились в Медлайн записей или, наоборот, его можно использовать для поиска возможных сокращений расширенных форм, поскольку они ранее появлялись в Medline и устраняет неоднозначность их.^[3]

Средства массовой информации

Medie - это интеллектуальная поисковая система для семантического поиска предложений, содержащих биомедицинские корреляции из рефератов Medline. ^[4]

Факта +

Facta + - это поисковая система Medline для поиска ассоциаций между биомедицинскими концепциями.^[5]

Facta + Визуализатор

Facta + Visualizer - это веб-приложение, которое помогает понять результаты поиска FACTA + с помощью интуитивно понятной графической визуализации.^[6]

KLEIO

KLEIO - это многогранная семантическая система поиска информации по рефератам Medline.

Европа PMC EvidenceFinder

PMC EvidenceFinder в Европе PMC EvidenceFinder в Европе помогает пользователям исследовать факты, связанные с интересующими лицами, в полнотекстовых статьях Европа PubMed Central база данных.^[7]

Программа поиска доказательств EUPMC для анатомических образований с мета-знаниями

Программа поиска доказательств EUPMC для анатомических образований с мета-знаниями аналогична европейской PMC EvidenceFinder, позволяя исследовать факты, связанные с анатомическими образованиями, в полнотекстовых статьях базы данных Europe PubMed Central. Факты можно фильтровать по различным аспектам их интерпретации (например, отрицание, безусловно уровень, новизна).

Инфо-ПабМед

Info-PubMed предоставляет информацию и графическое представление биомедицинских взаимодействий, извлеченных из Medline с использованием глубоких семантический разбор технологии. Он дополнен словарем терминов, состоящим из более чем 200 000 белок /ген имена и идентификация болезнь типы и организмы.

Протоколы клинических испытаний (ASCOT)

ASCOT - это эффективное приложение для поиска с расширенными семантическими возможностями, адаптированное для документов клинических испытаний.^[8]

История медицины (HOM)

HOM - это система семантического поиска по архивам исторических медицинских документов.

Ресурсы

БиоЛексикон

BioLexicon - это крупномасштабный терминологический ресурс в области биомедицины.^[9]

GENIA

GENIA - это сборник справочных материалов по разработке систем анализа биомедицинских текстов.

ГРЕК

GREC - это семантически аннотированный корпус рефератов Medline, предназначенный для обучения систем IE и / или ресурсов, которые используются для извлечения событий из биомедицинской литературы.^[10]

Корпус метаболитов и ферментов

Это корпус рефератов Medline, аннотированных экспертами с названиями метаболитов и ферментов.

Анатомический корпус

Набор корпусов, вручную аннотированных мелкозернистыми, независимыми от видов анатомическими объектами, для облегчения разработки систем интеллектуального анализа текста, которые могут выполнять подробный и всесторонний анализ биомедицинских научных текстов.^[11]^[12]

Корпус мета-знаний

Это обогащение корпуса событий GENIA, в котором события обогащаются информацией различного уровня, относящейся к их интерпретации. Цель состоит в том, чтобы позволить системам быть обученными, чтобы они могли различать события, основанные на фактической информации или экспериментальном анализе, определенную информацию от предполагаемой информации и т. Д.^[13]

Проекты

Арго

Цель проекта Argo - разработать инструментальную среду для анализа (в первую очередь аннотирования) текстовых данных. Инструментальная среда, доступ к которой осуществляется как веб-приложение, поддерживает комбинацию элементарных компонентов обработки текста для формирования комплексных рабочих процессов обработки. Он предоставляет функциональные возможности для ручного вмешательства в автоматический процесс аннотации, исправляя или создавая новые аннотации, и облегчает совместную работу пользователей, предоставляя возможности совместного использования ресурсов, принадлежащих пользователям. Argo приносит пользу таким пользователям, как проектировщики текстового анализа, предоставляя интегрированную среду для разработки рабочих процессов обработки; аннотаторы / кураторы, предоставляя функции ручного аннотирования, поддерживаемые автоматической предварительной и постобработкой; и разработчикам, предоставляя инструментальные средства для тестирования и оценки текстовой аналитики.

Большой механизм

Большие механизмы - это большие объяснительные модели сложных систем, в которых взаимодействия имеют важные причинные эффекты. Хотя сбор больших данных становится все более автоматизированным, создание больших механизмов остается в основном человеческим усилием, которое становится все более сложным из-за фрагментации и распространения знаний. Возможность автоматизировать строительство больших механизмов может иметь большое значение для научных исследований. Как один из ряда различных проектов, составляющих большую программу механизмов, финансируемых DARPA, цель состоит в том, чтобы собрать всеобъемлющий большой механизм из литературы и предыдущих экспериментов и использовать его для вероятностной интерпретации новых данных о паномике пациентов. Мы объединим машинное чтение литературы по раку с вероятностными рассуждениями по заявлениям о раке с использованием специально разработанных онтологий, компьютерного моделирования механизмов (путей) рака, автоматизированного генерирования гипотез для расширения знаний о механизмах и «ученого-робота», который проводит эксперименты для проверки. гипотезы. Повторяющийся цикл интеллектуального анализа текста, моделирования, экспериментального тестирования и обновления мировоззрения призван привести к расширению знаний о механизмах рака.

ОБЩИЙ

Этот проект направлен на создание хранилища знаний о филиппинском биоразнообразии путем объединения отраслевых знаний и ресурсов филиппинских партнеров с аналитикой больших данных на основе интеллектуального анализа текста Национального центра интеллектуального анализа текстов Манчестерского университета. Хранилище будет представлять собой синергию различных типов информации, например, таксономической, встречаемости, экологической, биомолекулярной, биохимической, тем самым предоставляя пользователям всестороннее представление об интересующих видах, что позволит им (1) проводить прогнозный анализ распределения видов. и (2) исследовать потенциальные медицинские применения натуральных продуктов, полученных из филиппинских видов.

Проект ЧВК в Европе

Это сотрудничество с группой Text-Mining в Европейский институт биоинформатики (EBI) и Мимас (дата-центр), формируя рабочий пакет в проекте Europe PubMed Central (ранее UKPMC), который проводится и координируется Британская библиотека. Европа PMC в целом формирует европейскую версию бумажного репозитория PubMed Central в сотрудничестве с Национальные институты здоровья (NIH) в США. Европа PMC финансируется консорциумом ключевых финансовых организаций, финансирующих биомедицинские исследования. Вклад в этот крупный проект заключается в применении решений интеллектуального анализа текста для улучшения поиска информации и поиска знаний. Таким образом, это крупномасштабное применение технологии, разработанной в других проектах NaCTeM, и важный ресурс для сообщества биомедицины.

Горное биоразнообразие

Этот проект направлен на преобразование Библиотека наследия биоразнообразия (BHL) в социальную цифровую библиотеку нового поколения для облегчения изучения и обсуждения (через интеграцию в социальные сети) устаревших научных документов по биоразнообразию мировым сообществом и повышения осведомленности широкой общественности об изменениях в биоразнообразии с течением времени. Проект объединяет в BHL новые методы интеллектуального анализа текста, визуализацию, краудсорсинг и социальные сети. Полученный цифровой ресурс обеспечит полностью связанный и проиндексированный доступ ко всему содержимому документов библиотеки BHL с помощью семантически расширенных и интерактивных возможностей просмотра и поиска, позволяя пользователям легко и эффективно находить именно ту информацию, которая их интересует.

Горное дело для общественного здравоохранения

Этот проект направлен на проведение новых исследований в области интеллектуального анализа текстов и машинного обучения, чтобы изменить способ проведения основанных на фактических данных обзоров общественного здравоохранения (EBPH). Цели проекта заключаются в разработке новых неконтролируемых методов интеллектуального анализа текста для определения сходства терминов, для поддержки скрининга при поиске в обзорах EBPH и в разработке новых алгоритмов ранжирования и визуализации значимых ассоциаций нескольких типов динамическим и итеративным способом. Эти недавно разработанные методы будут оцениваться в обзорах EBPH на основе реализации пилотного проекта, чтобы установить уровень трансформации в обзоре EBPH.

использованная литература

^ Ананиаду С. (2007). «Национальный центр интеллектуального анализа текста: взгляд в будущее». Ариадна (53).
^ Франци К., Ананиаду С. и Мима Х. (2007). «Автоматическое распознавание многословных терминов» (PDF). Международный журнал электронных библиотек. 3 (2): 117–132.CS1 maint: несколько имен: список авторов (ссылка на сайт)
^ Окадзаки Н., Ананиаду С. (2006). «Создание словаря сокращений с использованием подхода распознавания терминов». Биоинформатика. 22 (24): 3089–95. Дои:10.1093 / биоинформатика / btl534. PMID 17050571.
^ Мияо, Ю., Охта, Т., Масуда, К., Цуруока, Ю., Йошида, К., Ниномия, Т. и Цудзи, Дж. (2006). Семантический поиск для точной идентификации реляционных понятий в массивных текстовых базах. Материалы 21-й Международной конференции по компьютерной лингвистике и 44-го ежегодного собрания Ассоциации компьютерной лингвистики. С. 1017–1024. Дои:10.3115/1220175.1220303.CS1 maint: несколько имен: список авторов (ссылка на сайт)
^ Цуруока Й, Цудзи Дж, Ананиаду С. (2008). «FACTA: поисковая система для поиска связанных биомедицинских концепций». Биоинформатика. 24 (21): 2559–60. Дои:10.1093 / биоинформатика / btn469. ЧВК 2572701. PMID 18772154.
^ Цуруока, Y; Miwa, M; Хамамото, K; Цуджи, Дж; Ананиаду, S (2011). «Обнаружение и визуализация косвенных ассоциаций между биомедицинскими концепциями». Биоинформатика. 27 (13): i111–9. Дои:10.1093 / биоинформатика / btr214. ЧВК 3117364. PMID 21685059.
^ Консорциум европейских PMC (2014). «Europe PMC: полнотекстовая база данных литературы по наукам о жизни и платформа для инноваций». Исследования нуклеиновых кислот. 43 (D1): D1042 – D1048. Дои:10.1093 / нар / gku1061. ЧВК 4383902. PMID 25378340.
^ Корконцелос И., Му Т. и Ананиаду С. (2012). «ASCOT: веб-сервис на основе интеллектуального анализа текста для эффективного поиска и помощи в создании клинических испытаний». BMC Медицинская информатика и принятие решений. 12 (Приложение 1): S3. Дои:10.1186 / 1472-6947-12-S1-S3. ЧВК 3339391. PMID 22595088.CS1 maint: несколько имен: список авторов (ссылка на сайт)
^ Томпсон, П., Макнот, Дж., Монтеманьи, С., Кальцолари, Н., дель Гратта, Р., Ли, В., Марчи, С., Моначини, М., Пезик, П., Куочи, В. , Рупп, С.Дж., Сасаки, Ю., Вентури, Г., Ребхольц-Шуман, Д. и Ананиаду, С. (2011). «Биолексикон: масштабный терминологический ресурс для биомедицинского анализа текстов». BMC Bioinformatics. 12: 397. Дои:10.1186/1471-2105-12-397. ЧВК 3228855. PMID 21992002.CS1 maint: несколько имен: список авторов (ссылка на сайт)
^ Томпсон, П., Икбал, С. А., Макнот, Дж. И Ананиаду, С. (2009). «Создание аннотированного корпуса для поддержки извлечения биомедицинской информации». BMC Bioinformatics. 10: 349. Дои:10.1186/1471-2105-10-349. ЧВК 2774701. PMID 19852798.CS1 maint: несколько имен: список авторов (ссылка на сайт)
^ Пийсало, С., Охта, Т., Мива, М., Чо, Х.-К., Цудзи, Дж. И Ананиаду, С. (2012). «Извлечение событий на нескольких уровнях биологической организации». Биоинформатика. 28 (18): i575 – i581. Дои:10.1093 / биоинформатика / bts407. ЧВК 3436834. PMID 22962484.CS1 maint: несколько имен: список авторов (ссылка на сайт)
^ Пюйсало, С., Ананиаду, С. (2014). «Распознавание упоминаний анатомических сущностей в литературном масштабе». Биоинформатика. 30 (6): 868–875. Дои:10.1093 / биоинформатика / btt580. ЧВК 3957068. PMID 24162468.
^ Томпсон, П., Наваз, Р., Макнот, Дж. И Ананиаду, С. (2011). «Обогащение корпуса биомедицинских событий аннотацией мета-знаний». BMC Bioinformatics. 12: 393. Дои:10.1186/1471-2105-12-393. ЧВК 3222636. PMID 21985429.CS1 maint: несколько имен: список авторов (ссылка на сайт)

внешние ссылки

http://www.nactem.ac.uk

[ariadne-1] Ананиаду С. (2007). «Национальный центр интеллектуального анализа текста: взгляд в будущее». Ариадна (53).

[multi-word-2] Франци К., Ананиаду С. и Мима Х. (2007). «Автоматическое распознавание многословных терминов» (PDF). Международный журнал электронных библиотек. 3 (2): 117–132.CS1 maint: несколько имен: список авторов (ссылка на сайт)

[pmid17050571-3] Окадзаки Н., Ананиаду С. (2006). «Создание словаря сокращений с использованием подхода распознавания терминов». Биоинформатика. 22 (24): 3089–95. Дои:10.1093 / биоинформатика / btl534. PMID 17050571.

[4] Мияо, Ю., Охта, Т., Масуда, К., Цуруока, Ю., Йошида, К., Ниномия, Т. и Цудзи, Дж. (2006). Семантический поиск для точной идентификации реляционных понятий в массивных текстовых базах. Материалы 21-й Международной конференции по компьютерной лингвистике и 44-го ежегодного собрания Ассоциации компьютерной лингвистики. С. 1017–1024. Дои:10.3115/1220175.1220303.CS1 maint: несколько имен: список авторов (ссылка на сайт)

[pmid18772154-5] Цуруока Й, Цудзи Дж, Ананиаду С. (2008). «FACTA: поисковая система для поиска связанных биомедицинских концепций». Биоинформатика. 24 (21): 2559–60. Дои:10.1093 / биоинформатика / btn469. ЧВК 2572701. PMID 18772154.

[6] Цуруока, Y; Miwa, M; Хамамото, K; Цуджи, Дж; Ананиаду, S (2011). «Обнаружение и визуализация косвенных ассоциаций между биомедицинскими концепциями». Биоинформатика. 27 (13): i111–9. Дои:10.1093 / биоинформатика / btr214. ЧВК 3117364. PMID 21685059.

[7] Консорциум европейских PMC (2014). «Europe PMC: полнотекстовая база данных литературы по наукам о жизни и платформа для инноваций». Исследования нуклеиновых кислот. 43 (D1): D1042 – D1048. Дои:10.1093 / нар / gku1061. ЧВК 4383902. PMID 25378340.

[8] Корконцелос И., Му Т. и Ананиаду С. (2012). «ASCOT: веб-сервис на основе интеллектуального анализа текста для эффективного поиска и помощи в создании клинических испытаний». BMC Медицинская информатика и принятие решений. 12 (Приложение 1): S3. Дои:10.1186 / 1472-6947-12-S1-S3. ЧВК 3339391. PMID 22595088.CS1 maint: несколько имен: список авторов (ссылка на сайт)

[9] Томпсон, П., Макнот, Дж., Монтеманьи, С., Кальцолари, Н., дель Гратта, Р., Ли, В., Марчи, С., Моначини, М., Пезик, П., Куочи, В. , Рупп, С.Дж., Сасаки, Ю., Вентури, Г., Ребхольц-Шуман, Д. и Ананиаду, С. (2011). «Биолексикон: масштабный терминологический ресурс для биомедицинского анализа текстов». BMC Bioinformatics. 12: 397. Дои:10.1186/1471-2105-12-397. ЧВК 3228855. PMID 21992002.CS1 maint: несколько имен: список авторов (ссылка на сайт)

[10] Томпсон, П., Икбал, С. А., Макнот, Дж. И Ананиаду, С. (2009). «Создание аннотированного корпуса для поддержки извлечения биомедицинской информации». BMC Bioinformatics. 10: 349. Дои:10.1186/1471-2105-10-349. ЧВК 2774701. PMID 19852798.CS1 maint: несколько имен: список авторов (ссылка на сайт)

[11] Пийсало, С., Охта, Т., Мива, М., Чо, Х.-К., Цудзи, Дж. И Ананиаду, С. (2012). «Извлечение событий на нескольких уровнях биологической организации». Биоинформатика. 28 (18): i575 – i581. Дои:10.1093 / биоинформатика / bts407. ЧВК 3436834. PMID 22962484.CS1 maint: несколько имен: список авторов (ссылка на сайт)

[12] Пюйсало, С., Ананиаду, С. (2014). «Распознавание упоминаний анатомических сущностей в литературном масштабе». Биоинформатика. 30 (6): 868–875. Дои:10.1093 / биоинформатика / btt580. ЧВК 3957068. PMID 24162468.

[13] Томпсон, П., Наваз, Р., Макнот, Дж. И Ананиаду, С. (2011). «Обогащение корпуса биомедицинских событий аннотацией мета-знаний». BMC Bioinformatics. 12: 393. Дои:10.1186/1471-2105-12-393. ЧВК 3222636. PMID 21985429.CS1 maint: несколько имен: список авторов (ссылка на сайт)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]