Яние проекта по созданию лингвистической онтологии специального информационно-поискового тезауруса для автоматической обработки текстов по естественным наукам
Вид материала | Документы |
- О-фразеологические и дискурсивные особенности текстов научно-технического стиля, которые, 139.87kb.
- Это комплекс программных средств, предназначенных для автоматической обработки информации., 208.42kb.
- 5 лекция. Информационно-поисковый тезаурус, 133.69kb.
- Концепция данных в языке паскаль ЭВМ сложное электронное устройство для хранения, 56.87kb.
- Положение о школьном конкурсе научно-исследовательских работ по гуманитарным, естественным, 54.43kb.
- Доклад посвящен методам сопоставления образов с шаблоном в системе автоматической обработки, 31.12kb.
- Список уральского государственного экономического университета, представленных на внутривузовский, 530.31kb.
- Работа по обучению детей начальной школы созданию письменных текстов по русскому языку, 235.99kb.
- На конкурс представляются законченные научно-исследовательские работы студентов, 103.34kb.
- Реферат на тему : «Назначение и характер аппаратных средств защиты информации», 258.62kb.
^ 4.1. Ранее созданные ресурсы
Авторы проекта ранее (Лукашевич, 1995; Лукашевич, Салий, 1996) создали информационно-поисковый тезаурус для автоматического индексирования текстов в общественно-политической области (далее – Общественно-политический тезаурус), включающих более 32 тысяч понятий, 79 тысяч русскоязычных и 80 тысяч англоязычных текстовых входов.
Представляя собой по форме информационно-поисковый тезаурус с ограниченным набором отношений, Общественно-политический тезаурус построен на основе формальных онтологических принципов. Это позволяет нам позиционировать его как лингвистическую онтологию для автоматической обработки документов в области общественно-политических отношений.
Создан (Добров, Лукашевич, 1996; Добров, Лукашевич, 2001) не только лингвистический ресурс, но и комплекс математического обеспечения (моделей, алгоритмов) и программного обеспечения (утилит, информационных систем). То есть создан полный технологический цикл от набора терминологии до реализации обеспечения функционирования информационно-аналитических систем различного назначения.
Общественно-политический тезаурус используется как лингвистический ресурс в таких задачах информационного поиска как автоматическое концептуальное индексирование, визуализация результатов поиска, автоматическая рубрикация документов, автоматическое аннотирование.
С 1998 года Общественно-политический тезаурус вошел в состав Тезауруса русского языка РуТез, который теперь помимо общественно-политической терминологии содержит описаний значений широкий круг общезначимой лексики в виде сети понятий и поэтому также рассматривается нами как лингвистическая онтология. Далее мы будем ссылаться на лингвистическую онтологию Тезаурус РуТез, подразумевая в его составе Общественно-политический тезаурус.
Для реализации обсуждаемого проекта наиболее важны созданные ранее технологии быстрого автоматизированного формирования (Добров и др., 2003) терминологической базы по текстам, а также возможность использования уже существующего ресурса большого объема.
В общественно-политических текстах понятия общественных наук встречаются значительно чаще, чем понятия естественных наук, что находит свое отражение в составе Общественно-политического тезауруса. Тем не менее сфера естественных наук затрагивается в связи с обсуждением вопросов промышленности, нефтедобычи, медицины и т.п., поэтому соответствующая научная лексика и терминология неплохо представлена в тезаурусе, что позволило поставить задачу ее использования при создании нового ресурса.
^ 4.2. Причины раздельного ведения онтологий
Начале работ над Онтологией по естественным наукам и технологиям означало, что было принято решение раздельно разрабатывать две разные онтологии для анализа текстов в общественно-политической сфере (газетные статьи, новостные сообщения, законодательные акты, международные договоры) и научных публикаций.
Решение о разделение онтологий было связано с несколькими серьезными факторами.
Во-первых, обе онтологии достаточно объемны, включают десятки тысяч понятий и отношений, при этом большая часть понятий общей онтологии обычно не используется в текстах естественных наук, и наоборот, научные понятия по большей мере не нужны для анализа таких общезначимых документов, как газетные статьи, информационные сообщения, законодательные акты.
Во-вторых, разделение онтологий снижает многозначность описанных слов и выражений.
В-третьих, предполагалось, что существует несоответствие, так называемой, «бытовой» картины мира и научной картины мира. То есть отношения, описанные и правильные в рамках одной онтологии, должны быть изменены в рамках другой онтологии.
И наконец, последнее (по перечислению, но не по важности) эти две онтологии отличаются по способам рассмотрения внешнего мира: онтология РуТез рассматривает мир через призму современного цивилизованного общества: что известно о мире значимому количеству образованных людей современного общества, что важно (воздействует, используется) в существовании современного общества. Онтология в области естественных наук и технологий исключает из рассмотрения аспекты общественного мировосприятия и должна описывать в виде онтологической модели устоявшиеся воззрения современной науки, основываясь на материалах научных публикаций.
Вместе с тем, хотелось бы отметить, что существуют типы текстов, для анализа которых могут понадобиться обе онтологии, работающие одновременно, и поэтому нужно иметь четкое представление об отражении сходных явлений в разных контекстах.
К числу текстов, требующих, как представляется, использования обеих онтологий относятся:
- Анализ соответствий между требованиями технического регулирования и описанием производственных процессов;
- Документы вида «заявки/отчеты» о научном исследовании,
- Инвестиционные заявки, связанные с промышленным внедрением научных исследований.
^ 4.3. Структура онтологий
Оба ресурса: Тезаурус РуТез и Онтология по естественным наукам и технологиям имеют одинаковую структуру. Они являются онтологиями, поскольку описывают понятия внешнего мира и отношения между ними, которые устанавливаются в соответствии с требованием правомочности расширения запроса по иерархии связей при информационном поиске. Оба ресурса принадлежат к особому классу онтологий, так называемым лингвистическим онтологиям (Magnini, Speranza, 2002; Gomez-Perez et al., 2000), поскольку введение понятий в значительной мере мотивируется значениями языковых единиц, относящихся к предметной области ресурса. Далее в этом разделе мы опишем структуру этих ресурсов, ссылаясь на них обобщенным названием РуТез*Онтологии.
В то же время они являются тезаурусами, поскольку каждое понятие связано с набором языковых выражений (слов, терминов, словосочетаний), которыми это понятие может быть выражено в тексте, - такой набор текстовых входов понятий необходим для использования онтологий для автоматической обработки текстов.
Опишем сказанное более подробно.
РуТез*Онтология – это иерархическая сеть понятий. Каждое понятие имеет имя.
Для сопоставления с текстом каждое понятие снабжается набором текстовых выражений («текстовых входов», «терминов»), значения которых соответствует данному понятию. В качестве таких текстовых входов могут выступать однословные существительные, прилагательные, глаголы, именные и глагольные группы. Количество таких текстовых входов понятий может быть достаточно велико, например, превышать 20 единиц. При вводе нового понятия делаются специальные усилия, чтобы максимально подробно перечислить его возможные текстовые входы.
Каждое понятие связывается отношениями с другими понятиями РуТез*Онтологии. Набор отношений РуТез*Онтологии специально подобран для эффективной работы в информационно-поисковых приложениях.
В РуТез*Онтологии имеется четыре основных типа отношения.
Первый тип отношений – родовидовое отношение НИЖЕ-ВЫШЕ, обладает свойством транзитивности и наследования.
Второе тип отношений – отношение ЧАСТЬ-ЦЕЛОЕ. Используется не только для описания физических частей, но и для других внутренних сущностей понятия, таких как свойства или роли для ситуаций. Важным условием при установлении этого отношения является то, что понятия-части должны быть жестко связаны со своим целым, то есть каждый пример понятия-части должен в течение всего времени своего существования являться частью для понятия-целого, и не относиться к чему-либо другому.
Так, например, в РуТез*Онтологиях считается неправильным описывать понятие ДВИГАТЕЛЬ частью понятия АВТОМОБИЛЬ, поскольку двигатели являются частями различных технических устройств, а не только автомобилей. Мы вводим понятие ^ АВТОМОБИЛЬНЫЙ ДВИГАТЕЛЬ, как видовое понятие для понятия ДВИГАТЕЛЬ, и затем устанавливаем отношение ЧАСТЬ между понятием АВТОМОБИЛЬ и понятием АВТОМОБИЛЬНЫЙ ДВИГАТЕЛЬ.
В этих условиях удается выполнить свойство транзитивности введенного таким образом отношения ЧАСТЬ-ЦЕЛОЕ, что очень важно для автоматического вывода в процессе автоматической обработки текстов.
Еще один тип отношения, называемого несимметричной ассоциацией АСЦ2-АСЦ1, связывает два понятия, которые не могут быть связаны выше рассмотренными отношениями, но одно из понятий не существовало бы без существования другого. Например, понятие ЛЕС требует существования понятия ДЕРЕВО (при этом можно было бы ввести как ЧАСТЬ для понятия ЛЕС понятие^ ДЕРЕВО В ЛЕСУ), а понятие АНТИСТАТИК требует существования понятия СТАТИЧЕСКОЕ ЭЛЕКТРИЧЕСТВО.
Последний тип отношений – симметричная ассоциация связывает, например, понятия очень близкие по смыслу, но которые мы не решились склеить в одно понятие.
Отношения НИЖЕ-ВЫШЕ, часть-целое и несимметричная ассоциация являются иерархическими отношениями. Таким образом, на основе свойств иерархичности, транзитивности и наследования для каждого понятия может быть определена совокупность понятий, которые являются для него нижестоящими понятиями по иерархии.
5 Этапы реализации проекта
Основной задачей при создании лингвистической онтологии большого размера силами небольшого коллектива является максимальное использование методов автоматизации, а также фрагментов ранее созданных лингвистических онтологий.
5.1 Автоматический набор терминологии по текстам
Для каждой науки из рассматриваемого списка (математика, физика, химия, биология, геология) были сформированы коллекции документов (от 3000 до 8000 документов, от 50 до 90 Мб). Источником коллекций являлись документы, доступные в Интернет, следующих основных типов:
- материалы школьных уроков;
- рефераты;
- университетские лекции;
- материалы специализированных сайтов.
Была произведена обработка специальными процедурами автоматического извлечения терминоподобных словосочетаний, что дало возможность проверки употребимости терминов в материалах, а также нахождения терминов, входящих в состав предметной области.
Для выявления терминов было проведено сопоставление с терминами Общественно-политического тезауруса. Также были применены два алгоритма выделения терминоподобных слов и словосочетаний (Добров и др., 2003).
Первый алгоритм выделяет существительные, прилагательные, согласованные пары и тройки прилагательных и существительных, а также генеративные конструкции (существительное + существительное в родительном падеже и т.п.).
Второй алгоритм может выделять часто повторяющиеся именные группы в несколько слов, в том числе предложные.
При этом многословные термины, словосочетания из тезауруса РуТез могли выступать «зародышами» для формирования более длинных словосочетаний.
Полученные терминоподобные слова и словосочетания упорядочивались по убыванию суммарной частотности и убыванию количества содержащих их документов.
5.2 Автоматизированное формирование первой версии онтологии
Основной целью при формировании первой версии ресурса являлось быстрое получение приближения предметной области. При этом выбор делался в сторону большей избыточности первого приближения, чтобы в дальнейшем минимизировать по возможности поиск и добавление новых терминов.
5.2.1. Отбор новой терминологии
По каждой предметной области были образованы верхние части частотных списков терминоподобных слов (по 10 тысяч) и словосочетаний (по 15 тысяч), которые были направлены на быструю разметку экспертам. Отметим, что нижняя часть списков соответствовала уровню встречаемости в 5-6 документах.
Эксперты должны были в рамках «своей» науки пометить принадлежность к предметной области того или иного термина. Допускалась пометка термина для нескольких предметных областей, но полнота такого рода разметки не требовалась. После окончания этого этапа списки разных экспертов были объединены – получился список из 32 тысяч помеченных слов и словосочетаний.
5.2.2. Использование существующего ресурса
Существующий ресурс – Общественно-политический тезаурус покрывает лексику и терминологию нормативно-правовых актов и материалов СМИ. Поэтому имеет значительное пересечение с терминологией практически любой значимой предметной области.
Для каждой новой предметной области были заданы несколько понятий верхнего уровня, такие как =^ НАУКА=, =РАСТЕНИЕ= и т.п., касающиеся сущности исследуемых предметных областей и их предметов ведения. Для таких понятий были выбраны способы расширения по иерархии тезаурусных связей (полное расширение или расширение только по таксономическим отношениям). Полученные группы понятий были помечены специальными пометками отнесения к дополнительной предметной области соответствующей науки и к специальной служебной рабочей предметной области «кандидат».
5.2.3. Пересечение отобранных терминов и существующего ресурса
Список отобранных экспертами терминов по текстам был сопоставлен с текстовыми входами понятий Общественно-политического тезауруса. В случае совпадения с текстовым входом из тезауруса, все понятия, ассоциированные с данным текстовым входом, получали дополнительные пометки новых предметных областей – соответствующей науки (наук) и предметной области «кандидат».
Если отобранный экспертами термин был не известен, то заводилось новое понятие, дескриптор и единственный текстовый вход которого совпадали с данным термином. Новое понятие получало пометки принадлежности к предметной области соответствующей науки и «кандидат». Кроме того автоматически вводилось таксономическое отношение ВЫШЕ к специальному временному понятию в каждой науке, например, =^ @ГЕОЛОГИЧЕСКАЯ ТЕРМИНОЛОГИЯ=, =@ХИМИЧЕСКАЯ ТЕРМИНОЛОГИЯ=, и т.п.
5.2.4. Замыкание предметной области
Для отобранных из тезауруса РуТез понятий (получивших пометку «кандидат») было выполнено «замыкание» - были добавлены понятия, расположенные выше по таксономическим связям. Эти понятия получали аналогичные дополнительные пометки предметных областей.
5.2.5. Оформление первой версии ресурса
В результате предыдущих этапов был сформирован «пополненный» ресурс на основе Общественно-политического тезауруса. Так как все интересующие нас понятия имели пометку отнесения к служебной предметной области «кандидат», то мы использовали стандартную процедуру «экспорта» фрагмента тезауруса для формирования нового ресурса.
5.3 Методология работы экспертов
Каждый эксперт может выбрать список понятий, имеющих пометку соответствующей предметной области. Кроме того, эксперт просматривает понятия, связанные отношением с временным служебным понятием типа =^ @ХИМИЧЕСКАЯ ТЕРМИНОЛОГИЯ= (см.п.5.2.3).
Цель работы эксперта:
- снять пометку «кандидат» с понятий, которые действительно относятся к предметной области соответствующей научной дисциплины;
- снять ложно поставленные пометки принадлежности понятия к предметной области, оставив только пометку «кандидат», либо удалить такое понятие;
- сделать так, чтобы не осталось понятий, подчиненных временному понятию типа =^ @ХИМИЧЕСКАЯ ТЕРМИНОЛОГИЯ=. При этом либо понятие получает новые нетривиальные связи, либо объединяется с существующим, передавая ему свои текстовые входы, либо удаляется.
Естественно, эксперт имеет возможность и непосредственного ввода нового понятия.
|
Рис.1. Основная экранная форма редактирования отношений и текстовых входов понятий |
Рисунок 1 представляет рабочий экран системы ведения онтологии. В левом верхнем углу помещены понятия онтологии, в левом нижнем углу представлены текстовые входы для понятия, на котором установлен курсор АЗУРИТ (МИНЕРАЛ) – азурит, медная лазурь, медная синь. В правом верхнем углу показаны отношения этого понятия. Оно описывается как подкласс понятий карбонат меди, минерал меди, природные карбонаты. В левой нижней части экрана показаны текстовые входы для понятия. Правая верхняя часть экрана представляет список понятий, связанных отношениями с рассматриваемым. Курсор установлен на отношении с понятием ^ ГИДРОКСОКАРБОНАТ МЕДИ. Правая нижняя часть экрана показывает текстовые входы понятия, выделенного курсором в правой части экрана.
Видно, что экран отражает отношения между традиционно геологическими и химическими понятиями. Таким образом, отражение понятий, традиционно относящихся к разным наукам, в рамках единого ресурса дает возможность использовать для описания отношений понятий разных наук.
В настоящее время экспертами используется следующих три основных источника:
- профильные и общие энциклопедии, толковые словари – как источник профессиональной информации;
- накопленные списки терминоподобных слов словосочетаний, которые очень эффективны при добавлении синонимов, вариативно отличающихся от указанных в опубликованных энциклопедических источниках;
- каждый текстовый вход должен быть проверен экспертом по употреблению в Интернет. Такая проверка производится с использованием глобальных поисковых машин.
^ 5.4. Текущее состояние проекта
В настоящее время онтология включает 30 тысяч понятий, 70 тысяч терминов таких областей как математика, физика, химия, геология, биология. Покрытие химической и биологической терминологии в пределах средней школы полностью завершено. Размер биологической подонтологии будут зафиксирован на достигнутом уровне. Покрытие терминологии математики и физики в пределах школьной программы будет завершено в течение ближайшего года. После окончания работ с терминологией в рамках школьных программ эксперты начинают работать с программами по отраслям естественных наук (аналитическая химия, историческая геология и т.п.), проверяя полноту отражений терминологии в онтологии.
5.5. Тестирование онтологии
Онтология, предназначенная для автоматической обработки текстов должна, прежде всего, тестироваться на текстах соответствующих предметных областей.
Разработан специальный интерфейс, позволяющий изучать результаты автоматической обработки текстов на основе онтологии. Программа позволяет проанализировать:
- совокупность терминов, обнаруженных в тексте;
- терминологическую многозначность в тексте: многозначность (однозначность) термина, результаты разрешения многозначности;
- отношения между понятиями, выявленными в тексте;
- тематическую аннотацию текста – совокупность близких по смыслу понятий (тематические узлы), которые наиболее полно характеризуют содержание текста (Добров, Лукашевич, 1996). Просмотр такой аннотации, сопоставление ее с заголовком текста может выявить неправильно описанные отношения между понятиями, пропущенные отношения, неправильно разрешенную многозначность без подробного просмотра текста. Так, например, если в математической статье, посвященной обсуждению генетических алгоритмов, автоматически (на основе знаний онтологии) выделился крупный узел близких по смыслу терминов: методы оптимизации, метод приведенного градиента, метод имитации обжига, а сами генетические алгоритмы в этот узел не вошли, то эта неточность описаний онтологии видна с первого взгляда на тематическую аннотацию, построенную для данного текста;
- результаты автоматической рубрикации текста, могут быть подсвечены совокупности терминов, на основе которых выведена та или иная рубрика.
6. Изменения в описаниях понятий, полученных из Тезауруса РуТез
Возможность вторичного использования однажды разработанных онтологий в других областях или других приложениях является важной проблемой в онтологических исследованиях (Guarino, 1997; Kalinichenko, Skvortsov, 2004). Для поддержки процедуры слияния онтологий и создания на этой основе новой онтологии разработано несколько программных продуктов (McGuinnes et al., 2000; . Noy, Musen, 2000).
Отдельное направление исследований составляет использование онтологий верхнего уровня или общезначимых онтологий (онтологий, не ориентированных на конкретную предметную область) для разработки онтологий в конкретных предметных областях. В качестве такой общей онтологии при разработке предметно-ориентированных онтологий для автоматической обработки текстов часто используется лингвистическая онтология WordNet (Magnini, Speranza, 2002; Buitellar, Sacalenau, 2001; Vossen, 2001).
Близкие по смыслу понятия общей и предметно-ориентированной лингвистической онтологии могут состоять между собой в следующих отношениях (Magnini, Speranza, 2002; Buitellar, Sacalenau 2001; Hovy 1998):
- синонимы, то есть понятия двух онтологий могут быть склеены между собой;
- понятие конкретной онтологии является видом для понятия общей онтологии;
- понятия конкретной онтологии и общей онтологии являются квазисинонимами, то есть одному понятию общей онтологии соответствуют два понятия частной онтологии, или одному понятию частной онтологии соответствуют два понятия общей онтологии. В случае WordNet наличие в нем двух понятий (синсетов), относящихся к одному понятий предметной онтологии, обычно связано с более детальной трактовкой лингвистических явлений, чем это обычно принято в терминологических ресурсах.
В начале работ над онтологией ОЕНТ мы выгрузили часть Тезауруса РуТез – лингвистической онтологии в предварительную версию новой онтологии. Таким образом, фрагменты общезначимой онтологии были перемещены в другой контекст – область естественных наук. При этом приложение онтологий является одинаковым – информационно-поисковые задачи такие как индексация и поиск документов, автоматическая рубрикация, поиск ответов на вопросы, поиск похожего документа и т.п.
В течение почти двух лет эксперты по знаниям работали над Онтологией по естественным наукам и технологиям, дополняли и изменяли полученные понятийные описания. И теперь у нас есть возможность изучить, что изменилось в структуре и отношениях понятий при перемещении их в другие, более специфические предметные области.
Для изучения описаний понятий, перенесенных из Тезауруса РуТез (далее онтология-прототип), мы образовали список таких понятий, которые эксперты одобрили для включения в Онтологию по естественным наукам и технологиям, то есть сняли пометку «понятие-кандидат» (Рис.2). Таких понятий оказалось 4540.
Рисунок 2 представляет экран ввода характеристик понятия