Исследование основных подходов к автоматическому отображению онтологий

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование



данного решения все же остается неясным:

  • какие меры лучше приспособлены для той или иной цели: мера, учитывающая расхождения между сравниваемыми объектами по всевозможным признакам (мера Хэмминга, мера Евклида и пр.) или мера, пренебрегающая периферийными признакам сравниваемых объектов и учитывающая расхождение по основному признаку, особенно если у него много значений (мера Чебышева); мера, учитывающая расхождения между сравниваемыми объектами по всевозможным признакам, но значение которой во многом определяется значением доминирующего признака (мера Евклида) или мера, значение которой в одинаковой степени определяется всеми признаками, рассматриваемыми как равноправные (мера Хэмминга) и пр.
  • по каким признакам необходимо сравнивать те языковые единицы, связи между которыми подлежат измерению: выделяя денотативные признаки означаемого для знака, можно определять близость слов на основе сравнения соответствующих им понятий; выделяя сигнификативные признаки означаемого для знака, можно определять близость слов на основе сравнения их внутриязыкового содержания;
  • как формировать признаковое пространство: какими должны быть признаки - бинарными, тернарными, n-арными, каким должно быть их количество, должно ли признаковое пространство быть структурировано по иерархическому принципу, как определять веса признаков, насколько точными должны быть измерения и пр.

2) Синтагматический подход предполагает измерение семантических расстояний в тексте и между текстами. Исходный тезис таков: обращение к корпусу позволяет использовать данные о значении слова, хранящиеся вне языкового знака, и определять содержательную близость лексических единиц, сопоставляя их синтагматические свойства. Данный подход вполне согласуется с теорией значения как употребления, с идеей неаддитивного сложения смыслов (речь идет о реализации в тексте отношения семантического согласования, т.е. о дублировании в контексте той семантической информации, которая содержится в слове). Синтагматический подход лежит в основе процедуры латентного семантического анализа (ЛСА). ЛСА - это статистический метод извлечения и анализа текстовой информации, не требующий предварительного создания лексикографических описаний, семантических сетей, обращения к базам знаний, концептуальным иерархиям и пр. В основе метода ЛСА лежит гипотеза о том, что между отдельными словами и обобщенным контекстом (предложениями, абзацами и целыми текстами), в которых они встречаются, существуют неявные (латентные) взаимосвязи, обуславливающие совокупность взаимных

ограничений. ЛСА активно используется для формирования групп близких по значению слов на основе статистического анализа их сочетаемости с элементами контекста, однако отношение содержательной соотнесенности понимается при этом очень широко, и сейчас еще рано говорить об ЛСА как о точном инструменте семантического исследования.

При парадигматическом подходе необходимо аргументированно задать метрическое пространство и сформировать множество признаков, на основе которых будут производиться семантические измерения, также необходимо выбрать оптимальную меру. При синтагматическом подходе необходимо обращаться к представительному корпусу текстов, снабженному в том числе

и семантической исследовательской информацией, и учитывать не только вероятность/частоту встречаемости сравниваемых единиц в том или ином контексте/конструкции, но и частоту самой конструкции.

Необходимо признать продуктивность совмещения парадигматического и синтагматического подходов и привлечь внимание исследователей к корпусам текстов как к богатейшему источнику информации для измерения семантических расстояний.

Исследования в области изучения семантического расстояния среди отечественных ученых и зарубежных значительно отличаются, их нельзя признать достаточными но по разным причинам. Отечественные работы об измерении семантических расстояний предоставляют методологическую базу для подобных исследований и обосновывают предлагаемые решения с точки зрения лингвистической теории. Зарубежные работы об измерении семантических расстояний сфокусированы на подготовке формального аппарата для осуществления исследований и обосновывают предлагаемые подходы с точки зрения практических решений и возможных областей применения полученных результатов.

4.4 Быстрый алгоритм отображения для простых онтологий

- направлен на быстроту выполнения операции промежуточных методов, уменьшая эффективность и точность отображения. Данный алгоритм включает в себя 6 методов, выполняющихся последовательно, для отображения онтологии (Рис.4.2)

Рисунок 4.2 - Процесс отображения

)Feature Engineering - функция трансляции онтологий, т.е. преобразование к одному форматы, обычно приводят к формату RDF(S), т.к. он считается стандартным при работе с онтологиями.

)Selection of Next Search Steps. - выбор следующего шага поиска кандидатов. Выбор экспертом алгоритма поиска семантической близости и семантического расстояния между парами концептов, в зависимости от поставленной цели {(e, f)|e СФ O1, f СФ O2}.

)Similarity Computation - вычисление подобия, определение сходств между сущностями, вычисляется на этапе сопоставления онтологий.

)Similarity Aggregation - объединение сущностей в одну систему, подтверждение отображения связей. Среди пар совпавших сущностей выбирается та у которой мера схожести больше, порог был выбран равный 0,5.

)Inter