Система семантического разбора для естественно-языковых текстов
Дипломная работа - Компьютеры, программирование
Другие дипломы по предмету Компьютеры, программирование
?а в мае 2001 года и содержала только 6000 концепций и 60000 фактов. База знаний выпущена под лицензией Apache .
А также более мелкие системы, как КОНСПЕКТ [9]. Выполняет выделение и сжатое конспектирование исходных естественно-языковых текстов, относящихся к заданной теме, которая задается ключевым словом или словосочетанием.- это система представлния знаний о различных предметах и явлениях.
Система ФРАП (Система французско-русского автоматического перевода была разработана коллективом лаборатории машинного перевода Всесоюзного центра переводов совместно с коллективом лаборатории машинного перевода МГПИИЯ им М. Тореза. 1976-1986 гг.) содержала полную цепочку анализа текста, вплоть до семантического, который был реализован только частично [11, 12]. В системе ФРАП был разработан и опробован семантический аппарат, который представляется нам настолько законченным и совершенным, что его можно заимствовать фактически без изменений. В центре семантического апарата ФРАП находятся два перечня (вернее, две грамматики): семантических характеристик (СХ) и смысловых отношений (СО). Используется минимальное количество семантических характеристик: ВЕЩВО ("вещество"), ИЗМ ("изменение"), ИНТЕЛ ("интеллектуальность"), ИНФ ("информация") и т. д.; слова характеризуются по признаку принадлежности к одному или нескольким классам. СХ обеспечивают проверку семантического согласования при интерпретации связей в тексте. Вместе с тем ФРАП не содержала механизмов структурных оценок семантического представления, то есть методов взвешивания не просто одного вхождения текстового элемента, а всей структуры в целом.
Система ПОЛИТЕКСТ была направлена на анализ официальных документов на русском языке и содержала полную цепочку анализаторов текстa: графематический (первичный анализ), морфологический, синтаксический и частично семантический. Графематический анализ в данной диссертационной работе был частично заимствован, но адаптирован под новые стандарты программирования. Программа морфологического анализа была написана заново, поскольку скорость работы была низкой, но сам морфологический аппарат не изменился. Синтаксический анализ системы ПОЛИТЕКСТ обладал рядом инженерных недостатков, поэтому его не удалось перенять [13].
В итоге, цепочка процессоров (графематический, морфологический и синтаксический) была собрана на базе OOO Диалинг. После этого стала актуальной разработка семантического анализа внутри системы ДИАЛИНГ как логического завершения цепочки анализаторов [14-17].
2. ПОСТАНОВКА ЗАДАЧИ
В настоящее время ведутся активные исследования в области разработки алгоритмов анализа текстов. Результатом этих исследований являются десятки моделей и готовых алгоритмов, которым необходима проверка. При этом до сих пор не существует инструмента, предоставляющего удобные средства для разработки в данной области. Это вынуждает разработчика-лингвиста сосредотачивать внимание не только на написании алгоритмов, но и на создании системы, способной запустить этоти алгоритмы, обеспечить их взаимодействие с друг другом и предоставить необходимую информацию о работе системы.
Главной задачей данной работы ставится, изучить технологии, базирующие на многоуровневом представлении естестевенного языка, и создать систему для анализа текстов на естественном языке. Важно отметить, что результатом работы является законченный продукт, подходящий для применения его в качестве анализатора текстов, предоставляющий на выходе семантическую сеть.
Система должна обеспечивать:
-загрузку и редактирования анализируемых текстов;
-анализ текста посредством программируемого конвейера, составленного из разрабатываемых независимо компонентов;
-функции работы со словарями, возможность создания и подключения новых словарей и тезаурусами;
-построение семантической сети;
-приемлемое время работы.
Следовательно, для поставленной задачи, а именно, создания системы для анализа текстов на естественном