Система семантического разбора для естественно-языковых текстов

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование



между ними, после чего поступают на обработку традиционными методами в зависимости от текущих задач.

Мы привыкли к тому, что компьютеры, как правило, работают со структурированными и формализованными данными. Это могут быть базы данных с таблицами и полями, электронные формы и карточки объектов, тексты программ на формальных языках и инструкции (программы) в машинных кодах. Вместе с тем, для человека наиболее естественной формой представления информации является естественный язык, то есть применительно к компьютеру, это записанный в документ текст. Какие возможности по обработке текста нам предоставляют современные информационные средства? Это, прежде всего, хранение, передача, поиск и проверка орфографии. Но все эти сервисы относятся непосредственно к текстовому представлению (символам, в лучшем случае - словам и фразам), а не к информации, которая в этих текстах содержится! В итоге складывается ситуация, когда в организации накоплен значительный объем текстовых документов, но информация, содержащаяся в них, не доступна для обработки классическими автоматизированными средствами. Семантический анализ текстов позволяет эффективно использовать эти информационные ресурсы для решения различных задач.

Одна из таких систем является информационно-аналитическая система "АРИОН" - мощное средство работы с разнородными источниками информации, использующее инновационные технологии извлечения и обработки знаний [1].

Система позволяет работать как со структурированными (таблицы, базы данных, xml), так и неструктурированными (документы и тексты на естественном языке) источниками информации. Пользователь получает эффективный инструмент аналитики с развитыми механизмами визуализации и большим набором функций по извлечению, загрузке, очистке и обработке информации.

В состав информационно-аналитической системы "АРИОН" входит специальный модуль - Лингвистический процессор АРИОН-ЛИНГВО. На вход Лингвистический процессор получает текстовый документ. Результатом его работы является массив связной фактографической информации, который далее передается в модуль идентификации для выделения похожих и слияния совпадающих объектов.

Выделение фактографической информации осуществляется с помощью специализированных правил, которые описывают процедуры выделения объектов и связей на внутрисистемном языке лингвистического процессора, построенном на базе XML. Лингвистический процессор выполняет обработку полнотекстовой информации в соответствии со следующими этапами изображенных на рисунке 1.1.

Рисунок 1.1 - Этапы обработки полнотекстовой информации

Последний этап заключается в выделении словарных понятий, разборе объектов предметной области и создании связей между выделенными объектами.

Результатом работы лингвистического процессора является набор объектов и связей между ними, который традиционно представляют в виде так называемой фактографической (семантической) сети. Результат работы Лингвистического процессора изображен на рисунке 1.2.

Рисунок 1.2 - Лингвистический процессор, выделение объектов

Данная форма визуализации является удобной и естественной для дальнейшей работы пользователя с выделенной информацией. Такой интерфейс интуитивно понятен и не требует длительного освоения и обучения. Каждый объект имеет набор атрибутов, заданных в рамках описания предметной области. Атрибуты - это характеристики объекта, например, "Имя", "Фамилия" и "Дата рождения" для объекта "Человек". Связь имеет смысловую окраску и тип.

Как это можно использовать? информационно-аналитическая система "АРИОН" позволяет эффективно решать следующие классы задач:

-выделение значимых материалов из больших информационныхт массивов;

-поиск, извлечение, анализ и обобщение информации по интересующим объектам, фактам и событиям;

-формирование онтологий предметных областей;

-мониторинг деятельности организации;

-расследование происшествий и инцидентов;

-сбор и ведение досье на объекты учета;

-оперативная обработка и мониторинг материалов СМИ;

-аналитическая обработка обращений граждан и организаций.

Присутствуют также бесплатные персональные системы автоматического анализа текста. Такие как TextAnalyst [2], он схож с "АРИОН", разработан в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности:

анализа содержания текста с автоматическим формированием семантической сети с гиперссылками - получения смыслового портрета текста в терминах основных понятий и их смысловых связей;

анализа содержания текста с автоматическим формированием тематического древа с гиперссылками - выявления семантической структуры текста в виде иерархии тем и подтем;

смыслового поиска с учетом скрытых смысловых связей слов запроса со словами текста;

автоматического реферирования текста - формирования его смыслового портрета в терминах наиболее информативных фраз;

кластеризации информации - анализа распределения материала текстов по тематическим классам;

автоматической индексации текста с преобразованием в гипертекст;

ранжирования всех видов информации о семантике текста по степени значимости с возможностью варьирования детальности ее исследования;

автоматического/а