Система семантического разбора для естественно-языковых текстов

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование

СОДЕРЖАНИЕ

Введение

. Обзор и анализ существующих средств семантического разбора естественно-языковых текстов

. Постановка задачи

Анализ алгоритмов для системы обработки естественно-языковых текстов

.1 Графематический анализ

.1.1 Входные и выходные данные

.1.2 Графематические дескрипторы

.1.3Деление на предложения

.2 Морфологический анализ

.3 Синтаксический анализ

.4 Семантический анализ

. Структура системы построения семантического разбора для естественно-языковых текстов

.1 Графематический анализ

.2 Морфологический анализ

.4 Статистический анализ

.4 Синтаксический анализ

.5 Семантический анализ

. Использования н-граммного словаря msr

.1 Методы хранения словарей

.2 Описание морфоанализатора для словаря

.3 Таблицы кодирования постоянных грамматических характеристик

.4 Таблицы кодирования переменных грамматических характеристик

. Алгоритмы анализа системы

.1 Алгоритм графематического разбора

.2 Алгоритм морфологического разбора

.3 Алгоритм синтаксическо-семантического разбора и построения сети

. Проектирование интерфейса

.1 Требования к разработке интерфейса

.2 Интерфейс системы

. Структура программного обеспечения

. Описания функционирования и тестирование системы

.1 Описания функционирования

.2 Тестирования программного кода

10. Требование к оборудованию при эксплуатации ЭВМ

. Организационно-экономическая часть

Выводы

Список использованных источников

Приложение А. Техническое задание

Приложения В. Экранные формы

Приложение Б. Листинг программы

ВВЕДЕНИЕ

Наиболее естественным для человека способом общения является естественный язык (ЕЯ), Предлагаемые методы ориентированы на решение поставленной проблемы путем создания русскоязычных онтологических информационных систем.

Проблема создания тезаурусов и глоссариев как информационной базы является ключевым моментом в любой предметной области на определенном этапе ее развития. При этом в настоящий момент нет русскоязычной ментальной модели лексикона человека, дающей возможность динамического развития семантических понятий предметной области, связанной с информационными технологиями.

Разработка автоматизированной системы семантического анализа является основой программного обеспечения с пользовательским интерфейсом, близким к естественно-языковому. Построение тезаурусов должно способствовать снятию проблемы терминологической путаницы в работе информационных систем.

Анализ существующих исследований, посвященных решению задачи автоматизированного построения тезаурусов, выявил крайне незначительное число готовых и апробированных решений, что во многом связано с отсутствием достаточно проработанной теории и практики решения задач анализа неструктурированной, естественно-языковой текстовой информации. Эффективное решение задачи разработки программы, реализующей динамическую визуализацию понятийных окружений, и составляет суть диссертационной работы.

Исследования в области автоматической обработки текста и формализации естественных языков, планомерно продвигаясь от самых простых методов анализа к более сложным методам. Данные исследования постепенно приближаются к такому уровню обработки текста, на котором уже возможно представление текста не просто в виде последовательности слов, а единым целым, обладающим неким смыслом, что уже соответствует человеческому восприятию.

Стремительное увеличение вычислительных мощностей сделало возможным применение трудоёмких лингвистических алгоритмов на больших объемах данных. Но, несмотря на то, что в области формализации естественных языков и систем автоматической обработки текста, в частности, задействовано большое количество людей и мощностей, работающих в самых разных направлениях. Результаты пока довольно скудны, так как ни одна из существующих моделей не может перекрыть структуру языка в целом, а объёмы данных, с которыми имеет дело лингвистика, очень большие.

Такое положение вещей само собой рождает задачу создания системы, удобной для отработки различных решений анализа iелью нахождения наиболее оптимальных и эффективных. Этому способствует то, что как сам анализ, так и программные комплексы, реализующие данные подходы, достаточно легко поддаются фрагментации, т.е. делению на функциональные блоки, выполняющие изолированную функциональность. Исходя из данной специфики проблемной области, наиболее естественной задачей являлось создание модульного программного испытательного стенда, дающего возможность реализации отдельных функциональных блоков, применяя для каждого из них последние достижения в данной области, а затем реализовать их совместную работу путём точной настройки каждого из них в отдельности и гибкой компоновки между собой.

1. ОБЗОР И АНАЛИЗ СУЩЕСТВУЮЩИХ СРЕДСТВ СЕМАНТИЧЕСКОГО РАЗБОРА ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕКСТОВ

Перед тем как анализировать различные существующие средства семантического разбора естественно-языковых текстов, необходимо понять, что собой представляет семантический разбор.

Семантическим разбором, в данном случае, является извлечение, из текста, сведений об интересующих объектах, фактах и событиях. Полученные таким образом сведения представляются в формализованной форме в виде объектов предметной области и связей