Система контент-анализа естественно-языковых текстов
Дипломная работа - Компьютеры, программирование
Другие дипломы по предмету Компьютеры, программирование
Федеральное агентство по образованию
Государственное образовательное учреждение высшего профессионального образования Курский государственный университет
Кафедра программного обеспечения и администрирования информационных систем
ВЫПУСКНАЯ КВАЛИФИКАЦИОННАЯ РАБОТА
на соискание квалификации математик - программист
Система контент-анализа естественно-языковых текстов
Автор работы Абрамов Алексей Викторович
Обозначение дипломной работы ВКРС.КГУ.010503.65.10.001
Группа МОАИС-53
Специальность: 010503.65 Математическое обеспечение и администрирование информационных систем
Руководитель дипломной работы
А. В. Абрамов
Консультанты по разделам:
Технологический В. Г. Белов
Нормоконтроль В. Г. Белов.
Заведующий кафедрой ПО и АИС
А.П. Жмакин
Курск 2010г.
SUMMARY
work is devoted to problem of automatic text processing. The urgency of improvement of this methodology is unconditional. The saved up huge text data, both on the scale of the separate organisations, and in Internet does claimed set of problems connected with the analysis of the text information.purpose of work consists in working out and realisation the morphological dictionary in the form of treelike structure, and methods and algorithms to work with it.used programming language - Java.is declared on 102 pages of the typewritten text, consists of conducting, system engineering and conclusions.of work: Automatic text processing, morphology, the morphological dictionary, the frequency analysis, the thematic analysis.created qualifying work is claimed and actual.
1. ВВЕДЕНИЕ
Проблема автоматической (интеллектуальной) обработки текстов на естественном языке возникла в конце 60 - начале 70-х. гг. С тех пор работа по созданию систем АОТ продвинулась достаточно далеко - имеется как положительный, так и не совсем опыт их создания. Это в первую очередь связано с невысоким качеством распознавания фраз, жестких требований к синтаксису естественного языка, а также больших затрат машинного времени и ресурсов, необходимых для их работы. Практически во всех системах машинного понимания текста используется ограниченный естественный язык, поскольку полной и строгой формальной модели ни для одного естественного языка пока не создано[1].
Актуальность разработки и усовершенствования методологии АОТ безусловна. Накопленные огромные текстовые данные, как в масштабе отдельных организаций, так и в Internet делают востребованными следующие задачи связанные с анализом текстовой информации[2]:
получение сводной аналитической информации по массиву текстов;
поиск целевой информации в массиве текстов;
структурирование данных, содержащихся в разрозненном виде в массиве текстов;
заполнение реляционной базы данных определенной структуры на основании массива текстов;
извлечение знаний из текстов и заполнение баз знаний;
классификация текстов на основе извлеченной информации.
Задача анализа текста связана с поиском ключевых слов.
Объект исследования - методы тематического анализа текстовой информации.
Предмет исследования - морфологический словарь в виде древовидной сильноветвящейся структуры, а так же методы и алгоритмы работы с ним.
Цель работы состоит в разработке и реализации на языке высокого уровня морфологического словаря в виде древовидной сильноветвящейся структуры, а так же методы и алгоритмы работы с ним. На основе полученных результатов апробировать работу алгоритмов в составе разработанного дополнительно программного обеспечения, iелью проведения частного анализа текста.
Задача - Исследование методов и технологий автоматической обработки ЕЯ-текстов.
2. РАЗРАБОТКА СИСТЕМЫ
2.1 Анализ альтернатив
Морфологические анализаторы (морфологизаторы) на различных языках программирования существуют уже достаточно давно и в большом количестве, позволяя реализовать поиск с учетом словоформ. Среди них можно выделить следующие проекты:- морфологический модуль на языках Перл и php для русского языка, включающий в себя две основные функции: нахождение базовой формы слова или всех его словоформ. Данный модуль используется в поисковых системах для улучшения поиска по документам с русским текстом.- определяет словоформы слов, корни и начальные формы. Для реализации поиска с учетом словоформ данная система получает корень слова и просто проводит поиск по базе данных SQL-оператором LIKE.
Цель морфологического анализа заключается в определении морфологической информации словоф для использования на последующих этапах обработки текста. Существует три основных метода реализации морфологического анализа: декларативный, процедурный и комбинированный[3].
При декларативном методе в словаре хранятся все возможные словоформы каждого слова. В этом случае задача морфологического анализа состоит в поиске слова в словаре и переписывании из словаря словоформ. Так как количество различных словоформ у каждого слова довольно велико, декларативный метод требует больших затрат памяти вычислительной системы, что порождает ряд технических проблем, заключающихся в больших затратах труда на создание и поддержание словаря, в высокой избыточности информации. Достоинствами метода является высокая скорость анализа, а также универсальность по отношению к множеству всех возможных словоформ русского языка.
Процедурный морфологический анализ выполняет следующие функции: выделяет втекущей словоформе основу, идентифицирует ее и приписывает данной словоформе соответствующий комплекс морфологической информации.
Процедурный метод предполагает предварительную с