Система контент-анализа естественно-языковых текстов
Дипломная работа - Компьютеры, программирование
Другие дипломы по предмету Компьютеры, программирование
истематизацию морфологических знаний о естественном языке и разработку алгоритмов присвоения морфологической информации отдельной словоформе. Недостатком такого подхода является высокая трудоемкость составления словарей совместимости. При этом наличие в русском языке большого числа слов-исключений не позволяет сколько-нибудь автоматизировать этот процесс. Для проведения анализа словоформы необходимо наличие словарей приставка-корень, корень - суффикс - флективный класс, флективный класс - окончание - морфологическая информация.
Работающая система, в которой реализован процедурный морфологический анализ, занимает значительно меньший объем памяти, но при этом увеличивается время работы лингвистического анализатора. Другим существенным недостатком процедурных методов является отсутствие универсальности. Существует большое количество слов, которые нельзя представить в виде суммы неизменной основы и аффиксов (приставка, суффикс, окончание).
При комбинированном методе используется как словарь словоформ, так и словарь основ. На первом этапе проводится поиск по словарю словоформ, как придекларативном методе, и в случае успешного поиска анализ на этом завершается. В противном случае задействуется словарь основ и процедурный метод анализа.
В данной работе выбран декларативный способ морфологического анализа. Предлагается структура словаря в виде сильноветвящегося дерева, позволяющая существенно уменьшить избыточность информации и оптимизированная для наиболее быстрого выполнения операций поиска словоформ. Программный комплекс автономен и не использует СУБД.
2.2 Анализ требований к системе
.2.1 Описание предметной области
Модель предметной области изображена на рисунке 1.
Рисунок 1- Модель предметной области
Далее приведен краткий теоретический материал, раскрывающий понятие морфологии русского языка.
Морфология - часть системы естественного языка, обеспечивающая построение и понимание его словоформ. Единицей морфологического уровня является морфема - минимальная значащая часть высказывания и одна из основных единиц языковой системы, обладающая свойством значимости[4].
Алгоритмы морфологического анализа делятся на две группы: словарные и бессловарные. Бессловарные алгоритмы более компактны и производительны, но обладают не высокой точностью. На практике используют словарный метод, предполагающий наличие словаря основ и флексий. Морфологический словарь - это словарь, в котором дается разъяснение значения и употребления слов и их грамматических категорий, а также хранятся словоформы. По словарю отыскиваются допустимые наборы атрибутов для каждой графемы. Одной графеме может соответствовать несколько наборов атрибутов. В этом случае принято говорить о так называемой морфологической омонимии.
В других случаях варианты порождаются разными лексемами. В задачу морфологического анализа входит установление соответствия между словоформой в принятой орфографической записи и именем соответствующей лексемы с набором ее морфологических характеристик. Простейшим способом установления соответствия является использование словаря словоформ, где каждой словоформе ставится в соответствие ее структура. Однако данный путь не применим для русского языка, так как полная парадигма русского глагола включает 225 словоформ. Например, лексема ДЕЛАТЬ должна обрабатываться 225 индивидуальными правилами[5].
Более уместным в данном случае является метод, основанный на разбиении словоформы на сегменты (буквенные цепочки), соответствующие определенным лингвистически содержательным позициям, и с этими сегментами связываются некоторые морфологические характеристики. Отдельный сегмент вместе с приписанными ему характеристиками называется морфой. Для русского языка в словоформах выделяются следующие шесть позиций:
-приставка (префикс),
-основа,
-муффикс,
-окончание.
Набор характеристик всей словоформы образуется объединением характеристик составляющих ее морф. Набор характеристик морфы состоит из одной или нескольких характеристик, представляющих собой значения соответствующих морфологических признаков. В [5] для русского языка выделяются 12 морфологических признаков:
1)часть речи (существительное, прилагательное, глагол, наречие, числительное, предлог, композит, союз, частица);
2)одушевленность (одушевленное, неодушевленное);
3)род (мужской, женский, средний);
)число (единственное, множественное);
)падеж (именительный, родительный, партитивный, дательный, винительный, творительный, предложный, местный);
)степень сравнения (сравнительная, превосходная);
)краткость (краткое);
)репрезентация (изъявительное наклонение, повелительное наклонение, инфинитив, причастие, деепричастие);
)вид (несовершенный, совершенный);
10)время (настоящее, будущее, прошедшее);
11)лицо (первое лицо, второе лицо, третье лицо);
12)пассивность (страдательный, действительный).
Статьи морфологического словаря делятся на два типа: статьи, описывающие лексемы и статьи, описывающие стандартные объекты, т. е. повторяющиеся в разных статьях фрагменты словарной информации.
В рамках данной работы используется морфологический словарь, содержащий информацию только о словоформах русского языка, что достаточно для выполнения целей, поставленных перед проектом.
2.2.2 Требования пользователя к программному из