Скачайте в формате документа WORD

Анализ текстов на заимствование методом построения семантических моделей

Министерство образования и науки Украины

Запорожский институт экономики и информационных технологий


Факультет Компьютерной инженерии

Кафедра   Компьютерных систем


К  ЗАЩИТЕ ДОПУЩЕНА


Зав.кафедрой





 МАГИСТЕРСКАЯ РАБОТА


анализ ТЕКСТОВ НА ЗАИМСТВОВАНИЕ МЕТОДОМ

ПОСТРОЕНИЯ СЕМАНТИЧЕСКИХ МОДЕЛЕЙ




    Выполнил

ст. гр. КсиС-11М Евсеев Артур Александрович


  Руководитель                   проф. Лебедева Людмила Николаевна


  Нормоконтролер             Акимова Елена Александровна

 

 

 

 

 

 

 

Запорожье

2007




З А Д А Н И Е

НА АТТЕСТАЦИОННУЮ РАБОТУ МАГИСТРА


Студенту  гр. КсиС-11М,     специальности _Компьютерные системы и сети»_


Евсееву Артуру Александровичу                   

  (фамилия, имя, отчество)


1.Тема:


утверждена приказом по институту  “  ” 200_ г.  №


2.Срок сдачи студентом законченной работы 


3.Перечень вопросов, подлежащих разработке

4.Объект исследования (характеристика объекта, словия исследования и др.)

5. Основные задачи исследования



Дата выдачи задания  “  ” 200_ г.


Руководитель дипломной работы  

(подпись)             (фамилия и инициалы) 

Задание принял к выполнению            

(подпись студента)(фамилия и инициалы) 


РЕФЕРАТ


Объем работы: стр. 104, приложений 6, таблиц 10, рисунков 18, источников 50, формул 23.


В работе рассматриваются вопросы применения технологий семантического  анализа текстов, представленных на естественном языке с целью выявления наличия заимствований.

Задача определения факта заимствования сводится к сравнению моделей, отражающих смысловую нагрузку текстов. Анализ ведется с использованием алгоритмов на графах, модифицированных и оптимизированных для применения в рамках данной задачи.

Использование схем анализа данных, предложенных в данной работе, может позволить выявлять факт заимствования даже если оригинал был определенным образом модифицирован (выполнен перевод, слова были заменены на синонимы, текст был изложен с использованием другой лексики и т.д.).

Результаты выполнения работы могут быть использованы во всех прикладных направлениях, для которых применимы методы семантического  анализа текстов.



ЕСТЕСТВЕННЫЕ ЯЗЫКИ, ЗАИМСТВОВАНИЕ, ИЗОМОРФНОСТЬ, НЕЧЕТКИЙ АНАЛИЗ, ОСМЫСЛЕННЫЙ АНАЛИЗ, ПЛАГИАТ, СЕМАНТИЧЕСКАЯ МОДЕЛЬ, ТЕОРИЯ ГРАФОВ,  ЦИТИРОВАНИЕ.


СОДЕРЖАНИЕ TOC \o "1-3"

РАЗДЕЛ 1. 10

Методы решения задачи анализа текстов на заимствование. Постановка задачи.. 10

1.1. Задача анализа заимствований на базе семантических технологий.. 11

1.2. Выводы.. 13

РАЗДЕЛ 2. 14

Подходы к решению задачи анализа заимствований.. 14

2.1. Анализ на базе оценки релевантностей.. 14

2.2. Анализ на базе оценки смысловой нагрузки текста.. 20

2.2.1. Формирование семантического словаря. 20

2.2.2. Формирование семантических моделей. 28

2.2.3. Представление данных. 40

2.2.3.1. Объектная модель реализации инструмента для разбора форматов данных. 43

2.2.3.2. Преобразование из формата MS Word. 45

2.2.4. Алгоритм лексического и грамматического разбора предложений. 46

2.2.5 Выводы.. 54

РАЗДЕЛ 3. 55

лгоритмы, используемые для установления факта заимствований при семантическом анализе   55

3.1. Анализ изоморфности графов. 55

3.2. Анализ оптимальности алгоритма.. 73

3.3. Выводы.. 77

РАЗДЕЛ 4. 78

Реализация приложения.. 78

4.1. Обоснование выбора средств разработки.. 78

4.2. Программный комплекс. 81

4.2.1. Хранение данных. 82

4.3 Система анализа текстов на заимствование. 85

4.4 Тестирование системы.. 88

4.4.1. Тестирование модулей системы (модульное тестирование) 88

4.4.2. Тестирование корректности работы логики системы.. 89

4.4.3. Нагрузочное тестирование. 89

РАЗДЕЛ 5. 91

Возможности развития проекта.. 91

5.1. Формальное определение объектов семантической алгебры.. 91

5.2. Алгоритм лексического и грамматического разбора текстов. 94

5.3. Алгоритмы становления факта изоморфности графов. 95

5.4. Оптимизация хранилищ данных.. 96

5.5. Параллелизация вычислительных процессов. 96

5.6. Выводы.. 98

ВЫВОДЫ... 99

РЕКОМЕНДАЦИИ.. 101

ПЕРЕЧЕНЬ ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ.. 102

ПРИЛОЖЕНИЯ.. 106


ПЕРЕЧЕНЬ ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1.     Лебедев И. С. Принципы обработки естественно-языковых запросов в системах лингвистического обеспечения //Электронный журнал «Исследовано в России»