О. В. Лазаренко, А. А. Яковенко моделювання процесу узагальнення в системi автоматичного реферування харків Видавництво нуа 2007
Вид материала | Документы |
- Сумський державний університет. Бібліотека. Довідково-інформаційний відділ, 756.86kb.
- 1. Основні методи автоматизованого реферування Реферування, 2567.09kb.
- Програми дисциплін ● Теорія автоматичного керування Основні поняття автоматичного керування, 133.87kb.
- Тест 1 Визначення поняття реферат. Назвіть англійський відповідник терміну «реферат»., 12.81kb.
- Міністерство освіти І науки України Національна юридична академія України Імені Ярослава, 841.57kb.
- План Предмет I завдання патопсихологiї. Мiсце патопсихологiї в системi психологiчних, 841.44kb.
- План Предмет I завдання патопсихологiї. Мiсце патопсихологiї в системi психологiчних, 842.02kb.
- Н. О. Брюханова О. О. Мельниченко, 2111.47kb.
- Ахиезер А. С., Гольц Г. А., Давыдов А. П., Кондаков И. В, Туркатенко Е. В., Яковенко, 6971.62kb.
- Ват «Видавництво «прапор», 175.54kb.
НАРОДНА УКРАЇНСЬКА АКАДЕМІЯ
О. В. Лазаренко, А. А. Яковенко
МОДЕЛЮВАННЯ ПРОЦЕСУ УЗАГАЛЬНЕННЯ
В СИСТЕМI АВТОМАТИЧНОГО
РЕФЕРУВАННЯ
Видавництво НУА
НАРОДНА УКРАЇНСЬКА АКАДЕМІЯ
О. В. Лазаренко, А. А. Яковенко
МОДЕЛЮВАННЯ ПРОЦЕСУ УЗАГАЛЬНЕННЯ
В СИСТЕМI АВТОМАТИЧНОГО
РЕФЕРУВАННЯ
Харків
Видавництво НУА
2007
УДК 004.912
ББК 73.621 с 51
Л 17
Затверджено на засіданні кафедри інформаційних технологій Народної української академії.
Протокол № 8 від 06.03.2006
Р е ц е н з е н т и: д-р техн. наук К. О. Соловйова (ХНУРЕ)
д-р фіз.-мат. наук А. А. Янцевич (ХГУ «НУА»)
Л
Л 17
азаренко, Ольга Володимирівна.
Моделювання процесу узагальнення в системі автоматичного реферування: Монографія / О. В. Лазаренко, А. А. Яковенко; Нар. укр. акад. [Каф. інформ. технологій].– Х.: Вид-во НУА, 2007.– 124с.
У виданні розв’язується завдання моделювання і нормалізації інтелектуального аспекту процесу реферування з метою вдосконалення систем автоматичного реферування. Відзначено сутність узагальнення в реферуванні, виявлено засоби подання інформації в рефераті, за допомогою яких досягається її звернення на морфологічному, синтаксичному, семантико-синтаксичному, семантичному і лексико-семантичному рівнях. На підставі виявлених особливостей сінтактико-семантичної структури реферативних речень побудовано модель індикативного реферату. Запропоновано алгоритм автоматичного створення індикативного реферату.
УДК 004.912
ББК 73.621 с 51
© Народна українська академія, 2007
Зміст
ВСТУП 6
Глава 1. Огляд сучасних досліджень у галузі автоматичного 9
реферування 9
1.1. Розвиток ідеї автоматичного реферування 9
1.2. Методи автоматичного реферування 13
1.3. Проблема розуміння текстових повідомлень у системах автоматичної обробки інформації 20
1.4. Аналіз актуальних лінгвістичних проблем автоматичного реферування 32
Глава 2. Методика опису процесу узагальнення в системі автоматичного реферування 40
2.1. Підходи до поняття «узагальнення», аналіз видів узагальнення 40
2.2. Моделювання знань у системах автоматичного реферування 46
2.3. Онтологія як засіб представлення знань при моделюванні процесу узагальнення в системі АР 51
2.4. Процедура узагальнення при реферуванні 61
3.1. Аналіз граматичних і словотворчих характеристик елементів реферативних конструкцій 65
3.1.1. Граматичні значення предикатів. 67
3.1.2. Граматичні значення іменних елементів актантів. 68
3.1.3. Граматичні значення залежних елементів актантів. 69
3.1.4. Граматичні значення сирконстантів. 69
3.1.5. Словотворчі значення предикатів. 69
3.2. Побудова синтаксичної моделі реферату 71
УЗАГАЛЬНЕННЯ 76
3.3. Модель узагальнення на семантичному рівні 84
3.4. Модель узагальнення на лексико-семантичному рівні 93
3.5. Експериментальна перевірка роботи алгоритму автоматичного реферування 102
СПИСОК ВИКОРИСТАНОЇ ЛІТЕРАТУРИ 111
ВСТУП
Нині, завдяки поширенню мережі Інтернет, швидкими темпами збільшується обсяг науково-технічної інформації на електронних носіях. Проблема автоматичної обробки цієї інформації, складання інформаційних оглядів, реферування й анотування джерел, що несуть інформацію для конкретного користувача, стає все більш актуальною.
Протягом останніх десятиліть ведуться активні дослідження в галузі формалізації змісту текстової інформації. Вони спираються на досягнення структурної і прикладної лінгвістики, логічної семантики, математичної логіки та низки інших фундаментальних і прикладних дисциплін. Результати цих теоретичних досліджень усе більше застосовуються в автоматизації процесів обробки інформації і побудові інтелектуальних інформаційних систем у різних галузях науки.
Одним із найважливіших напрямів у даних дослідженнях, на наш погляд,
є пошук шляхів і методів автоматичного стиснення (згортання) тексту. Під стисненням мається на увазі сукупність операцій аналітико-синтетичної переробки інформації, що переслідують мету створення вторинних документів чи вираження змісту вихідного тексту в більш економічній формі при максимальному збереженні його інформативності в похідному тексті. Реферування й анотування займають центральне місце у згортанні інформації, і всі проблеми, пов’язані
з іншими різновидами згортання, так чи інакше відбиті в цих процесах.
Реферат є вторинним документом, основне призначення якого – подання актуальної науково-технічної інформації на основі її смислової переробки.
На відміну від анотації, що являє собою описову характеристику, реферат передає фактографічну інформацію. Індикативний реферат (резюме) містить тільки ті положення, що тісно пов’язані з темою первинного документа. Усе другорядне для даної теми в індикативному рефераті опускається. Індикативність припуcкає узагальнене подання матеріалу відповідно до конкретного призначення вторинного документа і характеру аналізованого тексту.
Реферат в ідеалі повинен задовольняти інформаційні потреби споживачів, які володіють знаннями у різноманітних галузях науки і цікавляться різними аспектами однієї й тієї ж проблеми тощо. Такий реферат умовно можна
було б назвати універсальним.
Моделювання процесу реферування є одним із найскладніших завдань
у розробці інтелектуальних систем, оскільки в основі логічного механізму цього процесу лежать закономірності людського мислення.
Складовими процесу реферування є аналіз, узагальнення і синтез. Процес узагальнення є найважчим, оскільки передбачає згортання смислу шляхом пошуку найбільш ємних засобів і форм подання інформації. При цьому зміст реферату повинен залишатися семантично адекватним і еквівалентним первинному документові.
Процес узагальнення смислу тексту під час реферування відбувається
на чотирьох рівнях: синтаксичному, семантичному, лексичному і частково – морфологічному.
Реалізація цих механізмів у системі автоматичного реферування дозволяє істотно прискорити і полегшити процес укладання рефератів, хоча сьогодні йдеться лише про створення автоматичних квазірефератів.
Удосконалення системи автоматичного реферування можливе, зокрема, при розв’язані проблеми моделювання інтелектуального аспекту процесу реферування, однією з важливіших складових якого є побудова моделі узагальнення смислу в процесі реферування текстів.