Автоматизація реферування

Курсовой проект - Менеджмент

Другие курсовые по предмету Менеджмент

матерiалi бiльшої частини текстiв були перевiренi всi 7 пунктiв гiпотези про гiперсинтаксичну структуру текстiв iнформацiйних повiдомлень. 1) Текст iнформацiйного повiдомлення утворює гiперсинтаксичну структуру. Це припущення пiдтверджується тим, що система видiлила в текстах реально iснуючi в них мiжфразовi звязки, що задовольняють усiм умовам синтаксичного мiжфразового звязку; саме цi вiдносини обєднують текст повiдомлення в єдине цiле. 2,3) Речення цiєї гiперсинтаксичної структури обєднуються в ПМО. Це припущення пiдтверджується чергуванням у текстi повiдомлення автосемантичних i синсемантичних речень. 4,5) Припущення про те, що автосемантичнi речення є справдi головними, оцiнюється так. Той факт, що 12 з 14 квазiрефератiв (Табл. 4.1) мають вiдмiнну чи хорошу повноту, свiдчить про те, що в 85% текстiв речення, котрi ми назвали головними, справдi мiстять основну iнформацiю, закладену у вхiдних текстах. Крiм того, одержанi квазiреферати мiстять мало надлишкової iнформацiї, а її наявнiсть викликана в основному помилками, не повязаними з якiстю нашої моделi. Таким чином, включенi в квазiреферат речення мiстять, як правило, основну iнформацiю вхiдного тексту, тобто вiдповiдають визначенню головного речення. 6) Кiлькiсть головних речень, як правило, складає не бiльше 25% всiх речень цього тексту (див. Табл. 4.1): коефiцiент стиску менше 4 одержаний тiльки для дуже коротких текстiв. 7) Припущення про те, що з головних речень може бути складений новий текст, що має власну гiперсинтаксичну структуру, частково спростовується результатами експерименту: 5 квазiрефератiв з 14 (кожний третiй) одержали низьку оцiнку по параметру “звязнiсть”, тобто цi квазiреферати мають вигляд скорiше штучних обєднань речень, якi вiдносяться до однiєї теми, нiж тексту. З iншого боку, основною причиною цього були зовнiшнi для нашої моделi чинники, тому треба вважати одержаний результат попереднiм i таким, що потребує додаткової перевiрки. На закiнчення визначимо, що реферування росiйських та українських текстiв є дещо складнiшим, головним чином, iз-за вiдсутностi в цих мовах такого важливого показника мiжфразового звязку, як визначений артикль, наприклад:

Si-1: В статье анализируются порошки на основе алюминия. Si: Порошки отличаются тем, что...

Для вияву мiжфразового звязку в подiбних випадках необхiдно розробити спецiальну процедуру пошуку антецедентiв слiв, не оформлених маркером визначеностi.

3.10 Перспективи

Як уже вiдзначалося, розробка систем зазначеного типу переслiдувала теоретичнi та практичнi цiлi. Досягненню перших будуть сприяти введення в систему великої кiлькостi текстiв i перевiрка гiпотез про розподiл по тексту iстотної iнформацiї та засобах вияву синтаксичних мiжфразових звязкiв. Крiм того, великий iнтерес представляє опрацювання типологiї науково-технiчних текстiв на основi аналiзу типiв формально вiдбитих синтаксичних мiжфразових звязкiв i їх насиченостi цими звязками. Дуже перспективною здається також побудова класифiкацiї поверхньо-синтаксичних мiжфразових одиниць у залежностi вiд їхньої структури. Щодо практичного напрямку, то другим етапом розвитку системи квазiреферування має бути алгоритмiзация встановлення дистантних мiжфразових звязкiв для конекторiв усiх класiв, що дозволить реалiзувати систему ешелонованого реферування, iдея якої була запропонована В.Ю. Берзоном [Берзон, Брайловский, 1979]. Наступним етапом пiдвищення розпiзнавальної спроможностi системи є формалiзацiя деяких iмплiцитних звязкiв шляхом вияву конекторiв, якi зазнали елипсису. У виглядi ще одного важливого завдання треба розглядати опрацювання програми-диспетчера, що буде визначати тип тексту, що реферується, i вибирати засiб реферування. Актуальнiсть даного завдання визначається тим, що iснують тексти з переважною бiльшiстю iмплiцитних мiжфразових звязкiв, якi не пiддаються реферуванню описаним методом. Такими, наприклад, є описи технологiчних процесiв i устаткування. Практичну цiннiсть для абонента системи представляє автоматичне аспектне реферування [Блюменау та iн., 1981; Полонская, 1989] таких текстiв. Не менш важливим завданням треба вважати використання даної системи в єдиному комплексi засобiв автоматичної обробки наукових текстiв: такий шлях представляється єдиним засобом здобутку високої економiчної ефективностi систем реферування будь-якого типу. Нарештi, пiдкреслимо актуальнiсть реалiзацiї методiв автоматичного реферування на персональних компютерах.

Висновки

Отже, ми розглянули деякі теоретичні та прикладні аспекти компютерної лінгвістики. Можливо, наш підхід дещо відрізняється від прийнятого, особливо, в американській практиці, коли компютерна лінгвістика розглядається в основному як частина математичної лінгвістики в розумінні Н. Хомського, а монографiї, присвячені цій проблематиці, насичені структурними схемами речень і умовними символами.

Філософія, запропонована увазі читача даної книги, заснована на прагматичному, якщо завгодно - технологічному погляді на компютерну лінгвістику. Будучи практиком, я намагаюсь будувати таку теорію, яка допомагала б мені та моїм колегам вирішувати конкретні завдання, що виникають при розробці інформаційних систем. Можливо, недоліком такого погляду на проблематику обробки текстів є деяке ігнорування математичного апарату та ідей формальних граматик. У той же час, одержані нами результати у вигляді функціонуючих інформаційних систем свідчать, очевидно, про те, що даний суто гуманітарний підхід має право на життя. Ще раз підкреслюю, що критерієм якості р