Автоматизація реферування

Курсовой проект - Менеджмент

Другие курсовые по предмету Менеджмент

ожливість одержати пільги та звільнення від податку на додану вартість на папір, картон та інші поліграфічні матеріали вітчизняного виробництва, а також на послуги підприємств поліграфії, звязку та транспорту.

Підготовка, видання та розповсюдження реферативних журналів ведеться на безприбуткових засадах. Саме фінансування робіт з підготовки та видання реферативної інформації повинне здійснюватись із держбюджету за державним замовленням та за рахунок коштів від розповсюдження реферативних видань.

 

3. Автоматичне реферування

 

Одним з класичних завдань компютерної лiнгвiстики є побудова систем автоматичного реферування наукових, технiчних, полiтичних, дiлових текстiв. Актуальнiсть цього завдання значно зростає у звязку з появою на iнформацiйному ринку повнотекстових баз даних. Цi бази мiстять у виглядi документiв не реферати, а тексти наукових статей. У свiтлi сказаного в Главi 2 стає очевидною необхiднiсть вияву в кожному з таких текстiв найбiльш iнформативних речень, iнакше якiсть пошуку буде невисокою. Якщо ж iдеться про iншомовнi бази, то треба, очевидно, прагнути до побудови систем, якi iнтегрують 3 основнi функцiї: пошук, переклад i реферування. Розробка системи автоматичного реферування є можливою на основi експериментально-семантичного дослiдження мiжфразової структури тексту, з наступною реалiзацiєю IС, що володiють спроможнiстю гiперсинтаксичного “розумiння” текстiв.

 

3.1 Теоретичнi аспекти мiжфразового аналiзу

 

Одне з найважливiших лiнгвiстичних явищ - рiзне значення мовних одиниць в iзольованому станi та в бiльш складному мовному цiлому. Ще А.А.Потебня вiдзначав, що значення будь-якої граматичної форми проявляється по звязку з iншими формами в мовi та текстi [Потебня, 1958]. Звiдси можна зробити висновок, що принципову важливiсть має аналiз граматичних i семантичних явищ у контекстi, тобто моделювання їх поводження у текстi. При цьому очевидно, що контекст, взагалi кажучи, може вийти за рамки речення, так що внутрiшньофразовий опис вiдповiдних одиниць буде заздалегiдь помилковим. Мiжфразовi звязки реалiзуються в текстi двома засобами: експлiцитно та iмплiцитно. При розробцi систем автоматичної переробки тексту необхiдно враховувати цi розбiжностi у вiдносинах мiж реченнями; зрозумiло, що для їхнього моделювання необхiднi рiзнi апарати. З iншого боку, не треба розглядати вивчення цих звязкiв як принципово рiзнi завдання: для вияву в текстi iмплiцитних мiжфразових вiдносин необхiдно спочатку навчитися виявляти експлiцитнi вiдносини. Очевидно, що автоматизована система, що враховує при переробцi тексту тiльки експлицитнi вiдношення мiж реченнями, неминучо минає деякi мiжфразовi вiдносини лише тому, що вони не мають формального вираження. Велика кiлькiсть промислових iнформацiйних систем (наприклад, системи iндексування, перекладу), використовуючи тiльки “поверхнi” мовнi явища, як ми бачили, тим не менше, є досить ефективними. В данiй главi описуються теоретична база та реалiзованi на її основi автоматизованi системи, що аналiзують тексти на мiжфразовому рiвнi. Створення таких систем переслiдувало двi цiлi: практичну та теоретичну. Перша полягає в автоматизацiї процесу реферування текстiв у промислових iнформацiйних системах, друга - у перевiрцi правильностi лiнгвiстичних гiпотез про структуру тексту й розподiл iнформацiї в ньому.

 

3.2 Мiжфразовi звязки

 

Для того щоб вивчити характеристики тексту як єдиного цiлого, необхiдно, в першу чергу, визначити поняття звязностi. На перший погляд, природно розглядати речення як смисловi одиницi i виявляти в текстi їх смисловi звязки. У виглядi прикладу такого пiдходу можна навести теорiю семантичної еквiвалентностi Е. Агриколи [Agricola, 1977], який вважає, що основною формою обєднання речень є семантична еквiвалентнiсть - явнi чи неявнi смисловi вiдносини рiзноманiтного типу мiж словами, якi входять у речення. Рiзновидом такого пiдходу є всiлякi модифiкацiї (явного) лексично-семантичного повтору, прибiчники якого дотримуються погляду, що смисловий звязок речень у текстi проявляється в смисловiй близькостi слiв, котрi входять до їх складу, вважаючи, очевидно, що смислова близькiсть слiв гарантує або принаймнi прогнозує смислову близькiсть речень.

Роботи цього напрямку походять вiд вiдомого дослiдження О.В.Падучевої [Падучева, 1965], яка, вивчивши обєктивнi характеристики тексту, ввела поняття прямої та непрямої домiнацiї, пiзнiше iнтерпретованi як лексичний i семантичний повтор [Рылова, 1969; Бэлза, 1971; Гиндин, 1971; Бондаренко, 1975]. Розумiючи, що явища прямої i непрямої домiнацiї становлять одну з характерних особливостей тексту, цi дослiдники пiшли, на наш погляд, “шляхом найменшого опору”, вважаючи саме повтор механiзмом звязностi. Це, в свою чергу, дозволяло поставити питання про достатнiсть використання семантичних словникiв [Гиндин, 1972] для вияву звязкiв мiж реченнями тексту, правда, без наступної iнженерно-лiнгвiстичної перевiрки цiєї гiпотези. Iнакше кажучи, при такому пiдходi практично вiдпадає необхiднiсть утворення особливої граматики мiжфразового рiвня мови, тому що вся iнформацiя, необхiдна для опису мiжфразових вiдносин, може бути апрiорно зафiксована в словнику. Проте, незвжаючи на спокусливу простоту, при бiльш глибокому розглядi цей пiдхiд починає викликати заперечення. З одного боку, методологiчно невиправданим було б розглядати текст як свого роду гербарiй, елементи якого можуть бути сгрупованi за ознакою спорiдненостi. В текстi речення не повторюють, а доповнюють одне одне (див. нижче), а ступiнь їх “смислової близькостi” та “д