Автоматизація реферування
Курсовой проект - Менеджмент
Другие курсовые по предмету Менеджмент
одним iз ключових процесiв аналiтично-синтетичної переробки текстiв, поки що виконується вручну. У той же час, автоматичне реферування, з нашої точки зору, може бути справдi ефективним тiльки в тому випадку, якщо виконуються такi пять вимог: - система має формувати реферат iз речень вхiдного тексту (можливо, з деякими скороченнями за рахунок порiвняно малоiнформативних сегментiв - цитат, вiдсилок i т.iн.), а не породжувати його на пiдставi смислового аналiзу текстiв. Iншими словами, система повинна повнiстю наслiдувати термiнологiю та стиль автора, не допускаючи багатозначного тлумачення його думок. Таким чином, йдеться про розробку системи, що має перший рiвень “розумiння” тексту, - системи квазiреферування; - реферати, що формуються системою, мають мiстити не тiльки “сигнальну” iнформацiю про документ, але й дозволяти прослiдкувати хiд думок автора, тобто система повинна породжувати саме реферати, а не анотацiї; - мiра скорочення тексту, яка називається звичайно коефiцiентом редукцiї i пiд якою розумiють вiдношення кiлькостi речень у вхiдному текстi до кiлькостi їх у рефератi, має бути достатньо високою (не менше 4-5); - швидкiсть автоматичного реферування повинна бути значно вищою за швидкiсть ручного; - система має легко переналагоджуватися на обробку текстiв рiзних мов. Розглянемо тепер принципи реалiзацiї розробленої пiд керiвництвом автора системи квазiреферування[Берзон,Блехман, Захаров, Певзнер, 1984]. На першому етапi реалiзацiї принцип дiї системи полягає у формуваннi квазiреферата з автосемантичних речень тексту. Програмне забезпечення системи для ЕС ЕОМ включає головну програму й сiм процедур. Головна програма виконує такi функцiї: - читання тексту, що реферується; - розмiщення словникiв в оперативнiй памятi; - аналiз тексту по реченнях: видiлення слiв, пошук в Ск i перевiрку збiгу лексичної одиницi, що аналiзується, з одним iз конекторiв; - у разi збiгу - звернення до процедур, обчислення значення логiчної функцiї по результатах роботи процедур, прийняття рiшення про iстинiсть конектора i визначення типу речення вiдповiдно до типу конектора; - прийняття рiшення про включення чи невключення речення до квазiреферату; - друк квазiреферату на принтерi. По мiрi роботи головної програми формується таблиця речень, що є основним результатом цiєї програми. Рядок таблицi вiдповiдає одному реченню. На час звернення до процедури всi рядки, котрi мають вiдношення до попереднiх за порядком слiдування реченням, цiлком заповненi. Рядок, котрий вiдноситься до речення, пiд час аналiзу якого сталося звертання до процедури, в момент звернення заповнений частково. Рядок таблицi має таку структуру: - номер речення; - кiлькiсть символiв у реченнi; - тип речення; - автосемантичне чи синсемантичне; - номер речення, з яким дане знаходиться в синтаксичному звязку; - номер конектора в Ск. Кожна процедура має доступ до адрес початку тексту, початку речення, аналiзованого слова, початку таблицi речень, початку Ск, початку Св, а також до порядкових номерiв речення, аналiзованого слова в реченнi, першого символу слова вiдносно початку речення, до змiщення початку запису Ск, до значень параметрiв, зазначених в описах Ск. Як бачимо, програмне забезпечення системи не залежить вiд мови тексту, що обробляється. Для реферування текстiв на iншiй мовi достатньо органiзувати словник конекторiв i допомiжний словник на цiй мовi. Система реалiзована на мовi Асемблер пiд управлiнням ДОС i ОС ЕС ЕОМ. Документ надходить до системи у виглядi текстового файлу, в якому допускається видiлення за допомогою спецiальних службових символiв заголовкiв документiв i окремих його пiдроздiлiв, а також елементiв бiблiографiчного опису. Вся видiлена таким чином iнформацiя включається системою у квазiреферат. Результатом роботи системи є друкована копiя квазiреферату, сформованого з автосемантичних речень тексту з вказiвкою їх порядкових номерiв у вхiдному текстi. Якщо при цьому коефiцiент редукцiї вхiдного тексту виявляється менше 4, то у квазiреферат не вводяться iзольованi автосемантичнi речення [Берзон, 1972]: з послiдовностi автосемантичних речень у квазiреферат вводяться тiльки першi. Передбачений також режим, у якому до квазiреферату потрапляють не тiльки автосемантичнi речення, але й вказiвка на тип вилучених синсемантичних. Це дозволить у майбутньому органiзувати дiалог користувача з ЕОМ, запрошуючи у системи субтексти, котрi мають iнтерес для абонента (детальнiше див. [Берзон, Брайловский, 1979]).
3.7 Експерименти
На заключному етапi побудови ВIЛМ мiжфразової структури наукового тексту був проведений експеримент, що полягав в автоматичному реферуваннi 10 англiйських текстiв такої тематики: - металознавство - чотири тексти; - обчислювальна технiка - чотири тексти; - порошкова металургiя - два тексти. Оскiльки система не використовує тезаурусної iнформацiї (це дещо знижує її розпiзнавальну спроможнiсть), можна сказати, що тематика документу, що реферується, для неї не є iстотною. У звязку з тим, що при реферуваннi аналiзуються тiльки формально вираженi звязки мiж реченнями, а “глибиннi” вiдносини не враховуються i концептуальне подання самих речень не береться до уваги, система виявилася досить стiйкою до помилок при пiдготовцi даних: 90% помилок не впливають на якiсть реферування. Тривалiсть реферування тексту, що складається з 70 речень, - 1,5 хвилин роботи центрального процесора ЕОМ ЕС-1022. Середнiй коефiцiент редукцiї - 4. У процесi експерименту квазiреферати, якi вiдносяться до металознавства та порошкової металургiї, були предявленi фахiвцю-металлургу; квазiреферати з обчислювальної техн