Автоматизація реферування
Курсовой проект - Менеджмент
Другие курсовые по предмету Менеджмент
?у поверхньо-синтаксичного мiжфразового звязку. Можна припустити, що в будь-якiй мовi кiлькiсть конекторiв, як i кiлькiсть маркерiв внутрiшньофразового синтаксичного звязку, є iстотно меншою, нiж загальний лексичний фонд, тому конектори можна задати списком. Проте завдання значно ускладнюється тим, що наявнiсть у реченнi лексичної одиницi, формально спiвпадаючої з конектором, не гарантує синсемантичностi даного речення. Причина тут у тому, що потенцiйний конектор використовується не для звязку речень, а в якiйсь iншiй функцiї, тобто є псевдоконектором. Треба розрiзняти двi ситуацiї такого роду: а) Антецедент лексичної одиницi, спiвпадаючої з конектором, знаходиться в тому ж реченнi, тобто зона дiї конектора розповсюджується тiльки на те речення Si, в яке входить конектор. Наведемо приклади:
(5) Si: At this stage, the product is a powder, and the hydroxides are then filtered to produce mixed oxygen.
(6) Si: В случае непрямой диалоговой связи человек -машина пользователь обращается к программам обнаружения максимально совпадающих цепочек только при отсутствии термина в банке, однако использование этого принципа оправдывается лишь в некоторых областях. В прикладах (5, 6) слова and, then, “однако” та “этого” поєднують простi речення в межах складних i тому є псевдоконекторами.
б) Лексична одиниця є омонимiчною конектору. Тут можна провести аналогiю з ситуацiєю, коли ланцюжок лiтер у кiнцi слова омонiмичний закiнченню, наприклад, “бра”, “кофе”.
Приклади:
(7) Si: It is rather difficult to increase that rate significantly.
У прикладi (7) слово it є омонимiчним конектору. Пор.:
(8) Si-1: A properly working control system will deliver 457 milliliters per minute to reach the target pH. Si: As long as it delivers between 433 and 483 milliliters per minute ...
У прикладi (8) конектор it є маркером синтаксичного звязку речень Si и Si-1.
(9) Si: Связь не могла быть интерпретирована, так как в таблице отсутствовало сочетание РП23 с РПО141.
У прикладi (9) слово “так” є омонимiчним конектору. Пор.:
(10) Si-1: Элементы текста могут нести разную информацию при переводе. Si: Так, из сказуемого можно извлечь информацию о сопутствующих именных группах.
У прикладi (10) конектор “так” маркує синтаксичний звязок речень Si i Si-1. До ситуацiй другого типу вiдноситься вживання такого частотного маркеру категорiї визначеностi, як визначений артикль, для оформлення узагальненого чи єдиного обєкту, а не для звязку речень через спiввiдношення обєктiв [Блехман, 1985]:
(11) Si: The nucleus consists of protons and electrons.
У прикладi (11) артикль оформлює узагальнений обєкт nucleus и тому не є конектором. Пор.:
12) Si-k : The detector consists of an orifice for measuring pressure ... Si: The pressure is proportional to the...
У реченнi Si прикладу (12) визначений артикль оформляє видiлений з класу обєкт pressure, антецедент якого знаходиться в реченнi Si-k, тому даний артикль маркує синтаксичний звязок Si i Si-k. Процес розрiзнення конекторiв i псевдоконекторiв у кожнiй конкретнiй ситуацiї є обовязковою умовою формалiзацiї поверхньо-синтаксичних звязкiв i розробки систем реферування. Для рiшення цього завдання була вжита спроба представити даний процес у виглядi невеликої кiлькостi стандартних операцiй. Перелiчимо цi операцiї. а) Визначення порядкового номеру потенцiйного конектора в реченнi та порiвняння його з деякою пороговою величиною. Ця операцiя використовується тому, що в мовi спостерiгається тенденцiя вживати конектори на початку речення або в позицiях, ненабагато вiддалених вiд першої. Так, дуже малою є ймовiрнiсть вживання конектора hence (“отже”) в позицiї, номер якої перевищує 7. У роботi [Берзон, 1972] наведенi пороговi позицiйнi характеристики росiйських конекторiв. Проте треба пiдкреслити, що позицiйний критерiй не може бути використаний на практицi в якостi єдиного критерiю вiдмiнностi конекторiв вiд псевдоконекторiв. Дiйсно, в реченнi
(13) Si: The usual method for such investigations is to hypothesize a particular mode of decay
артикль the знаходиться в першiй позицiї, але не є конекто-ром, тому що не оформлює обєкт, що видiляється з класу “usual method for such investigations”. З цiєї причини виникає необхiднiсть використовувати також iншi операцiї аналiзу тексту, а саме: б) Пошук в оточеннi потенцiйного конектора дiагностичних лексичних одиниць. Ця операцiя є аналогiчною зняттю лексичної багатозначностi в системах машинного перекладу. Так, омонiмiя займенника such конектору може дiагностуватися наявнiстю на обмеженiй вiдстанi справа вiд нього слова as; займенника the same - слiв as або that тощо. Пор.:
(14) Si: The results were the same as in the previous experiments.
У прикладi (14) the same є псевдоконектором.
(15) Si-1: Reverse gel precipitation is a chemical process in which hydroxides of the required metals are precipitated by adding an alkali to an aqueous solution of the metal. Si: The same techique was employed to obtain...
У прикладi (15) the same є конектором.
в) Вияв у текстах конекторiв, котрi використовуються для формування одного з найбiльш розповсюджених рiзновидiв синтаксичного мiжфразового звязку - А-звязку [Блехман, 1985], - визначеного артикля i вказiвних займенникiв. Складнiсть цiєї операцiї викликана необхiднiстю виходу за межi речення, що мiстить потенцiйний конектор. Справдi, без притягнення екстралiнгвiстичної iнформацiї неможливо на внутрiшньофразовому рiвнi визначити, чи є конектором артикль у реченнi:
(16) The hydroxides are filtered to produce mixed oxides.
Iнакше кажучи, неясно, чи автор має на увазi деякi конкретнi гiдроксиди чи будь-якi гiдроксиди, тобто обєкт є узагальненим - таким, що не видiляється з класу подiбних. З iншого боку, вихiд за межi цього речення дозволяє вiдповiсти на поставлене питання, не притягуючи, користуючись введеною в Главi 1 термiнологiєю, другий рiвень розумiння:
(17) Si-1: The result is hydroxides in the form of a fine slurry. Si: The hydroxides are filtered to produce mixed oxides.
У реченнi Si прикладу (17) визначений артикль є конектором, тому що оформлений їм обєкт hydroxides в?/p>