С. Я. Надсон На сьогоднішній день існує багато підходів до створення автоматизованих систем машинного перекладу, але ще й досі не була розроблена система, здатна відтворити переклад, який би відповідав усім вимога

Вид материалаДокументы

Содержание


Аспекти реалізації трансформаційного підходу в системах машинного перекладу загальні положення
Організація словника
Інформація до частини словника вхідної (англійської) мови
Інформація до частини словника вихідної (української) мови
Словник зворотів
Шляхи вирішення проблеми омонімії
Аналіз речення
Дитина досліджує навколишній світ
Обробка та переклад прийменників
Синтез структури українського речення
Морфологічне редагування
Підстановка українських слів
Аспекти реалізації трансформаційного підходу в системах машинного перекладу 2
Подобный материал:

ВСТУП



«Нет на свете мук сильнее муки слова»

С.Я. Надсон


На сьогоднішній день існує багато підходів до створення автоматизованих систем машинного перекладу, але ще й досі не була розроблена система, здатна відтворити переклад, який би відповідав усім вимогам та стандартам. Не вирішені такі суттєві проблеми машинного перекладу, як недосконалість аналізу мовної структури, неможливість врахувати усі види мовної омонімії, чітко визначити поняття одиниці перекладу як такої тощо. Наслідок – недосконалість існуючих алгоритмів машинного перекладу.

Мета цієї роботи – проаналізувати трансформаційний підхід до створення системи машинного перекладу, його переваги та недоліки, а також засоби вирішення проблем машинного перекладу, запропоновані у межах цього підходу. Щоб продемонструвати трансформаційний підхід та його універсальність, використовується адаптована кореляція алгоритму англо-російського перекладу для тестового матеріалу українською мовою.




АСПЕКТИ РЕАЛІЗАЦІЇ ТРАНСФОРМАЦІЙНОГО ПІДХОДУ В СИСТЕМАХ МАШИННОГО ПЕРЕКЛАДУ

ЗАГАЛЬНІ ПОЛОЖЕННЯ



Машинний переклад з точки зору трансформаційного підходу вимагає, у першу чергу, “формального розгляду” мови. Таким чином, щоб перекласти речення з одної мови на іншу, необхідно знати, по-перше, перекладні еквіваленти для усіх слів, по-друге, зв’язки, які повинні бути встановлені між словами речення, що перекладається. Ці відомості можуть бути вилучені з аналізу зв’язків у цьому реченні. Таким чином, при здійсненні перекладу машиною, аналіз зв’язків слів може базуватися лише на чисто формальних ознаках.

Можливості формального лінгвистичного аналізу суттєво відрізняються у залежності від структури мови. Таким чином, відмінними мають бути і підходи до проблеми перекладу з мов різних типів. У синтетичних мовах, наприклад українській, велику долю інформації про те, у якій синтаксичній функції та граматичній формі виступає те чи інше слово, несуть словозмінюючі аффікси. У англійській мові дуже мало відмінних граматичних форм внаслідок омонімічності багатьох аффіксів та явищ конверсії, іншими словами, морфологічна інформація англійського речення порівняно спрощена. Основну роль у англійській мові відіграє синтаксична інформація – інформація про порядок з’єднання слів одне з одним. Ця інформація міститься у комбінаціях слів у реченні. Комбінацій слів у кожному реченні можна побудувати багато, і не дуже зрозуміло, які з них слід покласти в основу перекладу. У нашому випадку машинний переклад використовує припущення, що суттєвих, характерних для будови мови комбінацій не так вже і багато і що вони порівняно прості. Такі прості сполучення слів, що розташовані у певному порядку та мають певне морфологічне забарвлення, було названо граматичними конфігураціями. Наприклад, англійська конфігурація: “прикметник + іменник у загальному відмінку”. При цьому роздивляються сполучення не конкретних слів, а представників класів слів.

Отже при трансформаційному підході основна частина роботи полягає в виділенні елементарних конфігурацій у вхідній та вихідній мовах. Для виділення у мові можливих граматичних конфігурацій необхідна класифікація усіх слів мови, яка базується на чисто формальних ознаках. Традиційно класифікацію по частинах мови вважають за незадовільну, так як вона спирається в деяких випадках на значення слів. Тобто, у даному випадку при класифікації слова групуються за ознакою однакового розподілення. Причому розподіленням слова називають сукупність усіх відмінних позицій слова по відношенню до позицій інших слів, тобто сума усіх околів слова. На основі виділених таким чином класів слів формуються елементарні граматичні конфігурації англійської мови і потім кожний з них ставиться у відповідність конфігурація української мови. Переклад зводиться, таким чином, до знаходження у вхідному тексті англійською мовою зафіксованих конфігурацій та підстановці на їх місце відповідних конфігурацій української мови.

Алгоритм, на прикладі якого ми аналізуємо трансформаційний підхід, складається з групи правил, за якими аналізується вхідне та речення, та групи правил, за якими будується вихідне речення. Створюється також спеціальний “машинний словник”.


ОРГАНІЗАЦІЯ СЛОВНИКА



«Никакому словарю не угнаться

за всеми оттенками живой

человеческой речи»

К. Чуковский


Принципова відмінність словника для машинного перекладу у нашому випадку полягає в тому, що в ньому містяться не граматично оформлені слова, а основи слів. При цьому використовується спеціальне поняття основи, що не співпадає з прийнятим у граматиці. Основою називають частину слова, яка залишається графічно незмінною у всіх його формах. Наприклад: validit (основа іменника validity, що маэ у однині закінчення –y, а у множині –ies), suppos (основа дієслова suppose, що має закінчення –es, –ed, –ing).

Для більшості англійськіх іменників та прикметників основа співпадає з основною їх формою – для іменників: однина загального відмінку; для прикметників: позитивний ступінь порівняння. Для дієслова (в випадку так званих неправильних дієслів, що утворюють граматичні форми за допомогою чергування або суплетивності) графічна незмінна основа зводиться інколи до однієї-двох літер, наприклад: see – saw, а інколи таку основу взагалі неможливо виділити, наприклад: go – went. Таким дієсловам у словнику дано по декілька варіантів основ, наприклад: draw та drew; bear, bore та born; go та went; do та did. По декілька основ дається також іменникам та прикметникам у випадку утворення форм числа та ступенів порівняння за допомогою чергування та суплетивності.

Деякі форми ряду слів, які роздивляються як особливі, що не підкоряються загальним правилам формоутворення, було введено у словник, як самостійні лексеми, кожне з своєю граматичною інформацією. Наприклад, форми дієслова be: am, is, are, was, were; чи однина та множина іменника criterion – criteria. У словник включені також розділові знаки. Основи розташовані у словнику у звичайному алфавітному порядку з тією лише особливістю, що коротка основа стоїть позаду усіх більш довгих, у яких вона міститься повністю. Наприклад, основа algebraic передує основі algebra, application передує основі appl–.

Для кожної основи англійською мовою у словнику міститься її перекладний еквівалент разом із додатковою спеціальною інформацією. Більшість основ має єдиний перекладний еквівалент, на відміну від звичайних словників, де усі слова багатозначні. Це виявилося можливим, тому що словник у даному конкретному прикладі розрахований на спеціалізовану мову технічних текстів, у яких багатозначність слів обмежена. С тими ж багатозначними словами, які зустрічаються також і в технічних текстах, вчиняють у такий спосіб: 1) декілька близьких значень підводять під одне загальне, наприклад appear – “виявлятися, здаватися”, отримало один переклад – “виявлятися”; 2) значення, що дуже розбігаються, отримали окремі переклади, наприклад: combination – “поєднання, комбінація”, або approach – “підхід, прямувати”. Тут розрізняють два випадки: 1) декілька перекладів англійського слова належить одній і тій самій частині мови; 2) різні переклади англійського слова належать різним частинам мови. У першому випадку ми маємо справу з полісемією, або лексичною омонімією. Вибір потрібного перекладу формально не визначений, він залежить від вмісту фрази. У алгоритмі МП, на прикладі якого ми розглядаємо трансформаційний підхід, аналіз змістових зв’язків не використовується, тобто у випадках лексичної омонімії машина буде видавати усі переклади даного слова. У другому випадку ми маємо справу з лексико-граматичною омонімією, усунення якої передбачено у даному алгоритмі. На основі формальних ознак по контексту з’ясовується, який з перекладів підходить у кожному конкретному випадку (див. “Шляхи вирішення проблем омонімії”).

З точки зору технічної реалізації словник розділено на дві самостійні частини: вхідної мови з відповідними основами та інформацією, що їх стосується, та вихідної мови з такою ж самою інформацією. Слова вихідної мови пронумеровані. До складу інформації слова вхідної мови входить номер слова вихідної мови, що його перекладає. Якщо слово вхідної мови має декілька слів, які його перекладають, то вони стоять під одним номером перекладу. Якщо кілька слів вхідної мови мають один і той самий переклад, то їм надається один і той самий номер перекладу.

Інформація до частини словника вхідної (англійської) мови



Отже, кожна основа має у словнику окрім номера основи вихідної мови, що її перекладає, спеціальну граматичну інформацію. Ця інформація являє собою набір граматичних характеристик слова, на базі яких можливий формально-граматичний аналіз речення.

Відповідно, граматична інформація поділяється на синтаксичну та морфологічну. Синтаксична це: вказівка про належність слова до певної частини мови чи класу слів. При цьому використовується класифікація слів, яка дещо відрізняється від традиційно-граматичної. Традиційне розбиття слів на частини мови вважається незадовільним для цілей машинного перекладу, так як у деяких випадках воно спирається на значення слова, а не на чисто формальні ознаки. Наприклад, у такі частини мови як займенникі та прислівники, об’єднуються в формально різнорідні групи слів. Тому обирається інша класифікація – слова розбиваються на класи за ознакою однакового оточення. Два слова входять до одного класу, якщо, які б позиції у реченні не займало одне з них, інше може займати ті самі позиції. Не зважаючи на те, що прислівники вважаються окремими класами слів, вони, як правило повністю не подаються у словнику. Там записана лише основа дієслова, якщо у тексті була знайдена ця основа і при ній закінчення –ing чи –ed, то ця форма вважається прийменником і їй приписується відповідний індекс. Ця кваліфікація була частково запозичена у Ч. Фрайса. Згідно цієї класифікації у англійській мові розрізняють біля 45-ти класів слів, таких як, наприклад:

Назва класу слів

Умовне позначення

іменник

1

перехідне дієслово у особовій формі

2+

неперехідне дієслово у особовій формі

2-

прикметник

3



Таким чином синтаксична інформація, що міститься у словнику при кожному англійському слові, точніше основі, виражається індексом, що вказує про належність її до одного з класів слів. Морфологічна інформація різних класів відмінна.

Інформація до частини словника вихідної (української) мови



Ця частина словника, так само як і англійська, складається не з оформлених слів, а з основ. Основи розташовані, більшою частиною, у алфавітному порядку, але це не обов’язкова вимога: потрібна основа виймається із словника згідно відомого з англійської частини номера перекладу. Кожне слово представлено однією, чи декількома основами (декількома, якщо у різних формах слова його основа має деякі графічні зміни). Розрізняють декілька типів іменників та прикметників, в залежності в кількості основ, та їх комбінацій у граматичних формах. Особові займенникі записані не в вигляді основ, а повністю, та розміщені у спеціальній таблиці.

В українській мові за класифікацією виділяються класи слів, такі як, наприклад:

Назва класу слів

Умовне позначення

Іменник

1

Перехідне дієслово у особовій формі

2+

Неперехідне дієслово у особовій формі

2-

Прикметник у повній формі

3



Словник зворотів



Словосполучення, що не допускають перекладу “слово у слово”, було названо звороти та включено до спеціального словнику, що існує окремо від загального словника основ.

До оборотів відносяться ідіоматичні вирази, (наприклад, once and for all, for good тощо), складні сполучники (наприклад, in order to), складні прийменникі (наприклад, acording to), сполучення дієслова з прийменникоподібним прислівником (наприклад, carry away, look through), та цілий ряд інших сполучень, переклад яких не може бути складений з простої суми тих поданих у загальному словнику перекладів слів, що входять до їх складу (наприклад, as a whole – “у цілому”, а не “як цілий”).

У кожному із зворотів виділяється основне слово; як правило, це основне значуще слово, але не завжди: в якості основного зручно брати те слово звороту, яке зустрічається у текстах рідше за інші, або майже не зустрічається поза зворотом (наприклад, у звороті apart from основним вважається слово apart, оскільки воно вживається набагато рідше ніж слово from). Усі слова, що можуть входити до зворотів також включені в загальний словник основ. У ньому вони записані як самостійні слова, але на відміну від слів, що не входять до складу жодного обороту, мають особливу помітку (так званий номер особливості). Окрім цього основні слова оборотів мають додаткову вказівку про зворот. За вказівками, що містяться при словах у загальному словнику звороти розпізнаються у тексті та отримують відповідні переклади за словником зворотів.

Розрізняють два типи зворотів: цілісні та нецілісні. Зворот є цілим, якщо слова, що його складають, обов’язково стоять поруч один з одним, та не можуть бути розділені іншими словами (наприклад, look forward to, make use of, in particular тощо). Зворот є нецілісним, якщо між словами, що його складають можуть вставлятися інші слова (наприклад, for the (greatest) part; pay (one’s) attention to тощо). Слова, що можуть бути вставлені у зворот, перераховані для кожного звороту у граматичній інформації до нього.




ШЛЯХИ ВИРІШЕННЯ ПРОБЛЕМИ ОМОНІМІЇ



Суттєвою проблемою при виконанні машинного перекладу є багатозначність та явище омонімії, тобто формального збігу деяких слів, що реально належать до різних граматичних класів. Наприклад, дієслово у третій особі однини теперішнього часу та іменник загального відмінку у однині – (I) work та (a) work (з точки зору лінгвістики, це так звана лексико-граматична омонімія. Багатозначні слова – це ті, що можуть мати декілька перекладів (тобто, значень). При чому мають місце два різних явища: полісемія – одне слово має декілька значень, наприклад, голка (швейна) та голка (на ялинці), та лексична омонімія – формально співпадає декілька різних слів, що належать до однієї і тієї-ж самої частини мови, наприклад, лист (на дереві) та лист (поштовий).

Омонімія надзвичайно ускладнює машинний переклад: для перекладу речень з однієї мови на іншу про кожне слово необхідно знати, до якогу класу слів воно відноситься і яке слово мови, на яку перекладають, йому відповідає. Тому при машинному перекладі необхідно розробити засоби знищення багатозначності та омонімії, оскільки наявність омонімів перешкоджає аналізу та перекладу усього виразу. Що стосується багатозначних слів, то вибір значення для кожного з них, як правило, дуже впливає на переклад інших слів та набагато більше, ніж вибір омонімів визначаеться значенням виразу. Тому у наведеному алгоритмі розрізняють всі омоніми, що зустрічаються, та не встановлюють конкретні значення багатозначних слів. Усі переклади багатозначного слова видаються в опрацьованій формі та кінцеве вирішення питання про вибір відповідного значення надається користувачу.

АНАЛІЗ РЕЧЕННЯ



Після того, як всі випадки омонімії розібрані і кожне слово речення, що перекладається, однозначно віднесене до якого-небудь класу, згідно алгоритму проводиться аналіз речення. Він полягає у визначенні граматичних зв’язків, що існують між словами речення. Якщо ми знаємо, як пов’язані міх собою слова у вихідній фразі, то ми можемо встановити відповідні зв’язки між словами виразу мови перекладу, тобто розставити іх потрібним чином та надати їм відповідні граматичні форми. При цьому, оскільки у англійській мові існує дуже невелика кількість формальніх показників синтаксичної зв’язяності, морфологічний аналіз цілого речення надає мало граматичної інформації. Реалізація вищезазначеного алгоритму використовує аналіз за елементарними граматичними сполученнями слів, що складають речення, тобто аналіз, побудований переважно на синтаксичних даних.

Елементарним граматичним сполученням або граматичною конфігурацією називають сполучення слів, яке характеризується визначеним порядком слів та їх певним морфологічним оформленням. При цьому маються на увазі не сполучення лексем, чи конкретних слів, як таких, а сполучення, побудоване з представників класів слів. Наприклад, англійська конфігурація “прикметник + іменник у будь-якій формі та у будь-якому відмінку”; українська конфігурація “прикметник + іменник узгоджені за родом, числом та відмінком”. Конфігурації виділяються найпростіші, тобто переважно двохчленні чи трьохчленні, якщо в них присутні службові слова. Якщо два елементи англійського речення не дають можливості встановити відповідність з українською мовою, то в елементарну граматичну конфігурацію об’єднується більша кількість слів. Щоб уникнути багатозначності, до переліку елементарних конфігурацій було включено лише такі багатозначні конфігурації, для яких існує яке-небудь правило розрізнення їх відповідностей вихідною мовою.

Виділення конфігурації у реченні, що перекладається, проводиться шляхом почергового порівнення формул (формула -умовне зображення граматичних конфігурацій за допомогою прийнятих індексів) з послідовністю класів слів, що відтворює речення. (До моменту проведення аналізу слова речення замінені їх індексами, і замість речення ми аналізуємо його схему). Якщо де-яка група індексів у будь-якому місці схеми речення збігається з будь-якою формулою з переліку, то конфігурація вважається визначеною. Визначена конфігурація замінюється у схемі речення її головним елементом. Наприклад, якщо визначена конфігурація “прикметник + іменник”, то її замінюють іменником. Усі зафіксовані конфігурації у списку формул умовно прирівнені до її основних, граматично домінуючих членів. Це робиться з використанням припущення, що усе сполучення відіграє в реченні ту саму роль, що і його основне слово.

Формули англійських граматичних конфігурацій розташовані у певному порядку, дотримуватись якого суворо обов’язково при аналізі речення, що перекладається за цими конфігураціями. Можливість розташування формул у певному порядку, так само як і можливість їх послідоної згортки, базується на існуванні різних рангів синтаксичного зв’язку у реченні. Наприклад, зв’язком наймолодшого рангу є атрибутивний зв’язок. Це найбільш тісний зв’язок,оскільки він об’єднує слова (наприклад, прикметник та іменник) у такі комплекси, які потім можуть виступати як цілі одиниці та поєднуватися з іншими словами комплетивним зв’язком.


Наприклад:

Дитина досліджує навколишній світ

1

2+

3

1




1

1

2-


Слова “навколишній” та “світ”, з’єднані атрибутивним зв’язком, утворюють субстантивний комплекс “навколишній світ”, який приєднується до дійслова так само, як і окремий іменник (наприклад, “досліджує світ”) за допомогою комплетивного зв’язку. За допомогою комплетивного зв’язку також утворюються нові комплекси, які можуть в свою чергу об’єднуватись за допомогою предикативного зв’язку (“досліджує” об’єднується з “навколішній світ” та утворює цілу дієслівну одиницю “досліджує навколишній світ”, яка зв’язується з словом “дитина” предикативним зв’язком). Всередині кожного з трьох перелічених видів зв’язку існують більш дрібні підрозділи. Внаслідок всі сполучення слів можна впорядкувати певним чином, в залежності від того, який тип зв’язку існує між словами, що до них входять. Отже, перелік формул має на меті відобразити ієрархію синтаксичних зв’язків, можливу у мові.

Таким чином переклад полягає у виділенні у реченні вхідною (англійською) мовою конфігурацій та заміни їх відповідними конфігураціями вихідної (української) мови.




ОБРОБКА ТА ПЕРЕКЛАД ПРИЙМЕННИКІВ



Як у англійській, так і в українській мові усі прийменники багатозначні, але при перекладі текстів спеціальної наукової літератури можна вважати де-які з них однозначними, визначивши їх основне, найбільш вживане значення як єдине. Базуючись на цьому припущенні англійські прийменники розбивають на дві групи: 1) однозначні прийменники; 2) багатозначні прийменники. Кожен однозначний прийменник має у словнику єдиний можливий переклад та вказівку про те, якого відмінку цей український переклад прийменника вимагає після себе. Наприклад, прийменник “along – вздовж” вимагає родового відмінку. Багатозначні прийменники (наприклад, about, at, from, in, into тощо) перекладаються за спеціальними правилами. Конкретне значення багатозначного прийменника визначається тим словом, від якого він залежить, тому правила перекладу багатозначних прийменників являють собою таблиці, у кожній з яких дається перелік англійських прийменників, керованих яким-небудь одним словом, і кожному прийменнику приписується один переклад в залежності від цього керуючого слова. При цьому, так само як і для однозначних прийменників, вказується, якого відмінку вимагає перекладений українською мовою прийменник. Окрім того відрізняються випадки розташування прийменника справа та зліва від керуючого слова, якщо керуючим словом є іменник, а не дієслово.

Усі слова, що містяться в словнику, поділяються на групи в залежності від того, якими прийменниками вони керують і яких перекладів цих прийменників вимагають. Слова однієї групи отримують один і той самий “прийменниковий код”, тобто вказівку на ту з таблиць перекладу прийменників, у якій розміщені прийменники, керовані даним словом, і у якій їм надано саме ті переклади, які вимагаються у сполученні їх з даними словами. У відповідності з розташуванням прийменника справа та зліва від даного слова розрізняються “праві” та “ліві” прийменникові коди. Наприклад, іменник contradiction має правий прийменниковий код, так як прийменник with після цього іменника може мати переклад “з”+ орудний відмінок, відмінний від його перекладів при сполученні з іншими словами. Іменник assumption має лівий прийменниковий код, так як прийменник by перед цим іменником може мати переклад “згідно” + родовий відмінок, відмінний від перекладів цього прийменника при сполученні з іншими словами. Алгоритм передбачає попереднє (під час проведення аналізу англійського речення) виділення прийменникових сполучень. Формули, що застосовуються при аналізі речення, у яких беруть участь прийменники , “запам’ятовуються”. Формула з прийменником вказує, яке слово є керуючим, а також якому слову слід приписати відмінок, що вимагається даним прийменником. У залежності від конкретного виду формули, багатозначний прийменник, що входить до її складу, розбирається та перекладається за відповідною таблицею.


СИНТЕЗ СТРУКТУРИ УКРАЇНСЬКОГО РЕЧЕННЯ



Синтез структури речення вихідною (українською) мовою, як вже зазначалося, полягає у підстановці на місце кожної згорнутої англійської конфігурації відповідної української конфігурації.

Формули мають такий самий вигляд, як і англійські, тобто вони представляють собою послідовності класів слів, розташованих у певному порядку та з певним визначеним морфологічним оформленням. Відмінність полягає лише в тому, що конфігурація вихідної (української) мови не записується у правій частині рівності, а її основна компонента, до якої вона може бути прирівнена, – у лівій (у англійських формулах навпаки, оскільки вони призначені для аналізу-згортки, а українські для синтезу-розгортки). У англійських формулах морфологічне оформлення практично відсутнє, так як у англійській мові взагалі мало граматичних форм і особливо мало таких, які є характерними для тієї чи іншої граматичної конфігурації.

У процессі синтезу здійснюється послідовне перенесення граматичної інформації. При цьому переноситься не тільки конкретна граматична інформація, але і вказівки про узгодження тощо. При синтезі можуть зустрітися випадки протиріччя граматичної інформації, яка поступає з формул, та інформації, отриманої з різного роду узгоджень. У подібних випадках перевага надається інформації, що міститься у формулах. Вона враховується, а інформація, основана на вказівках про узгодження, відкидається.

Як вже зазначалося, синтез структури українського речення полягає у трансформації згорнутих при аналізі англійських конфігурацій у відповідні українські конфігурації (“відпвідна конфігурація” означає – “конфігурація, що має такий самий порядковий номер у списку, що і дана англійська конфігурація”). Номери усіх англійських формул, що застосовувались у процесі аналізу зафіксовані, так само зафіксовані порядкові номери тих елементів речення, до яких ці формули застосовувались. У даному випадку, оскільки вихідна мова українська, то її формули можуть містити багату морфологічну інформацію, у тому числі інформацію про граматичні узгодження, яка переноситься від формули до формули. В результаті синтезу отримується схема побудови українського речення, у якій зазначено порядок слів та їх граматичні форми, або безпосередньо, або у вигляді узгоджень одного слова з іншим.

У випадку неоднозначної відповідності між українською та англійською конфігурацією, тобто одній англійській формулі відповідає декілька українських, додатково проводиться вибір однієї з них, що єдиним чином підходить у кожному конкретному випадку. При цьому іноді робиться не просто вибір однієї з декількох формул, але і запис додаткової інформації та перестановка слів.

Таким чином, у загальному вигляді задача синтезу полягає у підстановці на зазначені місця у реченні формул із вказаними номерами.


МОРФОЛОГІЧНЕ РЕДАГУВАННЯ



Після того, як в результаті синтезу отримують схему структури українського речення, що вказує порядок слів в ньому та граматичні форми слів, проводиться зміна та уточнення деяких з цих граматичних форм, а також зміна перекладу деяких слів. Так, наприклад, змінюється час дієслова в умовних реченнях: у англійській мові у складнопідрядних умовних реченнях дієслово вживається у майбутньому часу дійсного способу, або в умовному способі лише у головному реченні. В той час, як в українській мові ці форми вживаються як в головному, так і в підрядному реченні; тому отримана з аналізу англійських форм вказівка про час має бути змінена в українському перекладі. Додається вторинне заперечення, що відсутнє у англійській фразі. Обирається такий переклад багатозначних прийменників, який вимагається контекстом. Сукупність правил такого роду і являє собою морфологичне редагування.


ПІДСТАНОВКА УКРАЇНСЬКИХ СЛІВ



Після застосування правил морфологічного редагування вся інформація про будову українського речення, що перекладає дане англійське, зібрано. Залишається підставити у отриману схему речення українські слова у потрібних формах. За номером перекладу, що відповідає кожному англійському слову, в українській частині словника відшукується українська основа. Ця основа, або кілька основ, якщо вони розміщені під одним номером перекладу, беруться із словника разом з усією своєю інформацією.

Відповідно до особливих синтезуючих правил, спираючись на знайдені українські основи, граматичну інформацію до них, та таблиці українських закінчень, збираються необхідні форми українських слів, які потім розставляються у порядку, вказаному схемою структури речення.


ВИСНОВКИ



Згідно трансформаційного підходу до створення системи машинного перекладу, який було розглянуто у цій роботі, переклад полягає у знаходженні у тексті вхідною мовою зафіксованих конфігурацій та підстановці на їх місце відповідних конфігурацій вихідної мови. Алгоритм, на прикладі якого було проаналізовано трансформаційний підхід, складається з групи правил, за якими аналізується речення, яке перекладають, та групи правил, за якими синтезується вихідне речення.

Система машинного перекладу, побудована на алгоритмі, що використовує трансформаційний підхід здатна ефективно перекладати спеціалізовані технічні тексти, проте вона не враховує всі види мовної омонімії та не реалізує досконалий аналіз структури мови.


ЛІТЕРАТУРА




  • Т. Н. Молошная, Алгоритм перевода с английского языка на русский. Проблемы кибернетики, вып.3, 1960
  • О.С. Кулагина, О машинном переводе с французского языка на русский, I. Проблемы кибернетики, вып.3, 1960



ЗМІСТ

ВСТУП 1

АСПЕКТИ РЕАЛІЗАЦІЇ ТРАНСФОРМАЦІЙНОГО ПІДХОДУ В СИСТЕМАХ МАШИННОГО ПЕРЕКЛАДУ 2

ЗАГАЛЬНІ ПОЛОЖЕННЯ 2

ОРГАНІЗАЦІЯ СЛОВНИКА 4

Інформація до частини словника вхідної (англійської) мови 6

Інформація до частини словника вихідної (української) мови 7

Словник зворотів 8

ШЛЯХИ ВИРІШЕННЯ ПРОБЛЕМИ ОМОНІМІЇ 9

АНАЛІЗ РЕЧЕННЯ 10

ОБРОБКА ТА ПЕРЕКЛАД ПРИЙМЕННИКІВ 13

СИНТЕЗ СТРУКТУРИ УКРАЇНСЬКОГО РЕЧЕННЯ 15

МОРФОЛОГІЧНЕ РЕДАГУВАННЯ 17

ПІДСТАНОВКА УКРАЇНСЬКИХ СЛІВ 18

ВИСНОВКИ 19

ЛІТЕРАТУРА 20