Машинный перевод

Вид материала

Содержание

На втором этапе
На третьем этапе
На втором этапе
На третьем этапе

Подобный материал:

Лекция №8 Машинный перевод

Машинный перевод (МП) текстов с одних ЕЯ на другие — одна из наиболее ранних задач невычислительных приложений ЭВМ и ИИ.

Отметим два аспекта, определяющих актуальность задач МП и не снижающееся внимание к ним со стороны ученых и разработчиков ИАС:

все возрастающая потребность в переводах в науке, литературе, дипломатии, экономике и других областях деятельности, обусловливаемая повышением открытости границ, интернационализацией науки и экономики, взаимопроникновением культур и т.д.;
для МП гораздо яснее критерии оценивания результатов, чем в задачах понимания текстов, организации диалога и др.

Создание систем МП требует совместной работы специалистов разного профиля: в первую очередь, лингвистов, математиков и программистов.

Системы МП различают по трем аспектам:

рабочим языкам;
типам текста;
ограничениям по ПрО.

По количеству поддерживаемых рабочих языков различают двуязычные и многоязычные системы МП.

Язык исходного текста называется входным, а язык перевода (формируемого текста) — выходным.

На рис. 1, а условно представлены две системы МП, обеспечивающие перевод с языка 1 на язык 2 и с языка 2 на язык 1. На рис. 1, б условно изображены два класса систем МП. Системы первого класса переводят текст с языка 1 на языки 2.1, 2.2, ..., 2.k, а системы второго класса переводят текст с языков 2.1, 2.2, ..., 2.к на язык 1.

Рис. 1. Системы МП: а — двуязычные; б — многоязычные

В современных многоязычных системах МП поддерживаемые языки могут быть и входными, и выходными. Направление перевода определяет роли языков (входной, выходной).

По типу текста выделяются системы для перевода письменного текста и устного диалога.

Системы первого типа классифицируются по назначению для перевода:

деловой прозы (научно-технических статей, заголовков и аннотаций, описаний изобретений, технической документации и др.);
художественной литературы.

Системы для перевода устного диалога обычно ориентированы на узкую тематику:

резервирование мест в гостинице;
определение маршрута проезда по городу и т.д.

Они интегрируются с системами анализа и синтеза устной речи.

Ограничения систем МП по ПрО обусловлены поддержкой в них лексики, соответствующей той или иной области знаний (медицины, информатики, математики и т.д.).

Системы МП бывают автоматическими и автоматизированными.

На рис. 2 изображены три схемы автоматизированных систем МП. Их достоинствами являются простота реализации и повышение производительности перевода в 3—5 раз по сравнению с переводом вручную человеком. Недостаток таких систем связан с необходимостью участия в переводе специалиста в ПрО, к которой относится текст, владеющего входным и выходным языками.

Рис. 2. Автоматизированные системы МП:

а — с постредактированием; б — с предредактированием; в — с пред- и постредактированием; 1 — входной текст; 2 — система МП; 3 — перевод, сформированный системой МП; 4 — человек (редактор), обрабатывающий с помощью текстового редактора перевод, сформированный системой МП; 5 — выходной текст; 6 — человек (редактор), выполняющий предварительную обработку входного текста с помощью текстового редактора; 7 — входной текст после предварительного редактирования человеком.

Как обычно, перед описанием схемы автоматического решения интеллектуальной задачи полезно рассмотреть процесс ее решения человеком. Выполняя перевод, человек уясняет смысл очередного фрагмента текста (фразы^{^}, абзаца) и выражает его на выходном языке, стараясь обеспечить структурную и смысловую близость к оригиналу (без этого результатом будет не перевод, а пересказ). При переводе человек использует как лингвистические знания о входном и выходном языках, так и экстралингвистические знания (знания о ПрО, общих закономерностях среды перевода, законах коммуникации). В соответствии с возможностями компьютерной реализации данных функций человека и разрабатывались поколения систем МП.

Выделяют три поколения таких систем:

П-системы - системы прямого перевода (direct systems);
Т-системы (от слова transfer - преобразование);
И-системы (от слова interlingua - язык-посредник).

Цикл работы П-системы состоит из трех этапов:

На первом этапе выполняется морфологический анализ входной фразы. С помощью базы правил для входного языка и двух словарей (словаря основ слов и словаря оборотов) она переводится в ее морфологическое представление. При этом каждой основе и каждому обороту ставятся в соответствие свои наборы признаков. Таким образом, морфологическим представлением фразы является множество пар (признак, значение).
На втором этапе выполняется перевод морфологического представления входной фразы в морфологическое представление выходной фразы. Для этого используется база правил соответствия морфологических признаков входного и выходного языков.
На третьем этапе выполняется морфологический синтез: устанавливаются нужный порядок и форма слов согласно правилам грамматики выходного языка. Итоговый результат по качеству получается немного лучше подстрочного перевода.

В Т-системах помимо процедур морфологической обработки реализуются методы синтаксического анализа и синтеза.

Работа Т-системы включает пять этапов:

На первом этапе осуществляется морфологический анализ входной фразы (аналогично П-системам).
На втором этапе по его результатам выполняется синтаксический анализ, в ходе которого строится представление входной фразы в виде синтаксического дерева (дерева синтаксического разбора).

Различают два типа деревьев синтаксического разбора:

деревья синтаксических составляющих;
деревья синтаксических зависимостей.

В первом случае грамматика ЕЯ описывается в виде моделей Н. Хомского. Дерево составляющих представляет вложенные группы словоформ. Самая крупная словоформа соответствует фразе, самые мелкие — синтаксически неделимым текстовым единицам (словам, словосочетаниям).

Во втором случае узлы дерева представляют синтаксические единицы текста, а дуги — отношения подчинения между ними. Это позволяет использовать при анализе фильтровый метод.

На третьем этапе выполняется переход от входного к выходному языку. Для этого синтаксическое дерево входной фразы преобразуется в синтаксическое дерево выходной фразы.

Выделяются три уровня преобразования:

поверхностно-синтаксический;
глубинно-синтаксический;
синтактико-семантический.

В соответствии с их поддержкой различают и Т-системы.

На четвертом этапе проводится синтаксический синтез. Грамматические правила в Т-системах имеют декларативную (дескриптивную) форму.
На пятом этапе, как и в П-системах, осуществляется морфологический синтез.

В И-системах наряду с морфологией и синтаксисом используются экстралингвистические знания, т.е. знания о семантике и прагматике ПрО. Поэтому после этапов морфологического и синтаксического анализа входной фразы функционирование И-системы включает этап семантического анализа. Его результатом служат семантические представления входной и выходной фраз, эквивалентные с точностью до лексики.

Отношения между этапами функционирования трех поколений систем МП иллюстрирует рис. 3.

Таким образом, системы МП представляют собой сложные программные комплексы с разными видами обеспечений.

К лингвистическому обеспечению систем МП относятся:

словари слов и словосочетаний с соответствующими признаками;
морфологические таблицы суффиксов и окончаний;
базы грамматических правил и др.

Рис. 3. Отношения между этапами функционирования трех поколений систем МП

Математическое обеспечение систем МП включает:

модели для представления лингвистической информации;
алгоритмы их преобразования;
правила логического вывода для уточнения обрабатываемого текста на основе экстралингвистических знаний.

К программному обеспечению систем МП относятся:

программы выполнения перевода;
ведения словарей;
формирования базы правил и т.д.

Информационное обеспечение (ИО) систем МП представляет база экстралингвистических знаний о ПрО.

К числу наиболее распространенных в России систем МП и компьютерных словарей относятся:

Stylus - система МП, включающая множество словарей по разным ПрО;
Universal Translator - многоязычная система МП;
Socrat - система, позволяющая сканировать документы, переводить их содержимое и проверять орфографию;
Polyglossum - многоязычная система МП с широким набором предметных словарей;
Promt - многоязычная система МП, содержащая множество словарей по разным ПрО;
WebTranSite - система для перевода web-страниц;
Lingvo - компьютерный англо-русский и русско-английский словарь.

Основные характеристики компьютерного словаря Lingvo (разработчик — компания ABBYY Software House):

перевод слова, набранного в панели ввода словаря или перенесенного на пиктограмму работающей системы с помощью операции «drag and drop»;
перевод слова из буфера промежуточного хранения по горячей клавише;
одновременная работа с большим количеством предметных словарей;
гипертекстовое представление словарных статей;
наличие тезауруса;
наличие звуковой базы, представляющей произношение основных английских слов;
полнотекстовый поиск слов и словосочетаний в статьях всех словарей;
пословный перевод фразы;
вставка перевода в редактируемый текст с помощью операции «drag and drop»;
представление транскрипции, грамматических характеристик и парадигмы слова (списка всех его форм);
предоставление подсказки по правильному написанию слова;
создание и ведение собственных словарей.

 Фраза — законченный оборот речи, предложение.

Blog

Машинный перевод

Содержание