Машинный перевод

Вид материалаЛекция

Содержание


На втором этапе
На третьем этапе
На втором этапе
На третьем этапе
Подобный материал:
Лекция №8 Машинный перевод


Машинный перевод (МП) текстов с одних ЕЯ на другие — одна из наиболее ранних задач невычислительных приложений ЭВМ и ИИ.


Отметим два аспекта, определяющих актуальность задач МП и не снижающееся внимание к ним со стороны ученых и разработчиков ИАС:
  • все возрастающая потребность в переводах в науке, литературе, дипломатии, экономике и других областях деятельности, обусловливаемая повышением открытости границ, интернационализацией науки и экономики, взаимопроникновением культур и т.д.;
  • для МП гораздо яснее критерии оценивания результатов, чем в задачах понимания текстов, организации диалога и др.


Создание систем МП требует совместной работы специалистов разно­го профиля: в первую очередь, лингвистов, математиков и программистов.


Системы МП различают по трем аспектам:
  • рабочим языкам;
  • типам текста;
  • ограничениям по ПрО.


По количеству поддерживаемых рабочих языков различают двуязычные и многоязычные системы МП.


Язык исходного текста называется вход­ным, а язык перевода (формируемого текста) — выходным.


На рис. 1, а условно представлены две системы МП, обеспечивающие перевод с языка 1 на язык 2 и с языка 2 на язык 1. На рис. 1, б условно изображены два класса систем МП. Системы первого класса переводят текст с языка 1 на языки 2.1, 2.2, ..., 2.k, а системы второго класса переводят текст с языков 2.1, 2.2, ..., 2на язык 1.




Рис. 1. Системы МП: а — двуязычные; б — многоязычные


В современных многоязычных системах МП поддерживаемые языки могут быть и входными, и выходными. Направление перевода определяет роли языков (входной, выходной).


По типу текста выделяются системы для перевода письменного текста и устного диалога.


Системы первого типа классифицируются по назначению для перевода:
  • деловой прозы (научно-технических статей, заголовков и аннотаций, описаний изобретений, технической документации и др.);
  • художественной литературы.


Системы для перевода устного диалога обычно ориентированы на уз­кую тематику:
  • резервирование мест в гостинице;
  • определение маршрута проезда по городу и т.д.


Они интегрируются с системами анализа и синтеза устной речи.

Ограничения систем МП по ПрО обусловлены поддержкой в них лек­сики, соответствующей той или иной области знаний (медицины, информа­тики, математики и т.д.).


Системы МП бывают автоматическими и автоматизированными.

На рис. 2 изображены три схемы автоматизированных систем МП. Их достоинствами являются простота реализации и повышение производительности перевода в 3—5 раз по сравнению с переводом вручную человеком. Недостаток таких систем связан с необходимостью участия в переводе специалиста в ПрО, к которой относится текст, владеющего входным и выходным языками.




Рис. 2. Автоматизированные системы МП:

а — с постредактированием; б — с предредактированием; в — с пред- и по­стредактированием; 1 — входной текст; 2 — система МП; 3 — перевод, сфор­мированный системой МП; 4 — человек (редактор), обрабатывающий с помо­щью текстового редактора перевод, сформированный системой МП; 5 — вы­ходной текст; 6 — человек (редактор), выполняющий предварительную обработку входного текста с помощью текстового редактора; 7 — входной текст после предварительного редактирования человеком.

Как обычно, перед описанием схемы автоматического решения интел­лектуальной задачи полезно рассмотреть процесс ее решения человеком. Выполняя перевод, человек уясняет смысл очередного фрагмента текста (фразы, абзаца) и выражает его на выходном языке, стараясь обеспечить структурную и смысловую близость к оригиналу (без этого результатом бу­дет не перевод, а пересказ). При переводе человек использует как лингвис­тические знания о входном и выходном языках, так и экстралингвистиче­ские знания (знания о ПрО, общих закономерностях среды перевода, законах коммуникации). В соответствии с возможностями компьютерной реализа­ции данных функций человека и разрабатывались поколения систем МП.


Выделяют три поколения таких систем:
  1. П-системы - системы прямого перевода (direct systems);
  2. Т-системы (от слова transfer - преобразование);
  3. И-системы (от слова interlingua - язык-посредник).


Цикл работы П-системы состоит из трех этапов:
  • На первом этапе выполня­ется морфологический анализ входной фразы. С помощью базы правил для входного языка и двух словарей (словаря основ слов и словаря оборотов) она переводится в ее морфологическое представление. При этом каждой ос­нове и каждому обороту ставятся в соответствие свои наборы признаков. Таким образом, морфологическим представлением фразы является множество пар (признак, значение).
  • На втором этапе выполняется перевод морфологического представле­ния входной фразы в морфологическое представление выходной фразы. Для этого используется база правил соответствия морфологических признаков входного и выходного языков.
  • На третьем этапе выполняется морфологический синтез: устанавливаются нужный порядок и форма слов согласно правилам грамматики вы­ходного языка. Итоговый результат по качеству получается немного лучше подстрочного перевода.


В Т-системах помимо процедур морфологической обработки реали­зуются методы синтаксического анализа и синтеза.


Работа Т-системы вклю­чает пять этапов:
  • На первом этапе осуществляется морфологический анализ вход­ной фразы (аналогично П-системам).
  • На втором этапе по его результатам выполняется синтаксический анализ, в ходе которого строится представле­ние входной фразы в виде синтаксического дерева (дерева синтаксического разбора).

Различают два типа деревьев синтаксического разбора:
  • деревья синтаксических составляющих;
  • деревья синтаксических зависимостей.

В первом случае грамматика ЕЯ описывается в виде моделей Н. Хомского. Дерево составляющих представляет вложенные группы словоформ. Самая крупная словоформа соответствует фразе, самые мелкие — синтаксически неделимым текстовым единицам (словам, словосочетаниям).

Во втором случае узлы дерева представляют синтаксические единицы текста, а дугиотношения подчинения между ними. Это позволяет ис­пользовать при анализе фильтровый метод.

  • На третьем этапе выполняется переход от входного к выходному языку. Для этого синтаксическое дерево входной фразы преобразуется в синтаксиче­ское дерево выходной фразы.


Выделяются три уровня преобразования:
  • поверхностно-синтаксический;
  • глубинно-синтаксический;
  • синтактико-семантический.

В соответствии с их поддержкой различают и Т-системы.

  • На четвертом этапе проводится синтаксический синтез. Грамматические правила в Т-системах имеют декларативную (дескриптивную) форму.
  • На пятом этапе, как и в П-системах, осуществляется морфологический синтез.


В И-системах наряду с морфологией и синтаксисом используются экстралингвистические знания, т.е. знания о семантике и прагматике ПрО. Поэтому после этапов морфологического и синтаксического анализа входной фразы функционирование И-системы включает этап семантического анализа. Его результатом служат семантические представления входной и выходной фраз, эквивалентные с точностью до лексики.


Отношения между этапами функционирования трех поколений систем МП иллюстрирует рис. 3.


Таким образом, системы МП представляют собой сложные программ­ные комплексы с разными видами обеспечений.

К лингвистическому обес­печению систем МП относятся:
  • словари слов и словосочетаний с соответствующими признаками;
  • морфологические таблицы суффиксов и окончаний;
  • базы грамматических правил и др.



Рис. 3. Отношения между этапами функционирования трех поколе­ний систем МП


Математическое обеспечение систем МП включает:
  • модели для представления лингвистической информации;
  • алгоритмы их преобразования;
  • правила ло­гического вывода для уточнения обрабатываемого текста на основе экстралингвистических знаний.


К программному обеспечению систем МП относятся:
  • програм­мы выполнения перевода;
  • ведения словарей;
  • формирования базы правил и т.д.


Информационное обеспечение (ИО) систем МП представляет база экстралингвистиче­ских знаний о ПрО.


К числу наиболее распространенных в России систем МП и компьютерных словарей относятся:
  • Stylus - система МП, включающая множество словарей по разным ПрО;
  • Universal Translator - многоязычная система МП;
  • Socrat - система, позволяющая сканировать документы, переводить их содержимое и проверять орфографию;
  • Polyglossum - многоязычная система МП с широким набором предметных словарей;
  • Promt - многоязычная система МП, содержащая множество словарей по разным ПрО;
  • WebTranSite - система для перевода web-страниц;
  • Lingvo - компьютерный англо-русский и русско-английский словарь.



Основные характеристики компьютерного словаря Lingvo (разработчик — компания ABBYY Software House):
  • перевод слова, набранного в панели ввода словаря или перенесенного на пиктограмму работающей системы с помощью операции «drag and drop»;
  • перевод слова из буфера промежуточного хранения по горячей клавише;
  • одновременная работа с большим количеством предметных словарей;
  • гипертекстовое представление словарных статей;
  • наличие тезауруса;
  • наличие звуковой базы, представляющей произношение основных английских слов;
  • полнотекстовый поиск слов и словосочетаний в статьях всех словарей;
  • пословный перевод фразы;
  • вставка перевода в редактируемый текст с помощью операции «drag and drop»;
  • представление транскрипции, грамматических характеристик и парадигмы слова (списка всех его форм);
  • предоставление подсказки по правильному написанию слова;
  • создание и ведение собственных словарей.



 Фраза — законченный оборот речи, предложение.