Машинный перевод
Вид материала | Лекция |
СодержаниеНа втором этапе На третьем этапе На втором этапе На третьем этапе |
- Машинный перевод с естественного языка на естественный язык, 329.22kb.
- Лекция 4 системы автоматизированного перевода и машинный перевод, 128.31kb.
- Дисциплина: Инженерия знаний Доклад Машинный перевод, 263.57kb.
- Так как текст записанной на Паскале программы не понятен компьютеру, то требуется перевести, 11.15kb.
- Машинный перевод, 218.63kb.
- В полтаве работает Бюро переводов «Десятый квадрат», которое никогда не использует, 11.49kb.
- Частично редактированный машинный перевод, 599.44kb.
- Честь израэля гау, 1808.36kb.
- Рабочая программа дисциплины автоматический (машинный) перевод текста рекомендуется, 171.24kb.
- Метод Рутисхаузера Первыми транслирующими программа, 566.93kb.
Лекция №8 Машинный перевод
Машинный перевод (МП) текстов с одних ЕЯ на другие — одна из наиболее ранних задач невычислительных приложений ЭВМ и ИИ.
Отметим два аспекта, определяющих актуальность задач МП и не снижающееся внимание к ним со стороны ученых и разработчиков ИАС:
- все возрастающая потребность в переводах в науке, литературе, дипломатии, экономике и других областях деятельности, обусловливаемая повышением открытости границ, интернационализацией науки и экономики, взаимопроникновением культур и т.д.;
- для МП гораздо яснее критерии оценивания результатов, чем в задачах понимания текстов, организации диалога и др.
Создание систем МП требует совместной работы специалистов разного профиля: в первую очередь, лингвистов, математиков и программистов.
Системы МП различают по трем аспектам:
- рабочим языкам;
- типам текста;
- ограничениям по ПрО.
По количеству поддерживаемых рабочих языков различают двуязычные и многоязычные системы МП.
Язык исходного текста называется входным, а язык перевода (формируемого текста) — выходным.
На рис. 1, а условно представлены две системы МП, обеспечивающие перевод с языка 1 на язык 2 и с языка 2 на язык 1. На рис. 1, б условно изображены два класса систем МП. Системы первого класса переводят текст с языка 1 на языки 2.1, 2.2, ..., 2.k, а системы второго класса переводят текст с языков 2.1, 2.2, ..., 2.к на язык 1.
Рис. 1. Системы МП: а — двуязычные; б — многоязычные
В современных многоязычных системах МП поддерживаемые языки могут быть и входными, и выходными. Направление перевода определяет роли языков (входной, выходной).
По типу текста выделяются системы для перевода письменного текста и устного диалога.
Системы первого типа классифицируются по назначению для перевода:
- деловой прозы (научно-технических статей, заголовков и аннотаций, описаний изобретений, технической документации и др.);
- художественной литературы.
Системы для перевода устного диалога обычно ориентированы на узкую тематику:
- резервирование мест в гостинице;
- определение маршрута проезда по городу и т.д.
Они интегрируются с системами анализа и синтеза устной речи.
Ограничения систем МП по ПрО обусловлены поддержкой в них лексики, соответствующей той или иной области знаний (медицины, информатики, математики и т.д.).
Системы МП бывают автоматическими и автоматизированными.
На рис. 2 изображены три схемы автоматизированных систем МП. Их достоинствами являются простота реализации и повышение производительности перевода в 3—5 раз по сравнению с переводом вручную человеком. Недостаток таких систем связан с необходимостью участия в переводе специалиста в ПрО, к которой относится текст, владеющего входным и выходным языками.
Рис. 2. Автоматизированные системы МП:
а — с постредактированием; б — с предредактированием; в — с пред- и постредактированием; 1 — входной текст; 2 — система МП; 3 — перевод, сформированный системой МП; 4 — человек (редактор), обрабатывающий с помощью текстового редактора перевод, сформированный системой МП; 5 — выходной текст; 6 — человек (редактор), выполняющий предварительную обработку входного текста с помощью текстового редактора; 7 — входной текст после предварительного редактирования человеком.
Как обычно, перед описанием схемы автоматического решения интеллектуальной задачи полезно рассмотреть процесс ее решения человеком. Выполняя перевод, человек уясняет смысл очередного фрагмента текста (фразы, абзаца) и выражает его на выходном языке, стараясь обеспечить структурную и смысловую близость к оригиналу (без этого результатом будет не перевод, а пересказ). При переводе человек использует как лингвистические знания о входном и выходном языках, так и экстралингвистические знания (знания о ПрО, общих закономерностях среды перевода, законах коммуникации). В соответствии с возможностями компьютерной реализации данных функций человека и разрабатывались поколения систем МП.
Выделяют три поколения таких систем:
- П-системы - системы прямого перевода (direct systems);
- Т-системы (от слова transfer - преобразование);
- И-системы (от слова interlingua - язык-посредник).
Цикл работы П-системы состоит из трех этапов:
- На первом этапе выполняется морфологический анализ входной фразы. С помощью базы правил для входного языка и двух словарей (словаря основ слов и словаря оборотов) она переводится в ее морфологическое представление. При этом каждой основе и каждому обороту ставятся в соответствие свои наборы признаков. Таким образом, морфологическим представлением фразы является множество пар (признак, значение).
- На втором этапе выполняется перевод морфологического представления входной фразы в морфологическое представление выходной фразы. Для этого используется база правил соответствия морфологических признаков входного и выходного языков.
- На третьем этапе выполняется морфологический синтез: устанавливаются нужный порядок и форма слов согласно правилам грамматики выходного языка. Итоговый результат по качеству получается немного лучше подстрочного перевода.
В Т-системах помимо процедур морфологической обработки реализуются методы синтаксического анализа и синтеза.
Работа Т-системы включает пять этапов:
- На первом этапе осуществляется морфологический анализ входной фразы (аналогично П-системам).
- На втором этапе по его результатам выполняется синтаксический анализ, в ходе которого строится представление входной фразы в виде синтаксического дерева (дерева синтаксического разбора).
Различают два типа деревьев синтаксического разбора:
- деревья синтаксических составляющих;
- деревья синтаксических зависимостей.
В первом случае грамматика ЕЯ описывается в виде моделей Н. Хомского. Дерево составляющих представляет вложенные группы словоформ. Самая крупная словоформа соответствует фразе, самые мелкие — синтаксически неделимым текстовым единицам (словам, словосочетаниям).
Во втором случае узлы дерева представляют синтаксические единицы текста, а дуги — отношения подчинения между ними. Это позволяет использовать при анализе фильтровый метод.
- На третьем этапе выполняется переход от входного к выходному языку. Для этого синтаксическое дерево входной фразы преобразуется в синтаксическое дерево выходной фразы.
Выделяются три уровня преобразования:
- поверхностно-синтаксический;
- глубинно-синтаксический;
- синтактико-семантический.
В соответствии с их поддержкой различают и Т-системы.
- На четвертом этапе проводится синтаксический синтез. Грамматические правила в Т-системах имеют декларативную (дескриптивную) форму.
- На пятом этапе, как и в П-системах, осуществляется морфологический синтез.
В И-системах наряду с морфологией и синтаксисом используются экстралингвистические знания, т.е. знания о семантике и прагматике ПрО. Поэтому после этапов морфологического и синтаксического анализа входной фразы функционирование И-системы включает этап семантического анализа. Его результатом служат семантические представления входной и выходной фраз, эквивалентные с точностью до лексики.
Отношения между этапами функционирования трех поколений систем МП иллюстрирует рис. 3.
Таким образом, системы МП представляют собой сложные программные комплексы с разными видами обеспечений.
К лингвистическому обеспечению систем МП относятся:
- словари слов и словосочетаний с соответствующими признаками;
- морфологические таблицы суффиксов и окончаний;
- базы грамматических правил и др.
Рис. 3. Отношения между этапами функционирования трех поколений систем МП
Математическое обеспечение систем МП включает:
- модели для представления лингвистической информации;
- алгоритмы их преобразования;
- правила логического вывода для уточнения обрабатываемого текста на основе экстралингвистических знаний.
К программному обеспечению систем МП относятся:
- программы выполнения перевода;
- ведения словарей;
- формирования базы правил и т.д.
Информационное обеспечение (ИО) систем МП представляет база экстралингвистических знаний о ПрО.
К числу наиболее распространенных в России систем МП и компьютерных словарей относятся:
- Stylus - система МП, включающая множество словарей по разным ПрО;
- Universal Translator - многоязычная система МП;
- Socrat - система, позволяющая сканировать документы, переводить их содержимое и проверять орфографию;
- Polyglossum - многоязычная система МП с широким набором предметных словарей;
- Promt - многоязычная система МП, содержащая множество словарей по разным ПрО;
- WebTranSite - система для перевода web-страниц;
- Lingvo - компьютерный англо-русский и русско-английский словарь.
Основные характеристики компьютерного словаря Lingvo (разработчик — компания ABBYY Software House):
- перевод слова, набранного в панели ввода словаря или перенесенного на пиктограмму работающей системы с помощью операции «drag and drop»;
- перевод слова из буфера промежуточного хранения по горячей клавише;
- одновременная работа с большим количеством предметных словарей;
- гипертекстовое представление словарных статей;
- наличие тезауруса;
- наличие звуковой базы, представляющей произношение основных английских слов;
- полнотекстовый поиск слов и словосочетаний в статьях всех словарей;
- пословный перевод фразы;
- вставка перевода в редактируемый текст с помощью операции «drag and drop»;
- представление транскрипции, грамматических характеристик и парадигмы слова (списка всех его форм);
- предоставление подсказки по правильному написанию слова;
- создание и ведение собственных словарей.
Фраза — законченный оборот речи, предложение.