Структурно-семантические трансформации в научно-техническом тексте при машинном переводе в современном английском языке

Дипломная работа - Иностранные языки

Другие дипломы по предмету Иностранные языки

нды переводчиков и редакторов. И для каждого человека будут давать сильно разнящиеся показатели. Инженерные и программные методы позволят оценить СМП только на уровне конечного продукта.

На уровне разработки пользы от них не много.

2.1.4 Принцип действия СМП

Любая СМП в своей работе (на этапе эксплуатации) использует формальные шаги представленные на схеме.

2.2 Подходы к машинному переводу

Системы машинного перевода могут использовать метод перевода основанный на лингвистических правилах. Наиболее подходящие слова из исходного языка просто заменяются словами переводного языка.

Часто утверждается, что для успешного решения проблемы машинного перевода, необходимо решить проблему понимания текста на естественном языке.

Как правило, метод перевода основанный на правилах использует символическое представление (посредника), на основе которого создается текст на переводном языке. А если учитывать природу посредника то можно говорить об интерлингвистическом машинном переводе или трансфертном машинном переводе. Эти методы требуют очень больших словарей с морфологической, синтаксической и семантической информацией и большого набора правил.

Если у системы машинного перевода будет достаточное количество данных, то можно получить перевод хорошего качества. Основная трудность заключается в формировании этих данных. Например, большие корпуса текста необходимые для статистических методов перевода, для перевода, основанного на грамматике, оказываются недостаточными. Более того, для последних, требуется дополнительное задание грамматики.

Для перевода родственных языков (русский, украинский) может оказаться достаточной простая замена слов.

Современные системы машинного перевода делят на три большие группы:

основанные на правилах;

основанные на примерах;

статистические.

Далее мы рассмотрим эту классификацию подробнее.

2.2.1 СМП, основанные на правилах

Системы машинного перевода основанные на правилах - общий термин, который обозначает системы машинного перевода на основе лингвистической информации об исходном и переводном языках.

Они состоят из двуязычных словарей и грамматик, охватывающих основные семантические, морфологические, синтаксические закономерности каждого языка. Такой подход к машинному переводу еще называют классическим.

На основе этих данных исходный текст последовательно, по предложениям, преобразуется в текст перевода. Часто, такие системы противопоставляют системам машинного перевода, которые основаны на примерах.

Принцип работы таких систем - связь структуры входного и выходного предложения. Перевод при этом получается не особенно хорошего качества. Но на простых примерах работает.

Перевод с английского на немецкий будет выглядеть как:

A girl eats an apple. Ein Madchen isst einen Apfel.

Эти системы делятся на три группы:

системы пословного перевода;

трансфертные системы;

интерлингвистические;

Пословный перевод

Такие системы используются сейчас крайне редко из-за низкого качества перевода. Слова исходного текста преобразуются (как есть) в слова переводного текста. Часто такое преобразование происходит без лемматизации и морфологического анализа. Это самый простой метод машинного перевода. Он используется для перевода длинных списков слов (например, каталогов). Так же он может быть использован для составления подстрочечника для TM-систем.

Трансфертные системы

Как трансфертные системы, так и интерлингвистические, имеют одну и ту же общую идею. Для перевода необходимо иметь посредника, который в себе несет смысл переводимого выражения. В интерлингвистических системах посредник не зависит от пары языков, в то время как в трансфертных - зависит.

Трансфертные системы работают по очень простому принципу: к входному тексту применяются правила, которые ставят в соответствие структуры исходного и переводного языков. Начальный этап работы включает в себя морфологический, синтаксический (а иногда и семантический) анализ текста для создания внутреннего представление. Перевод генерируется из этого представления с использованием двуязычных словарей и грамматических правил. Иногда на основе первичного представления, которое было получено из исходного текста, строят более абстрактное внутренне представление. Это делается для того, чтобы акцентировать места важные для перевода, и отбросить несущественные части текста. При построении текста перевода преобразование уровней внутренних представлений происходит в обратном порядке.

При использовании этой стратегии получается достаточно высокое качество переводов, с точностью в районе 90% (хотя это сильно зависит от языковой пары). Работа любой системы трансфертного перевода состоит как минимум из пяти частей:

морфологический анализ;

лексическая категоризация;

лексический трансфер;

структурный трансфер;

морфологическая генерация.

Морфологический анализ. Слова исходного текста классифицируются по частям речи. Выявляются их морфологические признаки. Определяются леммы слов.

Лексические категоризации. В любом тексте некоторые слова могут иметь более чем одно значение, вызывая неоднозначность в анализе. При лексической категоризации выявляется контекст слова. Возможны различного рода пометки и уточнения.

Лексический трансфер. На основе двуязычного словаря