Сравнение он-лайн переводчиков на примере перевода англоязычных юмористических текстов (на примере пяти популярных переводчиков)

Курсовой проект - Иностранные языки

Другие курсовые по предмету Иностранные языки

няет следующие действия:

решает вопрос грамматической многозначности (определяет значения слов, которые могут относиться к разным частям речи) - там, где это можно определить на контекстном уровне; объединяет отдельные слова в группы (именные, глагольные и др.).

Примеры именных групп:woman (женщина): неопределенный артикль единственного числа и существительное в единственном числе;nice letters (много хороших писем) - количественное слово many для определения множественного числа, прилагательное nice и существительное

множественного числа letters.

Глагольные группы:taken (взял, взяли) - вспомогательный глагол have + причастие прошедшего времени taken.

Синтаксический анализ предложений.

Следующий этап работы системы - определение членов предложения и их места в предложении, границ простых предложений и их связей друг с другом в сложных предложениях. Сначала программа ищет сказуемое, затем перед сказуемым - подлежащее (предполагается, что в предложении прямой порядок слов). Если же перед сказуемым подлежащего нет, то система ищет его за сказуемым, или считается, что подлежащее отсутствует (например в безличных предложениях (Принесли торт) или императиве (Отдай мне книгу)).

Синтез предложений.

Это заключительный этап работы системы, когда происходит согласование элементов внутри групп, сказуемого и зависимых от него слов (подлежащего, прямого и/или косвенного дополнения), уточняется порядок слов в предложении. В процессе работы программа использует множество алгоритмов, которые помогают составить вариант перевода с учетом грамматических и других особенностей того или иного языка.

В результате, даже обнаружив шероховатости и недочеты в тексте перевода (что, к сожалению, случается), в абсолютном большинстве случаев пользователь поймет смысл текста, переведенного с помощью технологии rule-based (табл. 1). В зависимости от качества исходного текста на выходе получится черновой вариант перевода, который позволяет быстро понять, о чем идет речь в исходном тексте. Ведь, как известно, сегодня пользователю зачастую не требуется идеальный перевод иноязычного документа, веб-страницы или электронного письма, а достаточно чернового варианта, чтобы принять решение или просто получить полезные сведения.

Статистика - наука точная?

Другая широко обсуждаемая сегодня технология перевода - статистическая (statistical-based machine translation). В отличие от традиционной, она не использует лингвистические алгоритмы перевода, а основана на статистическом вычислении вероятности совпадений. Для работы этой системы необходимы огромные базы параллельных текстов, где попарно хранятся словосочетания (фразы из 2-3 слов) и их переводы, так называемые N-граммы. В процессе перевода также используется механизм анализа, но не лингвистический, а статистический. Система подбирает вариант перевода, основываясь на частоте совпадений, то есть в конечном итоге будет подставлен вариант, имеющий наиболее высокий процент совпадений.

Слабым местом статистических систем является отсутствие механизма анализа грамматических правил входного и выходного языков. Трудно представить, что система, которая не анализирует текст с точки зрения грамматики, способна выдать связный перевод.

Еще одна проблема состоит в том, что для корректной работы такой системы необходимо иметь в базе не просто очень большое, а невероятно большое количество параллельных N-грамм. Ведь чем больше базы параллельных текстов, тем выше качество перевода. Для обработки такого объема информации необходимо значительное количество компьютерных ресурсов, что по силам только мощному корпоративному или интернет-серверу. К слову сказать, сегодня не существует коммерческих версий статистических переводчиков [Единственный известный коммерческий продукт на базе статистического перевода предлагает американская компания Language Weaver. Система SMTS 4.3 предназначена только для корпоративных клиентов и не работает с русским языком] для настольных компьютеров, а большинство разработок в этой области по-прежнему пребывает в состоянии перманентной разработки. Практически единственным доступным статистическим переводчиком является бесплатный сервис онлайн-перевода компании Google.

Однако не будем ограничиваться теоретическими выводами, пора проверить качество перевода обеих технологий, попробовав их в деле. Сравним две наиболее известные на сегодня системы перевода - уже упоминавшийся переводчик PROMT и интернет-сервис Google.и Google: битва титанов

Мы решили протестировать англо-русское направление перевода как наиболее популярное среди русскоязычных пользователей. Сразу отметим, что сервис перевода Google сегодня предлагает воспользоваться BETA-версией этой языковой пары (данное языковое направление находится в стадии разработки). Онлайн-сервис Google также предлагает BETA-версии для восточноазиатских направлений перевода (китайского, японского, корейского и арабского языков), также работающих на основе статистического метода перевода. Остальные языковые пары переводят тексты на базе системы SYSTRAN (rule-based machine translation).

К сожалению, наши сомнения относительно качества перевода с помощью статистического метода оказались небезосновательны. Например, простое именное словосочетание a Chinese orphanage (китайский приют) Google перевел как Китая приюте. Во-первых, слово Chinese само по себе переводится как китайский и не может иметь варианта перевода Китай (China). Непонятно, почему сервис