Дисциплина: Инженерия знаний Доклад Машинный перевод
Вид материала | Доклад |
Содержание2. Представление о переводе в целом. 3. История развития машинного перевода. 4. Обобщенная схема машинного перевода 5. Перевод слов Этап предредактирования Этап коррекции ошибок |
- Машинный перевод с естественного языка на естественный язык, 329.22kb.
- Лекция 4 системы автоматизированного перевода и машинный перевод, 128.31kb.
- Дисциплина: Инженерия знаний Доклад Генетические алгоритмы, 371.21kb.
- Дисциплина «Инженерия знаний» Реферат Онтологии, 257.23kb.
- Так как текст записанной на Паскале программы не понятен компьютеру, то требуется перевести, 11.15kb.
- Теоретические аспекты инженерии знаний, 680.47kb.
- Машинный перевод, 218.63kb.
- Машинный перевод, 79.3kb.
- В полтаве работает Бюро переводов «Десятый квадрат», которое никогда не использует, 11.49kb.
- Аннотация дисциплины «Философия» для подготовки бакалавров по направлению 231000., 2168.15kb.
Министерство общего и профессионального образования РФ
Ульяновский государственный технический университет
факультет ИСТ
кафедра: "ВТ"
Дисциплина: Инженерия знаний
Доклад
Машинный перевод
Выполнила ст. гр. ЭВМдм - 52 Лылова А.В.
Проверил: Соснин П. И.
Ульяновск 2000 г.
Содержание:
- Введение.
- Представление о переводе в целом.
- История развития:
3.1. Работа Уоррена Уивера и Эндрю Брута.
3.2. «Джорджтаунский эксперимент».
3.3. Работа над первым машинным переводом в России.
3.4. Идея «многоязычных» алгоритмов.
3.5. Проблема создания машинного словаря.
3.6. Создание алгоритма машинного перевода и проблемы решаемые в ходе данной работы.
- Обобщенная схема перевода.
- Перевод слов.
- Заключение.
- Литература.
1. Введение.
Машинный перевод — это автоматический перевод текстов с одного языка на другой (например, пословный перевод научно-технической информации, патентов, документов, инструкций, перевод программ ЭВМ с алгоритмического языка на машинный язык), а также научное направление, охватывающее круг проблем, которые возникают при автоматизации перевода.
Система машинного перевода обычно содержит лингвистические описания входного и выходного языков, т.е. языков исходного текста и текста, полученного в результате перевода, и алгоритм, на основе которого выполняется данный перевод.
Машинный перевод как самостоятельное научное направление сформировался с 50-х гг. XX века на стыке таких наук, как математика, кибернетика, лингвистика и программирование.
Первые системы машинного перевода были двуязычными, перевод шел с одного определенного («иностранного») языка на другой определенный («родной») язык. В основном так переводились научно-технические статьи и патенты.
Позже появились системы машинного перевода с «родного» языка на «иностранный», применяемые для перевода рекламы за рубежом и оформления документации, сопровождающей экспортируемые изделия.
В 80-х гг. получили распространение многоязычные системы, в которых чаще встречается комбинация: один входной язык — несколько выходных, реже — несколько входных и один выходной или группа языков с переводом с любого на любой.
Первые системы машинного перевода производили переход от языка к языку без проникновения в смысл предложения. Для переводимого предложения делался только его морфологический анализ (МАн): для каждой словоформы устанавливалось, какой формой, от какого слова она является. Это очень важно, так как, например, словоформа «стекло» может оказаться существительным «стекло» или формой глагола «стекать». Результат МАн называют морфологическим представлением предложения. В ранних переводческих системах оно непосредственно перерабатывалось в морфологическое представление выходного предложения. Такие системы машинного перевода называют системами первого поколения или прямого перевода (П–системами).
Сложнее устроены так называемые Т–системы (от англ. transfer — специального вида преобразование) — системы второго поколения. В них после МАн следует синтаксический анализ (САн), при котором строится синтаксическая структура предложения, обычно имеющая вид размеченного дерева. Узлы дерева — это либо словоформы (в дереве зависимостей), либо как словоформы, так и группы словоформ (в дереве составляющих). Ветви дерева соответствуют синтаксическим связям.
Процесс перевода в Т–системах складывается из трех основных фаз: анализа (МАн + САн), трансфера (преобразование дерева входной фразы в дерево выходной, т.е. реализующее переход к другому языку), синтеза, который делится на синтаксический синтез — ССинт (переход от синтаксического дерева фразы к цепочке морфологический представлений словоформ) и морфологический синтез — МСинт — создание требуемых форм слов из основ и аффиксов.
Известен еще третий тип систем — И–системы (от « интерлинговые»). Это системы, которые ориентированы на получение в результате анализа некоторого интерлингового (не зависящего от языка) представления. Иными словами, в них сделана попытка приблизиться к тому, как переводит человек.
2. Представление о переводе в целом.
Одно из определений перевода звучит следующим образом: перевод есть вид человеческой языковой деятельности, в результате которой некоторый текст на первом языке ставится в соотношение тексту на другом языке, при этом обеспечивая их смысловую эквивалентность. Вообще, в определениях перевода подчеркивается, что важно не только то, «что» выражено, но и «как» выражено.
Концепция моделирования перевода с помощью переводных соответствий должна строится с учетом этих основных закономерностей.
Моделирование перевода по принципу установления соответствий должны базироваться, во-первых, на топологии соответствий, во-вторых – на решении проблемы взаимодействия уровней языка в переводе.
Переводное соответствие можно понимать как некоторую обобщенную переводческую сущность, отнесенную, например, к единице перевода некоторого эталонного языка, то переводное соответствие есть единство в рамках двух естественных языков. Как и единица перевода, оно может быть многоуровневым, т.е. затрагивать разные языковые уровни.
Я. И. Рецкер выделяет три вида соответствий по следующему признаку:
- эквиваленты, установившиеся в силу тождества обозначаемого, а также отложившиеся в традиции языковых контактов;
- вариантные и контекстуальные соответствия;
- все виды переводческих трансформаций.
Между первым видом и остальными есть принципиальное отличие: первые соответствия относятся к сфере языка, остальные к речи.
Переводные соответствия должны обеспечить передачу содержания текста на одном языке в текст на другом языке так, чтобы при этом сохранился некоторый смысловой инвариант.
Процесс перевода осуществляется движением слева на право, однако неизбежны рекурсии, связанные с необходимостью понимания связанных словосочетаний (синтагм). Каждая словоформа рассматривается как обладающая некоторым набором возможных синтактико-семантических функций, выраженных в категориях частей речи и членов предложения. Фактически при каждой словоформе возникает некоторая возможность продолжения предложения по разным дорожкам. Когда мы рассматриваем действия переводчика с точки зрения порядка или системы установления переводных соответствий, то обращают на себя внимание следующие обстоятельства:
- анализ синтаксических и семантических структур высказывания происходит одновременно. В переводе это есть анализ по частям речи и членам предложения;
- переводчик не восстанавливает предварительно полной синтаксической структуры предложения;
- анализ и синтез происходят по некоторым отдельным осмысленным кускам («единицам перевода», синтагмам и т.д.);
- при анализе и синтезе происходит постоянная проверка на осмысленность, в ходе которой анализируемая синтагма сравнивается с предыдущими и последующими.
3. История развития машинного перевода.
Машинный перевод необходим для снабжения современной технической и политической информацией тысяч учреждений, которым эта информация необходима. Информационные тексты отличаются от художественных своей конкретностью и сравнительной простотой.
В 50-ых годах в научных центрах многих городов Советского Союза уже велись работы по изучению строя русского, китайского, армянского, грузинского, венгерского, английского, французского и других языков. Но группы ученых были малочисленны, их разрозненные усилия не могли привести к практическому осуществлению машинного перевода.
К изучению языка привлекались статистические методы, математическая теория множеств и новейшая теория информации. Теоретические выкладки и подсчеты помогали раскрывать многие «тайны» языка, выявлять некоторые закономерности в построении фраз и сочетаниях слов. И действительно, эти закономерности оказалось возможным представить в виде математических формул. Но не так просто создать системы автоматического перевода, т.к. языки целиком и полностью не подчиняются раз и навсегда установленным законам.
3.1. Работа Уоррена Уивера и Эндрю Брута.
В 1947 году Уоррен Уивер и доктор Эндрю Брут, который в отделении профессора Джона Бернала в Биркбекском колледже Лондонского университета занимался проектированием и конструированием вычислительных машин, пришли к мысли, что машинный перевод осуществим. В 1948 г. Уивер посетил Бута в Лондоне и следил за его первыми попытками изучить проблему создания автоматического словаря. Словарь этот давал еще только по одному значению всех слов подряд, что, конечно, не было переводом в нашем понимании этого слова.
Необходимо отметить, что машинный словарь построен не совсем привычно. Для того, чтобы облегчить поиск нужного слова, он иногда строится сначала не по алфавиту, а по числу букв в каждом слове. В нем сгруппировались слова однобуквенные, двухбуквенные и т.д. А уже в каждой группе слова стоят по алфавиту. Это делается для того, чтобы сократить время, которое затрачивает машина на поиск нужного слова.
В то время Бут еще не занимался многозначностью и порядком слов, идиомами и т.д. Так, в автоматическом словаре Бута были записаны основы слов. Например, «бег». Но в тексте встретилось русское слово «бегущий». Такого слова в «памяти» машины нет. Она отбрасывает по одной букве с конца слова «бегущий» и сравнивает остаток со словами в своей «памяти». «Бегущий», «бегущ», «бегу», «бег». Такое слово есть. Тогда машина находит в грамматическом приложении к словарю остальную часть слова («ущий»). А там уже заранее стоят грамматические примечания (причастие, настоящее время, мужской род, единственное число, несовершенный вид).
3.2. «Джорджтаунский эксперимент».
В июле 1949 г. Уоррен Уивер изложил свои соображения в меморандуме, который озаглавил «Перевод», и разослала его 200 знакомым ему специалистам в различных областях знаний. Это было провозглашением возможности перевода с одного языка на другой с помощью вычислительных устройств.
Меморандум Уивера пробудил интерес ученых к проблеме перевода, и во многих университетах США и Англии началась исследовательская работа.
В ходе таких работ выяснилось и стало очевидным, что редактирование английского текста – не выход из положения. Машина сама должна переводить на правильный английский язык. Эту проблему и обсуждали 18 английских и американских ученых, съехавшихся весной 1952 г. на первую Конференцию по машинному переводу в Массачусетский технологический институт. Идея машинного перевода перестала казаться выдумкой, ею увлекалось все больше лингвистов и создателей вычислительной техники.
И вот 7 января 1954 г. в нью-йоркской конторе фирмы IBM произошло событие, которое в истории машинного перевода получило название «Джорджтаунского эксперимента».
В Институте языка и лингвистики Джорджтаунского университета группа ученых во главе с Леоном Достертом подготовила для перевода с русского языка на английский небольшое число предложений, составила словарь из 250 слов и шести правил перевода. Эти правила были запрограммированы Титером Шериданом из фирмы IBM.
Это был первый в мире эксперимент, во время которого машина перевела правильным английским языком 60 несложных русских предложений, состоящих только из слов, включенных в словарь. Некоторые русские слова уже имели по два английских значения. Например, в зависимости от конкретного следующего слова машина переводила русский предлог «к» английскими «to» или «for». В словаре, помимо слов, были и некоторые русские падежные окончания. Падежей в английском языке нет, поэтому в словаре содержалось указание, какие предлоги в английском переводе выполняют функции тех или иных русских падежей. Так, роль родительного падежа в английском языке часто играет предлог «of».
Ко времени Джорджтаунского эксперимента многие ученые уже определенно знали, что перевод – это не просто замена одних знаков другими.
3.3. Работа над первым машинным переводом в России.
Идея поставить первый опыт автоматического перевода на электронной машине в нашей стране впервые возникла в 1954 г. Ее осуществлением занялся ряд известных специалистов: специалист по электронным машинам И. С. Мухин, математики Л. Н. Королев и С. Н. Разумовский, академик С. А. Лебедев и директор ВИНИТИ профессор Д. Ю. Панов.
Работу над лингвистической частью проблемы вела И. К. Бельская. В январе 1955 г. она приступила к работе, а уже в декабре того же года машина осуществила пробный перевод с английского отрывков из книги Милна «Численное решение дифференциальных уравнений». Ученые познакомились с работами американцев и решили идти своим путем. Бельская доказала, что перевод с одного языка на другой – это не частный случай криптографии, как считал Уивер, т.к. кроме общечеловеческих логических законов, у каждого национального языка есть свои логические законы, присущие только данному языку. Например, почему мы говорим «На Кавказе», но « В Крым», а англичане и то, и другое выражают одним предлогом направления «to».
Бельская начала анализ каждого языка отдельно и стала искать возможности передавать формы английского языка средствами русского языка.
Язык сложен, но не хаотичен. Каждый язык представляет собой систему, имеющую свои определенные законы. В языке все значит, все имеет какую-то форму. Но, несмотря на это, Бельской приходилось многое упрощать.
Для первого опыта машинного перевода был составлен словарь из 952 английских и 1073 русских слов. Специальный математический текст (книга Милна) был переведен на русский язык, но перевод английского текста, подготовленный для машины, не был простой цепью русских фраз. Это были многочисленные схемы и списки, составленные Бельской к концу 1955 г. Но именно эти схемы отражали сам процесс перевода, логику переводческой работы.
Этот процесс был разложен на простейшие логические операции.
Программа перевода, составленная для узкоспециализированной книги Милна, годилась и для других текстов, но для этого в нее добавлялись новые слова и правила. Однако это был первый удачный шаг на пути к решению проблемы перевода с одного языка на другой.
3.4. Идея «многоязычных» алгоритмов.
Первые опыты обнадеживали. Но пора было подумать о создании такого алгоритма, с помощью которого машина могла бы осуществлять не опытный, так называемый «промышленный» перевод.
В 1958 г. была создана первая в СССР конференция по машинному переводу. Большинство ее участников считали, что делать «двуязычные» или «бинарные» алгоритмы невыгодно. Они предлагали создать такой алгоритм, который будет переводить с любого языка на любой другой язык. Для такой «всепереводящей» машины предполагалось создать единый язык – язык-посредник. Машина будет переводить сначала с любого языка на язык-посредник, а потом на любой другой язык.
По этому вопросу возникли разногласия. Одни предлагали взять за язык-посредник один из «живых» языков (английский или русский). Другие утверждали, что «живые» языки очень сложны, многозначны, имеют много особенностей, присущих только им, и даже исключений из этих особенностей. Они предлагали сделать языком-посредником какой-нибудь искусственный язык. Третьи говорили, что такой язык был бы слишком примитивен. С «живого» языка на него ничего толком не переведешь. Слишком беден был такой перевод. Надо создавать нечто среднее между эсперанто и «живым» языком. Н. Д. Андреев, руководитель лаборатории машинного перевода при Ленинградском Университете, предложил создать язык-посредник на основании грамматики и словарей различных «живых» языков и выразить его в символах, понятных машине. Четвертые считали, что такой язык мало чем отличался бы от эсперанто, и предлагали создать язык-посредник, который будет содержать все категории всех языков. Он был бы богаче любого из «живых» языков. Высказывался также ряд мнений, что грамматику языков надо упрощать.
3.5. Проблема создания машинного словаря.
Следующей проблемой машинного перевода стало создание словаря. И это была одна из первых серьезных проблем, с которыми столкнулась лаборатория машинного перевода. Ведь, создавая более или менее обстоятельный словарь для машинного перевода, необходимо было в первую очередь составить частотный словарь. Важность этой проблемы трудно переоценить.
Нужно было применить новые методы обработки текстов, которые позволили бы справиться и с другими проблемами, например, проблемой многозначности.
Машина не даст сразу перевода многозначного слова. Ей придется еще много раз давать односложные ответы «да» и «нет», прежде, чем в русском словаре найдется его точный переводческий эквивалент.
Перевод слова, его эквивалент в русском языке зависят от того, в окружении каких слов стоит данное слово, иначе от контекста. Слово «само по себе» ничего не значит, оно обретает значение только в контексте, во фразе. Одно и то же слово исходного языка может быть переведено в зависимости от слов, с которыми оно сочетается, несколькими сотнями слов и выражений выходного языка. Для составления такой схемы необходимо рассмотреть огромное количество случаев употребления рассматриваемого слова. Поэтому было решено поручить работу по отбору словаря для машинного перевода машинам. В результате слова были рассортированы по числу букв, внутри каждой такой группы выстроены по алфавиту, все одинаковые по написанию слова сгруппированы и выстроены в столбики, справа и слева от каждого слова помещены небольшие куски текста, чтобы можно было анализировать слова в окружении, в контексте, т.е. составить словарь-конкорданс. Но чаще всего значение одинаковых по написанию слов зависит от слов, следующих после них. И поэтому каждое первое слово куска текста, примыкающего к основному слову справа, тоже было рассортировано по алфавиту, и все одинаковые выражения, идиомы, устойчивые сочетания, в которые входило основное слово, оказались сгруппированными в определенных местах.
А для выявления характерных форм каждого слова машины провели сортировку слов по окончаниям.
К лету 1957 г. было решено, что для машинного словаря надо взять 16 тыс. слов. В последствии был окончательно составлен словарь, который насчитывал 13,5 тыс. английских слов и около 40 тыс. русских слов и выражений.
Было решено включить в словарь все слова, встречавшиеся среди почти 5 млн. слов текста чаще двух раз, и многие слова попадавшие два или один раз. Такой словарь покрывает 98,5% английского текст. Практически это означает, что машине дана возможность «понимать» и переводить 99 слов из 100 при чтении любой английской или американской газеты. 1% падает на имена собственные, которые было решено оставить в их латинском написании, и лишь 0,5% или одно из каждых 200 слов может оказаться машине не знакомым. Это очень высокая степень надежности.
3.6. Создание алгоритма машинного перевода и проблемы решаемые в ходе данной работы.
Проведя большую подготовительную работу по анализу английских текстов и составлению словаря, необходимо было приниматься за создание алгоритма машинного перевода с английского языка на русский.
Работа над машинным переводом разбита на две большие стадии. Первую из них можно было бы грубо охарактеризовать как лингвистическую, вторую – как «машинную».
Во время первой стадии лингвисты стараются изложить на бумаге лексические и грамматические соображения, которые возникают у них в процессе понимания английского и построения русской фразы. Делают они это в виде пространных схем, таблиц и списков слов, ограничиваясь в своей работе основным принципом классической логики. Эта логика двузначна и знает лишь две оценки суждений: «истинно» и «ложно».
Вторая стадия заключается в программировании полученных схем, в продумывании последовательности их работы и в отладке программ уже на самой машине.
Вообще, когда было принято решение создать «промышленный» алгоритм для перевода с английского языка сотрудники лаборатории в первую очередь занялись экономикой машинного перевода. В результате было выявлено, что самым дорогим оказался ввод данных в машину, и это ставило под угрозу идею машинного перевода. После этого было проведено не мало удачных и неудачных опытов, прежде чем ученые разработали автоматы, которые сами распознают буквы, цифры и другие символы и преобразуют их в двоичный код.
В результате всех проведенных работ окончательный алгоритм принял следующий вид.
В машину вводится английский текст, каждая буква которого специальной программой обозначается числом – от 1 до 26. В каждом введенном слове определяется число букв, т.к. в словаре машины все слова сгруппированы по числу букв. И сразу же машина начинает искать слово в словаре, где все буквы закодированы теми же числами.
Но одновременно с поиском слова в словаре работает программа исправления искажений. Отметим, что для создания такой программы были изучены закономерности появления в том или ином месте тех или иных элементов (букв), после чего были составлены таблицы, показывающие наиболее вероятные комбинации двух или трех букв. Если машина не находила в таблицах встретившееся ей сочетание, то она меняла его на наиболее вероятное и статистика показывала, что почти на 100% текст оказывался исправленным.
Для удобства работы алгоритма считается, что любое новое слово, введенное в машину и отсутствующее в словаре, искажено. При несовпадении одного знака с имеющимися в словаре словами орфографическая ошибка исправляется. Чем длиннее слово, тем больше букв в нем совпадает со словом в словаре и тем легче исправить искажение.
Как уже отмечалось, одновременно идет поиск в словаре всех введенных в машину слов. Но машинный словарь имеет свои особенности. Они заключаются в том, что все слова в нем без окончаний. Английское существительное стоит а единственном числе, глаголы – в первом лице, а прилагательные не имеют степеней сравнения. И только неправильные глаголы имеют все формы. А так как введенный в машину текст имеет окончания, то тотчас начинает работать программа отбрасывания окончаний. Слова как бы обрезаются, а окончания отбрасываются но не совсем. Их направляют в определенное место в памяти, чтобы обратиться к ним, когда будет необходимость.
У каждого слова в машине есть своя «ячейка», которая состоит из нескольких десятков «разрядов». В нее записывается слово, его номер, грамматическая и прочая информация о слове, и вообще все сведения, полученные в результате работы каждого этапа алгоритма.
Слова без окончаний снова проверяются по словарю, получают здесь свой цифровой эквивалент. В общем цифровой эквивалент содержит все сведения, присущие данному слову, независимо от языка и контекста.
Но, оказалось, что многим словам, входящим в словарь, нельзя давать цифрового эквивалента. 3200 слов из 13,5 тыс. слов словаря оказались омографами (разные слова, имеющие одинаковое написание). Они получают для начала служебные эквиваленты, т.к. неизвестно даже, что это за части речи. Специальный служебный эквивалент получают и слова новые, не учтенные в словаре.
Интересна и схема разрешения синтаксической омографии или схема сложных частей речи. В машинном словаре сочетание – как бы одно слово, поэтому можно предусмотреть для очень многих английских выражений красивый, добротный, русский перевод.
Для упрощения работы машины были введены затем специальные операторы. Восемь операторов давали возможность производить любые проверки, сравнения, лингвистические операции.
В алгоритме машинного перевода есть более 100 схем, которые анализируют грамматически английский текст и поставляют сведения для образования русских слов и построения русской фразы.
Сначала машина делает как бы разбор предложения. Она определяет каким членом предложения является каждое слово. Не зная еще русских слов, машина определяет некоторые падежи. По подлежащему она узнает лицо стоящего с ним глагола. По разным признакам она выясняет наклонение, время, число, степень сравнения, вид, залог и другие грамматические категории слов и все сведения помещает в «ячейку» каждого введенного слова.
Интересно отметить, что весь грамматический анализ машина ведет в пределах простого предложения. В машине предусмотрена программа, которая делит сложную фразу на простые предложения, расставляет запятые и даже восстанавливает пропущенные порой слова «который» и «что».
Но не все сведения для построения русской фразы можно получить из английского. Тут же нужен русский эквивалент английского слова. Значит, для дальнейшего грамматического анализа необходимо выяснить все возможные переводы этого слова.
И тут работа грамматической части машины прерывается и начинает действовать программа многозначных слов. Узнав номер каждого русского слова, которым переводим английское, можно теперь получить и остальные грамматические сведения. На этом этапе узнаем не только род слова, но и его падеж. И опять опираемся на ближайшее слово. После того, как известен перевод английских слов и их грамматические характеристики, машин начинает редактировать эту фразу.
Программа редактирования, реконструкции и перестановки решает задачи и очень сложные, связанные с коренной переработкой английской фразы.
Когда английские слова расставлены в должном порядке, машина начинает, используя грамматическую информацию, накопленную при каждом слове, писать по-русски.
4. Обобщенная схема машинного перевода
Развитые системы машинного перевода работают по многоэтажной схеме, состоящей из двух главных частей: анализа переводимого текста и синтеза перевода. Перевод осуществляется обычно пофразно. Этапы анализа таковы: ввод фразы в ЭВМ; лексический анализ (на уровне слов и частей речи); поверхностный синтаксический анализ (на уровне членов предложения); глубинный синтаксический анализ (учитывающий смысловые связи между словами). В результате анализа возникает внутреннее представление фразы, отражающее ее смысл.
Начальный этап синтеза обеспечивает оснащение внутреннего представления фразы словами выходного языка. На последующих этапах осуществляется расстановка слов в нужном порядке (с последующим извлечением из словаря их внешней лексической формы) и формирование окончательного вида переведенной фразы.
Неавтоматизированный перевод определяется схемой:
входной (переводимый) текст — переводчик — сырой перевод — редактор — выходной (переведенный) текст.
По аналогии с этой схемой строились и первые системы машинного перевода:
входной текст — ввод в ЭВМ — анализ/синтез промежуточного текста — редактор — выходной текст.
Поскольку ныне многие редакторы работают за пультом дисплея, на экране которого отображается переводимый текст, общая схема выглядит так:
входной текст — ввод в ЭВМ — (анализ/синтез промежуточного текста) — (редактор + дисплей) — выходной текст.
При переводе со своего языка на чужой используется также перевод с предредактированием, когда редактор до ввода в ЭВМ обрабатывает текст, убирает трудно переводимые конструкции или делает разметку. Текст редактируют и после перевода. В первых системах машинного перевода человек не вмешивался в работу системы. Но затем появились системы с интерредактированием, когда в процессе перевода человек и переводческая система взаимодействуют.
Система спрашивает человека в трудных для нее случаях. Такой перевод не является машинным в полном смысле этого слова, о нем говорят как о человеко-машинном или частично автоматизированном переводе. Здесь возникают многие проблемы диалогового характера. Система перевода требует три уровня обеспечения: лингвистический, математико-алгоритмический и программный. Иногда к ним добавляются информационный и логический уровни обеспечения.
Лингвистическое обеспечение — это словари и грамматики для языков, участвующих в переводе.
Математико-алгоритмическое обеспечение включает в себя формальные модели для представления данных и алгоритмы переработки данных.
Программное обеспечение — это программы, реализующие алгоритмы перевода, и разного рода обслуживающие программы.
Информационное обеспечение — это база знаний о некоторой предметной области, к которой относятся переводимые тексты.
Логическое обеспечение — это правила логического вывода, позволяющие использовать знания о предметной области при анализе и синтезе текста.
Действия переводчика в самых общих чертах можно описать так: он читает очередную фразу текста, уясняет себе ее смысл и передает этот смысл на другом языке, сохраняя определенные структурные особенности текста (иначе это будет пересказ, а не перевод). При этом он использует лингвистические данные обоих языков и сведения из той области знания, к которой относится текст (базу знаний), а также по мере перевода сведения о предшествующих частях текста. Понимание переводимой части текста (анализ текста) — это переход от его обычной словесной записи к некоторому внутреннему представлению в сознании человека.
Синтез переведенного текста — переход от внутреннего представления к словесному выражению на другом языке.
5. Перевод слов
Необходимо отметить, что в любом случае при переводе только отдельных слов, а не словосочетаний или целых предложений наиболее эффективным является использование, так называемых, автоматических словарей. В этих системах процесс перевода включает следующие основные этапы:
- Предредактирование
- Коррекция ошибок
- Анализ
- Поиск эквивалента
Общая схема подготовки и анализа для перевода слов.
Общая схема анализа имеет следующий вид:
Автоматический
словарь
Этап предредактирования предполагает указание дополнительных признаков для каждого слова. Это очень важно, так как, например, словоформа «стекло» может оказаться существительным «стекло» или формой глагола «стекать». При возникновении неясностей словарь предлагает все возможные варианты перевода.
Этап коррекции ошибок основывается на правилах словообразования, т.е. на правилах грамматики. Таким образом, предполагается, что в автоматическом словаре существуют специальные процедуры, осуществляющие грамматический разбор входных словоформ, и процедуры исправления ошибок на основе результатов проведенного разбора.
Вообще, грамматики образуют наиболее важный класс генераторов языков. 0 — это математическая система, определяющая язык. Одновременно она является устройством, которое придает цепочкам языка полезную структуру.
В грамматике, определяющей язык, используются два конечных непересекающихся множества символов — множество нетерминальных символов и множество терминальных символов. Из терминальных символов образуются слова (цепочки) определяемого языка.
Сердцевину грамматики составляет конечное множество правил образования, которые описывают процесс порождения цепочек языка.
Теперь определим термины, связанные с цепочками.
Прежде всего, нам необходимо понятие алфавита. Алфавитом мы будем называть любое множество символов. Предполагается, что термин «символ» имеет достаточно ясный интуитивный смысл и не нуждается в дальнейшем пояснении.
Алфавит не обязан быть конечным и даже счетным, но во всех практических приложениях он будет конечным. Два примера алфавитов: множество, состоящее из 26 прописных и 26 строчных латинских букв {латинский алфавит}, и множество {0, 1}, часто называемое бинарным или двоичным алфавитом.
Термины буква и знак будут использоваться как синонимы термина символ для обозначения элемента алфавита. Если написать последовательность символов, располагая их один за другим, то получится цепочка символов. Термин слово часто используется как синоним термина цепочка.
Первая фаза перевода — лексический анализ. Как правило, лексическим анализом занимается, так называемый, лексический анализатор, входом которого служит цепочка символов некоторого алфавита.
Работа лексического анализатора состоит в том, чтобы сгруппировать определенные терминальные символы в единые синтаксические объекты, называемые лексемами. Какие объекты считать лексемами, зависит от определения языка. Лексема — это цепочка терминальных символов, с которой мы связываем лексическую структуру, состоящую из пары вида (тип лексемы, некоторые данные). Первой компонентой пары является тип лексемы, а второй — указатель: в ней указывается адрес ячейки, хранящей информацию об этой конкретной лексеме. Для данного языка число типов лексем предполагается конечным.
Таким образом, лексический анализатор — это транслятор, входом которого служит цепочка символов, представляющая исходное слово (для автоматического словаря), или набор словоформ (для систем машинного перевода в общем случае), а выходом — лексема, состоящая из нетерминальных символов (для автоматического словаря) или последовательность лексем. В случае систем машинного перевода этот выход образует вход синтаксического анализатора.
К слову, в теории машинного перевода существуют понятия непрямого и прямого лексического анализа.
При непрямом лексическом анализе требуется, прочитав цепочку знаков, определить, появилась ли подцепочка, образующая некоторую конкретную лексему. Если множество возможных цепочек, которые могут образовывать эту лексему, обозначается, как это обычно бывает, регулярным выражением, то проблему построения непрямого лексического анализатора для данной лексемы можно представлять себе как проблему реализации конечного преобразователя. Конечный преобразователь — это почти конечный автомат (распознаватель) в том смысле, что он читает вход, не производя выхода, пока не обнаружит присутствие лексемы данного типа (т.е. достигнет заключительного состояния). Тогда он сигнализирует о том, что эта лексема появилась, и выдает на выходе цепочку символов, образующих эту лексему.
Сигналом, очевидно, служит само заключительное состояние. Однако лексическому анализатору, возможно, требуется исследовать один или более символов, стоящих после правого конца лексемы.
При непрямом лексическом анализе можно получить выход лексического анализатора, говорящий о появлении некоторой лексемы, а если позднее обнаружится, что лексема на самом деле отсутствует, то алгоритм синтаксического анализа осуществляет возврат к данной цепочке, обеспечивающий в конце концов работу анализатора для подходящей лексемы.
При прямом лексическом анализе требуется найти одну из многих лексем. Наиболее эффективный способ заключается, вообще говоря, в том, чтобы вести поиск параллельно, так как он при этом часто довольно быстро сужается. Таким образом, моделью прямого лексического анализатора служит множество работающих параллельно конечных автоматов, или, точнее, один конечный преобразователь, моделирующий много конечных автоматов и выдающий сигнал о том, какой из них распознал цепочку.
Для автоматического словаря этап лексического анализа является последним этапом анализа входной информации. После окончания анализа общим и завершающим этапом для автоматических словарей является поиск эквивалента в таблице.
Перевод отдельных слов внутри предложения в системах машинного перевода происходит несколько иначе. Разница заключается не только в появлении этапов трансфера, синтеза и постредактирования, но и в методике проведения анализа, т.к. верное значение слова можно определить только непосредственно в контексте. Исходя из этого возникает необходимость проведения синтаксического и морфологического анализа, на основе результатов, полученных на этапе лексического анализа.
Как уже упоминалось ранее, выходом лексического анализатора является цепочка лексем. Эта цепочка образует вход синтаксического анализатора, исследующего только первые компоненты лексем.
Синтаксический анализ, или разбор, как его еще называют,— это процесс, в котором исследуется цепочка лексем и устанавливается, удовлетворяет ли она структурным условиям, явно сформулированным в определении синтаксиса языка.
Разбор — одна из наиболее понятных фаз компиляции. По совокупности синтаксических правил можно автоматически построить синтаксический анализатор, который будет, проверять, имеет ли исходный текст синтаксическую структуру, определяемую этими правилами.
Выходом анализатора служит дерево, которое представляет синтаксическую структуру. В некотором отношении синтаксический анализ программы напоминает разбор предложений, который все мы проводили в школе.
Задачей морфологического синтеза является образование русских словоформ из основ в соответствии со сведениями, выработанными на этапе синтаксического синтеза.
К началу морфологического синтеза имеется последовательность лексем, стоящих в том порядке, в каком должны стоять слова в русской фразе.
Непереведенные слова не требуют обработки при морфологическом синтезе, они вставляются на свои места в конечную фразу в своем первоначальном виде.
Рассмотренные методы и алгоритмы позволяют получать неплохие результаты при переводе отдельных слов и используются в качестве базового механизма при построении систем машинного перевода текста.
6. Заключение
Вычислительная техника, как известно, хорошее подспорье человеку в рутинной работе. Относится ли к таким занятиям перевод текстов? И да, и нет. С одной стороны, труд переводчика во многом формален, а с другой – перевод не может быть выполнен чисто формально. Есть, например, технический перевод, где важно знать принятые за рубежом стандарты обозначений тех или иных понятий. И есть литературный перевод, когда требуется получить текст, по художественной ценности максимально близкий к оригиналу. Возможно ли поручить подобную работу компьютеру?
Важнейшее преимущество машинного перевода перед обычным – его оперативность. К тому же в последние годы совершенствование программ позволило достаточно точно переводить многие виды текстов, однако некоторые проблемы машинного перевода остались нерешенными и по сей день.
Говоря о машинном переводе, следует прежде всего помнить, что компьютер — создание бездушное. Он не понимает языковых нюансов, намеков в тексте, того, что называется тонкой игрой слов. Да и, собственно, понять содержание текста в полной мере ему не под силу. Мышления как такового при машинном переводе не происходит: предложение расчленяется на части речи, в нем выделяются стандартные конструкции, слова и словосочетания переводятся по находящимся в памяти машины словарям. Затем переведенные части речи собираются по правилам другого языка. Но этого, согласитесь, недостаточно для полноценного перевода.
Пока компьютер во многом не может заменить переводчика. Стоит ли тогда вообще применять системы машинного перевода? Конечно, стоит. Если компьютер используется для перевода литературных текстов, то получается черновой вариант текста, так называемый подстрочник, который превращается в произведение искусства человеком, слабо владеющим языком оригинала, но являющимся хорошим литературным редактором. Если же речь идет о переводе технических текстов, то здесь при правильном выборе словаря по специальности, в рамках которой написан текст, получается вполне удовлетворительный результат, иногда не требующий последующего вмешательства.
В мире существует очень много программ машинного перевода. В России наиболее распространены системы Stylus (фирма «ПроМТ») и ПАРС (фирма «Лингвистика 93»).
Сейчас наблюдается новый всплеск интереса к системам машинного перевода в связи с развитием сети Internet. Миллионы людей, говорящих на разных языках, оказались в едином информационном пространстве. Доминирует в Сети английский язык, но есть пользователи, которые им не владеют, как, впрочем, есть множество Webстраниц, написанных не по-английски. Для облегчения просмотра страниц Internet на незнакомом пользователю языке появились дополнения к броузерам, которые осуществляют немедленный перевод выбранных пользователем фрагментов просматриваемой Webстраницы. Примером такого переводчика является система Web Trans Site фирмы ПроМТ, созданная на базе программы Stylus, которая подключается как к броузеру Netscape Navigator, так и к броузеру Microsoft Internet Explorer.
Дальнейший шаг – реализация перевода текстов непосредственно в Сети. Несколько месяцев назад справочная служба AltaVista, осуществляющая поиск Webстраниц, стала бесплатно оказывать услуги по машинному переводу найденной страницы. Пока в списке языков, на которые возможен перевод, русского нет, но, учитывая, что множество людей сейчас более или менее сносно владеет английским, данная услуга будет полезна и для наших пользователей. В будущем следует ожидать увеличения в Internet числа серверов-переводчиков. Работа такого сервера может окупаться и даже приносить прибыль за счет размещения рекламы.
7. Литература.
Ахо Альфред В. Теория синтаксического анализа, перевода и компиляции: [В 2-х т.] Т. 1, М.: «Мир», 1978
- Ахо Альфред В., Ульман Джефри Д. Теория синтаксического анализа, перевода и компиляции: [В 2-х т.] Т. 2, М.: «Мир», 1978
- Кулагина О. С. Исследования по машинному переводу. – М.: Наука, 1979
- Марчук Ю. Н. Методы моделирования перевода. – М: Наука, 1985
- Марчук Ю. Н. Проблемы машинного перевода. – М.: Наука, 1983