Исследование фонетических алгоритмов

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование

е по отношению к ударному слогу, а для согласных - положение в конце слова. Так, в словах рог - рога [рок] - [р?га] согласный звук [г] (на конце слова) оглушается и произносится как [к], а гласный звук [о] (в первом предударном слоге) звучит как а [л]. Следовательно, качество звуков [о] и [г] в данных словах оказывается в той или иной степени зависимым от позиции этих звуков в слове.

Понятие фонемы предполагает разграничение самостоятельных и зависимых признаков звуков речи. Самостоятельные и зависимые признаки звуков соотносятся неодинаково у разных звуков и в различных фонетических условиях. Так, например, звук [з] в словах создал и раздел характеризуется двумя самостоятельными признаками: способом образования (щелевой звук) и местом образования (зубной звук). Кроме самостоятельных признаков, звук [з] в слове создал [создъл] имеет один зависимый признак - звонкость (перед звонким [д]), а в слове раздел [р?здел] - два зависимых признака, обусловленных позицией звука: звонкость (перед звонким [д]) и мягкость (перед мягким зубным [д]). Отсюда следует, что в одних фонетических условиях у звуков преобладают признаки самостоятельные, а в других - зависимые.

Учет самостоятельных и зависимых признаков уточняет понятие фонемы. Независимые качества образуют самостоятельные фонемы, которые употребляются в одной и той же (тождественной) позиции и различают звуковые оболочки слов. Зависимые качества звука исключают возможность употребления звука в тождественной позиции и лишают звук различительной роли и потому образуют не самостоятельные фонемы, а лишь разновидности одной и той же фонемы. Следовательно, фонемой называется кратчайшая звуковая единица, независимая по своему качеству и потому служащая для различения звуковых оболочек слов и их форм. Качество гласных звуков [а], [о], [у] в словах бак, бок, бук фонетически не обусловлено, не зависит от позиции, а употребление этих звуков тождественно (между одинаковыми согласными, под ударением). Поэтому выделенные звуки обладают различительной функцией и, следовательно, являются фонемами.

В словах мать, мята, мять [мат', м'ать, м'aт'] ударный звук [а] различается по качеству, так как употребляется не в тождественной, а в различных позициях (перед мягким, после мягкого, между мягкими согласными). Поэтому звук [а] в словах мать, мята, мять не имеет непосредственно различительной функции и образует не самостоятельные фонемы, а лишь разновидности одной и той же фонемы из слов их произношение.

Большинство фонетических алгоритмов были разработаны для использования английского языка, следовательно, применяя правила к словам в других языках не может дать значимый результат.

Они обязательно сложные алгоритмы, в них много правил и исключений, потому что английское правописание осложняются историей в произношении слов и заимствованных из многих язык.

Среди наиболее известных фонетические алгоритмы: саундэкс, который был разработан для кодирования фамилий для использования в переписях, Саундэкс Дэйча-Мокотоффа, который является уточнением саундэкс.

Разработан, чтобы лучше соответствовать фамилии славянских и германских происхождения. Метафон и Двойной Метафон, который подходит для использования с большинством английских слов, а не только для названий объектов. Алгоритмы Метафон являются основой для многих популярных проверок правописания. Нью-Йорк государственной идентификации и информационной системы (NYSIIS), который отображает аналогичные фонемы той же буквой.

 

1.2 Выводы

 

Запись устной речи в полном соответствии с ее звучанием не может быть осуществлена обычным орфографическим письмом. При орфографическом письме отсутствует полное соответствие между звуками и буквами, в графике отсутствуют знаки, необходимые для записи всех звуков устной речи. Указанные затруднения устраняются особым видом письма, который называется фонетической транскрипцией.

Мы привыкли видеть слова в графической форме, в виде последовательности букв. Это представление кажется нам наиболее естественным, так как мы постоянно с ним сталкиваемся. И поэтому неудивителен первый порыв разработчиков использовать это представление в своих программах обработки текстов. Такое решение вполне оправдано, например, в программах проверки орфографии. Но если мы хотим моделировать словоизменительные и словообразовательные процессы, то наиболее удобным будет фонематическое представление языковой информации, в виде последовательности фонем. Дело в том, что живой язык подчиняется фонетическим законам более, нежели законам орфографическим, и учёт этого факта значительно упрощает алгоритмы морфологического или словообразовательного анализа и синтеза, избавляя их от необходимости учёта орфографических особенностей.

2. Общие сведения о фонетических алгоритмах

 

2.1 Алгоритм Soundex

 

Одним из первых был алгоритм Soundex, изобретенный еще в 10-x годах прошлого века Робертом Расселом. Этот алгоритм (а точнее, его американская версия) сопоставляет словам численный индекс вида A126. Принцип его работы основан на разбиении согласных букв на группы с порядковыми номерами, из которых затем и составляется результирующее значение. Позднее также был предложен ряд улучшений.

Первая буква сохраняется, последующие буквы сопоставляются цифрам по таблице. Символы, не представленные в таблице (а это ?/p>