Машины, которые говорят и слушают

Реферат - Компьютеры, программирование

Другие рефераты по предмету Компьютеры, программирование

?а фирмы 1УЫ. В связи с тем, что данная фирна (так же, как и фирма Sperry Univac ) активно занимается исследованиями по распознаванию слитной речи после завершения проекта arpa , рассмотрим эти работы более подробно.

В С39] описана СРСР, в основе которой лежит модель акустического канала, обеспечивающая автоматическое порождение всех возможных поверхностных форм предполагаемого высказывания совместно с вероятностями их порождения. Это порождение осуществляется с помощью акустико-фонологических правил (АФП).приложенных к базовой цепочке высказывания. АФП учитывают в слитной речи такие фонологические явления, как пропуски, вставки и замены отдельных фонем внутри слов, повышенный тон речи, диалектные особенности, изменения на стыках слов и т.д.

Удобной структурой для выражения поверхностных форд высказывания явился направленный граф, дуги которого помечены возможными звуками. Каждому узлу графа соответствует распределение вероятностей, указанных на выходящих дугах. Дуги на концах графа, соответствующего совокупности всех поверхностных форм произнесен-

22

ного слова, имеют связанные с начальными и конечными состояни-яни условия соединения, определяемые фонологическими явлениями на стыках слов.

Язык системы определяется автоматной грамматикой, представленной графом и включающей 250 слов. Для распознавания использовался лингвистический декодер-алгоритм последовательного декодирования, обеспечивающий нахождение предложения о максимальной апостериорной вероятностью по последовательности цепочки фонем, поступающих с выхода специального акустического процессора. Точность декодирования высказываний на контрольной выборке составила (по данным на август 1977 г.) 95% при 6% ошибочной интерпретации, которые были вызваны 0,6% ошибок неправильного распознавания слов. Следует отметить, что рассматриваемая система была сияьно модифицирована за последние три года: упрощен акустический процессор, с которого быви сняты функции фонемной сегментации и маркировки. Сказалось возможным, используя алфавит из 33 фонем, маркировать ими десятимиллисвкундные отрезки речевого сигнала непосредственно по акустическим данным.Преимущество такого представления авторы работы [Ю5Д видят в том, что, во-первых, информация о звуке,распределенная по длине фонем, оказывается более полезной для распознавания, так как при этом возрастает количество информации, поступающей от акустического процессора к лингвистическоу декодеру. Во-вторых, сегментация и маркировка (принятие решения о звуке) разнесены во времени, и лингвистический декодер может, основываясь на структуре отдельных слов, во время сравнения решить, представляет ли короткая маркированная цепочка десятимиллисекунцных сегментов истинный звук или же это - ошибочная ложная ставка.

Дальнейшее совершенствование сантисенундного акустического процессора ( asAJ ) за счет использования 45 эталонных фонетических меток вместо 33 позволило повысить точность классификации (на языке со словарем из 250 слов) до 98,8% на контрольном материале 100 предложений [l07] . Следует отметить, что еще более совершенный процессор ( wbap ), на котором получены наилучшие результаты распознавания (0% ошибок), использует лишь пять параметров, один из котррых - кратковременные изменения общей энергии сигнала, а четыре - отражают параметры гласных и описаны ранее в [l4l] . Этот процессор осуществляет акустическое сравнение непосредственно, используч величины акустических параметров, а не фонетические метки, связанные с сантисекундными отрезками. Для каждого слова используется модель с конечным числом состояний, которая порождается алгоритмически из отображенного

23

произношения. Число состояний модели равно длине этого произнесения в сантисекундах. В модели обеспечиваются переходы из состояния к этому же состоянию, к соседнему и через одно.С каждым переходом связано пятимерное гауссовское распределение в пространстве первичных параметров. Средние значения и дисперсии выходных распределений, а также переходные вероятности формируются автоматически при обучении на дополнительных реализациях слов при формировании обобщенных эталонов с помощью алгоритма Вктер-би [39].

В процессоре wbap используемая статистика основана скорее на особенности слов, чем на особенности звуков.

Следует отметить, что за I976-I978 гг. предпринимались попытки увеличить объем используемого в СРСР фирмы IBh словаря до 1000 слов (тезаурус лазерных патентов). Предварительные результаты испытаний этой системы описаны в [106} . На тестовом множестве фраз, куда входило 486 слов, ошибка распознавания слов составила 33,1%, причем ни одна из й0 контрольных фраз не была определена правильно - программа распознавания делала ошибку хотя бы в одном слове каждой фразы. Развитие этой системы [107] позволило за счет увеличения числа фонетических меток до 52 снизить ошибки в распознавании слов до 20%.

В [108,109] рассмотрены дальнейшие улучшения этой системы, позволившие уменьшить число ошибок при распознавании слов за счет использования более совершенного сантисекундного акустического процессора сзар-зоо, в котором число эталонных фонетических меток было расширено до двухсот. При распознавании 50 п"едлжений, включающих 980 слов, неверно распознано 87 слов, в числе которых 34 слова, составившие односложные слова типа "of", " а ", " are ","as" и др. Перехо