Машины, которые говорят и слушают

Реферат - Компьютеры, программирование

Другие рефераты по предмету Компьютеры, программирование

·носимых по буквам (50 случайных фамилий сотрудников Bell Laboratories ), составила 96%. Каждый диктор, как и в [25] , имел собственные эталоны. В [166,167] используется около 12 эталонов на каждое слово словаря, причем каждый эталон характеризует особенности некоторой группы дикторов. Эталоны получаются методом кластерного анализа;

при этом используется 100 обучающих реализации на каждое слово. Точность распознавания 10 цифр приближается к точности их распознавания в адаптивных системах и колеблется (для различных дикторов) от 97,5 до 100%.

В [125] предлагается для повышения точности распознавания слов ввести дополнительный уровень распознавания, который автоматически определяет пол диктора и уже дальнейшее распознавание производит с учетом этого. Введение предварительного автоматического распознавания пола диктора повысило точность распознавания цифр.

В СССР проблеме построения неадаптивных систем автоматического распознавания речи также уделяется большое внимание [10,13,33, 38, 57, 66, 76, 77, 87, йб] . Как правило, системы работают с проблемно-ориентированными языками, словарный запас которых составляет несколько десятков словоформ [40] . В [1.0,12] описана опытная эксплуатация одной из таких систем. Сейчас существуют некоторые промежуточные экспериментальные системы распознавания, работающие со множеством дикторов, часть из которых можно отнести к адаптивным, например систему МВТУ [l] .которая по своей идеологии и принципам близка к типичным настраивающимся на диктора системам - лишь память ЭВМ ограничивает число дикторов, каждый из которых имеет свою систему эталонов. Рассматриваемые же ниже системы обладают рядом особенностей, характеризующих именно неадаптивные системы: попытка пользоваться универсальными признаками фонем, использование синтаксиса и семантики рабочего языка, верификация диктора до того, как система обратилась к его эталонам, и т.д. В этом смысле к неадаптивным системам распознавания речи можно отнести две интересные системы распознавания фраз, произносимых с паузами между словами. Эти систрмы были созданы в Институте систем управления АН ГрузССР.

Одна из этих систем [ 77] была предназначена для оперативного управления объектами путем распознавания фраз-команд, произносимых предварительно верифицированными дикторами. Ьможество фраз, составленных из 134 слов,включало 75 типовых синтаксических конструкций. Каждая фраза содержала не более 14 слов и произносилась полным стилем с паузами между словами. Параметрами

16

первичного описания были: энергия с 6 полосовых фчльтров, дедек-торы плотности нулевых пересечений сигнала, общая энергия сигнала и признак звонкости - гдухости. (Параметры измерялись и вводились в память ЭВМ каждые 20 мс.) На первом этапе анализа определялась (по динамике параметров первичного описания) макро-временная структура фразы и слов. Полученная грубая структура кодировалась и вместе с данными о положении локальных максимумов скорости изменения значений параметров первичного описания служила основой для получения посегментного (кваэифонетичес-кого) описания слов во фразе. В результате каждое слово фразы представлялось в виде матрицы чисел Ц3'17! > W l/л-номера соответственно признака, сегмента в слове и слова во фразе.

Процесс распознавания слов начинался с выбора эталонов -претендентов, идентичных входной реализации, и кодов макровре-ненной структуры и отличных от нее числом квазифонетичвских сегментов на величину не более заданного порога. Наиболее вероятные пары гипотез о слове принимались методом динамического программирования. При этом учитывались лексические ограничения на место слова во фразе. Далее блок семантико-синтаксического анализа принимал решение об истинной последовательности слов во фразе. При работе с шестью операторами и обучении системы на каждом из них надежность распознавания слов составила 8836,а надежность распознавания фраз за счет блока лингвистического анализа - 95%. Точность верификации диктора по произвольной фразе - 96%. Система устойчива к внешним шумам до 65 дБ.

Другая система, разработанная в Институте систем управления АН ГрузССР,способна работать при более высоком урочне шумов (до 100 дБ и выше) СЗб]. Основной особенностью этой системы распознавания фраз, произносимых с паузами между словами, было наличие комплекса помехозащищенных датчиков, который обеспечил приемлемое отношение сигнал/шум на входе системы распознавания. В качестве приемника речевой информации применялся ларингофон ЛЭМ-3, а также дополнительные помехозащитные признаки устной речи, в качестве которых использовались артикуляционные характеристики ре-чеобразования. Бесконтактные датчики позволяли выделять:

- признак, отражающий изменение величины раствора ротовой щели во время произнесения неогубянных звуков;

- признак степени огубяения;

- признак скорости воздушного потока у потового отверстия [42].

Зак.480

17

 

Изучение свойств речевого сигнала в пространстве выбранных признаков позволило разработать процедуру описания слов, обеспечивающую восстановление как макровременной (имеется в виду пос-хедовательность звонких и глухих участков, а также пауз),так и квазифонемной структуры речи. При испытании систем [ЗЬ,??] выявилась высокая точность распознавания фраз. К сожалению,обе системы реализованы на ЭВМ Ы-200, обладающей малым объемом оперативной памяти и слабым б?/p>