Машины, которые говорят и слушают

Реферат - Компьютеры, программирование

Другие рефераты по предмету Компьютеры, программирование

д к работе этой системы с множеством дикторов описан в [l59]. Работа с новыми дикторами реализована за счет использования автоматической селекции акустических эталонов, выполняющейся двумя различными способами.Один из методов, в основе которого лежит процедура Витерби С 39], реализован с помощью сантисекундного акустического процессора TPIVIAI [l07], а другой, основанный на алгоритме кластеризации, использует акустический процессор autociust. (В первом методе использовалось 85 эталонов, во втором - 20D.) Точность распознавания слов составила при использовании первого алгоритма 65%, а второго - 90%. В 1983 г. была публикация одной фирмы о распознавании словаря деловой переписки общим объемом 5000 слов.

Над проблемами распознавания слитной речи продолжает работать фирма Sperry Univas, участвовавшая в проекте АЙРА. Эта

24

фирма разработала с"стему автоматического распозньвания слов,словосочетаний и естественных предложений {l74] . На основе спектрального анализа и линейного предсказания в спектральной об-дасти звуки классифицировались по способу и месту образования. Система была испытана на словаре из 31 слова двумя дикторами. Точность распознавания изолированных слов при использовании синтаксиса задачи составила 95%. Предварительные результаты по распознаванию слитной последовательности слов, произносимые тремя дикторами, составили от 54 до 74% для задачи с ограничечным порядком следования слов. Предполагалось, что в дальнейшем будут использованы акустико-фонетичзские и фонологические правила, нормализация дикторских произношений, просодические характеристики речи. Предполагалось также, что будут использованы более сложные процедуры для синтаксического и семантического анализа. В 1977 г. система работала с двумя словарями - из 36 (алфавит-но-цифровой словарь) и 64 слов (словарь речевого управления) [123, 153] . Для обоих словарей точность распознавания составила 95^, а средней точности распознавания слитялс словосочетаний - 88%.Дальнейшие разработки включали расширение словарного состава системы, числа типов предложений, использование правил фонетической и словесной верификации.

В [l54] сообщается, что система Sperry Univac. была модернизирована для поиска и верификации ключевых слов в потоке слитной речи. В этой системе использовались измеряемые на деся-тимиллисекундных интервалах параметры речевого сигнала, проведшего через телефонный канал. Исследователями был выбран достаточно мощный набор параметров- Непосредственно по речевой волне определилась частота основного тона. Спектральный анализ с помощью быстрого преобраэозания Фурье (БПД) позволял получить следующие признаки речевых отрезков: общую энергию в полосе 100 -8600 Гц, энергию сонорных (100 - 3000 Гц), высокочастотную энергию сонорных (650 - 3000 Гц), низкочастотную энергию (JOO - 600 Гц), разность энергий низких и высоких частот <100 - 900 Гц) - (3000 - 3600 Гц), частоту максимума спектральной амплитуды в полосе 100 - 3600 Гц, спектральную производную на этой частоте и энергии в 15 полосах частот телефонного канала. Кроме того, линейное предсказание в спектрадьной области давило возможность получить и использовать коэффициенты линейного предсказания и частоты первой и третьей формант.

Система содержит компоненты просодического и фонетического анализа, которые обеспечивают последующее сегментное структурирование высказывания (получение цепочки кваэифонетическюс сегментов)

Зак.480 26

для лексического сравнения. Сравнение осуществляется с помощью блоков словесного гипотезирования и верификации. Верификация слов производится методом динамического программирования. При построении системы обнаружения ключевых слов была использована обучающая выборка - разговорная речь, продолжительностью 13 мин. Предложения произносили 8 дикторов. Контрольная выборка составляла II мин разговорной речи 10 дикторов (из которых двое участвовали в обучении).

При контрольном эксперименте точность обнаружения 10 ключевых слов была невысока, но все же испытания следует считать обнадеживающими. В [124] отмечается, что в течение 1978 г. отдел речевой связи Jperry nnivac работал над созданием более совершенного блока фонетического анализа, который фактически стал лексически-управляемым фонетическим верификатором (а не автономным фонетическим анализатором, как раньше ),что лучше учитывает коартакуля-циокные эффекты внутри слова. Модернизация счстемы позволила [I55J получить более удовлетворительные результаты по обнаружению и верификации ключевых слов в потоке слитной речи. На тестовых предложениях (16,7 мин разговорной речи 14 дикторов, не принимавших участия в обучении системы) ключевые слова были обнаружены в 30% случаев.

В [l87] описана система распознавания слитно произносимых цифр, разработанная фирмой Bell laboratories. Систэма состоит из двух взаимодействующих блоков. Первый осуществляет пословную сегментацию всего высказывания на отдельные цифры, а второй производит распознавание этих цифр по результатам сегментации. При распознавании использовались признаки сеп/^нтов речевого сигнала:

р - параметр, логарифм анергии, кооффициенты линейного предсказания и ошибка предсказания .и коэффициента автокорреляции.Для пословной сегментации слитных словосочетаний учитывалось то обстоятельство, что для этого конкретного словаря (английские названия цифр) шумные участки и паузы (глухие смычки) могли находиться только в начале или конце слов. &ти