Системантика
Вид материала | Монография |
Содержание2. Анализ и синтез речи |
2. Анализ и синтез речи
Непосредственное оперативное человеко-машинное взаимодействие связано с вводом в ЭВМ и выводом речевых сигналов. Для этой цели применяются речевые дисплеи. Речевой дисплей – это внешнее устройство ЭВМ, дающее возможность речевого взаимодействия человека и машины на естественном языке.
Речевой способ общения, по сравнению с общением в форме печатного текста, имеет ряд преимуществ, основными из которых являются следующие:
превращение ЭВМ в говорящую и воспринимающую речь систему;
обеспечение естественности общения и разгрузки зрительного канала;
устранение ручных манипуляций и увеличение скорости ввода;
открытие возможности свободного перемещения пользователя в пространстве при общении с системой.
Указанные возможности повышают эффективность использования ЭВМ и делают машину доступной самому широкому кругу пользователей.
К настоящему времени достаточно четко представлены четыре поколения систем речевого общения, базирующиеся:
1) на раздельно произносимых словах при объемах словаря порядка 10–100 слов;
2) на слитно произносимых словах (словари порядка нескольких сотен слов);
3) на слитно произносимых фразах (словари несколько тысяч слов);
4) на понимании слитной речи произвольного содержания.
По системам 1-го поколения основные научные проблемы решены, и ведутся их серийное производство, внедрение и эксплуатация аппаратурно-программных средств научного назначения.
По системам 2-го поколения центральной проблемой является проблема хорошей разборчивости и естественности речи. Второе поколение связано с системами общения в форме текста, осуществляющими обработку информации на синтаксическом и семантическом уровнях.
По системам 3-го поколения ведутся научные поиски, поскольку есть проблема: нерасчлененность акустического сигнала на слова заставляет вести многовариантный параметрический и семантический анализ речи на всех уровнях.
По системам 4-го поколения ведутся теоретические исследования. Построение систем распознавания речи базируется на моделировании работы органов речи и слуха человека.
Речевой дисплей включает анализатор речи, синтезатор речи и устройство сопряжения.
Анализатор речи представляет собой устройство автоматического распознавания речевых сигналов и их кодирование для ввода в ЭВМ. По функциональному назначению устройство делится на два блока: анализатор и классификатор (рис. 83). Анализатор предназначен для выделения фонетических признаков речевых сигналов, описывающих произнесенную команду. В классификаторе осуществляется сравнение эталонов, записанных в процессе обучения, с распознаваемой командой. Задачей анализатора речи является воссоздание совместимости функционалов по принимаемому акустическому сигналу.
Рис. 83. Модель анализатора речи
Синтезатор речи представляет собой устройство автоматического синтеза устной речи непосредственно по тексту, чем достигается возможность вывода информации из ЭВМ. Синтез речи осуществляется на основе моделирования процессов речевого выражения.
По функциональному назначению устройство делится на четыре блока:
- блок преобразования текста;
- блок моделирования интонационных процессов речевого общения;
- блок артикуляционных процессов речевого общения;
- блок акустических процессов речевого общения.
Текстовая информация от источника (ЭВМ) вводится отдельными предложениями, фразами в буферное запоминающее устройство. На основе анализа поступившего текста автоматически генерируются электрические сигналы интонации и сигналы, имитирующие артикуляционные изменения. По полученным сигналам рассчитываются акустические характеристики речевого тракта, на выходе которого формируется синтезированный речевой сигнал (рис. 84).
Рис. 84. Модель синтезатора речи
Источник потока воздуха (блок 1) создает несущее колебание через генератор шумовых звуков (блок 2), имитирующий пропускание потока воздуха через заторможенные голосовые связки. Пропускание потока воздуха через генератор тональных колебаний имитирует работу голосовых связок в расторможенном состоянии. Совокупность резонансных цепей (блок 4) представляет собой эквивалент резонансных полостей органов речевого выражения. В блоке 5 формируется суммарный акустический сигнал, а элемент 6 осуществляет переключение тональных и шумовых звуков.
Функционалы Fri представляют собой управляющие сигналы, поступающие из генератора текста.
Модель синтезатора представляет собой электрический аналог акустического тракта, а также системы функционалов адекватно отражающих работу органов речевого выражения.
Система речевого общения состоит из следующих основных блоков (рис. 85):
1) выделение из исходного сообщения признаков, используемых для распознавания речи;
2) преобразование исходного сообщения в последовательность фонем на основе выделенных признаков;
3) сегментация последовательности фонем (выделение слов);
4) анализ и синтез текста;
5) преобразование текста ответа в последовательность фонем.
Рис. 85. Система речевого общения