Обработка речевых сигналов

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование

±у взаимодействия между собой разрабатываемой информационной системы и пользователя, работающего с данной информационной системой.

 

1.4.2 Выбор операционной системы

Операционная система - это комплекс программных средств, обеспечивающих взаимодействие устройств компьютера между собой и с пользователем, а так же обеспечивающих связь одного компьютера с другим по электронной сети. В начале необходимо определить, под управлением какой операционной системы будет функционировать создаваемая информационная система.

По требованию заказчика информационная система должна функционировать под управлением операционной системы Windows XP, установленной на имеющимся ПК заказчика и зарекомендовавшей себя как вполне надежная и стабильная система. Заказчик обладает лицензионной версией данной ОС, поэтому разработка и внедрение информационной системы не потребует дополнительного вложения средств в приобретение программного обеспечения.

Руководствуясь вышеперечисленными требованиями технического задания, можно сделать вывод, что операционная система Windows XP вполне удовлетворяет условиям создания информационной системы и не противоречит требованиям заказчика.

1.4.3 Техническое описание работы системы распознавания голосовых команд

Библиотека распознавания голосовых команд составляет ядро системы голосового управления. С ее помощью разработчики могут добавить голосовое управление в создаваемые ими приложения.

Разработка собственных средств голосового управления требует специальных знаний. Она может отнять у разработчиков приложений немало времени и сил. Однако воспользовавшись библиотекой распознания голосовых команд, разработчики могут легко добавить в приложения следующие функциональные возможности:

- управление оборудованием с помощью голоса;

выполнение речевых запросов к базам данных через микрофон или даже по телефону;

поиск по ключевым словам в звуковых файлах

Следует отметить, что библиотека позволяет встраивать голосовые функции не только в обычные программы для персональных компьютеров, но и в автономные устройства, оборудованные цифровыми сигнальными процессорами DSP.

Алгоритмы, реализованные в библиотеке распознавания голосовых команд, обладают высоким быстродействием, нетребовательны к объему оперативной памяти и способны адаптироваться к шумам.

Библиотека обеспечивает распознавание команд, произнесенных любым голосом и на любом языке. При этом имеется возможность структурирования для практически неограниченного словаря.

При этом алгоритмы позволяют распознавать 100-200 команд с предварительным обучением для каждого диктора, и 30-50 команд для любого диктора (в режиме, не зависимом от диктора). Если команды произносятся по телефону, то алгоритмы библиотеки позволяют распознать 10-20 слов, произнесенных любым диктором.

Ну и, конечно, в библиотеке реализована возможность активации распознавания команд по ключевому слову, исключающая неожиданные реакции системы на посторонние звуки.

 

2 Обзорный анализ технических средств и методов

 

2.1 Технические средства формирования аудиоданных

 

Для обработки голоса необходимо предварительно записать его в оперативную память компьютера или на машинный носитель. Как было сказано выше, большинство персональных компьютеров уже оснащены оборудованием, необходимым для ввода и вывода звука. Это микрофон и звуковая плата. В общем виде процесс ввода речевых сообщений приведен на рисунке 2.1.

 

Рисунок 2.1 - Схема ввода речевых сообщений в ЭВМ

 

Речевой сигнал формируется и передается в пространстве в виде звуковых волн. Источником речевого сигнала служит речеобразующий тракт, который возбуждает звуковые волны в упругой воздушной среде. Приемником сигнала является датчик звуковых колебаний, микрофон - устройство для преобразования звуковых колебаний в электрические. Существует большое количество типов микрофонов (угольные, электродинамические, электростатические, пьезоэлектрические и др.) описанных в специальной литературе. Чувствительным элементом микрофона любого типа является упругая мембрана, которая вовлекается в колебательный процесс под воздействием звуковых волн. Мембрана связана с преобразующим элементом, который преобразует колебания мембраны в электрический сигнал.

С выхода микрофона сигнал подается на вход звуковой карты персонального компьютера. При записи звуковая карта представляет собой аналого-цифровой преобразователь с широкими возможностями настройки параметров оцифровки. Основными параметрами является частота дискретизации и разрядность кодирования. Данные параметры определяют качество и размер выборки получаемой в результате записи. Причем размер и качество прямо пропорциональны, т.е. чем выше качество записи, тем больше ее размер.

Чтобы обеспечить компромисс между качеством и размером воспользуемся знаниями о свойствах человеческого голоса при выборе параметров аналого-цифрового преобразования.

Для выбора частоты дискретизации рассмотрим усредненную спектральную плотность мощности непрерывного речевого сигнала для мужского и женского голосов. Как следует из этой характеристики, усредненная спектральная плотность мощности имеет максимум в диапазоне 250-500Гц и затухает со скоростью, равной 8-10дБ на октаву (при удвоении частоты). Это приводит к тому, что на частотах выше 4000 Гц спектральная плотность падает до уровня 60 дБ,