Обработка речевых сигналов
Дипломная работа - Компьютеры, программирование
Другие дипломы по предмету Компьютеры, программирование
регистрированные в системе пользователи;
статистическая информация;
словарь;
инженерные системы.
Фрагмент логического представления БД представлен в Приложении Б.
.3 Описание работы системы распознавание речи
При запуске программа запрашивает, какое действие хочет выполнить пользователь. При выборе необходимой подпрограммы она запускается и работает отдельно от остальных подсистем.
Возможные варианты действий:
) Регистрация пользователя - проверяется, есть ли этот пользователь в системе, если есть, то предыдущая запись удаляется при сохранении параметров пользователя.
) Удаление пользователей - от пользователя требуется выбрать нужную запись и программа удалит его.
) Просмотр статистики - от пользователя требуется выбрать необходимый ему тип статистики, который можно будет просмотреть, экспортировать в Excel или распечатать.
) Войти в систему - пользователь должен ввести свое имя и ключевое слово (Приложение Г). Если в системе есть пользователь с таким именем, система его авторизует и перед пользователём откроется окно с инженерными системами (Приложение Д), где он может выбрать интересующую его систему и ввести соответствующие для её команды.
Главное окно программы представлено в приложении В.
.4 Описание видов обеспечений
.4.1 Описание математического обеспечения
Элементами математического обеспечения являются математические модели объекта проектирования, методы численного решения математических моделей, алгоритмы расчетов и методов оптимизации.
Оптимизация заключается в ускорении сравнивания двух образцов голоса, на основе чего должно быть вынесено решение о принадлежности голоса пользователю. Также требуется настроить систему сравнивания с учетом имеющегося оборудования, с помощью чего, при наличии звуковой подсистемы с низкой потерей качества при записи среднего и профессионального уровня, можно повысить качество сравнивания, чтобы вероятность принятия неправильного решения был минимальным. Так же при наличии современного процессора, например выбранный мной для проектируемой подсистемы распознавания речи Pentium 4 3Гц, можно увеличить ширину спектрального преобразования в 2 раза, что соответственно повысит качество распознавания.
Рассмотрим основные элементы системы распознавания речи (структурная схема представлена в приложении А):
Необработанная речь;
Анализ сигнала;
Речевые кадры;
Акустические модели;
Акустический анализ;
Последовательность слов.
) Необработанная речь. Обычно, поток звуковых данных, записанный с высокой дискретизацией (20 КГц при записи с микрофона либо 8 КГц при записи с телефонной линии).
Рисунок 4.1 - Необработанная речь
) Анализ сигнала. Поступающий сигнал должен быть изначально трансформирован и сжат, для облегчения последующей обработки. Есть различные методы для извлечения полезных параметров и сжатия исходных данных в десятки раз без потери полезной информации. Наиболее используемые методы:
анализ Фурье;
линейное предсказание речи;
кепстральный анализ.
Рисунок 4.2 - Анализ сигнала
) Речевые кадры. Результатом анализа сигнала является последовательность речевых кадров. Обычно, каждый речевой кадр - это результат анализа сигнала на небольшом отрезке времени (порядка 10 мс.), содержащий информацию об этом участке (порядка 20 коэффициентов). Для улучшения качества распознавания, в кадры может быть добавлена информация о первой или второй производной значений их коэффициентов для описания динамики изменения речи.
Рисунок 4.3 - Речевые кадры
) Акустические модели. Для анализа состава речевых кадров требуется набор акустических моделей. Рассмотрим две наиболее распространенные из них:
Шаблонная модель. В качестве акустической модели выступает каким-либо образом сохраненный пример распознаваемой структурной единицы (слова, команды). Вариативность распознавания такой моделью достигается путем сохранения различных вариантов произношения одного и того же элемента (множество дикторов много раз повторяют одну и ту же команду). Используется, в основном, для распознавания слов как единого целого (командные системы).
Модель состояний. Каждое слово моделируется как последовательность состояний указывающих набор звуков, которые возможно услышать в данном участке слова, основываясь на вероятностных правилах. Этот подход используется в более масштабных системах.
) Акустический анализ. Состоит в сопоставлении различных акустических моделей к каждому кадру речи и выдает матрицу сопоставления последовательности кадров и множества акустических моделей. Для шаблонной модели, эта матрица представляет собой Евклидово расстояние между шаблонным и распознаваемым кадром (т.е. вычисляется, как сильно отличается полученный сигнал от записанного шаблона и находится шаблон, который больше всего подходит полученному сигналу). Для моделей, основанных на состоянии, матрица состоит из вероятностей того, что данное состояние может сгенерировать данный кадр.
Корректировка времени. Используется для обработки временной вариативности, возникающей при произношении слов (например, растягивание или съедание звуков).
Рисунок 4.4 - Акустический анализ
6) Последовательность слов. В результате работы, система распознавания речи выдает последовательность (или несколь