Разработка биотехнической системы для распознавания фонем русской речи по изображениям губ

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование



Вµ губ. Очертания губ, которые фактически лежат на поверхности более низкой размерности, встроены в это пространство. Наши эксперименты показали, что 5-мерная поверхность в 80-мерном пространстве губ достаточна для описания контуров с одним пикселем соответствия на изображении. На Рисунке 22 представлены некоторые модели губ по двум главным осям в локальной окрестности одного из участков. Система распознавания губ использует эту исследуемую поверхность для улучшения эффективности отслеживания для новых последовательностей изображений.

Алгоритм отслеживания начинается с грубой предварительной оценки позиции и размера губ. Он выбирает ближайшую модель на поверхности губ и отображает соответствующий контур с измененными размерами обратно на предполагаемую позицию изображения (Рисунок 23а). Внешняя энергия изображения считается совокупной величиной градиента серого уровня по оценке вдоль текущего контура. Эта составляющая имеет наибольшее значение, когда кривая очерчивает именно границы губ. Мы проводим увеличение градиента в пространстве контура, но огарничиваем контур исследуемой поверхностью губ. Это достигается проецированием контура на поверхность губ после каждого этапа градиента. Поверхность тем самым выступает в роли аналога внутренней энергии в подходах змейки и деформируемых шаблонах. На Рисунке 23b представлен результат нескольких этапов, а на Рисунке 24с - окончательный контур. Градиент изображения оценивается при использвоании фильтра изображения, ширина которого постепенно уменьшается в ходе поиска.

Контуры губ в последовательностях изображений на видеоряде находятся, начиная с очерчиванного контура на предыдущем изображении и накладывая подъем градиента с измененными внешними энергиями изображения. Эмирически отслеживание поверхности более надежно, чем подходы без знания поверхности. Хотя мы описали подход в контексте поиска контура, он применим и в многих других задачах, и мы в настоящее время расширяем систему до модели более сложных аспектов изображения.

Полная система чтения по губам, которая сочетает в себе алгоритм отслеживания и гибридный связующий распознаватель речи (MLP/HMM), описана в (BreglerandKonig, 1994). Кроме того, мы будем использовать поверхность губ для интерполяции визуальных черт для сравнения их с слуховыми чертами более высокой скорости.

15.Выводы

В статье рассмотрена задача исследования поверхности из данных и описано несколько важнейших запросов, которые должна поддерживать изучаемая поверхность: завершение, ближайшая точка, интерполяция и прогнозирование. Мы описали алгоритм, который способен эффективно выполнить эти задачи и продемонстрировали это на исскуственных данных и на проблеме отслеживания губ в режиме реального времени.

4.4 Комплекс параметров артикуляции на основе контура внутренней области губ

Виземы можно описать совокупностью параметров артикуляции - геометрическими признаками губ (высота, ширина, площадь, периметр контура и т.д.).

Для автоматизации процесса вычисления комплекса параметров артикуляции выбран метод аппроксимации автоматически выделенной внутренней области губ эллипсом.

Для автоматического выделения параметров артикуляции выбран внутренний контур губ и следующие параметры:

.ширина внутреннего контура;

.высота внутреннего контура.

Полуоси аппроксимирующего эллипса являются шириной и высотой внутреннего контура губ. Данный набор параметров выбран в силу двух причин:

.Анализ зависимости между значениями параметров артикуляции в предыдущем исследовании показал, что существует значимая корреляция практически между всеми параметрами, кроме ширины и высоты контуров.

.Имея значения полуосей эллипса, можно при помощи математического аппарата вычислить все остальные параметры артикуляции.

4.5 Алгоритм выделения внутренней области губ и аппроксимации области эллипсом

Блок-схема разработанного алгоритма выделения внутренней области губ, ее аппроксимации эллипсом и вычисления параметров артикуляции представлена на рисунке 24.

Рисунок 243 - Блок-схема алгоритма выделения внутренней области губ, ее аппроксимации эллипсом и вычисления параметров артикуляции

Алгоритм выделения внутренней области губ основан на анализе цветового пространства. После выделения области интересов, в которой располагаются губы человека (рисунок 25), происходит преобразование из цветового пространства RGB в цветовую модель HSV (рисунок 26Ошибка!Источник ссылки не найден.).

Рисунок 265 - Изображение области губ в цветовой модели HSV

(англ.Hue, Saturation, Value - тон, насыщенность, значение) - цветовая модель, в которой координатами цвета являются:

-Hue - цветовой тон, (например, красный, зелёный или сине-голубой). Варьируется в пределах 0 - 360, однако иногда приводится к диапазону 0 - 100 или 0 - 1.

-Saturation - насыщенность. Варьируется в пределах 0 - 100 или 0 - 1. Чем больше этот параметр, тем чище цвет, поэтому этот параметр иногда называют чистотой цвета. А чем ближе этот параметр к нулю, тем ближе цвет к нейтральному серому.

-Value (значение цвета). Также задаётся в пределах 0 - 100 и 0 - 1.

Разность цветовых компонент S и V позволяет получить изображение, подходящее для выделения внутренней области губ (рисунок 27).

После бинаризации полученной разности (рисунок 28Ошибка! Источник ссылки не найден.) происходит выбор максимальных по площади объектов изображения (рису