Разработка биотехнической системы для распознавания фонем русской речи по изображениям губ

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование



В»инейных проекций:

Рисунок 18: Исследование 1-мерной поверхности. a) Поверхность к исследованию, b) Локальные участки и диапазон их функций влияния, с) Изученная поверхность.

артикуляция губа фонема русский

Данная первоначальная модель затем очищается для минимизации среднеквадратической ошибки между исследуемыми образцами и ближайшими точками поверхности при помощи EM оптимизации и падения градиента.

13.Искусственные Образцы

Чтобы увидеть, как работает данный подход, рассмотрим 200 образцов, полученных из одномерной кривой в двумерном пространстве (Рисунок 18а). 16 центров прототипов выбраны согласно К-means кластеризации. В каждом центре локальный анализ главных компонент проводится на ближайших 20 исследуемых образцах. На Рисунке 18b центры прототипа и две главные локальные компоненты показаны как прямые линии. В этом случае большая главная величина в несколько раз больше, чем другая. Поэтому система пытается построить одномерную исследуемую поверхность. Круги на Рисунке 18b показывают степень функций влияния Гаусса для каждого прототипа. На Рисунке 18с показаны результаты исследуемой поверхности. Она была создана путем случайного отбора 2000 точек. Соседних от поверхности, и проецирования их в соответствии с исследуемой моделью.

Рисунок 19 показывает тот же процесс, применяемый к исследованию двумерной поверхности, встроенной в три измерения.

Для количественной оценки эффективности этого алгоритма исследования мы изучили влияние различных параметров на изучение двумерной сферы в трех измерениях. Легко сравнить результаты исследования с корректными в данном случае. Рисунок 20а показывает то, как эмпирическая ошибка в запросе ближайшей точки уменьшается, как функция количества исследуемых образцов. Мы сравнили ее с ошибкой. Сделанной в алгоритме ближайшего соседа. С исследуемыми образцами наш подход выдает ошибку, которая составляет одну четвертую. На Рисунке 20b показано, как средний размер локального участка зависит от количества включенных ближайших соседей. Из-за того, что это двумерная поверхность, 2 большие величины хорошо отличны от третьей большей. Темпы роста главных величин используются для определения размерности поверхности при наличии шума.

Рисунок 19 - Исследование двумерной поверхности в трех измерениях. а) 1000 случайных образцов на поверхности. b) Две главные локальные компоненты в каждом из 100 центров прототипа, основанные на ближайших 25 соседях.

Рисунок 20 - Количественная оценка эффективности исследования двумерной сферы в трех измерениях. a) среднеквадратическая ошибка запросов ближайших точек как функция количества образцов для исследуемой поверхности против ближайшей исследуемой точки. b) корень из среднего квадрата трех главных величин как функция количества соседей, включенных в каждый локальный PCA.

14.Моделирование пространства губ

Мы используем эту технику как часть системы для чтения по губам. Для обеспечения возможности проведения виземной классификации (виземы являются визуальными аналогами фонем) мы хотели бы иметь систему с надежным отслеживанием формы губ диктора на видео изображениях. Она должна быть способна находить уголки губ и оценивать ограничивающие кривые при различных изображениях и условий освещения. Два подхода ктакого рода задач отслеживания являются змейками и деформируемые шаблоны. Оба подхода минимизируют энергетическую функцию, которая представляет из себя сумму внутренней энергии модели и энергии, затрачиваемой при сравнении с внешними признаками изображения.

Например, для использования метода змейки для отслеживания губ мы создадим внутреннюю энергию из первой и второй производных от координат вдоль змейки, отдавая предпочтение болеее гладкой змейке. Внешняя энергия формируется из оценки отрицательного градиента изображения вдоль змейки. На Рисунке 21а показана змейка, которая правильно очерчивает контур губ. Однако, эта энергетическая функция не совсем характерна для губ. Например, внутрення энергия делает змейку только контролируемой непрерывной сплайновой кривой. Змейки-губы иногда очерчивают нежелательные локальные минимумы, как это показано на Рисунке 21b. Модели, основанные на деформируемых шаблонах, позволяют исследователю сильнее ограничивать форму пространства (как парвило, с помощью закодирвоанных вручную квадратичных связующих полиномов), но тяжелы для использования при отображении мелкими зернами черт губ.

Наш подход заключается в использовании исследуемой поверхности, как описано выше, для построения модели пространства губ. Мы можем заменять внутреннюю энергию, приведенную вышы, величиной, вычисляемой из расстояния до исследуемой поверхности пространства черт губ.

Наш набор для исследования состоит из изображений диктора, произносящего случайные слова.Изображения для исследования изначально отмечены обычным алгоритмом змейки.

Рисунок 22 - Две главные оси локального участка пространства губ. a, b и с являются очертаниями вдоль первой главной оси, в то время, как d, e и f - вдоль третьей оси

Неверно выровненные змейки удаляются из базы данных вручную. Форма контура параметризуется по координатам x и y, 40 равномерно распределенных точек вдоль змейки. Все значения нормированы так, чтобы ширина губ равнялась 1. Следовательно, каждый контур губ является точкой в 80-мерном пространств