Разработка биотехнической системы для распознавания фонем русской речи по изображениям губ

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование

?ок 29Ошибка! Источник ссылки не найден.). Критерий выбора объектов - площадь выбранного объекта должна составлять как минимум десятую часть от площади максимального объекта. Если выделено более 1 объекта, происходит их слияние (рисунок 30) с целью дальнейшего выделения замкнутого внутреннего контура губ (рисунок 31).

Выделенный контур аппроксимируется эллипсом при помощи метода наименьших квадратов (рисунок 32). Метод наименьших квадратов - метод нахождения оптимальных параметров линейной регрессии, таких, что сумма квадратов ошибок (регрессионных остатков) минимальна. Метод заключается в минимизации евклидова расстояния |A?-y| между двумя векторами - вектором восстановленных значений зависимой переменной и вектором фактических значений зависимой переменной. Задача метода наименьших квадратов состоит в выборе вектора ?, минимизирующего ошибку S=|A?-y|І.

Полуоси вычисленного эллипса являются параметрами артикуляции.

Для настройки корректной работы алгоритма используются следующие параметры:

-порог бинаризации;

-коэффициенты вычисления разности цветовых компонент.

Порог бинаризации - число в диапазоне [0, 1], определяющее значения пикселей цветного изображения, которые будут переведены в 1 (белый) или в 0 (черный). Пример изменения порога бинаризации для одного изображения приведен на рисунке 33Ошибка! Источник ссылки не найден..

Рисунок 33 - Бинаризация изображения с разным порогом бинаризации

Совокупный результат работы алгоритма зависит от освещения области губ, поэтому для каждого видео порог бинаризации должен подбираться индивидуально.

При вычислении разности цветовых координат используется следующая формула:

где k - коэффициенты соответствующих цветовых компонент.

Алгоритм выделения и аппроксимации эллипсом внутреннего контура губ реализован в Matlab 2010b.

Для выбора оптимального набора коэффициентов проведены исследования на изображениях губ различного положения и качества:

1.Губы полностью сомкнуты;

.Кривая улыбка

.Губы приоткрыты (звук Э)

.Губы прикрыты

.Губы округлены (звук О)

.Губы округлены, изображение размытое

.Губы растянуты (звук И)

К каждому из указанных изображений применен алгоритм выделения внутренней области губ с разными значениями коэффициентов цветовых компонент при вычислении разности цветовых координат пространства HSV. Результат работы алгоритма визуально оценивался экспертом и выносилось решение о возможности применения данного набора коэффициентов при обработке изображения. Результаты экспертной оценки приведены в таблице 7.

Таблица 73 - Результаты работы алгоритма по выделению внутренней области губ с различными коэффициентами цветовых компонент.

ks kv0.10.20.30.40.50.60.70.80.910.10.22 50.32 5 6 72 520.42 3 4 6 72 550.51 2 3 4 72 4 5 6 750.61 2 3 72 6 74 5 6550.71 2 3 72 3 75 65 650.81 2 3 71 2 32 5 65 60.93 71 2 32 6131 2 3 7

В таблице 7 в заголовках столбцов указаны значения коэффициента ks , а в заголовках строк - значения коэффициента kv , используемых при выделении внутренней области губ. На пересечении соответстствующих значений коэффициентов проставлены номера изображений, для которых получены хорошие результаты по выделению внутренней области губ. Из таблицы видно, что наибольшее число хороших изображений получено при значении коэффициентов:s = 0,3kv = 0,4s = 0,4kv = 0,5s = 0,5kv = 0,5

Для корректной работы модуля выделения внутреннего контура губ рекомендуется устанавливать данные значения коэффициентов цветовых компонент.

4.6 Описание исследования распознавания фонем

Исследование распознавания фонем начались с поиска фонетически сбалансированного текста, наиболее подходящего для оценки возможности обнаружения фонем по выбранным нами параметрам артикуляции.

Критерии, по которым строится данный текст:

Полнота - присутствие всех фонем во всех контекстных вариантах.

Сбалансированность - учет частости встречаемости фонем (и их вариантов звучания) в естественной речи.

Кроме того, есть такие пожелания к тексту: смысловая связанность (хотя бы в пределах предложения); простота предложений; простота слов (как с точки зрения произношения, так и смысла); использование слов исключающих двоякое произношение и т.д.

Пример фонетически сбалансированных предложений:

Вместе с зимой и холодами к селянам пришли всякие беды.

Хиппи обычно называют людей, бросающих обществу вызов своей пассивностью и бездеятельностью.

Продавец должен учитывать не только экономические, но и психологические факторы цены.

Он многозначительно прижимал палец к губам.

Перед сдачей вещи в химчистку следует убедиться в том, что она не будет повреждена.

Дважды пытался он выбраться оттуда и стать на ноги, чтобы жить своим трудом.

Снято видео с чтением этого текста для дальнейшей обработки.

В последующей обработке полученных данных, после применения вышеописанного алгоритма к снятому видео, найдена зависимость для определенных групп фонем.

Для дальнейшего исследования составлен текст, в который входят слова, сочетающие в себе губные согласные фонемы и сочетания их с различными гласными фонемами.

Пример текста

бе(пе)- -еб(еп)-__бедро__зебра__персик__лепить

бо(по)- -об(оп)-__боль__польза__зоб__топот

бу(пу)- -уб(уп)-__буква__пуфик__зуб__покупка

ба(па)- -аб(ап)-__бавария__спать__забор__капкан

би(пи)- -иб(ип)-__забить__шпик__ошибка__липа

Снята база данных с чтением этого текста. После анализа вновь полученных да?/p>