Разработка биотехнической системы для распознавания фонем русской речи по изображениям губ
Дипломная работа - Компьютеры, программирование
Другие дипломы по предмету Компьютеры, программирование
?ных зависимость подтвердилась, и решено разработать алгоритм для автоматического определения необходимых фонем в словах.
Вновь снята база данных с чтением этого текста несколькими людьми. И каждое сочетание фонем произнесено отдельно каждым участником по 3 раза для получения эталона.
Обработанная база данных дала нам эталон по параметрам артикуляции на каждую из визем, что позволило провести исследование по их корреляции. Исследование заключалось в поиске отклика одной виземы на все остальные. Результаты исследования были занесены в таблицу, после которой были сделаны выводы.
Необходимо внести поправку на то, что под наименованиями сигналов со звонкими согласными подразумеваются еще и сигналы с глухими согласными. Коррелирующие с ними более чем на 90% процентов. Соответственно, сигналы с согласной м произнесены по 3 раза, а оставшиеся сигналы по 6 раз (3 раза со звонкими и по 3 раза с глухими).
Сигналы, выделенные последними - коррелируют менее 15 % и их можно не учитывать.
Ячейки, выделенные голубым цветом, говорят о том, что данные сигналы коррелируют больше чем основные сигналы. По проведенному анализу можно сказать о том, что это ошибка.
Проведенные исследования по корреляции опорныхвизем дали следующие результаты:
)85 % исследуемыхвизем обнаруживаются по корреляции с самими с собой.
Данный результат можно улучшить путем увеличения количества рассматриваемых параметров артикуляции, а так же улучшения алгоритма выделения внутренней области губ и ее аппроксимации.
2)15% исследуемых визем дают ложные отклики по корреляции с другими виземами в пределах 30-50%.
После проведенного анализа этого результата можно сказать, что ложные отклики получены потому что эти виземы визуально очень схожи и соответственно полученные параметры артикуляции имеют близкие значения.
5.
5. Разработка биотехнической системы
.1 Качество изображения
В процессе формирования изображения выделяются три звена, характеристиками которых определяется качество изображения:
1.Ансамбль регистрируемых объектов (сюжет).
2.Система регистрации изображения.
.Процесс апостериорной обработки изображения.
В таблице 9 представлены основные факторы каждого звена, влияющие на качество изображения и соответствующие характеристики изображения лица.
Таблица 9 - Качество изображения лица
ЗвеноФакторыХарактеристики изображенияАнсамбль регистрируемых объектовПоложение головы Позиционирование лица Фон (цвет, тени на фоне, однородность) Освещение (яркость, направленность, характер освещения) Артефакты (очки, повязки)Неравномерность освещенности лица Геометрические размеры лица Цвет фона Неоднородность фона Положение головы (наклоны, повороты, отклонения)Система регистрации изображенияЭкспозиция Фокусировка и глубина резкости Воспроизведение исходных цветов АберрацииДинамический диапазон интенсивности Цветовая насыщенность Цветовое пространство Разрешение изображения Контраст изображенияПроцесс апостериорной обработки изображенияФормат сжатия изображенияКоэффициент сжатия
Удовлетворительное качество изображения по ансамблю регистрируемых объектов обеспечиваются требованиями к условиям регистрации изображения лица, по системе регистрации изображения и процессу апостериорной обработки изображения - требованиями к характеристикам изображения.
5.2 Требования к условиям регистрации изображения
Условия регистрации в значительной степени обуславливают исход автоматической обработки. Требования к ним могут быть проконтролированы только в конкретных условиях эксплуатации системы.
Лицо должно быть равномерно освещено. Не допускается наличия преимущественного направления освещения Область лица от макушки до основания подбородка и от уха до уха должна быть четко видна и не должна содержать теней. Допускается наличие на голове вуали, шарфа или головного убора, если они не могут быть сняты по религиозным убеждениям, однако, при этом они не должны закрывать никаких особенностей лица и не должны создавать теней на лице. Во всех остальных случаях покрытие головы должно отсутствовать.
Не допускается наличие темных теней от бровей в глазных впадинах. Радужные оболочки и зрачки глаз должны быть четко видны.
5.2.1 Требования к геометрическим размерам лица на изображении
Требования к геометрическим размерам лица на изображении определяются исходя из необходимого минимального размера определяемых элементов. В случае разрабатываемой системы точность расстановки контрольных точек должна позволять фиксировать минимальные изменения движения губ. Амплитуда минимальных движений губ составляет от 10% до 20% высоты контура губ. По статистическим данным диапазон значений ширины контура губ составляет от 35 до 65 мм, высоты губ от 1 до 5 см. Средняя высота контура губ равна 25 мм, поэтому размеры высоты контура губ на изображении должны позволять регистрировать артикуляционные движения с амплитудой минимум 2,5 мм.
По теореме Котельникова, для того, чтобы можно было различить элемент, необходимо минимум два отсчета. Таким образом, шаг дискретизации по осям изображения равен:
29)
Пространственная частота дискретизации равна:
30)
В пределах нормы диапазон значений ширины контура губ составляет до 65 мм, высоты губ 5 см. Возьмем коэффициент запаса k=1,25, тогда размеры области, к