Разработка биотехнической системы для распознавания фонем русской речи по изображениям губ
Дипломная работа - Компьютеры, программирование
Другие дипломы по предмету Компьютеры, программирование
МV14Г, К, Х, Й
При изучении асинхронности произношения звука и его отображения, Карпов А.А. выделяет набор из 18 визем (Таблица 4).
Таблица 4 - Набор визем, выделяемый при исследовании асинхронности произношения и визуального отображения звука
Из приведенных примеров видно, что для различных задач выделяются разные группы визем. При разработке визем необходимо учитывать положение и движение артикуляторных органов, доступных обозрению
3.3 Задача считывания речи с губ
На основе литературных данных можно сформулировать основные проблемы, усложняющих задачу считывания речи с губ:
.Ограниченное и небольшое количество видимых звуков. На месте невидимого звука на губах заметна пауза в движениях;
.Видимые движения губ многозначны (одной виземе может соответствовать несколько фонем);
.Слова в речи слиты в группы и артикуляция не прекращается с окончанием каждого отдельного слова (проблема разделения слов);
.Ударные и безударные слоги (артикуляция ударных гласных значительно по размерам больше, чем артикуляция безударных);
.Фонемы различаются по длительности. Средняя длительность разных фонем колеблется, по данным Л. А. Варшавского и И.М. Литвака, от 20 до 260 мсек. Длительность гласных также значительно варьирует в зависимости от позиционных условий (от степени ударности). ВТаблица525 приведены значения относительной длительности аллофонов (в %) при изменении темпа речи, а также их абсолютная длительность в миллисекундах (мс) и в числе видеокадров (кд) (при скорости съемки 25 кд/сек).
Таблица 52 - Относительные (%) и абсолютные (мс, кд) длительности звуков при изменении темпа речи
Тип звуковых единицМедленный темп (%- мс - кд)Средний темп (%- мс - кд)Быстрый темп (% - мс - кд)Паузы250 - 650 - 16100 - 260 - 720 - 50 - 2Ударные гласные200 - 320 - 8100 - 160 - 450 - 80 - 2Предударные гласные200 - 160 - 4100 - 80 - 280 - 64 - 2Заударные гласные200 - 80 - 2100 - 40 - 180 - 20 - 1Сонанты140 - 110 - 3100 - 80 - 280 - 64 - 2Звонкиевзрывныеищелевые120 - 120 - 3100 - 100 - 380 - 80 - 2Глухие взрывные130 - 160 - 4100 - 120 - 385 - 100 - 3Глухиещелевые130 - 180 - 4100 - 140 - 485 - 120 - 3
.Следует учитывать явление коартикуляции гласных и согласных фонем. На визуальном уровне это явление проявляется в том, что в слогах типа согласная-гласная характерный артикуляционный уклад гласной фонемы устанавливается не только на самой гласной, но и на большей части согласного. При этом для различных комбинаций согласная-гласная проявление эффекта коартикуляции может быть различным. Для заднеязычных согласных - Х, Г, К - эффект коартикуляции проявляется в комбинации с любой из гласных, в то время как для остальных согласных - только в сочетании с губными гласными У и О.
При обучении слабослышащих или глухих людей искусству чтения по губам в первую очередь их обучают распознавать опорные виземы, т.е. виземы - хорошо различимые глазом при произношении. Выше было описано 6 визем, соответствующих 12 фонемам. И так как в речи мы редко произносим фонемы по отдельности, а чаще всего используем их в различных сочетаниях, то опорными для слабослышащих становятся сочетания таких фонем. В данной работе для исследования были выбраны сочетания фонем, которые распознаются легче всего, а конкретно различные сочетания губных фонем с гласными.
Таблица 6-Таблица опорныхвизем, выбранных для исследования
Губно-губныеГубно-зубныевзрывные-бе(пе)- -еб(еп)- -бо(по)- -об(оп)- -бу(пу)- -уб(уп)- -ба(па)- -аб(ап)- -би(пи)- -иб(ип)-щелевые-ве(фе)- -ев(еф -во(фо)- -ов(оф)- -ву(фу)- -ув(уф)- -ва(фа)- -ав(аф)- -ви(фи)- -ив(иф)- носовые-ме- -ем- -мо- -ом- -му- -ум- -ма- -ам- -ми- -им-
4.
4. Разработка алгоритма распознавания фонем русской речи
.1 Обзор
При разработке алгоритма распознавания фонем по изображению губ, нам предстоит столкнуться с рядом задач.
Задача выделения области губ на изображении.
Задача выделения внутреннего контура губ.
Проведем обзор алгоритмов выделения областей и контуров при обработке изображений.
4.2 Гибкие контурные модели
.2.1 Деформируемые модели
Это класс эффективных инструментов для решения различных задач обработки изображений и машинного зрения, таких как выделение краев, моделирование форм (как двумерных, так и трехмерных), сегментация, определение границ объекта. Деформируемые модели - широкий спектр эффективных методов решения задач распознавания образов. Наиболее общим образом деформируемую модель можно описать как объект, динамически меняющий форму под действием различных сил, называемых энергиями. Внутренняя энергия соответствует геометрической мере соответствия текущей формы модели некоторой идеальной форме объектов такого класса, а внешняя - мере точности распознавания. Обе меры соответствия комбинируются для получения общей меры. Набор параметров, оптимизирующий целевую функцию, описывает искомый деформированный шаблон. Значение целевой функции является мерой корректности распознавания. Общим недостатком семейства методов является сильная зависимость от инициализации.
Деформируемая модель (deformabletemplatemodel) представляет собой шаблон некоторой формы (для двумерного случая - открытая либо замкнутая кривая, для трехмерного - поверхность). Наложенный на изображение, шаблон деформируется под воздействием различных сил, внутренних (определенных для каждого конкретного шаблона) и внешних (определенных изображением, на которое наложен шаблон) - модель ме