Разработка биотехнической системы для распознавания фонем русской речи по изображениям губ

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование



?ок 3 - Виземы групп согласных фонем [Ошибка!Источник ссылки не найден.]

Наиболее яркие различия в виземах связаны с изображениями губ говорящего (Рисунок 414). При этом проявляются три характерных координаты движения губ:

-степень растягивания - координата X (наибольшее значение у гласной И),

-степень раскрытия - координата Y (наибольшее значение у гласной А),

-степень выпячивания - координата Z (наибольшее значение у гласной У).

Рисунок 41 - Изображение губ, характерное для гласных фонем [Ошибка!Источник ссылки не найден.]

3.

3. Перечень фонем русской речи

.1 Классификация звуков русского языка

Минимальная единица звукового строя языка называется фонемой. В русском языке имеется 42 фонемы: 6 гласных (а, и, о, у, ы, э) и 36 согласных (б, б, в, в, г, г, д, д, ж, з, з, э(й), к, к, л, л, м, м, н, н, п, п, р, р, с, с, т, т, ф, ф, х, х, ц, ч, ш, щ).

Классификация звуков по отсутствию или наличию преграды в ротовой полости:

гласные - [а], [э], [и], [ы], [о], [у];

согласные - все остальные.

Классификация звуков по участию в артикуляции мягкого нёба:

носовые - [м], [м], [н], [н];

ротовые - все остальные.

Классификация звуков по работе голосовых складок:

гласные - [а], [э], [и], [ы], [о], [у];

сонорные (в образовании звука практически не участвует шум, они не имеют пары среди глухих согласных, т.е. являются непарными по глухости/звонкости) - [й], [м], [м], [н], [н], [л], [л], [р], [р];

звонкие (в образовании звука участвуют голосовые связки) - [в], [в], [з], [з], [ж], [б], [б], [д], [д], [г], [г];

глухие (в образовании звука не участвуют голосовые связки) - [ф], [ф], [с], [с], [ш], [п], [п], [т], [т], [к], [к], [х], [х], [ч], [щ].

Классификация согласных звуков по степени напряжения средней части спинки языка:

мягкие (качество согласных, обусловленное наличием дополнительной средненёбной (йотовой) артикуляции, которая соединяется с основной артикуляцией согласных, что резко повышает характерный тон и шум) - [й], [щ], [ч], [т], [д], [н], [б], [в], [г], [с], [р];

твёрдые - [ш], [ж], [ц], [т], [д], [н], [б], [в], [г], [с], [р].

Классификация гласных звуков по степени подъёма языка в ротовой полости:

верхний подъём - [и], [ы], [у];

средний подъём - [э], [о];

нижний подъём- [а].

Классификация гласных звуков по участию в артикуляции разных частей языка:

гласные переднего ряда - [и], [э];

гласные среднего ряда - [ы], [а];

гласные заднего ряда - [у], [о].

Классификация гласных звуков с учётом лабиализации:

лабиализованные (артикуляция звуков, при которой губы вытягиваются вперед и принимают форму круглого отверстия (колечка); при этом увеличивается передняя часть резонатора, что понижает резонаторный тон (лабиализованные гласные ниже нелабиализованных)) - [о], [у];

нелабиализованные - [и], [э], [ы], [а].

Таблица 1 - Сводная таблица классификации согласных звуков русского языка по способу и месту образования.

Способ образования ->Щелевые (фрикативные)СмычныеМесто образованиявзрывныеаффрикатыносовыебоковыедрожащиегубныегубно-губные[б]-[б], [п]-[п][м]-[м]губно-зубные[в]-[в], [ф]-[ф]язычныеПереднее-язычныезубные[з]-[з], [с]-[с][д]-[д], [т]-[т][ц][н]-[н][л]-[л]передненебные[ж], [ш], [щ][ч][р]-[р]среднеязычные[j]заднеязычные[х]-[х][г]-[г], [к]-[к]

3.2 Особенности визуализации произносимых фонем

Реализация фонемы, обусловленная конкретным фонетическим окружением, называется аллофоном. Последовательность из двух аллофонов называется дифоном.

Однако, как показали исследования, между произнесенной фонемой и ее визуальным отображением нет однозначного соответствия. Визуальное отображение фонемы называется виземой (состояние губ, соответствующее фонемам устной речи).

Если рассматривать задачу чтения речи по губам человеком (в частности, людьми с проблемами слуха), то, по мнению Мироновой Э.В. (к.п.н., педагог Института коррекционной педагогики РАО), заметно для глаза произнесение только двенадцати фонем, которым соответствуют шесть визем:

А - губы не напряжены, рот раскрывается довольно широко;

О - губы округляются, ротовое отверстие меньше, чем при А;

У - губы вытягиваются трубочкой, ротовое отверстие маленькое, круглое;

П, Б, М - губы смыкаются и затем размыкаются;

Ф, В - нижняя губа приближается к верхним зубам;

Ш, Ж, Ч, Щ - губы округляются и раскрываются рупором.

При исследовании вопроса фонемного и виземного состава русского языка для задачи мультимодального распознавания речи Карпов А.А. и др. признали оптимальным по критерию точности набор из 10 визем (включая паузу) (Таблица 2).

Таблица 22 - Соответствие фонем и визем при мультимодальном распознавании речи.

ВиземыФонемыВиземыФонемыВиземыФонемыaа, а!, е, е!vф, ф, в, вtт, т, д, д, н, н, к, к, г, гiи, и!, ы, ы!zз, з, с, с, ц, чlл, л, р, рoо!, у, у!pм, м, б, б, п, пjж, щ, х, х, ш, й

Для задачи аудиовизуального синтеза речи Карповым А.А. и др. был выбран необходимый и достаточный набор визем русской речи, представленный в

Таблица 313. Индексы при гласных в таблице указывают на степень их позиционной редукции: 0 - полноударная гласная, 1 - частично ударная, 2 - предударная, 3 - заударная. Символ после согласной обозначает её мягкость.

Таблица 31 - Соответствие фонема-визема для аудиовизуального синтеза речи

ВиземаАллофоны фонемВиземаАллофоны фонемV1А0, А1V8Б, П, МV2Е0, Е1V9Ф, ВV3И0, И1, И2, И3V10Ф, ВV4О0, О1V11Ц, С, З, Ш, Ж, Д, Т, Л, Р, НV5У0, У1, У2, У3V12С, З, Ч, Ш, Д, Т, Л, Р, НV6Ы0, Ы1, Ы2, Ы3, А2, А3, Е2, Е3, паузаV13Г, К, ХV7Б, П,