Разработка биотехнической системы для распознавания фонем русской речи по изображениям губ

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование



Оглавление

1.Введение

.Распознавание речи по губам

.1Строение артикуляционного аппарата с точки зрения возможности распознавания речи по артикуляции.

.Перечень фонем русской речи

.1Классификация звуков русского языка

.2Особенности визуализации произносимых фонем.

.3Задача считывания речи с губ.

.Разработка алгоритма распознавания фонем русской речи

.1Обзор

.1.1Гибкие контурные модели

.1.2Представление контуров губ в виде векторов признаков

.1.3Исследование поверхности для применения к чтению по губам.

.2Комплекс параметров артикуляции на основе контура внутренней области губ

.3Алгоритм выделения внутренней области губ и аппроксимации области эллипсом

.4Описание исследования распознавания фонем

.Разработка биотехнической системы

.1Качество изображения

.2Требования к условиям регистрации изображения

.2.1Требования к геометрическим размерам лица на изображении

.2.2Требования к положению головы

.3Требования к характеристикам изображения лица

.3.1Требования к контрасту изображения

.3.2Требования к разрешению изображения

.3.3Требования к частоте кадров видеоизображения

.4Разработка структурно-функциональной схемы системы и схемы БТС. Формирование требований к подсистемам

.5Реализация модуля распознавания фонем русской речи по изображениям губ

.Список использованной литературы

1

1.Введение

Развитие компьютерной техники ведет к усовершенствованию интерфейсов между человеком и компьютером. Один из важнейших способов человеческой коммуникации - речь, поэтому надежный ввод речевой информации является важным направлением усовершенствования человеко-машинных интерфейсов. Существующие системы распознавания речи, основанные на звуке, недостаточно надежны, так как их точность резко ухудшается при искажении звуковой информации шумами различной природы, например, в аэропортах, метро. При некоторых болезнях речевого аппарата, когда пропадает голос. Кроме того, при наличии нескольких говорящих система распознавания речи сталкивается с проблемой идентификации говорящего в данный момент. Поэтому целесообразно одновременное использование видеоинформации, то есть чтения по губам, что также является важной частью человеческого восприятия речи. Разрабатываемая мультимодальная система распознавания речи так же может активно использоваться для решения экспертно-криминалистических задач, таких как сопоставление видеоизображения и аудио-сигнала, что достаточно часто необходимо при получении достоверной информации. И в случаях отсутствия приемника аудио-сигнала в системах видеонаблюдения. Создание системы распознающей все виземы русской речи является актуальной задачей. В рамках данной работы предполагается разработать систему распознавания визем по видеоизображению, в первую очередь используемых слабослышащими при чтении по губам. Целью квалификационной работы является разработка биотехнической системы для распознавания фонем русской речи по изображениям губ.

Для этого необходимо реализовать следующие задачи:

-Определить характерные особенности фонем русского языка;

-Разработать алгоритм вычисления параметров артикуляции;

-Провести исследование по распознаванию фонем.

2.Распознавание речи по губам

2.1 Строение артикуляционного аппарата с точки зрения возможности распознавания речи по артикуляции

Для исследования возможности распознавания речи по артикуляции рассмотрим строение речевого аппарата с точки зрения данной задачи.

Артикуляционный аппарат или речевой тракт человека содержит три основных компонента, обеспечивающих образование членораздельной речи:

-дыхательные органы, работа которых во время речепроизводства создает необходимые аэродинамические условия;

-гортань и голосовые связки, поведение которых определяет характер произносимого звука (гласный, сонант, звонкий согласный, глухой согласный) и мелодику высказывания в целом;

-надгортанные полости - полость глотки, ротовая полость, полость носа.

При описании артикуляции самое большое внимание обычно уделяют конфигурациям надгортанных полостей. Именно движения в этой части речевого тракта и называют артикуляторными.

Рисунок 1 - Речевой тракт человека

С точки зрения речеобразования, каждый звук может быть описан уникальной комбинацией нескольких основных состояний артикуляционной системы - параметрами артикуляции:

-Наличие или отсутствие вокализованности (работы голосовых связок);

-Положение языка;

-Параметры раскрытия рта (ширина, высота);

-Округление и вытянутость губ.

При решении задачи - создание системы распознавания русской речи по артикуляции, необходимо учитывать только видимые параметры артикуляции.

Как показали исследования, для русской речи практически полностью скрытой остаётся динамика движения тела, кончика и боковинок языка, нёбной занавески, голосовых связок. Обозрению доступны лишь движения губ и нижней челюсти. Наиболее чётко они проявляются при образовании гласных (Рисунок 2), а также губных согласных (Рисунок 3). Не столь сильное различие, однако, достаточно заметное, наблюдается между твёрдыми и мягкими согласными, а также между заднеязычными и другими негубными согласными (Рисунок 3).

Рисунок 2- Виземы гласных фонем [Ошибка!Источник ссылки не найден.]

Рису