Разработка биотехнической системы для распознавания фонем русской речи по изображениям губ
Дипломная работа - Компьютеры, программирование
Другие дипломы по предмету Компьютеры, программирование
?торая должна быть отражена на изображении, равны:
31)
Тогда, исходя из полученного значения пространственной частоты дискретизации, получаем, что минимальные размеры области лица на изображении должны быть равны:
Отсюда следует, что минимальные ширина и высота контура губ составляет:
,
.
В автоматизированной системе распознавания гласных визем используются цифровые изображения, поэтому отсчетами являются пикселы, т.е. минимальные размеры губ на изображении равны 65 пикс. Х 50 пикс.
На изображении губы занимают не менее 1/6 ширины изображения и не менее 1/11 высоты изображения. Минимальное разрешение регистрируемого изображения:
,
.
Таким образом, разрешение изображения лица должно быть не менее 550х390 точек.
5.2.2 Требования к положению головы
Положение лица при фотографировании оказывает существенное влияние на отображение всех его элементов. Происходит как изменение отображения формы и положения элементов лица, так и изменение соотношений элементов лица или контрольных точек. Согласно ГОСТ Р ИСО/МЭК 19794-5-2006 положение головы описывается полем угловых координат (Y, P, R). Угловые координаты определяются углами Тайт-Брайна
-угол поворота (Y) характеризует вращение вокруг вертикальной (y) оси;
-угол наклона (P) - вращение вокруг горизонтальной (x) оси, направленной слева направо;
-угол отклонения (R) - вращение вокруг горизонтальной (z) оси, направленной вперед.
Углы определены относительно фронтального положения, для которого указанные угловые координаты равны (0, 0, 0). - Определение угловых координат относительно фронтального положения головы изображено на рисунке 44. Отклонение головы происходит во фронтальной плоскости, поэтому оно не вызывает каких-либо изменений в отображении элементов лица или изменений размерных отношений.
Рисунок 44 - Определение угловых координат относительно фронтального положения головы
Наклон и поворот головы приводят к изменению вертикальных и/или горизонтальных размеров лица и соответствующих размерных отношений элементов лица или контрольных точек.
Положение лица должно быть фронтальным. Поворот, наклон и отклонение головы должны составлять менее 5 градусов в любом направлении от фронтального положения по каждой угловой координате.
5.3 Требования к характеристикам изображения лица
На изображении лица не допускается наличие ярких пятен (ярких бликов на лице). Данные артефакты обычно возникают, когда для освещения используется один высокоинтенсивный направленный источник. Необходимо использовать диффузное освещение, несколько сбалансированных источников или другие методы освещения.
5.3.1 Требования к контрасту изображения
Требования к контрасту обусловлены пороговым значением контраста для визуального распознавания, так как врач-оператор должен иметь возможность визуально контролировать результат распознавания. Кроме этого принципы автоматической обработки при разработке автоматизированной системы распознавания гласных визем по динамике изображений контура строятся на эмпирических законах распознавания, в качестве пространства признаков используются наблюдаемые человеческим глазом особенности.
Значение контраста, при котором возможно визуальное и, соответственно, автоматическое распознавание согласно закону зрительного восприятия, должно быть больше 0,3.
5.3.2 Требования к разрешению изображения
Как было выше показано формируемое изображение лица должно обеспечивать регистрацию артикуляционных изменений минимум 2,5 мм, т.е. пространственная частота дискретизации равна .
Требования к разрешению выражаются через количество пикселей на линейный размер. В практике обработки изображения лица распространение получила величина расстояние между центрами глаз rcentr[пикс]. По статистическим данным в офтальмологии диапазон значений межзрачкового расстояния составляет от 52 до 75 мм. Отсюда следует, что минимальное расстояние между центрами глаз составляет:
.33)
Разрешение изображения лица должно быть не менее 60 пикселей между центрами глаз.
5.3.3 Требования к частоте кадров видеоизображения
В ходе работы необходимо фиксировать движения губ диктора при произнесении фонем, поэтому необходимо выдвинуть требования к частоте кадров видеоизображения. При разработке требований к частоте кадров видеоизображения устанавливается минимальная частота кадров, обусловленная скоростью движения губ. Важно регистрировать момент произнесения фонем. Минимальная длительность фонем составляет 0,1-1 с, то есть максимальная частота произношения фонемы равна:
34)
По теореме Котельникова частота дискретизации должна быть больше максимальной частоты в два или более раза:
,(35)
То есть минимальная частота кадров видеоизображения равна 20 кадров/с.
5.4 Разработка структурно-функциональной схемы системы и схемы БТС. Формирование требований к подсистемам
Структурная схема БТС для регистрации фонем представлена на рисунке 45:
Рисунок 45 - Структурная схема БТС для регистрации фонем
Структурная схема БТС состоит из пациента, врача и трех технических частей:
подсистема регистрации сигналов;
подсистема обработки;
подсистема взаимодействия с пользователем.
Между блоками технических подсистем осуществляется информационная связь. Пациент, в