Разработка биотехнической системы для распознавания фонем русской речи по изображениям губ

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование



рач взаимодействуют с техническими подсистемами через энергетическую связь.

Подсистема регистрации сигналов предназначена для регистрации видео- и аудиоопотока пациента при произнесении им фонем. Подсистема состоит из устройств позиционирования, видеокамеры, микрофона и осветителя. Осветитель воздействует на биообъект энергетически потоком света. Видеокамера регистрирует энергетический поток света от объектов расположенных в поле видимости видеокамеры, в том числе биообъекта. Для того чтобы биообъект находился в поле зрения видеокамеры, оператор управляет устройством позиционирования энергетически.

Между подсистемой регистрации сигналов и подсистемой обработки данных осуществляется обмен данными по информационной связи в канале передаче данных. В подсистему обработки данных включено программное обеспечение и информационное обеспечение. Оператор обращается с подсистемой обработки данных по энергетическим связям через подсистему взаимодействия с пользователем, которая в основном состоит из устройств ввода и вывода. Самыми распространенными устройствами ввода являются клавиатуры и манипуляторы типа мышь. Необходимым устройством вывода информации является монитор. Возможно наличие других устройств вывода и ввода.

5.5 Реализация модуля распознавания фонем русской речи по изображениям губ

Блок-схема разработанного алгоритма автоматического распознавания фонем представлена на рисунке 46:

Рисунок 46 - Блок-схема разработанного алгоритма автоматического распознавания фонем

Принцип работы алгоритма основан на пошаговой корреляции необходимого нам сигнала (маски) с подаваемым сигналом.

В первую очередь загружаются данные параметров артикуляции, полученные после обработки видеоролика, из которых выделяется необходимый нам сигнал:

Рисунок 47 - Пример полученных значений параметров артикуляции (красным выделена область параметров артикуляции соответствующих виземе ве)

Все данные, полученные после обработки видеоролика, формируют сигнал, а выделенная область с эталонной виземой формирует маску. Далее происходит корреляция между сигналами с заданным порогом (формула приведена ниже). С каждой итерацией - маска сдвигается по сигналу на 1 кадр.

После завершения корреляции, выдается результат в виде таблицы. В которой выводятся границы (по кадрам) с виземами, наиболее коррелирующими с маской.

Рисунок 48 - Пример результата для виземы ве

Данный алгоритм реализован в среде MatLabверсии 2010b.

Листингкодапрограммы: [coord answers]=filterwithmask (signal,mask,stepsignal,stepmask,porog)=size(signal,1)*stepsignal; =fit(signal(:,1),signal(:,2),linearinterp);=function1(min(signal(:,1)):(max(signal(:,1))-min(signal(:,1)))/(n-1):max(signal(:,1))); =size(mask,1)*stepmask;=fit(mask(:,1),mask(:,2),linearinterp);=function2(min(mask(:,1)):(max(mask(:,1))-min(mask(:,1)))/(m-1):max(mask(:,1)));=masknew/max(masknew);=1;=size(masknew,1);=1;j<size(signalnew,1);=signalnew(i:j);=test/max(test);(k)=sqrt( (sum((masknorm-testnorm).^2)) )/sum(masknorm);=k+1;=i+1;=j+1;;=1;=0;z=1:size(answers,2);answers(z)<=porog;(coordnum,1)=z/stepsignal;(coordnum,2)=((z/stepsignal)+(size(mask,1)-1));=coordnum+1;;;