Распознавания речи говорящего по движению его губ readlips 0

Вид материала

Содержание

Подобный материал:

О.Н. АКИМОВА, И.А. ЛУКЬЯНОВ

Научный руководитель – С.Д. КУЛИК, д.т.н., профессор

Национальный исследовательский ядерный университет «МИФИ»

СИСТЕМА РАСПОЗНАВАНИЯ РЕЧИ ГОВОРЯЩЕГО
ПО ДВИЖЕНИЮ ЕГО ГУБ READLIPS 1.0

Предлагается система для распознавания разговорной речи на основе движения губ и мышц лица говорящего. Разрабатываемая система предполагает распознавание русскоязычной речи. В основу системы положены математические методы искусственного интеллекта и, в частности, компьютерного зрения. Система нацелена на применение в областях криминалистики, речевого управления, а так же при наружном наблюдении.

Системы распознавания образов и звуковых сигналов являются необходимым компонентом для эффективной работы большого числа систем, используемых в повседневной жизни и систем специального назначения. Среди примеров таких систем можно выделить: автомобильные навигационные системы с голосовым интерфейсом, системы информационного поиска с голосовым интерфейсом, системы биометрической идентификации личности и т.д. Задачи распознавания образов различного рода носят выраженную актуальность в кибернетике, робототехнике, искусственном интеллекте и методы, применяемые для их решения, во многом основаны на результатах данных областей знаний.

В настоящее время не существует дикторонезависимой системы распознавания разговорной речи, позволяющей работать с неограниченным словарем. Такие системы часто ошибаются – ни одна из рассмотренных нами систем не смогла безошибочно распознать надиктованный текст новостного сообщения. Ошибки распознавания при этом были допущены практически в каждом предложении, и общая степень искажения текста являлась значительной, что приводило к потере смысловой информации.

В настоящее время наиболее распространены системы, основанные на анализе данных с датчиков акустического сигнала. Системы такого рода сильно зависят от характеристик фонового шума и особенностей речи говорящего, таких как акцент, охриплость голоса, дефекты речи и т.д. Более того, системы такого рода не могут быть применены людьми с ограниченными речевыми возможностями.

Нашей научной группой ведется разработка системы, основанной на анализе зрительных образов, регистрируемых различными визуальными сенсорами. Анализу подвергается характер движения губ говорящего и мышц лица во время речевого акта. В основу системы положены инновационные математические и прикладные методы (в том числе [1-3]), нацеленные на обеспечение распознавания речи в независимости от диктора и работающие с неограниченным словарем.

При разработке прототипа системы используется сенсор Microsoft Kinect и программное обеспечение Microsoft Kinect SDK v1.0 for Windows, предоставляющее базовые средства для обработки информации, поступающей от сенсора. Используемый сенсор, по сути, представляет собой набор сенсоров, таких как датчик удаленности, цветные видеокамеры, микрофоны и т.д. SDK, в свою очередь, позволяет анализировать данные, поступающие от датчиков как совместно, так и по отдельности средствами высокоуровневого API. Изначально Kinect был разработан для игровой консоли Xbox360, однако благодаря своим богатым возможностям нашел применение и в наукоемких областях, таких как, робототехника и т.п.

В составе разрабатываемой системы используются нейросетевые алгоритмы, методы компьютерного зрения, машинного обучения и т.д. Разрабатываемая система лишена многих недостатков, присущих существующим системам и предназначена для использования как самостоятельно, так и в совокупности с ними.

Предлагаемая система нацелена на использование в областях криминалистики, в частности – биометрии, систем с речевым управлением, в том числе, предназначенных для людей с ограниченными возможностями, при наблюдении в условиях сильной зашумленности, в том числе при использовании специальных оптических сенсоров.

Список литературы

Кулик С.Д., Никонец Д.А., Ткаченко К.И., Лукьянов И.А. Методы и средства повышения эффективности информационных систем (нейронные сети, криминалистика, формирование фактографических данных, морфологический анализ). Том 1: Криминалистика. /Изд. “Радиотехника”.—М., 2011.—300с.—Деп. в ВИНИТИ 05.05.2011, №206-В2011; Библ. Указат. №7(473), 2011.
Кулик С.Д., Никонец Д.А., Ткаченко К.И., Лукьянов И.А. Методы и средства повышения эффективности информационных систем (нейронные сети, криминалистика, формирование фактографических данных, морфологический анализ). Том 2: Системы. /Изд. “Радиотехника”.—М., 2011.—223с.—Деп. в ВИНИТИ 05.05.2011, №207-В2011; Библ. Указат. №7(473), 2011.
Кулик С.Д., Никонец Д.А., Ткаченко К.И., Лукьянов И.А. Методы и средства повышения эффективности информационных систем (нейронные сети, криминалистика, формирование фактографических данных, морфологический анализ). Том 3: Приложения. /Изд. “Радиотехника”.— М., 2011.—229с.—Деп. в ВИНИТИ 05.05.2011, №208-В2011; Библ. Указат. №7(473), 2011.

Blog

Распознавания речи говорящего по движению его губ readlips 0

Содержание