Авторефераты по всем темам >> Авторефераты по техническим специальностям Санкт-Петербургский институт информатики и автоматизации Российской академии наук

На правах рукописи

РОНЖИН Андрей Леонидович

МЕТОДЫ И ПРОГРАММНЫЕ СРЕДСТВА МНОГОКАНАЛЬНОЙ ДИСТАНЦИОННОЙ ОБРАБОТКИ РЕЧИ И ИХ ПРИМЕНЕНИЕ В ИНТЕРАКТИВНЫХ МНОГОМОДАЛЬНЫХ ПРИЛОЖЕНИЯХ

Специальность 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание ученой степени доктора технических наук Санкт-Петербург 2010

Работа выполнена в Учреждении Российской академии наук СанктПетербургском институте информатики и автоматизации РАН

Официальные оппоненты:

доктор технических наук, профессор Охтилев Михаил Юрьевич доктор технических наук, профессор Горский Николай Дмитриевич доктор технических наук, профессор Геппенер Владимир Владимирович

Ведущая организация:

Учреждение Российской академии наук Вычислительный центр им. А.А. Дородницына РАН

Защита состоится л10__июня___2010 г. в _12.00__ часов на заседании диссертационного совета Д.002.199.01 при Учреждении Российской академии наук Санкт-Петербургском институте информатики и автоматизации РАН по адресу: 199178, Санкт-Петербург, В.О., 14 линия, 39.

С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Санкт-Петербургского института информатики и автоматизации РАН

Автореферат разослан л____ ______________2010 г.

Ученый секретарь диссертационного совета Д.002.199.д.т.н., профессор Никифоров Виктор Викентьевич

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы диссертации. Появление широкого спектра компьютеризированных устройств различного назначения существенно расширяет возможности современного человека в области коммуникации, образования, бизнеса, медицины и других областей. Однако, рост сложности технологий и устройств в большинстве случаев приводит к усложнению принципов взаимодействия с пользователем. Многие современные научно-технические достижения используются не в полной мере, так часть функций оказываются доступными только ограниченному числу пользователей-специалистов. Наличие естественного способа взаимодействия сейчас является не менее важным свойством устройства, чем его функциональные возможности. Также следует учесть, что физические ограничения и личные предпочтения пользователей оказывают влияние на выбор доступного или наиболее удобного способа взаимодействия. Поэтому согласованность информационных каналов между пользователем и устройством является второй актуальной проблемой в области проектирования интерфейсов. Наконец, свойства окружающей среды, в которой происходит коммуникация, накладывают свои ограничения на способы передачи данных, и пользователь должен иметь возможность выбора информационного канала, который более устойчив в текущих условиях динамически изменяющейся ситуации.

Окружающее интеллектуальное пространство (ОИП) является новой парадигмой в области информационных технологий. Распознавание текущей ситуации, анализ поведения пользователя и удовлетворение его потребностей в ненавязчивой и практически незаметной форме является основной идеей в концепции ОИП.

Применение многомодальных интерфейсов, обрабатывающих естественные для человека способы коммуникации (речь, жесты, движения тела, головы, рукописные наброски, направление взгляда, мимика и др.), обеспечивает взаимодействие между пользователями и интеллектуальными модулями, встроенными в окружающие объекты в интуитивно понятной и простой форме. Средства реализации задачи по обслуживанию пользователя остаются скрытыми, а предъявляются только конечные результаты деятельности, что концентрирует внимание человека на выполняемой задаче и создаёт эффект ненавязчивости обслуживания.

С разработкой ОИП к речевым технологиям предъявляются все более жесткие требования; в частности, система должна воспринимать речь диктора, свободно перемещающегося в помещении, то есть самостоятельно определять местонахождение источника полезного сигнала. Подавляющее большинство существующих систем распознавания речи способно обрабатывать только речь диктора, записанную с помощью микрофона-гарнитуры, расположенного непосредственно перед ртом диктора, саму же запись рекомендуется проводить в тихом, звукоизолированном помещении. Однако очевидно, что далеко не каждый пользователь готов к таким ограничениям. Для развития и внедрения речевых технологий необходимо сделать процесс записи речи максимально удобным для пользователя, прежде всего, обеспечив дистанционную запись речи в условиях фонового шума и параллельных разговоров в помещении. Кроме того, автоматическое распознавание естественной речи предполагает работу со сверхбольшими словарями, размер которых превышает несколько миллионов словоформ, поэтому разработка средств компактного хранения, быстрого поиска и своевременного отсечения маловероят ных гипотез в процессе декодирования является актуальной задачей, особенно для русского языка с относительно высоким уровнем флективности.

В отечественных работах наиболее активно исследуются вопросы многомодального анализа биометрических показателей для идентификации личности и состояния человека: Галунов В.И., Аграновский А.В., Бондаренко В.П., Харламов А.А. В развитие теории речевых технологий большой вклад внесли отечественные исследователи Сапожков М.А., Загоруйко Н.Г., Кедрова Г.Е., Чистович Л.А., Косарев Ю.А., Потапова Р.К., Чучупал В.Я., Сорокин В.Н., Скрелин П.А.

и другие.

Проблемная ситуация, рассматриваемая в диссертации, заключается в наличии несоответствия возможностей, предоставляемых существующими и перспективными аппаратно-программными средствами, соответствующими информационными технологиями, поддерживающими интерактивные многомодальные интерфейсы, и имеющимся в настоящее время научно-методическим обеспечением их использования и развития. Указанное несоответствие порождает научнотехническую проблему, суть которой состоит в необходимости разработки и реализации модельно-алгоритмического, методического, программного, технического и информационного обеспечения процессов естественного человеко-машинного взаимодействия в интерактивных многомодальных приложениях на базе многоканальной дистанционной обработки речи Связь с государственными и международными программами. Работа выполнена в СПИИРАН (2003Ц2010 гг.). Основные результаты диссертационной работы получены в рамках госбюджетных научно-исследовательских программ:

ФЦП Интеграция: проект УАспекты устного вводаФ, № 326.81 (2002Ц2004 гг.);

программы ОИТВС РАН Новые физические и структурные решения в инфотелекоммуникациях проект №4.2: Разработка методов статистической обработки речи для дикторонезависимых инфотелекоммуникационных приложений, (20032008 гг.); программы ОНИТ РАН Фундаментальные проблемы разработки новых структурных решений и элементной базы в телекоммуникационных системах проект №1.1. Разработка средств универсального многомодального доступа для системы интерактивного телевидения (2009-2010 гг.); Программы СПбНЦ РАН проект № 2.118 Исследование принципов многомодального взаимодействия на базе информационного киоска (2007г.); ФЦП Научные и научно-педагогические кадры инновационной России на 2009-2013 годы (ГК №П2360 Разработка методов человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов для интеллектуальных информационных систем). Работа поддержана российскими грантами: Президента РФ № МК-9351.2006.9 (2006-2008 гг.), РФФИ № 07-07-00073-а (2007-2009гг.), РФФИ № 08-07-90002-Бел_а (20082009гг.), РФФИ № 09-07-91220-СТ_а (2009-2010гг.); Правительства СанктПетербурга № PD04-3.17-39 (2004г.), № PD05-3.17-34 (2005г.), № 30-04/1(2008г.), № 26-05/131 (2009г.), Фонда содействия отечественной науке (20042005гг.), Фонда Научный Потенциал №64 (2006г.). Работа поддержана грантами Евросоюза INTAS № 04-77-7404 (2005-2007 гг.), INTAS № 05-1000007-426 (20062008гг.), грантом Евросоюза FP7 SIMILAR NoE IST-2002-507609, (2003-2007 гг.).

Целью диссертационной работы является повышение эффективности человеко-машинного взаимодействия в интерактивных многомодальных приложениях за счет обобщения и совершенствования научно-методического аппарата, поддержки системотехнических решений, связанных с многоканальной дистанцион ной обработкой русской речи и разработкой на этой основе научно-обоснованных модельно-алгоритмических, программно-технических решений. Для достижения поставленной цели в работе решены следующие задачи:

1. Анализ основных направлений в области человеко-машинного взаимодействия и многомодальных пользовательских интерфейсов, применяемых в интерактивных информационно-управляющих системах.

2. Разработка методологического и математического обеспечения проектирования многомодальных интерфейсов и конфигурирования программноаппаратных средств организации человеко-машинного взаимодействия в интерактивных приложениях.

3. Разработка методов спектрально-пространственной обработки речи и анализ конфигураций системы (массива) микрофонов с альтернативными геометрическими схемами расположения датчиков.

4. Разработка модели компактного представления акустико-лексических структур для распознавания русской речи и методики формирования базы данных слов и их транскрипций.

5. Разработка, тестирование и реализация программного обеспечения построения многомодальных интерфейсов для интерактивных приложений.

6. Разработка прикладных программно-аппаратных решений с применением многомодальных интерфейсов для предоставления пользователям справочной информации в интерактивном режиме и сопровождения мероприятий в интеллектуальном зале.

7. Обобщение и оценка результатов исследований по проблеме организации многомодального человеко-машинного взаимодействия с оценкой эффективности полученных результатов.

Объект исследования. Информационные и энергетические процессы формирования и обработки речевого сигнала на акустическом, фонетическом и текстовом уровнях, а также многомодальные способы человеко-машинного взаимодействия.

Предмет исследования. Закономерности, принципы, способы, методы, модели, алгоритмы, методики и системотехнические решения нового класса задач синтеза интеллектуальной информационной технологии и системы многоканальной дистанционной обработки речи в интерактивных многомодальных приложениях.

Методы исследования. Методы цифровой обработки сигналов, психоакустики, радиолокации, распознавания образов, статистического анализа, автоматической обработки текстов, теории графов, динамического программирования, объектно-ориентированного проектирования и программирования.

Научная новизна. Разработана совокупность оригинальных моделей, методов, алгоритмов и программно-аппаратных комплексов для исследования и обработки русской речи в интерактивных многомодальных приложениях, в том числе:

1) разработано методологическое и математическое обеспечение проектирования интерактивных многомодальных приложений и конфигурирования программно-аппаратных ресурсов для организации естественного взаимодействия пользователей с учетом ограничений на способы коммуникации со стороны пользователя, клиентских устройств, среды взаимодействия и предметной области предоставляемого сервиса;

2) разработан метод анализа речевой активности, отличающийся применением антропоморфных моделей слуха, критериального оценивания уровня энергии взаимного спектра синхронизированных по времени сигналов, а также учета пространственного положения диктора при выявлении границ речи в многоканальном звуковом потоке;

3) разработана система протоколирования речи участников телеконференций, отличающаяся использованием многоканальной распределенной системы регистрации аудиопотоков, расчета относительной энергии сигнала и его спектра и оценивания пространственного положения источника сигнала посредством трехмерной конфигурации микрофонов;

4) предложена модель компактного представления словаря транскрипций системы распознавания русской речи на базе двухуровневого морфофонемного префиксного графа, отличающаяся применением декомпозиции транскрипций на основу и концовку с последующим объединением одинаковых последовательностей первых фонем основ в виде лексического дерева и сохранением списка уникальных транскрипций концовок;

5) предложена методика экспертного сопровождения в процессе постепенной замены оператора автоматическим модулем обработки речи, обеспечивающая накопление реального речевого материала для адаптации системы распознавания речи;

6) разработано программное обеспечение проектирования многомодального интерфейса, отличающееся применением модулей многоканальной обработки аудио- и видеосигналов, выполнением многопоточных задач на распределенных вычислительных ресурсах и созданием кроссплатформенных приложений, адаптивных к возможностям и текущему состоянию клиентского устройства;

7) разработана программно-аппаратная архитектура многомодального информационно-справочного киоска, отличающаяся использованием аудиовизуальных коммуникативных каналов для имитации естественного интерфейса и организации диалога с пользователем в реальных условиях эксплуатации;

8) разработана технологическая инфраструктура интеллектуального зала, отличающаяся применением модулей многоканальной регистрации и обработки аудиовизуальных сигналов для определения положения и слежения за пользователями, дистанционного распознавания голосовых команд, мультимедийного оповещения удаленных пользователей о ситуации внутри зала и организации распределенных мероприятий.

Обоснованность научных положений и выводов обеспечена за счет анализа состояния исследований в данной области, а также согласованностью теоретических выводов с результатами экспериментальной проверки моделей. Новизна технических предложений подтверждается полученными свидетельствами на программное обеспечение.

Положения, выносимые на защиту:

1. Развитие методологических основ разработки интерактивных многомодальных приложений и конфигурирования программно-аппаратных ресурсов для организации естественного взаимодействия пользователей в интеллектуальном пространстве.

2. Совокупность методов и алгоритмов многоканальной дистанционной обработки речи для выявления активного диктора и фильтрации полезного сигна ла в ограниченной зоне взаимодействия на основе локализации источника звука и фонетических закономерностей речевого потока.

3. Симуляционные модели построения акустико-лексических структур для компактного представления словаря транскрипций системы распознавания русской речи на основе морфофонемных единиц и результаты их применения при формировании баз данных и анализе возможных конфигураций систем декодирования слитной речи.

4. Программно-аппаратные и технологические решения, реализованные на основе разработанных методов и созданных многомодальных интерфейсов, обеспечивающие естественную коммуникацию пользователей с интерактивными информационно-управляющими приложениями.

Практическая ценность работы. Модели, методы, алгоритмы и программное обеспечение, разработанные в диссертационной работе, направлены на повышение эффективности и естественности человеко-машинного взаимодействия.

Применение многомодальных интерфейсов позволяет организовать естественное взаимодействие между пользователями и интеллектуальными модулями. Средства реализации задачи по обслуживанию пользователя остаются скрытыми, а предъявляются только конечные результаты деятельности, что концентрирует внимание человека на выполняемой задаче и создаёт эффект ненавязчивости обслуживания.

Разработанный многомодальный киоск является прототипом широкого спектра информационно-справочных систем самообслуживания, расположенных в бизнесцентрах, отелях, аэропортах, выставочных комплексах, ВУЗах, медицинских центрах, торговых центрах, музеях, спортивных клубах и других общественнотранспортных центрах.

Применение разрабатываемых методов обработки речи и других естественных модальностей, а также адаптивного к устройству пользователя способа формирования веб-интерфейса позволит транслировать совещания на различные программно-аппаратные платформы и составлять мультимедийные отчеты распределенных совещаний в режиме реального времени, значительно сократив время ручной обработки речевых записей. Разработка сети интеллектуальных залов позволит организовать совещания для участников, разделенных пространством, будет способствовать повышению сотрудничества между различными коллективами, позволит сократить расходы на транспорт и обслуживающий персонал, повысит качество образования за счет автоматизированного непрерывного контроля над каждым учащимся во время занятий.

Реализация результатов работы. Разработанные методы, программное обеспечение, а также технические решения были использованы в ходе выполнения Государственного контракта № П2360 с Федеральным агентством по образованию;

договоров с компанией Telio AG, Германия, (2006-2008), компанией NewVoice Санкт-Петербург (2005-2007), Дрезденским технологическим университетом, Германия (2008-2009), Университетом Западной Богемии, Чехия (2003-2010), а также в рамках учебных курсов на кафедрах Санкт-Петербургского государственного университета аэрокосмического приборостроения, Санкт-Петербургского государственного политехнического университета, Санкт-Петербургского государственного электротехнического университета.

Апробация результатов работы. Результаты диссертационного исследования представлялись на Международных конференциях Речь и Компьютер SPECOM (Санкт-Петербург 2000,2002,2004, 2006,2009, Москва 2001, 2007, Патры, Греция 2005); Международной конференции Региональная информатика (СанктПетербург 2000,2002,2004,2006,2008); Международной научно-практической конференции Искусственный Интеллект (Кацивели, Крым, Украина, 2002, 2004, 2006); Международной научно-технической конференции Интеллектуальные и многопроцессорные системы (п. Дивноморское 2005,2007); III Всероссийской конференции Теория и практика речевых исследований АРСО-2003, Москва;

Международных конференциях Распознавание образов и анализ изображений:

новые информационные технологии (Санкт-Петербург 2004, Нижний Новгород 2008); семинарах Биометрические системы российской секции IEEE Computational Intelligence Society, Москва, Россия, 2005, 2006; 6 европейской конференции PEVOC'6, Лондон, Великобритания, 2005; Международных конференциях по человеко-машинному взаимодействию HCII (Лас-Вегас, США, 2005, Пекин, Китай, 2007, Сан Диего, США 2009); 2 Международной конференции Автоматизация, управление и информационные технологии - 2005 ACIT-2005, Новосибирск, 2005; Международном симпозиуме SPIE Defense and Security Symposium, Орландо, США, 2005; 3 Балтийской конференции: Second Baltic Conference on Human Language Technologies HTL'2005, Таллинн, Эстония, 2005;

34 Международной филологической конференции, Санкт-Петербург, 2005; 5 Международной научной конференции Обработка информации и управление в чрезвычайных и экстремальных ситуациях (ОИУЧЭСТ2006), Минск, Беларусь, 2006;

XX Сессии Российского акустического общества, Москва, 2008; 44 Международном симпозиуме Applied Military Psychology, Санкт-Петербург, 2008; Международной конференции ICUMT-2009, Санкт-Петербург, 2009; 2 Международной конференции ruSMART 2009, Санкт-Петербург, 2009.

Публикации. По материалам диссертации опубликовано 126 печатных работ, включая 19 публикаций в ведущих научных журналах, рекомендованных ВАК, 4 свидетельства об официальной регистрации программ в Федеральной службе по интеллектуальной собственности, патентам и товарным знакам, 1 монография, главы в книгах и 1 учебно-методическое пособие.

Структура и объем работы. Диссертация содержит введение, пять глав, заключение, список литературы (235 наименований), 2 приложения. Основной материал изложен на 283 стр., включая 19 таблиц, 76 рисунков.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована важность и актуальность темы диссертации, сформулированы цели работы и основные задачи, которые необходимо решить для ее достижения, характеризуется научная новизна и практическая ценность работы, кратко излагаются основные результаты работы.

В первой главе приведен анализ существующих подходов и нерешенных проблем в области речевых и многомодальных интерфейсов, а также проанализированы особенности взаимодействия пользователя с интерактивными приложениями окружающего интеллектуального пространства.

Распознавание текущей ситуации, анализ поведения пользователя и удовлетворение его потребностей в ненавязчивой и практически незаметной форме является основной идеей в концепции окружающего интеллектуального пространства (ОИП). Решение этой задачи напрямую зависит от развития трёх научнотехнологических направлений: повсеместных вычислений (ubiquitous computing), повсеместных коммуникаций (ubiquitous communication) и многомодальных интерфейсов. Применение многомодальных интерфейсов позволяет организовать взаимодействие между пользователями и интеллектуальными модулями, встроенными в окружающие объекты в интуитивно понятной и простой форме.

Наиболее исследованной областью применения технологий ОИП является умный дом, представляющий собой жилое помещение, оснащенное вычислительными и информационными технологиями, которые реагируют на поведение жителей, прогнозируют их потребности, создают и поддерживают комфортные условия для повседневной деятельности хозяев дома, обеспечивают их безопасность, помогают организовать условия для дистанционной работы и обучения. Все это достигается за счет автоматизированного управления техникой внутри дома и коммуникации с окружающим миром.

Кроме умного дома, существует ряд других, не менее важных, областей применения технологий ОИП. Если требования к умному дому уже более или менее выработаны, то для интеллектуальных конференц-залов и учебных классов пока не существует каких-либо стандартов. Одновременное использование нескольких широкоэкранных дисплеев, интерактивная мультимедийная поддержка, интеграция мобильных устройств, проведение удаленных телеконференций и другие новые возможности информационных технологий не могут быть освоены пользователями за короткое время и требуют применения максимально простых, интуитивно понятных способов коммуникации. На практике подобные залы чаще всего функционируют в полуавтоматическом режиме, а эксперты-операторы поддерживают работу всех встроенных систем.

Проблемы человеко-машинного взаимодействия и проектирования многомодальных и речевых интерфейсов исследовались в рамках европейских рамочных программ, в частности в проектах CHIL IST-506909, AMI - IST-506811, LUNA IST- 033549, SIMILAR - IST-507609, HUMAINE IST- 507422. Прикладным аспектам дистанционной обработки речи и голосовому управлению были посвящены проекты HOMETALK IST-2001-33507, AMIDA IST-033812, HIWIRE IST- 507943, DICIT IST-034624. В рамках текущих проектов программы FP7 основное внимание уделяется анализу поведения человека и его коммуникативным возможностям при взаимодействии с людьми и автоматизированными системами: SEMAINE IST- 211486, PROMETHEUS IST-214901, LIREC IST-215554, HUMOUR IST-231724, SCANDLE IST- 231168, HUMANOBS IST- 231453, EMIME IST-213845,>

Речь, жесты, рукописные наброски и другие способы, естественные для общения между людьми, в многомодальных интерфейсах применяются для управления машинами. Многомодальные интерфейсы (МИ) обрабатывают два и более объединенных пользовательских способа ввода информации совместно с мультимедийной системой вывода информации. МИ представляют новое направление в информатике и концепцию отказа от традиционных WIMP интерфейсов. Обработка аудиовизуальной информации позволяет автоматически идентифицировать человека, его намерение, речь, движения, текущее положение. За счет анализа отдельных модальностей и их последующей интеграции на семантическом уровне удается повысить естественность и помехоустойчивость взаимодействия.

Вопросами автоматического распознавания речи ученые стали заниматься с момента появления компьютерных систем, поскольку командный интерфейс взаимодействия с первыми ЭВМ не обеспечивал приемлемой скорости и естественности в работе. Был разработан широкий спектр методов и компьютерных программ, направленных на решение проблемы распознавания речи. Были достигнуты существенные результаты в дикторозависимом распознавании изолированной речи и теперь изучаются проблемы распознавания слитной речи, обеспечения дикторонезависимости, робастности систем при эксплуатации в реальных (зашумленных) условиях.

Существенное различие между обучающими речевыми данными и теми, что приходиться обрабатывать в реальных условиях, - является основной причиной ошибок систем распознавания. Вариативность таких факторов как произношение, темп, стиль речи, а также окружающие шумы зачастую невозможно учесть заранее на этапе обучения системы. Кроме того, для обеспечения естественности взаимодействия, какой бы ограниченной не была предметная область, система должна быть обучена на распознавание достаточно большого словаря, так как в диалоге пользователи могут употреблять различные наборы слов. В зависимости от задачи меняется допустимая точность распознавания: при стенографировании требуется распознавание всех значимых слов, а в диалоговых системах для формирования запроса к информационным ресурсам иногда достаточно распознать несколько ключевых слов во фразе.

С развитием технологий ОИП к речевым технологиям предъявляются все более жесткие требования; в частности, система должна воспринимать речь диктора, свободно перемещающегося в помещении, то есть самостоятельно определять местонахождение источника полезного сигнала. Подавляющее большинство существующих систем распознавания речи способно обрабатывать только речь диктора, записанную с помощью микрофона-гарнитуры, расположенного непосредственно перед ртом диктора, саму же запись рекомендуется проводить в тихом, звукоизолированном помещении. Однако очевидно, что далеко не каждый пользователь готов к таким ограничениям. Для развития и внедрения речевых технологий необходимо сделать процесс записи речи максимально удобным для пользователя, прежде всего, обеспечив дистанционную запись речи в условиях фонового шума и параллельных разговоров в помещении. Именно поэтому одним из объектов самого пристального внимания в области автоматического распознавания речи стала проблема записи речи при помощи микрофонов, расположенных на расстоянии от диктора.

Таким образом, сегодня одним из приоритетных направлений развития информатики становится разработка средств эффективного взаимодействия человека с компьютером. Это связано с тем, что постоянно растущие возможности вычислительной техники и сетевых технологий уже сейчас не используются в полной мере из-за отсутствия способов общения компьютера и человека на естественном языке. Эта проблема сдерживает развитие различных прикладных систем в телекоммуникации, медицине, образовании и повседневной жизни, поскольку практически вся современная техника и различные сетевые сервисы используют автоматизированные средства управления и обработки информации.

Во второй главе рассматриваются основные подходы к построению и тестированию многомодальных интерфейсов. Дается формальная постановка задачи конфигурирования программно-аппаратных ресурсов для обеспечения взаимодей ствия пользователя с интерактивными многомодальными приложениями. Описана методика поэтапного внедрения естественного интерфейса, обеспечивающая экспертное сопровождение системы, необходимое для накопления речевых корпусов, и адаптации модулей обработки аудиовизуальных сигналов к особенностям окружающей обстановки.

С усложнением и увеличением функциональности систем, средства человекомашинного взаимодействия становятся узким местом из-за того, что не могут обеспечить интерактивный диалог с пользователем с необходимой эффективностью и естественностью. В отличие от традиционных интерфейсов на основе клавиатуры и мыши или одномодальных интерфейсов, многомодальные системы обеспечивают более гибкое использование входных потоков информации. Это дает возможность человеку выбирать наиболее удобный способ передачи/приема информации.

В таблице 1 представлены основные типы модальностей, используемые человеком при коммуникации с людьми, на базе которых строятся варианты многомодальных интерфейсов. Визуальная и звуковая модальности при построение интерфейсов применяются более активно. Дополнительно выделяют чувства присутствия и соприсутствия, связанные с поведением людей, находящихся непосредственно в коллективе или участвующих в мероприятиях удаленно, используя телекоммуникационные средства связи. В приложениях в области медицины и безопасности также анализируются другие биометрические показатели: отпечаток пальца, форма ладони, термограмма лица, рисунок сосудов глазного дна и другие.

Таблица 1. Основные типы модальностей и примеры технологий их обработки.

Органы чувств Типы модальностей Примеры модальностей Примеры технологий и средств обработки Глаза Визуальная Жесты рук, тела, движения Анализ изображений, губ, направление взгляда, технологии виртуальной анимационный объект реальности Уши Звуковая Речь, звуки, мелодии Распознавание и синтез разговорной речи Кожный покров Тактильная Прикосновение, вибрация Сенсорные панели и тактильные дисплеи Нос Обонятельная Запах Методы химического анализа и синтеза Язык Вкусовая Вкус Вестибулярный Вестибулярная Положение тела Системы на базе акселероаппарат метров и гироскопов Суставы, нервная Проприоцептивная Относительное положение Системы с экзоскелетом система частей тела и их движения В зависимости от использованных входных и выходных модальностей выделяют несколько основных типов многомодальных интерфейсов (речь+жесты, речь+чтение по губам, направление взгляда+указание+речь и т.д.). Второй вид возможной классификации многомодальных приложений - по типам решаемых задач (рис. 1). На верхнем уровне задачи, выполняемые многомодальными приложениями, делятся на интерактивные и неинтерактивные. В неинтерактивных приложениях процесс выполнения задачи определен заранее, и пользователь не может на него повлиять. Примерами таких приложений являются автоматическое транскрибирование текстов (заседаний, семинаров) и автоматическое индексирование мультимедийных данных (радио, телевизионных новостей). Напротив, в интерактивных приложениях пользователь в ходе диалога с машиной получает необходимый ему сервис и сам определяет ход работы приложения. Примерами интерак тивных приложений являются управление роботом, интерактивное телевидение, справочные системы.

При разработке многомодальных интерфейсов возникают новые специфические задачи, связанные с синхронизацией, совместной обработкой и объединением многомодальной информации. В ходе проектирования многомодального интерфейса выполняется основной цикл работ, связанных с анализом и синтезом:

(1) способов взаимодействия модальностей, архитектур распределенных многомодальных систем, методов кодирования и хранения сигналов, средств для разработки и распространения программного обеспечения; (2) методов выбора модальностей, передачи входных потоков (речевой ввод, жестовый ввод, графический ввод), способов синхронизации модальностей, методов создания контрольных журналов многомодального взаимодействия; (3) методов оценки систем (критерии оценки, метрики, методы измерений), типов оценивания (информативность интерфейса, симулирование реальной системы человеком), разработкой экспериментов. Для оценивания качества работы системы используются показатели точности распознавания, помехоустойчивости к окружающим шумам и достоверности гипотезы распознавания действия пользователя.

Задача Интерактивная Неинтерактивная Индексирование мультимедийных данных; транскрибирование Взаимодействие Взаимодействие человек-человек человек-машина Поддержка Ввод и манипулирование Развлечения Управление и диалог межчеловеческого данными Анимация информационного Игры взаимодействия Совместная работа Перевод Телеконференции Ввод простых Управление Специальные Встроенные Текст Мультимедиа данных сервисы системы Голосовое Телефонные Умные Адресные Диктовка Средства управление сервисы комнаты книги Програм- разработки техническими Интерактивное Мобильные Записные мирование пользоват.

объектами телевидение сервисы книжки интерф.

Транспортные сервисы Рис. 1. Проблемно-ориентированная классификация многомодальных приложений.

При построении многомодального интерактивного приложения необходимо определить: (1) кто его будет использовать; (2) какие возможности имеют клиентские устройства; (3) в каких условиях будет проходить взаимодействие; (4) какой тип сервиса будет предоставлять приложение. Для формализации и решения задачи построения многомодального интерактивного приложения была предложена концептуальная модель, включающая следующие сущности: цели пользователей, сервисы, ресурсы, устройства, преобразования, естественные и искусственные сигналы, входные и выходные модальности. В диссертации приводится теоретикомножественное описание решаемой задачи. Для этого введены следующие множества и отношения. Множество целей пользователей, P = {pi,i N}, N = {1,...n} на удовлетворение которых направлено множество сервисов, использующих информационно-коммуникационные S = {sg, g M},M = {1,...m} ресурсы Множество устройств, доступных пользоватеR = {rk,k C},C = {1,...c}.

ю:. МножестМножество моментов времени D = {db,b H}, H = {1,...h}.

T = {t} во преобразований W = {wf, f O},O = {1,...o}, выполняемых в ходе предоставления сервиса. Множество потоков искусственных и AS = {asq,q E},E = {1,...e} естественных сигналов, использующихся для расNS = {nsa,a U},U = {1,...u} познавания входных IM = {IM1, IM2,...IMN } и синтеза выходных модальностей IM. Множество вариантов многомодальных интерфейсов OM = {OM1,OM2,...OMN } OM строится путем целенаправленного перебора возможных комбинаций входных и выходных модальностей:

NM ={IM1OM1,IM1OM2,...,IM1OMN,...,IMN OMN,...,IM1...IMN OM1...OMN }.

OM IM OM IM IM Тривиальные варианты с отсутствием входных и/или выходных модальностей не рассматривались. Наиболее простой с точки зрения числа модальностей интерфейс включал в себя, по крайней мере, одну входную и одну выходную модальности.

Множество допустимых системотехнических решений, включающее в себя множества математических моделей, методов, алгоритмов, MM MO AL аппаратно-программных реализаций многомодальных интерактивных прилоAP жений, может быть представлено в следующем виде:

. Учитывая, = { = mm, mo, al, ap | mm MM, mo MO, al AL, ap AP} что в интерактивных системах обработка сигналов должна проводится в режиме, близком к реальному времени, исходное множество преобразований W должно ( ) ( ) ( ) ( ) ( ) быть модифицировано:.

W : AS NS T AS NS Также введены четыре вида ограничений (характеристик), влияющих на процессы организации взаимодействия: (1) ограничения на способы ввода и вывода со стороны пользователя, связанные с его/ее навыками использования клиентских устройств, информационных технологий, личными предпочтениями и психофизическими ограничениями: ; (2) ограничения на способы ввода и UC = {UCi,i X} вывода со стороны клиентского устройства, связанные с размерами, вычислительными и сетевыми возможностями, а также аппаратной частью, реализующей сенсорные и мультимедийные функции устройства: ; (3) множестDC = {DCj, j Y} во ограничений среды, в которой планируется организовать взаимодействие, это:

уровень шумов, физические параметры атмосферы, тип помещения, число пользователей, расстояние между пользователем и клиентским устройством, наличие доступа к сетевым ресурсам и другие: ; (4) наконец, ограничения EC = {ECk,k Z} самих сервисов, связанные с предметной областью и типом обрабатываемых информационно-коммуникационных ресурсов:.

SC = {SCl,l V} Графическая интерпретация перечисленных ограничений, возникающих при организации взаимодействия пользователя с устройствами для доступа к информационно-коммуникационным сервисам, представлена в виде схемы на рисунке 2.

Организовать взаимодействие представляется возможным только в том случае, если клиентские устройства находятся в зоне взаимодействия с пользователем и связи с информационно-телекоммуникационными сервисами, а их пользовательские интерфейсы соответствуют физическим возможностям и предпочтениям пользователя и могут обеспечить коммуникацию в текущих условиях окружающего пространства для решения актуальных целей пользователя.

Рис. 2. Схема ограничений при организации взаимодействия пользователя с устройствами для доступа к информационно-коммуникационным сервисам.

Для формирования множества допустимых системотехнических решений вводятся соответствующие подмножества декартовых произведений исходных множеств, определяющих все потенциальное пространство проектных альтернатив:

( ( FUC ) P S R D AS NS ; FDC) P S R D AS NS ;

( ( FEC ) P S R D AS NS ; FSC ) P S R D AS NS.

Таким образом, задача проектирования многомодального интерфейса сводится к поиску конструктивных путей формирования множества допустимых системотехнических решений , удовлетворяющих ограничениям :

UC, DC, EC,SC pi,s,db,rkasq,nsa, g ( ) : FUC ) I FDC) I FEC ) I FSC ) m; , где элементы множеств ( ( ( ( m, res = W : AS( ) ( ) NS( ) T AS( ) NS( ) принимают значения {0,1}. Выбор полной комбинации модальностей, допусти мых в проектируемом приложении будет определяться следующим образом:

множество комбинаций (NM ) res = { (NM ) ( ) : (NM ) res }, где модальностей. На основе разрабатываемого в диссертации подхода производился обоснованный выбор конкретных вариантов реализаций отображений,.

( ) ( ) Окончательное решение о структуре и функциях многомодального интерфейса и программно-аппаратном обеспечении, необходимом для его реализации, принималось с учетом стоимостных затрат:.

Arg minC( ) res В большинстве существующих приложений для получения информации пользователь вынужден идти на компромисс между естественностью взаимодействия и функциональными возможностями сервисов/устройств. В рамках предложенной модели возможный набор естественных входных и выходных модальностей определяется на этапе проектирования интерактивного многомодального приложения. Речь является наиболее естественным способом коммуникации, поэтому речевая модальность более востребована при проектировании многомодальных интерфейсов. В работе предложено развитие технологий дистанционной обработки русской речи в рамках описанной концептуальной модели организации взаимодействия с многомодальным интерактивным приложением. За счет распознавания речи обеспечена естественность взаимодействия, многоканальная дистанционная обработка позволила пользователю свободно перемещаться в ходе диалога без предварительной установки микрофонов, а набор модулей обработки входных и выходных модальностей, входящих в состав конкретных реализаций многомодальных интерфейсов, позволил пользователю выбирать удобный и доступный для него способ коммуникации в текущей окружающей обстановке.

Анализируя возможные пути развития и способы внедрения речевых и многомодальных интерфейсов, было предложено использовать методику скрытого экспертного сопровождения как наиболее быстрый и продуктивный подход к оптимизации и адаптации естественных интерфейсов к реальным интерактивным приложениям. Данный подход позволяет вести наблюдение за пользователем, работающим с системой, недостающие службы которой восполняются скрытыми операторами. Наблюдая за поведением пользователя, разработчики могут изучить его потребности, а затем настроить и оценить тот особый интерфейс, который следует использовать при выполнении заданий данного класса. На примере телекоммуникационных сервисов приводится поэтапная методика внедрения речевого интерфейса. В зависимости от степени автоматизации работы модуля распознавания речи выделяются четыре этапа, на которых участие оператора/редактора и автоматического модуля постепенно изменяется в сторону сокращения работы человека.

В третьей главе приводится описание методов, алгоритмов и программных средств многоканальной обработки аудиосигналов для локализации источников звука, а также выделения фраз отдельных участников мероприятия в интеллектуальном зале.

Предварительная сегментация сигнала на участки, содержащие тишину или речь, позволяет значительно сократить уровень ошибок распознавания речи, повысить скорость обработки. К сожалению, методы определения речевой активности, основанные на оценке уровня энергии сигнала или его спектра, хорошо зарекомен довавшие себя при обработке речи, записанной одним диктором в лабораторных условиях, не решают проблем, возникающих при обработки аудиозаписей, сделанных в условиях реальной эксплуатации с характерными фоновыми шумами и параллельными разговорами.

Наиболее сложным случаем (но одним из самых распространенных) для автоматической системы будет ситуация cocktail party, когда в помещении находится большое число людей, свободно перемещающихся и разговаривающих между собой. В такой обстановке система записывает звуки от всех источников, находящихся в помещении. Использование методов спектрально-пространственной фильтрации позволяет разделить звуковые сигналы, произвести идентификацию дикторов, определить их положение и, наконец, распознать их речь.

Исследованием проблем записи и распознавания речи при помощи конфигурации (массива) микрофонов на разных расстояниях от пользователя занимается значительный круг специалистов. Тем не менее, для задачи локализации речевого сигнала на сегодня до конца не определено, какой класс методов лучше всего использовать. Прежде всего, это связано с тем, что изначально данный класс методов был ориентирован на локализацию узкополосных сигналов, и для обработки речи, изменяющейся в диапазоне 20-20000 Гц, требуется их модификация.

Учитывая, что локализация диктора (пользователя интерактивного приложения) должна происходить в режиме реального времени, а длительность сеансов взаимодействия может не превышать нескольких десятков секунд, большинство из проанализированных методов, как оказалось на практике, не могут быть применены вследствие вычислительной сложности и необходимости использования большого набора сенсоров. В простых приложениях измерение времени задержки между сигналами, записанными двумя или более микрофонами, может использоваться для определения положения диктора в пространстве.

Для моделирования сигнала, излучаемого от удаленного источника в условиях шумов и записанного несколькими разнесенными в пространстве микрофонами, обычно используется следующее выражение:, где xn (i) = ns(i -n ) + bn (i) - сигнал, записанный i xn (i) n-ым микрофоном, -коэффициент ослабления сигнала при распространении в воздухе, - время прохождения звуковой волны от n источника до -ого микрофона, а - аддитивный шум -ого микрофона.

s(i) n bn (i) n Предполагается, что s(i), bn (i) - независимые случайные Гауссовские процессы.

Тогда относительная задержка между сигналами, записанными двумя микрофонами, определяется как разница между временем прохождения волны до первого и второго микрофона:.

12 = 1 - В реальных акустических условиях, где необходимо учитывать эффект реверберации, разницу в характеристиках микрофонов, направленность шумов, идеальная модель сигнала не всегда подходит, и в этом случае применяют более сложные модели, учитывающие импульсные характеристики между источником и микрофоном. Другим способом оценки задержки является метод обобщенной функции взаимной корреляции (General Cross Correlation-GCC), который опредеj 2nk N -N ляется выражением: где GCC = arg max (k )Gx x2 (k )e G l k =, - взаимный спектр, - весовая функция,, Gx x2 (k) = X1(k)X (k) l [1, F] F 2 G(k) - размер окна преобразования Фурье. Метод GCC является более робастным, поскольку основан на предварительной фильтрации входных сигналов в некотором конечном окне, что позволяет избежать смешивания сигналов от различных источников и устранить влияние реверберации. Недостаток данного метода заключается в том, что функция взаимной корреляции обычно имеет довольно размытый максимум, в результате невозможно достичь высокой точности в оценке задержки.

Для повышения производительности метода GCC применяют различные весовые функции, которые позволяют найти некоторый компромисс между разрешающей способностью алгоритма и его чувствительностью к шумам. Например, если требуется выделить в сигнале те частоты, которые имеют наибольшее соотношение сигнал/шум, то весовую функцию G (k) следует выбрать таким образом, чтобы она зависела от спектра шума и полезного сигнала. Такая функция может быть построена заранее с учетом априорных знаний или вычисляться в процессе обработки сигнала, обеспечивая адаптивность метода.

При выборе конфигурации микрофонов были проверены модели с 2, 4, микрофонами. На модели с двумя микрофонами была проанализирована зависимость точности локализации источника звука от расстояния между микрофонами, расстояния между массивом микрофонов и источником звука, отклонением источника от нормали массива. Также отмечено влияние направления распространения звукового потока на точность локализации. Решены задачи локализации дикторов в заданном пространстве и проверки наличия источника звука в ограниченной зоне. В разработанном методе анализа речевой активности учитываются: (1) уровень энергии сигнала; (2) пространственное положение источника звука;

(3) фонетические закономерности разговорной речи. Последовательность операций при определении границ речи в разработанном методе (рис. 3) выполняется в циклическом режиме и заканчивается при остановке всего приложения.

Рис. 3. Схема спектрально-пространственного анализа речевой активности.

Применение корреляционных методов возможно только при обеспечении синхронности многоканальной записи аудиопотоков. В случае же распределенных мероприятий и использования независимых устройств записи и обработки аудиосигналов наиболее эффективно применение методов на основе нормализации ау диоканалов, расчета относительной энергии сигнала и его спектра, учета фонетических закономерностей речи.

В ходе разработки многоканальной системы записи и протоколирования речи распределенных участников мероприятия в интеллектуальном зале были проанализированы основные проблемы обработки аудиосигналов и предложены программно-аппаратные способы их решения. Поскольку участники сидят достаточно близко друг к другу за столом совещаний, соседние микрофоны могут захватывать речь одного и того же диктора с примерно одинаковой амплитудой сигнала. В итоге определение границ речи по энергии сигнала или его спектра в каждом канале независимо часто приводит к ошибочным результатам.

Для повышения точности анализа применяют различные способы нормализаnorm ции, например, расчет относительной энергии сегмента в каждом канале n:

En K En (i) norm, где n i En (i) = En (i) = xKi+k - энергия в канале для сегмента, M k=Ek (i) k =K - число отсчетов в сегменте речи, - число каналов в системе. НормализоM ванная энергия сегмента для каждого канала будет рассчитана относительно всех каналов в системе, и ее значение будет изменяться в диапазоне от нуля до единицы.

Для компенсации различий в усилении сигнала по разным каналам дополнительно учитывают минимальную энергию сегмента в каждом канале:

M min norm min, где - минимальная энергия сегEn En (i) = log10 (En (i) - En - E (i)) j N j=мента, вычисленная для каждого канала в условия тишины, вычитание которой позволяет учесть различные уровни усиления и внутренние шумы микрофонов.

Затем после вычитания средней энергии по каналам производится логарифмирование, чтобы сократить разрядность полученного значения энергии. Нормализованnorm ная энергия показывает относительное усиление сигнала в каждом канале En (i) и позволяет определить наличие речи в текущем сегменте.

При обеспечении синхронизации аудиопотоков возможно применение методов, основанных на вычислении взаимной корреляционной функции между сигналами всех пар микрофонов, использующихся при записи. Также существует класс методов, использующих скрытые Марковские модели и Гауссовские смеси для классификации сигнала на речь и тишину. Их особенностью является необходимый предварительный этап обучения моделей, поэтому на данной стадии исследования для определения речи в многоканальной системе были использованы более простые подходы, выполняющие классификацию без настройки моделей.

В разработанной многоканальной системе регистрации речи участников мероприятия был использован набор веб-камер с встроенными микрофонами, что позволило автоматически выбирать камеру текущего диктора и передавать изображение удаленному участнику мероприятия. Оценка о текущем активном дикто) ре (номере веб-камеры) kt для сегмента t производилась путем расчета относительной энергии канала в скользящем окне, за счет чего подавлялись случайные всплески энергий в отдельных каналах:

G-1 M G-) n j kt = arg max[log10{ ( k En (t + i) - 1 k E (t + i))}], Amp Amp j n G M i=0 j=1 i=n где G - размер скользящего окна, M - число аудиоканалов, - коэффициент kAmp усиления n канала, E - кратковременная энергия сегмента речи.

Точность сегментации речи в многоканальном аудиопотоке оценивалась по ошибкам первого и второго рода, путем вычисления числа пропущенных и ложных сегментов речи соответственно.

Четвертая глава посвящена разработке модели, алгоритмов и программных средств компактного представления словаря системы распознавания русской речи.

Относительно высокий уровень флективности русского языка приводит к генерации большого числа словоформ для одного и того же слова, поэтому простейшая модель организации словаря в виде списка словоформ и их транскрипций не обеспечивает необходимой скорости доступа к словарю. Декомпозиция транскрипции каждой словоформы из словаря на основу и окончание с последующим объединением одинаковых последовательностей первых фонем основ и сохранением списка уникальных транскрипций окончаний обеспечивает формирование компактной морфофонемной структуры словаря в виде двухуровневого префиксного графа, пригодного для декодирования русской слитной речи. Приводятся результаты экспериментальной проверки модели на словаре свыше 2 миллионов словоформ и сравнение с альтернативными подходами представления словаря.

Классической моделью словаря (слов или морфов) является структура, представляющая собой список всех словоформ и их транскрипций. Транскрипция каждого слова представляет собой цепочку составляющих ее фонем. Акустическая модель фонемы обычно строится на основе скрытых моделей Маркова (СММ) и лево-правой модели Бэкиса. Более точное распознавание фонем достигается путем учета фонетического контекста и построения моделей трифонов, а также применения смесей Гауссовских плотностей распределения вероятностей векторов наблюдений в состояниях фонем.

С помощью СММ обеспечивается объединение акустических моделей фонем, слов, фраз в единую структуру графа словаря, обеспечивающего поиск лучшей гипотезы распознавания речевого сообщения. При проектировании системы распознавания речи в зависимости от размера словаря и типа модели языка, которая используется при построении моделей фраз, в основном изменяется структура графа.

Поэтому методы параметрического представления речи, методы оценки вероятности состояний, фонем, фраз остаются практически неизменными, а производится наполнение и оптимизация графа словаря.

С увеличением размера словаря появляются слова с одинаковыми начальными участками, соответственно их транскрипции будут иметь одинаковые начальные фонемы. Путем объединения начальных участков транскрипций словарь преобразуется в лексикофонетическое дерево, за счет чего достигается значительное сокращение памяти. Прохождение по дереву позволяет синтезировать все возможные слова из словаря. Существующие методы распознавания на основе префиксного лексико-фонетического дерева успешно применяются для английского и других языков.

Для компактного представления словаря транскрипций предложено использовать декомпозирование словоформы на основу и концовку при помощи морфоа нализатора, построенного на базе правил словообразования и словоизменения, что позволяет хранить словарь в виде префиксного дерева основ и автоматически генерировать произвольную словоформу.

Полученное лексическое префиксное дерево имеет двухуровневую структуру (рис.4), где первый уровень представляет собой граф основ, а второй - список концовок (элементы, следующие за основой, могут состоять из словообразовательных и словоизменительных суффиксов, окончания и постфикса). Данный двухуровневый морфофонемный префиксный граф (ДМПГ) наиболее компактно описывает все используемые словоформы и их транскрипции.

Рис. 4. Структура ДМПГ для декодирования слитной речи.

Первый уровень ДМПГ представляет собой префиксный граф транскрипций основ, концевыми узлами которого являются графемные представления основ.

Число входных узлов первого уровня равно числу уникальных первых фонем в транскрипциях слов из словаря. Число концевых узлов первого уровня графа равно числу уникальных основ из словаря. Второй уровень ДМПГ представляет собой список уникальных транскрипций концовок с соответствующими фонетическими путями. Узлы основ связаны с соответствующими концовками для построения всех возможных словоформ. Любой путь по двухуровневому графу содержит ровно два УконцевыхФ узла (основу и концовку). Число различных путей по графу равно числу всех различных транскрипций словоформ, которые можно образовать по грамматическим правилам русского языка от имеющегося в словаре списка основ. Максимальная и минимальная длины путей по графу равны числу фонем в транскрипциях самой длинной и самой короткой словоформы соответственно.

Данный граф может быть применен для распознавания изолированно произнесенных слов. В этом случае последовательность фонем, составляющая транскрипцию некоторого слова, может быть записана в виде кортежа пройденных w узлов по графу: Ч неw = n1, n2,..., ni,l1, ni+1, ni+2,...nj,l2, где n1,n2,..., ni,...nj концевые узлы, содержащие фонемы. Концевые узлы содержат, соответстl1 и lвенно, некоторую основу и концовку.

Использование грамматических правил при формировании двухуровневого морфофонемного графа обеспечивает построение всех возможных словоформ и исключает возникновение грамматически некорректных комбинаций основы и концовки при декодировании речевого сигнала.

Генерация ДМПГ производится по списку транскрибированных словоформ, поэтому полученный граф способен генерировать только грамматически правильные слова. Для использования данного графа в задаче распознавания слитной речи вводится обратная связь, обеспечивающая генерацию последовательности словоформ с неограниченной длиной. Строго говоря, число слов в последовательности будет зависеть от длины записанного речевого сигнала, и при поступлении последней фонемы гипотеза распознанной фразы (путь по графу) заканчивается последним начатым словом.

Для оценки предложенного способа представления словаря проведен сравнительный анализ ДМПГ с двумя общепринятыми моделями представления словаря:

модель списка всех словоформ и лексическое дерево. Число узлов и дуг, а также плотность графа словаря использованы для оценки компактности различных способов представления. Отдельно приведена статистика по узлам разного типа (узлы фонем, словоформ, основ, концовок). Плотность графа вычисляется как отношение суммарного числа всех узлов и дуг к числу словоформ, которые хранятся в данной модели словаря. Плотность графа позволяет оценить среднее число узлов и дуг, которое требуется для представления отдельной словоформы. В диссертации приведены формулы расчета перечисленных параметров для всех трех способов.

Размер словаря при использовании линейной модели списка слов пропорционален произведению числа всех словоформ и средней длины слова. При этом модель каждого слова представляет собой цепочку узлов фонем для описания транскрипции и узел словоформы. В префиксном лексическом дереве достигается значительное сокращение элементов графа за счет объединения узлов фонем на начальных участках одинаковых фонетических транскрипций. Так как число узлов фонем сокращается в процессе построения дерева и зависит от подобия префиксов фонетических транскрипций слов предметной области, то его аналитическую формулу вывести невозможно, а расчет производится путем простого пересчета узлов фонем после построения дерева.

С помощью модели лексического префиксного дерева достигается значительное сокращение узлов фонем в графе. В то же время ДМПГ, построенный по принципам лексического дерева, сохраняет его преимущества и имеет двухуровневую морфологическую структуру. За счет этого сложность ДМПГ пропорциональна числу основ в словаре. Для оценки сложности топологии ДМПГ далее рассмотрим формулы вычисления числа узлов и дуг, использованных при построении графа.

Так как граф имеет двухуровневую структуру, то для каждого параметра расчет будет производиться в три этапа: анализ уровня основ, анализ уровня концовок и суммарная оценка.

Так как первый уровень ДМПГ представляет собой лексическое дерево основ, то расчет числа узлов фонем на первом уровне произвоNphon _ node _ stem( ДМПГ) дится путем суммирования узлов на каждом срезе sliceiДМПГ. При этом число фонем в транскрипциях словоформ или длина фонетических путей изменяется от 1 до stem числа фонем в транскрипции самой длинной основы, а не словоформы:

lmax stem lmax. Учитывая, что транскрипции конN ( ДМПГ) = (sliceiДМПГ ) phon _ node _ stem N phon i=цовок располагаются в графе независимо друг от друга, расчет числа узлов фонем на втором уровне производится следующим образом:

Nphon _ node _ ending( ДМПГ) Nending, где li Nending - число концовок в словаре, - число N ( ДМПГ) = phon _ node _ ending li i=фонем в транскрипции концовки с номером i. Отметим, что в графе хранятся только уникальные концовки и их транскрипции. Суммарное число узлов фонем, включая уровни основ и концовок, будет равно:

N ( ДМПГ ) phon _ node N ( ДМПГ) = Nphone _ node _ stem( ДМПГ) + N ( ДМПГ) = phon _ node phone _ node _ ending stem Nending lmax = (sliceiДМПГ ) + Nphon li i=1 i=Так как в графе существуют узлы только уникальных основ Nstem и концовок, то общее число узлов, содержащих полные транскрипNending Nword _ node( ДМПГ) ции и индексы лексических единиц равно:

Nword_node(ДМПГ) = Nstem + Nending. Суммарное же число всех узлов, включая начальный, равно:

Nnode( ДМПГ) =1+ Nphon_ node( ДМПГ) + Nstem + Nending = stem Nending lmax =1+ N (sliceiДМПГ ) + l + Nstem + Nending phon i i=1 i=Число дуг в графе складывается из нескольких составляющих. Во-первых, это число дуг, задействованных в лексическом дереве осN ( ДМПГ ) + Nstem phon _ node нов и списке концовок, затем дуги Narc _ stem _ ending, связывающие основы и концовки, в количестве, необходимом для построения всех возможных словоформ; и, наконец, дуги обратных связей Nending :

Narc ( ДМПГ ) = N ( ДМПГ ) + Nstem + Narc_stem_ending + Nending = phon _ node stem Nending lmax = N (sliceiДМПГ ) + + Nstem + Narc_stem_ending + Nending phon li i=1 i=Суммарное число узлов и дуг Nnode&arc( ДМПГ) в графе равно:

Nnode&arc ( ДМПГ ) = Nnode ( ДМПГ ) + Narc ( ДМПГ ) = stem Nending max l = 1+ 2 N (sliceiДМПГ ) + + Nstem + Nending + Narc_stem_ending phon l i i=1 i=1 Тогда плотность графа равна:

Ndensity ( ДМПГ ) stem Nending max l 1+2 (sliceiДМПГ)+ + Nstem + Nending + Narc_stem_e Nphon li nding i=Nnode&arc(ДМПГ) i=1 Ndensity(ДМПГ) = = Nword Nword Во всех трех моделях число хранящихся словоформ остается неизменNword ным. За счет объединения идентичных фонем на первых срезах лексического дерева достигается существенное сокращение узлов фонем по сравнению с моделью списка, где число узлов фонем на первом срезе равно числу словоформ в словаре, а затем постепенно убывает. В отличие от лексического дерева в ДМПГ строится дерево только для основ, а не для полных словоформ. Кроме того, в виде списка хранятся фонетические пути только для уникальных окончаний, в то время как в лексическом дереве окончания повторяются в парадигмах всех слов из словаря.

Число узлов, содержащих слова в лексическом дереве и в модели списка, является одинаковым, так как в том и в другом случае в узлах хранятся все словоформы из словаря. В графе ДМПГ узлов, содержащих полные словоформы, не существует, так на этапе подготовки словаря производится декомпозиция всех словоформ на основы и концовки.

В структуре лексического дерева производится сокращение узлов фонем, однако в листе каждой ветви дерева по-прежнему хранится полная словоформа. Поэтому оптимизация способа представления фонетических путей не обеспечивает сокращения узлов словоформ в модели дерева. В графе ДМПГ обеспечивается сокращение как узлов фонем, так и узлов слов благодаря декомпозиции словоформы на основу и концовку. При этом число уникальных основ и концовок, которые хранятся в узлах графа, будет существенно меньше, чем число уникальных словоформ. Так как число уникальных словоформ в каждом из способов одинаковое, то отношение плотностей графов равно отношению суммарного числа узлов и дуг.

Для тестирования моделей был сформирован список всех словоформ и их транскрипций путем обработки грамматического словаря А.А. Зализняка. Сравнительный анализ моделей по параметрам, описанным в предыдущих разделах, показал явное преимущество ДМПГ. Характеристики графов, построенные по трем разным подходам, представлены в таблице 2. ДМПГ описывая точно такой же словарь, как и основные модели, использует в 7,99 раз меньше число узлов фонем, а также имеет в 9,4 раз меньше плотность графа по сравнению с лексическим деревом.

Таблица 2. Сравнение ДМПГ с другими моделями представления словаря.

Способ представления словаря Критерий сравнения Модель списка Лексическое дерево ДМПГ Число узлов фонем 23017898 2967752 3710Сокращение числа узлов фонем - 7,75 62,03 / 7,Число узлов словоформ (основ+концовок) 2095659 2095659 1879Суммарное число узлов 25113558 5063412 5590Число дуг 27209216 7159070 7470Суммарное число узлов и дуг 52322774 12222482 13060Плотность графа словаря 24,96 5,83 0,Сокращение плотности графа словаря - 4,28 40,06 / 9,Также было проанализировано, как изменяются параметры моделей в зависимости от размера словаря. Сокращенные словари создавались путем случайного отбора заданного числа уникальных словоформ из базового словаря. По суммарному числу узлов ДМПГ имеет явное преимущество, начиная с размера словаря около 10000 словоформ. По остальным показателям, в том числе по плотности графа (табл. 3), ДМПГ лидирует уже после 100 словоформ.

Особый интерес представляет распределение числа узлов фонем по срезам графа (рис. 5), поскольку главным образом этот фактор влияет на сложность топологии как графа ДМПГ, так и лексического дерева. Проанализируем все три модели отдельно.

Таблица 3. Сравнение по плотности графа словаря.

Модель представле- Размер словаря ния словаря 10 100 1000 10000 100000 1000000 20956Модель списка 24,5 22,77 23,51 23,31 23,33 23,74 24,Лексическое дерево 23,9 20,43 18,71 15,22 9,74 5,86 5,ДМПГ 25,5 19,73 15,62 11,46 5,28 1,07 0,В линейной модели списка транскрипций словоформ на первом срезе присутствуют первые фонемы всех словоформ, поэтому число узлов фонем равно числу словоформ в словаре. Для тестового словаря число узлов фонем первого среза равно 2095659. На втором срезе число узлов фонем становится меньше (2095627 узлов), поскольку слова, состоящие из одной буквы, уже не участвуют в этом срезе.

По мере увеличения номера среза и, соответственно, длины слова, число узлов фонем на каждом уровне сокращается. На последнем 27 срезе присутствует узлов фонем для последних фонем из шестнадцати самых длинных транскрипций.

Для повышения компактности и скорости обработки транскрипций мягкость согласных и ударность гласных выделяется регистром.

В лексическом дереве на первом срезе присутствуют узлы только уникальных фонем, по мере появления различий в цепочках фонем число узлов на каждом последующем срезе увеличивается. После достижения среза с номером равным средней длине транскрипции большая часть транскрипций постепенно заканчивается узлами словоформ, и поэтому число узлов фонем начинает сокращаться. На первом и последнем срезах для данного словаря находится 48 и 18 узлов фонем соответственно. Максимальное число узлов фонем 371545 достигается на 10 срезе.

2,50E+06 1,00E+1,00E+2,00E+1,00E+1,50E+1,00E+1,00E+1,00E+1,00E+5,00E+1,00E+0,00E+00 1,00E+0 5 10 15 20 25 30 0 5 10 15 20 25 Номер среза Номер среза Модель списка Лексическое дерево ДМПГ Модель списка Лексическое дерево ДМПГ Рис. 5. Распределение узлов фонем по срезам моделей: а Ч линейная шкала; б Ч логарифмическая шкала.

В ДМПГ благодаря использованию лексического дерева для представления транскрипций основ и объединению одинаковых концовок срез с максимальным числом узлов фонем достигается почти в 2 раза быстрее, а значение максимума в раз меньше в ДМПГ, чем в лексическом дереве. Таким образом, для данного словаря, включающего 2095659 уникальные транскрипции словоформ, предложенный способ представления словаря на базе ДМПГ показал заметное преимущество.

Число узлов фонем Число узлов фонем Также рассмотрена методика подготовки всего комплекса баз данных, необходимых для работы системы распознавания речи, в том числе на уровне акустики, лексики и синтаксиса. Описаны алгоритмы, использованные при обработке речевого сигнала с помощью разработанного декодера на базе ДМПГ. Рассмотрены этапы обработки и прохождения гипотезы распознавания по всему графу, а также в узле фонемы. Предложены некоторые изменения в структуре графа для его применения к обработке спонтанной речи. Проанализированы основные внеязыковые элементы, характерные для разговорной речи, которые ухудшают качество распознавания декодеров, ориентированных на обработку слитной речи. Предложенный гибридный декодер включает в себя модули, отслеживающие появление шумовых внеязыковых элементов в речи и их устранение на акустическом уровне, за счет чего обеспечивается повышение точности распознавания речи.

Пятая глава описывает разработанное программное обеспечение проектирования речевых и многомодальных интерфейсов и примеры созданных интерактивных многомодальных приложений.

На основе предложенного методологического и математического обеспечения проектирования многомодальных интерактивных приложений и конфигурирования программно-аппаратных ресурсов были определены комбинации входных и выходных модальностей для разработанных приложений, относящихся к различным классам интерактивных информационно-управляющих сервисов. В таблице представлены комбинации модальностей для каждого разработанного приложения с учетом ограничений UC, DC, EC, SC.

Указаны наиболее важные характеристики дикторов, использованного оборудования, помещения и особенностей предметной области. Знаком л+ отмечены задействованные модальности, а знаком л* модальности, которые не были реализованы на данной стадии исследования по технико-экономическим причинам, но являющиеся перспективными с точки зрения обеспечения естественности взаимодействия. Например, внедрение технологий чтения речи по губам в многомодальный киоск, который ориентирован на применение в общественных местах с сильным уровнем шумов, позволит увеличить помехоустойчивость распознавания речи. Синтез мимических движений говорящей головы позволит повысить интерактивность взаимодействия и привлечь больший круг клиентов. Синтез и распознавание жестов рук позволит инвалидам по слуху воспользоваться услугами информационно-справочного многомодального киоска.

Структура разработанного программного обеспечения, использующегося на всех этапах жизненного цикла многомодального интерфейса, представлена на рисунке 6. Разработанные классы и библиотеки разделены на пять основных уровней: (1) модули интерфейсов к устройствам; (2) модули синхронизации потоков и процессов; (3) модули первичной обработки сигналов;

(4) модули распознавания и синтеза образов; (5) модули пользовательских сервисов. Программное обеспечение удовлетворяет требованиям: адаптивности, многофункциональности, переносимости, масштабируемости, расширяемости и другим свойствам, предъявляемым к современным инструментальным средствам автоматизации проектирования и программирования. Далее рассматривается несколько примеров многомодальных приложений, реализованных на основе данного обеспечения в ходе диссертационного исследования.

Входные Выходные Свойства многомодальных приложений модальности модальности Параметры ХарактериХарактеристики среды взаимодейпользователя, Характеристики устройств, DC стики сервиствия, EC UC са, SC Многомодальный информационный киоск Промышленный бортовой ком- Расстояние взаимодействия 0.2- КратковреНеподготовленпьютер. Сенсорный экран. Мас- 0.6 м., сильные фоновые шумы и менные сесные пользоватесив микрофонов. Массив видео- параллельные разговоры. Помеще- сии, размер + * + * * + + + + * * ли разного пола, камер. Динамики. Подключение к ния в общественно-транспортных словаря до возраста, роста.

сети Интернет. центрах. 3000 слов Управление оборудованием внутри интеллектуального зала Распределенная многопроцессор- Расстояние взаимодействия 0.2Неподготовлен- ная система. Мультимедиа. Рас- 6 м., сильные фоновые шумы и Кратковреные пользовате- пределенная система микрофонов параллельные разговоры. Взаимо- менные сесли без физиче- и камер. Подключение к Интерне- действие с несколькими пользова- сии, размер + + + * + + + + * ских ограниче- ту. Отдельное помещение для телями одновременно. Закрытое словаря до ний расположения вычислительных, помещение с ограниченным чис- 3000 слов сетевых ресурсов. лом пользователей.

Удаленное управление оборудованием зала через мобильное устройство Подготовлен- Небольшие габаритные размеры. Расстояние взаимодействия 0.1- Кратковреные пользовате- Ограниченные вычислительные 0.4 м., сильные фоновые шумы и менные сесли без физиче- ресурсы. Сенсорный экран. Набор параллельные разговоры. Динамич- сии, размер * * + + + + * ских ограниче- функциональных кнопок. Дина- ное изменение условий окружаю- словаря до ний мики. Подключение к Интернету. щей среды. 100 слов Поддержка информационного взаимодействия участников совещания Распределенная многопроцессор- Расстояние взаимодействия 0.2-6 м., Подготовлен- ная система. Подключение к Ин- сильные фоновые шумы и парал- Длительные ные пользовате- тернету. Мультимедиа. Распреде- лельные разговоры. Взаимодейст- сессии, разли без физиче- ленная система микрофонов и вие с несколькими пользователями мер словаря + + * + * + + + + * ских ограниче- камер. Отдельное помещение для одновременно. Закрытое помеще- до 100ний расположения вычислительных, ние с ограниченным числом поль- слов сетевых ресурсов. зователей.

Таблица 4.

Комбинации модальностей в разработанных приложениях.

Движение губ Движение губ Графический Направление Направление Синтез речи Указание на Рукописные Тактильный Аудио речь Жесты рук Жесты рук сенсорном Мимика взгляда взгляда экране жесты вывод вывод Рис. 6. Структура программного обеспечения многомодального интерфейса.

Приводится описание разработанного многомодального киоска МИДАС (Многомодальный Интерактивно-Диалоговый Автомат Самообслуживания), распознающего присутствие клиента и вербально взаимодействующего с ним на естественном языке, в котором в первую очередь были реализованы разработанные методы обработки различных естественных модальностей. Основными модулями архитектуры киоска являются: 1) видеообработка с технологией компьютерного зрения для распознавания положения тела, лица и отдельных органов лица пользователя; 2) дикторонезависимая система распознавания русской речи, использующая массив микрофонов для подавления шумов и локализации источника полезного сигнала при дистанционной записи речи; 3) система аудиовизуального синтеза русской речи (говорящая голова), применяемая для виртуального помощникааватара; 4) интерактивный графический пользовательский интерфейс на базе сенсорного экрана; 5) менеджер диалога и диалоговая модель, включающие информационные базы данных и систему управления стратегиями диалога.

На базе многомодального киоска были реализованы справочные системы по сотрудникам СПИИРАН и поиска по карте Санкт-Петербурга, а также были проведены когнитивные эксперименты по человеко-машинному взаимодействию с использованием трех вариантов интерфейсов: (1) полностью речевой интерфейс;

(2) интерфейс с дублированием речи текстом; (3) полностью текстовый интерфейс.

Результаты экспериментов подтвердили готовность большинства потенциальных пользователей к естественному многомодальному либо речевому взаимодействию с автоматической системой.

Рассмотрена технологическая инфраструктура интеллектуального зала (рис. 7), оснащенного в здании института. Наличие многомодального пользовательского интерфейса является отличительной характеристикой созданного интеллектуального зала. Разработанные технологии обработки аудиовизуальных данных были успешно внедрены в интеллектуальном зале для обеспечения естественного взаимодействия с оборудованием зала. Среди наиболее важных примененных тех нологий следует отметить автоматическое распознавание речи, идентификацию диктора, локализацию источников звука, определение положения и слежение за подвижным объектом и лицом человека, определение позы человека. Кроме того, в разработанных интерактивных приложениях используется технология аудиовизуального синтеза русской речи говорящая голова, созданная в ходе совместных проектов с ОИПИ НАН Беларуси и университетом Западной Богемии.

Интеграция указанных выше технологий обеспечивает систему управления залом данными о текущей обстановке в помещении, поведении пользователей и надежное распознавание голосовых команд за счет анализа пространственновременной и ситуативной информации.

Рис. 7. Технологическая инфраструктура интеллектуального зала.

Дистанционное распознавание голосовых команд, записанных с использованием массивов микрофонов, позволяет управлять освещением, шторами, проекционным экраном, поворотом камер и более сложными приложениями, например, телевизором, радио, аудио-, видеоплеером. Реализованы многомодальные приложения Справочная СПИИРАН, предлагающее в интерактивном режиме информацию о сотрудниках института, научных подразделения и текущих мероприятиях, и Карта Санкт-Петербурга, где посредством голосового дистанционного запроса производится поиск улицы и вывод на экран сенсорного монитора интересующего участка карты города. Приложение Умная доска позволяет делать рукописные записи на сенсорной плазменной панели и с помощью голосовых команд управлять графическим интерфейсом. В приложении Монитор состояния зала на экран выводится информация о состоянии оборудования, пространственному положению пользователей, их речевой активности, а также реализовано сенсорное управление оборудованием. Во всех приложениях интерактивная обратная связь обеспечивается с использованием говорящей головы, которая показывает пользователю об осведомленности зала о поведении пользователей и озвучивает необходимую речевую информацию.

На основе веб-интерфейса была реализована система удаленного управления оборудованием зала посредством гетерогенных клиентских устройств. На рисунке 8 приведены примеры различной компоновки управляющих элементов, изображения зала, а также говорящей головы, служащей для бимодального синтеза речи, для различных разрешения и ориентации мобильного устройства клиента. Представленная модель компоновки веб-страницы адаптируется возможностям и текущему состоянию устройства и автоматически формирует соответствующую структуру веб-страницы, отображающейся на стороне клиента.

Рис. 8. Примеры компоновок веб-интерфейса для различных клиентских устройств.

Разработанный интеллектуальный зал представляет собой распределённую систему, которая содержит сеть интеллектуальных агентов (программных модулей), активационных устройств, мультимедийных средств и аудиовизуальных сенсоров. Основная задача зала Ч обеспечение участников совещания или лекции необходимыми сервисами на основе автоматического анализа текущей ситуации.

Осведомлённость зала о пространственном положении участников, их текущих действиях, роли в текущем мероприятии и их предпочтениях помогает более точно предсказать намерения и потребности участников. Применение многомодального пользовательского интерфейса, использующего речь, движения, позы и жесты участников для выявления их потребностей обеспечивает естественный и интуитивно понятный способ взаимодействия с интеллектуальным залом.

В разработанной системе протоколирования речи участников телеконференций используется набор персональных веб-камер с автоматизированной регулировкой объектива и встроенным микрофоном для записи поведения участников и последующего выявления в аудио- и видеосигналах сегментов, содержащих речь, жесты и другую активность, связанную с ходом мероприятия. Общая схема обработки аудио- и видеопотоков во время совещания и передачи данных удаленным слушателям представлена на рисунке 9. Одновременно с передачей аудио- и видеосегментов с каждой камеры поступает время начала записи, по которому производится синхронизация и формирование многоканальных потоков. За счет такой обработки частично устраняется асинхронность потоков, вызванная разным временем подключения веб-камер и задержек, связанных с загруженностью вычислительных модулей и сети передачи данных.

Рис. 9. Схема обработки аудио- и видеопотоков во время совещания.

Для проведения телеконференций разработана специальная диалоговая система, позволяющая видеть удаленному клиенту всех участников мероприятия, слайды презентации. Компоновка аудио- и видеоданных производится на основе веб-интерфейса, адаптируемого к возможностям клиентского устройства и текущей ситуации в зале, где проводится совещание. Благодаря автоматическому переключению камер на текущего участника есть возможность отображения активного диктора в окне с большим разрешением. Весь ход мероприятия архивируется в аудио- и видеофайлах с сегментацией на фразы каждого диктора. Составляется детальная статистика на каждого выступающего и в целом на совещание. По окончанию мероприятия генерируется мультимедийный отчет, позволяющий проанализировать активность каждого участника и его вклад при принятии решений. Разработанная система многоканальной записи была успешно протестирована и используется в институте для информационной поддержки участников мероприятия.

Разработка математического и программного обеспечения была выполнена в ходе реализации государственных программ, направленных на изучение средств естественной человеко-машинной коммуникации, поддержана российскими и зарубежными грантами. Предложенный комплекс модельно-алгоритмического, методического, программного, технического и информационного обеспечения построения интерактивных многомодальных приложений внедрен в ряде организаций и используется в учебном процессе.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ Совокупность полученных в настоящем диссертационном исследовании научных результатов составляет теоретические и технологические основы решения проблемы системотехнического обеспечения процессов естественного человекомашинного взаимодействия в интерактивных многомодальных приложениях на базе многоканальной дистанционной обработки речи, внедрение которых вносит значительный вклад в развитие экономики страны. Получены следующие результаты:

1. Методологическое и математическое обеспечение проектирования интерактивных многомодальных приложений и конфигурирования программно-аппаратных ресурсов для организации естественного взаимодействия пользователей с учетом ограничений на способы коммуникации со стороны пользователя, клиентских устройств, среды взаимодействия и предметной области предоставляемого сервиса.

2. Метод анализа речевой активности, основанный на применении антропоморфных моделей слуха, критериального оценивания уровня энергии взаимного спектра синхронизированных по времени сигналов, а также учета положения диктора при выявлении границ речи в многоканальном звуковом потоке.

3. Система протоколирования речи участников телеконференций на базе многоканальной распределенной системы регистрации аудиопотоков, расчета относительной энергии сигнала и его спектра и оценивания пространственного положения источника сигнала посредством трехмерной конфигурации микрофонов.

4. Модель компактного представление словарей транскрипций системы распознавания русской речи на базе двухуровневого морфофонемного префиксного графа, отличающаяся применением декомпозиции транскрипций на основу и концовку с последующим объединением одинаковых последовательностей первых фонем основ в виде лексического дерева и сохранением списка уникальных транскрипций концовок.

5. Методика экспертного сопровождения, обеспечивающая накопление реального речевого материала для адаптации системы распознавания речи в процессе постепенной замены оператора автоматическим модулем обработки речи.

6. Программное обеспечение разработки и функционирования многомодального интерфейса, отличающееся применением модулей многоканальной обработки аудио- и видеосигналов, выполнением многопоточных задач на распределенных вычислительных ресурсах и созданием кроссплатформенных приложений, адаптивных к возможностям и текущему состоянию клиентского устройства.

7. Программно-аппаратная архитектура многомодального информационносправочного киоска, использующая аудиовизуальные коммуникативные каналы для имитации естественного общения и организации диалога с пользователем в реальных условиях эксплуатации.

8. Технологическая инфраструктура интеллектуального зала, отличающаяся применением модулей многоканальной регистрации и обработки аудиови зуальных сигналов для определения положения и слежения за пользователями, дистанционного распознавания голосовых команд, мультимедийного оповещения удаленных пользователей о ситуации внутри зала и организации распределенных мероприятий.

9. Интерактивные приложения, реализованные на основе разработанных методов и созданных многомодальных интерфейсов, обеспечивающих естественную коммуникацию пользователя с интеллектуальными информационными сервисами.

Полученные результаты соответствуют п.9 Модели и методы разработки программных средств обработки данных и знаний в ВМ, ВК и КС, п.12 Программные инструментальные средств разработки интеллектуальных систем, в том числе экспертных систем, систем поддержки принятия решений, обучающих систем и др., п.13 Программных средств для машин логического вывода, алгоритмов и программного обеспечения компьютерной алгебры, распознавания образов и классификации для связи человека с вычислительной машиной паспорта специальности 05.13.11 - Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ

Монография и главы в книгах 1. Ронжин, А.Л. Речевой и многомодальный интерфейсы/ А.Л. Ронжин, А.А. Карпов, И.В. Ли. // М.: Наука, 2006 - (Информатика: неограниченные возможности и возможные ограничения), 173 с.

2. Ronzhin, A. Two Similar Different Speech and Gestures Multimodal Interfaces / A. Karpov, S. Carbini, A. Ronzhin, J.E. Viallet // Multimodal User Interfaces: From Signals to Interaction, D. Tzovaras (Ed.), Springer, 2008, pp. 155-184.

3. Ronzhin, A.L. Quantitative methods in speech processing / Yu.A. Kosarev, A.L. Ronzhin // Chapter in Quantitative Linguistics, [HSK-vol. 27], Berlin: New York, DeGruyter, 2005, pp.834-846.

В журналах из перечня ВАК 4. Ронжин, А.Л. От умных приборов к интеллектуальному пространству / Р.М. Юсупов, А.Л. Ронжин. // Вестник Российской Академии Наук, Том 80, № 1, 2010, C. 45-51.

5. Ронжин, А.Л. Сравнительный анализ и оценка моделей словаря для систем распознавания русской речи // Информационные технологии, №1, 2009, С. 2128.

6. Ронжин, А.Л. Исследование многомодального человеко-машинного взаимодействия на базе информационно-справочного киоска / А.Л. Ронжин, А.А. Карпов. // Информационно-измерительные и управляющие системы, Москва, № 4, Т. 7, 2009, С. 22-26.

7. Ронжин, А.Л. Особенности дистанционной записи и обработки речи в автоматах самообслуживания / А.Л. Ронжин, А.А. Карпов, И.А. Кагиров // Информационно-управляющие системы, Вып. 42, т. 5. Ч СПб.: ГУАП, 2009, С. 32-38.

8. Ronzhin, A.L. Information Enquiry Kiosk with Multimodal User Interface / A.A. Karpov, A.L. Ronzhin // Pattern Recognition and Image Analysis, Moscow:

MAIK Nauka/Interperiodica, Vol. 19, № 3, 2009, pp.546-558.

9. Ронжин, А.Л. Топологические особенности морфофонемного способа представления словаря для распознавания русской речи // Вестник компьютерных и информационных технологий, № 9, 2008, С. 12-19.

10. Ронжин, А.Л. Разработка бимодальной системы аудиовизуального распознавания русской речи / А. Карпов, A. Ронжин, Б. Лобанов, Л. Цирульник, М. Железны. // Информационно-измерительные и управляющие системы, Москва, № 10, Т. 6, 2008, С. 58-62.

11. Ронжин, А.Л. Мультимодальный человеко-машинный интерфейс в медицинских приложениях / С. Чернакова, А. Карпов, А. Нечаев, А. Ронжин // Мехатроника, автоматизация, управление, Москва, № 11, 2008, С. 32-37.

12. Ронжин, А.Л. Сравнение методов локализации пользователя многомодальной системы по его речи / А.Л. Ронжин, А.А. Карпов. // Известия вузов. Приборостроение. 2008. Т. 51, № 11. С. 41-47.

13. Ронжин, А.Л. Автоматическое распознавание русской речи / А.Л. Ронжин, И.В. Ли //Вестник Российской Академии Наук, Том 77, Вып. 2, 2007, C. 133138.

14. Ronzhin, A.L. Russian Voice Interface / A.L. Ronzhin, A.A. Karpov // MAIK Nauka/Interperiodica: Pattern Recognition and Image Analysis, 2007, Vol. 17, № 2, pp.

321Ц336.

15. Ронжин, А.Л. Применение техники Гудвин для моделирования человекомашинного взаимодействия / А.Л. Ронжин, А.Б. Леонтьева // Известия вузов.

Приборостроение. 2006. Т. 49, № 11. С. 70-75.

16. Ронжин, А.Л. Фонетико-морфологическая разметка речевых корпусов для распознавания и синтеза русской речи / А.Л. Ронжин, А.А. Карпов, Б.М. Лобанов, Л.И. Цирульник, О. Йокиш // Информационно-управляющие системы, Вып. 25, т. 6. Ч СПб.: ГУАП, 2006, С. 24-34.

17. Ронжин, А.Л. Многомодальная система для бесконтактной работы с персональным компьютером / А.Л. Ронжин, А.А. Карпов // Информационноуправляющие системы, Вып. 23, т. 4. Ч СПб.: ГУАП, 2006, С. 33-35.

18. Ронжин, А.Л. SIRIUS - cистема дикторонезависимого распознавания слитной русской речи / А.А. Карпов, А.Л. Ронжин, И.В. Ли. // Известия ТРТУ, № 10, 2005, С. 44-53.

19. Ронжин, А.Л. Многомодальные интерфейсы в автоматизированных системах управления / А.А. Карпов, А.Л. Ронжин // Известия вузов. Приборостроение.

2005. Т. 48, № 7. С. 9-14.

В других изданиях 20. Ronzhin, A.L. Multimodal Interaction with Intelligent Meeting Room Facilities from Inside and Outside / A.L. Ronzhin, V.Yu. Budkov // Springer-Verlag Berlin Heidelberg, S. Balandin et al. (Eds.), LNCS 5764, 2009, pp. 77Ц88.

21. Ronzhin, A.Designing Cognition-centric Smart Room Predicting Inhabitant Activities / Ronzhin A., Karpov A., Kipyatkova I. // Springer-Verlag Berlin Heidelberg, D.D. Schmorrow et al. (Eds.): Augmented Cognition, LNAI 5638, 2009, pp. 78Ц87.

22. Ронжин, А.Л. Система аудиовизуального синтеза русской речи / Б.М. Лобанов, Л.И. Цирульник, М. Железны, З. Крноул, А. Ронжин, А. Карпов // Информатика. Минск, Беларусь - 2008. - № 4 (20). - С. 67-78.

23. Ronzhin, A. A Semi-automatic Wizard of Oz Technique for LetТsFly Spoken Dialogue System / A. Karpov, A. Ronzhin, An. Leontyeva. // Springer, LNAI 5246, 2008, pp. 585-592.

24. Ronzhin, A. Smart Multimodal Assistant for Disabled / A. Ronzhin, A. Karpov, M. Zelezny, R. Mesheryakov // Springer, LNCS, Vol. 4550-4566, pp. 201-205.

25. Ронжин, А.Л. Разработка многомодального информационного киоска / А.Л.

Ронжин, А.А. Карпов, Ан.Б. Леонтьева, Б.Е. Костюченко // Труды СПИИРАН.

Вып. 5, т. 1. Ч СПб.: Наука, 2007, С. 227-245.

26. Ронжин, А.Л. Двухуровневый морфофонемный префиксный граф для декодирования русской слитной речи / А.Л. Ронжин, Ан.Б. Леонтьева, И.А. Кагиров, Ал.Б. Леонтьева // Труды СПИИРАН. Вып. 4, т. 1. Ч СПб.: Наука, 2007, С. 388404.

27. Ronzhin, A. A. Hybrid System for Audio Segmentation and Speech-Endpoint Detection of Broadcast News / M. Markaki, A. Karpov, E. Apostolopoulos, M. Astrinaki, Y. Stylianou, A. Ronzhin // In Proc. of 12-th International Conference on Speech and Computer SPECOM, Moscow, Russia, 2007, pp. 691-696.

28. Ронжин, А.Л. Методы искусственного интеллекта и автоматического распознавания речи: Учеб. пособие / Ронжин А.Л., Ли И.В. // СПбГУАП. СПб., 2006.

176 с.

29. Ronzhin, A. A. A multi-modal system ICANDO: Intellectual Computer AssistaNt for Disabled Operators / A. Karpov, A. Ronzhin, A. Cadiou // In Proc. of InterspeechТ2006-ICSLP Conference, Pittsburgh, PA, USA, 2006.

30. Ронжин, А.Л. Разработка и применение системы распознавания слитной русской речи / А.Л. Ронжин, А.А. Карпов, И.В. Ли. // Интегральное моделирование звуковой формы естественных языков: Сборник статей. - СПб.: Институт филологических исследований, 2005. С. 12-19.

31. Ronzhin, A.L. Implementation of morphemic analysis for Russian speech recognition / A.L. Ronzhin, A.A. Karpov // In Proc. of 9-th International Conference SPECOMТ2004, St. Petersburg: УAnatoliyaФ, 2004, pp. 291-296.

Свидетельства о регистрации ПрЭВМ 32. Свидетельство о регистрации ПрЭВМ №2009610481 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 21 января 2009 г.: Ронжин А.Л. Модуль спектрально-пространственного анализа речевой активности (SVAD).

33. Свидетельство о регистрации ПрЭВМ №2008611032 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 26 февраля 2008г.: Ронжин А.Л., Леонтьева Ан.Б., Кагиров И.А., Карпов А.А. Декодер русской слитной речи на базе двухуровневого морфофонемного префиксного графа (SIRIUS).

34. Свидетельство о регистрации ПрЭВМ №2008612231 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 30 апреля 2008г.: Леонтьева Ан.Б., Кагиров И.А., Ронжин А.Л. Морфосинтаксический анализатор русского языка (SMART).

35. Свидетельство о регистрации ПрЭВМ №2008611031 Федеральной службы по интеллектуальной собственности, патентам и товарным знакам от 26 февраля 2008г.: Карпов А.А., Ронжин А.Л. Многомодальный пользовательский интерфейс для бесконтактного управления компьютером (ICANDO).

Авторефераты по всем темам >> Авторефераты по техническим специальностям