«Разработка адаптивного метода робастного понимания слитной речи на основе интегральной обработки данных»

Вид материалаДоклад
Подобный материал:
ДОКЛАД

Ронжина Андрея Леонидовича по диссертационной работе «Разработка адаптивного метода робастного понимания слитной речи на основе интегральной обработки данных», представленной на соискание ученой степени кандидата технических наук по специальности 05.13.18 – “Математическое моделирование, численные методы и комплексы программ” по техническим наукам


Глубокоуважаемые председатель совета, члены совета, коллеги позвольте представить вашему вниманию кандидатскую диссертацию на тему Разработка адаптивного метода робастного понимания слитной речи на основе интегральной обработки данных.

Во избежание недоразумений следует привести некоторые термины из данной быстроразвивающейся области, которые относятся только к этой области, а некоторые заимствованные из смежных областей, но приобрели здесь свое содержание (плакат 2).

На сегодняшний день имеются мощные системы распознавания слов слитной речи, такие как Dragon, ViaVoice, L&H и другие, которые в начале успешно применялись для задач стенографии, но дальнейшие попытки применения их в таких перспективных задачах, как речевое управление, устный перевод, диалоговые системы не дали ожидаемых результатов. Поскольку в таких задачах необходимо не только распознавание, но и понимание.

Основные проблемы понимания речи – это: точность, робастность и адаптивность. Рассмотрим типовую модель понимания речи, известную по многим зарубежным публикациям (плакат 3). Она содержит 3 основных модуля: (1) модуль распознавания слов, (2) модуль грамматического разбора, (3) менеджер диалога, учитывающий прикладную задачу.

Такая модель имеет ряд недостатков:
  1. Модули работают последовательно, и это в принципе не дает высокой точности понимания;
  2. В качестве модуля распознавания слов пытаются использовать выше указанные распознаватели. Но, к сожалению, эти системы плохо вписываются в задачу понимания, поскольку синтаксические ограничения не пропускают на уровень понимания неточно произнесенные фразы, что лишает систему робастности по отношению к этим отклонениям;
  3. Адаптивность обеспечена только на акустическом уровне. Кроме того, разные модули и базы данных создаются в разное время, разными организациями и, следовательно, процесс адаптации полной модели к конкретной задаче очень сложен и не оптимален.

Отсюда вытекают следующие наиболее актуальные задачи, рассмотренные в диссертационной работе. За основу была взята базовая модель интегрального понимания речи, разработанная ранее в группе речевой информатики СПИИРАН, но в ней не была обеспечена адаптивность, и был реализован изолированный/пословный ввод речи, который имеет очевидные недостатки по сравнению со слитной речью. Отсюда положениями, выносимыми на защиту, являются (плакат 4):
  1. Разработка метода интегральной адаптации, осуществляющего взаимосогласованную, оперативную корректировку всех баз данных модели понимания. Разработка метода аллофонной адаптации к голосу и акустической обстановке.
  2. Разработка метода распознавания слитной речи, робастного по отношению к грамматическим отклонениям в произнесенной фразе.
  3. Модификация базовой модели интегрального понимания для возможности ввода слитной речи и интегральной адаптации.

В начале рассмотрим основные методы, которые были использованы при распознавании речи. Важным вопросом, с которым в первую очередь сталкивается разработчик систем речевых технологий – это разработка оптимального метода параметрического представления сигнала, который позволил бы достаточно хорошо различать звуки и слова речи и в то же время оставаться инвариантным к особенностям произношения конкретного диктора, к изменениям акустической обстановки, смене микрофона и т.п. Один из существенных недостатков известных методов, это неустойчивость по отношению к уровню сигнала. Поэтому был предложен и исследован метод, основанный на разновидности автокорреляционного анализа, так называемая знаковая автокорреляция.

Сигнал, полученный с микрофона, представляет собой последовательность АЦП отсчетов с частотой дискретизации 11 кГц. Сегменты речи длительностью около 10 мс описываются вектором признаков, который содержит энергию сегмента, число ноль пересечений, коэффициенты знаковой автокорреляции, распределение диапазонов длительностей знакопостоянства сигнала. Разработанный метод обладает значительно большей мерой робастности по отношению к вариациям уровня сигнала по сравнению с кепстральными признаками (плакат 7).

Другой проблемой распознавания речи являются нелинейные деформации темпа речи, которая решается методами оптимизации. Мы используем метод динамического программирования (ДП), задача которого сводится к поиску оптимального согласования двух отрезков речи A и B. В результате получает некоторое ДП-расстояние, которое характеризует степень различия отрезков речи. ДП-уравнение вносит ограничения на максимально допустимую взаимную деформацию (плакат 8).

Теперь рассмотрим более подробно положения, вынесенные на защиту.

Интегральная адаптация (плакат 9). Традиционные подходы в основном направлены на решение проблемы адаптации к голосу и акустической обстановки. Интегральный же подход учитывает: акустический аспект, языковой аспект, предметную область, а также интегральную оптимизацию параметров системы. Такой подход имеет следующие преимущества: (1) адаптивность всех уровней модели; (2) возможность оптимизации процесса адаптации; (3) гибкость по отношению к прикладной задаче.

Предложенный подход интегральной адаптации осуществляется путем сквозной корректировки баз данных под контролем интегрированной программы управления (плакат 10), которая обеспечивает: (1) необходимый порядок корректировки баз данных (логика задачи; лексика; фразеология; акустические данные); (2) участие экспертов и разработчиков; (3) а также дружественный интерфейс путем подсказок, рекомендаций и др. На этапе отладки и опытной эксплуатации это позволяет достичь необходимой оперативности настройки и корректировки баз данных, а также мобильности при адаптации системы понимания к новой прикладной задаче.

Независимо от сквозной корректировки была рассмотрена задача адаптации к голосу и акустической обстановке (плакат 11), которая в основном вытекает из проблемы различия голосов и решается следующими способами: (1) создание дикторозависимых систем; (2) создание дикторонезависимых систем; (3) методы адаптации. Дикторонезависимые системы изначально настраиваются на наиболее типичные голоса, и действительно, для большинства пользователей системы показывают достаточную точность распознавания слов. В тоже время дикторозависимые система без сомнения показывает лучшие результаты, но используются для простых задач и создаются под конкретный голос.

Поэтому наиболее перспективными считаются методы адаптации. С другой стороны важность методов адаптации подтверждается еще и тем, что в отличие от современных программ человек обычно тоже проходит этап адаптации к новому голосу, но делает это удивительно быстро. Среди подходов к адаптации можно выделить: (1) нормализацию спектра речи; (2) кластеризацию типов голосов; (3) замену элементов речи. Указанные методы пока не дали результатов сходных с речевым поведением человека, поэтому необходимо дальнейшее исследование.

В методе замещения элементов речи обычно используются мельчайшие сегменты речи длительностью 10-20 мс. В предложенном методе аллофонной адаптации в качестве базовой единицы взят более длительный участок речи, соответствующий аллофону, т.е. варианту фонемы, взятого в конкретном фонетическом контексте. Это позволяет учитывать не только спектральные особенности голоса, но и манеру формирования звуков речи (фонем, аллофонов). Кроме того, такое представление является более адекватным и компактным по сравнению с векторным.

Основная идея алгоритма основана на (1) многомерном квантовании; (2) совмещении лексически одинаковых фраз методами ДП; (3) создании вторичного описания речевого сигнала путем замещения исходных аллофонов.

Экспериментальная проверка аллофонной адаптации, показала уменьшение ошибки распознавания до 18%.

Теперь перейдем к вопросу слитной речи (плакат 13). В отличие от печатного текста или от искусственных сигналов естественная речь не допускает простого и однозначного членения на фонемы или слова, поскольку эти элементы не имеют явных физических границ. Кроме того, признаковое описание слова, произнесенного изолированно, существенно отличается от того же слова, сказанного во фразе.

На сегодняшний день решение проблемы слитной речи возможно только методом генерации гипотез фраз путем полного перебора составных эталонов/моделей слов, но это приводит к неприемлемому усложнению модели распознавания, поэтому такой метод используется только при очень ограниченном размере словаря, например при распознавании цифр. Поэтому практически все известные подходы к распознаванию слитной речи основаны на синтаксических или стохастических ограничениях при генерации гипотетических фраз. Такие модели могут обрабатывать только идеально построенные фразы. Т.е. фразы с некоторыми неточностями отвергаются уже на уровне распознавания цепочек слов и, следовательно, дальнейшее применение робастного понимания невозможно. Поэтому в методе скользящего анализа вместо априорного гипотезирования фраз на основе составных эталонов используется выявление гипотез слов в ходе скользящего анализа; акустико-лексическая оценка цепочек слов (фраз-гипотез) производится на основе их акустического и временного правдоподобия.

Рассмотрим процесс распознавания слитной речи на основе скользящего анализа (плакат 14). Входной сигнал проходит этап параметрического представления и поступает на блок из N анализаторов скользящего ДП-сравнения, каждый из которых настроен на определенное слово из словаря. Процесс сравнения эталона с входным сигналом, осуществляется следующим образом (плакат 15). Эталон продвигается относительно входного сигнала с определенным шагом. На каждом шаге вычисляется ДП-отклонение эталона от участка сигнала. В итоге мы получаем функцию ДП-отклонений, на которой находим локальные минимумы. Чем меньше отклонение эталона от участка сигнала, тем больше правдоподобие появления этого слова. На рисунке показаны функции правдоподобия появления N слов на сигнале длительностью T. Локальные максимумы функций являются гипотезами слов. На основе которых получается поток гипотез всех слов.

Далее мы строим всевозможные гипотезы фраз длительностью L слов и оцениваем их акустическое и временное правдоподобие. При этом акустическое правдоподобие оценивается на основе скользящего ДП-анализа, а временное правдоподобие оценивается с помощью такой трапецеидальной зависимости (плакат 16). Затем подмножество лучших гипотез фраз поступает далее на высокоуровневую обработку.

При экспериментальной проверке точность распознавания слов составила около 80% (плакат 17). Кроме того, была проведена оценка сложности модели по сравнению с методом полного перебора составных эталонов, а также с пословным вводом речи. Сложность алгоритма скользящего анализа оказалась на несколько порядков ниже, чем сложность полного перебора, и с ростом размера словаря слов или увеличением длины гипотетической фразы не возникает слишком большого роста числа гипотез фраз.

Поскольку на этапе формирования гипотез фраз не используются никакие высокоуровневые ограничения, модель обрабатывает как корректные фразы, так и фразы с некоторыми неточностями, что сохраняет возможность последующего робастного понимания речи.

Теперь перейдем к модификации базовой модели понимания речи (плакат 5). В ранее созданную базовую модель интегрального понимания мной был разработан и включен модуль робастного распознавания слитной речи и модуль интегральной адаптации. В результате была создана модель робастного понимания слитной речи. Интегральная модель понимания включает в себя несколько уровней обработки информации, это (1) акустико-лексический; (2) семантико-синтаксический; (3) прагматический. Суть обработки сводится к оценке входных гипотез по критериям соответствующих знаний. На основе частных оценок вырабатывается интегральная оценка. В результате входной сигнал оценивается по разным уровням знаний, а окончательное решение принимается по минимуму интегрального отклонения. Это делает модель робастной к вероятным отклонениям в произнесенной фразе и собственным ошибкам обработки.

Разработанная модель в отличие от типовой обладает следующими преимуществами (плакат 6): (1) более высокая точность обеспечена за счет интегрального подхода; (2) робастность обеспечена на уровне признаков к вариациям уровня сигнала, за счет нового подхода к распознаванию слитной речи, независимого от грамматических отклонений, и интегральной структурой обработки; (3) адаптивность обеспечивается в ходе интегральной адаптации на всех уровнях.

Разработанные речевые технологии позволили осуществить несколько успешных приложений (плакат 18):
  • В промышленно выпускаемых электронных словарях Language Teacher Partner на основе разработанных технологий распознавания речи были созданы раздел коррекции произношения английского языка, а также голосовой перевод типовых фраз с русского языка на английский.
  • Совместно с мексиканским университетом UNAM, была создана реальная модель голосового управления роботом.
  • По проекту МНТЦ создана модель голосового управления летательным объектом.
  • Кроме того, исследования поддержаны грантом СПбНЦ, а также грантом по ФЦП «Интеграция.

Таким образом, в результате проведенных исследований предложено решение актуальной проблемы, которая на данном этапе препятствует широкому внедрению речевых технологий во все сферы человеко-машинной коммуникации (плакат 19).


Спасибо за внимание!