В. И. Галунов обзорная статья

Вид материалаСтатья
Подобный материал:
Cвременные речевые технологии

В.И.Галунов

(обзорная статья)


В настоящее время наши общества вкладывают гигантское количество денег, know-how и усилий исследователей для того, чтобы решить проблемы автоматического распознавания и синтеза речи. Эта работа стимулируется практическими интересами, и исследования концентрируются на оптимальном решении задачи создания речевых технологий.

В аналитическом плане проблему "современные речевые технологии" разумно разделить на три составляющих. Первая – речевая наука, т.е. весь комплекс знаний о речевом сигнале, процессах речеобразования и речевосприятия, которыми мы владеем. Сюда же следует отнести знания по предполагаемым моделям речевого сигнала и методам обработки таковых сигналов. Вторая составляющая – собственно речевые технологии, т.е. достигнутый уровень аппаратно-программных решений обработки речевых сигналов, предлагаемых для решения практических (прикладных) задач. И, наконец, третья составляющая -- собственно практические системы, т.е. системы реального применения. Связь между указанными составляющими можно представить в виде цепочки: речевая наука >> речевые технологии >> практические системы.

Есть смысл начать с последнего звена, систем практического назначения. Их, вероятно, можно разделить на три класса:
  1. Системы военного или другого специального применения. Чаще всего стоимость таких систем не имеет значения, а функциональные свойства ограничены и жестко определены.
  2. Коммерческие системы. Стоимость таких систем должна быть оправдана прибылью прямой или косвенной, получаемой от их применения, или другими выгодами.
  3. "Демонстрационные" системы. Это специальный жанр. Внешне они носят вид систем практического применения, но не предполагают получения прибыли, а служат для демонстрации уровня достижений фирмы. Они могут покупаться, но не для практического использования, а на "пробу", чтобы посмотреть, что из этого можно сделать.

Следует сразу отметить, что речевые системы не являются самостоятельными. Они всегда встроены в некоторую "большую" систему, которая диктует условия использования речевой.

Как следствие для практических систем трудно определить их эффективность. Этого нельзя сделать через % неправильного распознавания речевых единиц:
  1. Цена ошибки может быть разная.
  2. Встроенность.
  3. Понятие ошибки может для системы практического применения вообще исчезнуть.

Теперь о связке "речевые технологии – практические системы". Нам кажется, что в настоящий момент наступил новый этап в развитии использования речевых систем. Произошла смена парадигмы. Вместо пассивного использования речевых систем "россыпью" (распознавание отдельно, синтез отдельно, идентификация отдельно) на первый план выдвигаются задачи интерактивного речевого взаимодействия человека с различными системами. Предыдущий этап попыток практического использования речевых систем следует признать явно неудачным. Предполагавшийся бурный рост по прогнозам 15-летней и 10-летней давность явно не произошел. В чем же причина? Основная причина в отсутствии четкой формулировки прикладных задач. Можно решить технологическую задачу. Например, распознать несколько десятков тысяч слов. Однако область использования такой системы не ясна. Вторая причина, может быть и не столь заметная, это попытка искать решения практических задач "под фонарем". А именно, решение каких-либо задач для РС. Однако РС заранее был приспособлен для зрительно-мануального взаимодействия, и попытки вклиниться в эту систему с речью были обречены на провал.

Конечно, были попытки выйти на решения некоторых прикладных задач локального типа, где все требования четко оговорены. Например, голосовой номеронабиратель. Здесь сразу видно отличие постановки задачи от классически принятой среди речевиков: нет большого словаря, но зато есть помехи и есть наивный пользователь. Т.е. требуется решать совершенно другие задачи, чем те, которые ставили на РС.

Представляется, что в настоящее время речевые технологии развиваются, имея в виду две основных прикладных задачи:
  1. Телекоммуникационный интерактивный сервис.
  2. Мультимедийные системы.

И, возможно, третья задача – речевой перевод.

Среди более или менее ясных задач более локального типа:
  • идентификация и верификация говорящего (в частности для телекоммуникационного сервиса);
  • контроль психофизиологического состояния (стрессованность, опьянение);
  • компрессия (стандарты на MELP 2400 1200 Baud, возможность 500-600 Baud).

Теперь о взаимоотношении речевой науки и речевых технологий. Очевидно, что по естественным причинам речевые технологии более инертны, чем речевая наука. И в ситуации, когда основной задачей становится интерактивное взаимодействие человека и машины, возрастающий разрыв между принятыми в речевых технологиях моделями и моделями речевого поведения человека (что, собственно, и изучается речевой науке) становятся опасными.

Наиболее популярным (и наиболее эффективным) в автоматическом распознавании речи является использование марковских моделей. Перспективность применения этого метода представляется весьма сомнительным. Прежде всего, речь отчетливо не является структурой, подчиняющейся вероятностным законам. (По крайней мере, только вероятностным.) Во-вторых, опыт исследования компилятивного синтеза речи с помощью аллофонов или дифонов говорит о том, что количество структурных единиц речи, обладающих физическим и перцептивным единством, составляет многие сотни. Это заметно превышает количество таковых элементов, предполагаемых в современных марковских моделях речи. Почему же марковские модели столь эффективны при распознавании речи? Причина в достаточно мощном (следовательно, и громоздком) вычислительном аппарате. Здесь можно процитировать Е.Вигнера, который говорит об эффективности математики: "Мы похожи на человека со связкой ключей, который, пытаясь открывать одну дверь за другой, всегда вставляет правильный ключ с первой или второй попытки. Это заставляет его сомневаться относительно однозначного соответствия между ключами и замками. Невероятная эффективность математики в естественных науках есть нечто граничащее с мистикой, ибо никакого рационального объяснения этому факту нет".

Следует напомнить хорошо известный в истории науки пример. Геоцентрическая модель Птолемея математически достаточно хорошо все описывала, но потребовался переход к Коперниковской гелиоцентрической модели, чтобы математическое описание стало простым, вследствие прямого соответствия физической сути явления.

Еще раз повторим, что наиболее активно и успешно используемый в автоматическом распознавании метод на основе марковской модели носит статистический характер, что явно не соответствует механизму речевого поведения человека. Можно возразить, что указанный метод все-таки решает задачу. Однако есть вероятность, что на каком-то уровне метод станет не работоспособным. Кроме того, он достаточно громоздок.

С теоретической точки зрения более интересным представляется анализ речевых процессов у человека. Близость систем автоматической обработки речи к организации обработки речи у человека представляется критической. Математические модели обработки речевой информации показали свою ограниченность и не позволяют решить сложные, но решаемые легко человеком проблемы, связанные с распознаванием слитной речи без подстройки под диктора.

В свою очередь следует указать, что наши знания о процессах восприятия речи, распознавания речевых элементов, организации продуцирования речи, которые были бы полезны для оптимизации технических систем, довольно ограничены. Можно сказать даже, они в значительной степени ошибочны, и, более того, мы не знаем, в чем они ошибочны. Научные исследования, нацеленные на изучение речевого поведения, часто не могут быть переведены в вид моделей, доступных для компьютерного моделирования и дальнейшей их проверки. Это приводит в дальнейшем к невозможности их использования в речевых технологиях. Вследствие этого, в последние годы речевые исследования и речевые технологии развиваются в значительной степени независимо. К сожалению, последние успехи в области речевых технологий используют незначительную часть наших знаний о речевом поведении человека, и развитие речевых технологий мало что добавляет к нашим знаниям о процессах обработки речевой информации у человека.

Мы считаем, что знания о речевом поведении человека могут быть полезны для построения систем автоматического понимания и синтеза речи по следующим причинам:
  • Наши знания и результаты исследований в области речевого поведения человека являются важным, но пока слабо используемым источником прогресса в области автоматического распознавания и синтеза речи;
  • Необходимо учесть тот факт, что перспективным направлением практического использования систем распознавания и синтеза является их взаимодействие с человеком.

Известны многочисленные попытки использовать наши знания о структуре периферии слуховой системы для построения системы первичного анализа при автоматическом распознавании речи. При этом предполагалось, что это должно значительно повысить надежность и помехозащищенность таких систем.

К сожалению, проверка этого предположения с использованием нескольких моделей периферии в стандартных САРР не только не выявила "ошеломляющего выигрыша", но в ряде случаев продемонстрировала ухудшение распознавания. Эта неудача, по-видимому, не определяется некоторым расхождением характеристик использованных моделей с биологическим прототипом. Возможны несколько ее объяснений: 1 – преимущества периферического слухового описания могут быть оценены только в общей модели восприятия речи, включающей центральные уровни обработки, а САРР, принципы анализа в которых иные, чем в слуховой системе, неадекватны для этой цели; 2 – периферический анализатор не является идеальным с точки зрения анализа речи, поскольку он сформировался для выполнения других задач задолго до появления речи, и преимущества слухового восприятия в целом обусловлены центральными уровнями обработки, которые компенсируют, в частности, и определенные недостатки периферического анализа. Очевидно, что оба объяснения требуют проверки с использованием модели центральной обработки, однако, на сегодня отсутствует не только такая модель, но даже четкие представления о характере преобразований в центральных отделах.

Поскольку в реальных условиях восприятие происходит в присутствии постоянных помех, то помехоустойчивость должна быть одним из основных свойств системы речевосприятия, также как и любой другой перцептивной системы. Для обеспечения этой способности в процессе эволюции сформировался ряд механизмов. Можно сказать, что все развитие слуховой системы в значительной степени определялось задачей обеспечения помехоустойчивости. Большая часть этих механизмов сформировалась для задач обнаружения и локализации звука еще до появления речевой коммуникации, но успешно используется и при восприятии речи.

Защита от помех большой интенсивности, а также от маскировки собственным голосом при восприятии внешней речи во время речевоспроизведения реализуется с помощью стременной мышцы среднего уха, сокращение которой увеличивает жесткость цепи слуховых косточек, что уменьшает проводимую ими энергию (так называемый акустический рефлекс).

Определенную роль в выделении речи из шума играет бинауральное взаимодействие (взаимодействие правого и левого каналов слуховой системы), приводящее к снижению порогов обнаружения (до 15 дБ) и повышения разборчивости (до 6 дБ) речи.

Для элементов слуховой системы характерна также кратковременная адаптация, проявляющаяся в уменьшении реакции в течение первых 50-100 мс действия стимула, что способствует подчеркиванию его переднего фронта и подавлению реакции в перерывах между сигналами.

Принципиальное значение для обеспечения помехоустойчивости восприятия, по нашему мнению, имеет многоканальная организация слухового анализатора, в основе которой лежит деление на каналы по признаку частотных диапазонов. Пространственная упорядоченность нейронов, соответствующая распределению резонансных частот на базилярной мембране, характерна для всех уровней слуховой системы. Она является не только способом кодирования информации о частоте сигнала, но, прежде всего, служит основой для выделения локальных по спектру особенностей сигнала, отражающихся в определенных частотных каналах. Это при наличии большого числа каналов, содержащих элементы с различными свойствами (порогами и типами реакции, постоянной времени, характеристическими частотами, динамическим и частотным диапазонами реакции и др.) обеспечивает детальное представление сигнала в слуховой системе.

Существование же в каждом канале элементов с различными свойствами обеспечивает способность выделения различных признаков стимулов. Так, наличие быстро и медленно адаптирующихся элементов дает возможность выделять соответственно стационарные и изменяющиеся во времени отрезки сигнала. Все это позволяет при маскировке одних признаков сигнала (или неэффективности какого-либо способа обработки) распознавать сигнал с помощью других его признаков (или способов обработки), устойчивых в данных условиях. Примером решения одной задачи несколькими способами может служить обнаружение изменений частоты основного тона гласного, которое может осуществляться посредством оценки изменений 1-ой гармоники или других более мощных гармоник, а также по изменению средней спектральной огибающей сигнала.

Анализ современных данных позволяет предположить, что обработка речи в левом полушарии осуществляется преимущественно последовательно, т.е. распознаванию смысла сообщения предшествует процесс выделения временных составляющих сигнала, соответствующих лингвистическим единицам (фонемам, слогам), определение характеристик и идентификация этих составляющих. Правое полушарие использует преимущественно целостный способ обработки, при котором поступающие сигналы сопоставляются с хранящимися в памяти эталонами акустической картины целых слов.

Роль правого полушария возрастает при восприятии речевых сигналов в помехах, что, вероятно, объясняется, во-первых, увеличением участия механизма вероятностного прогнозирования, во-вторых, тем, что признаки, на которых предположительно базируется целостный способ обработки (мелодика, ритмика) является наиболее помехоустойчивым. Кроме того, шум, осложняя процесс обработки сигналов, приводит к возрастанию нагрузки на элементы анализирующей системы и, соответственно, их утомлению. Естественно, наличие второго параллельного канала (полушария), выполняющего часть обработки, увеличивает помехоустойчивость всей системы. И еще раз напомним, что правое полушарие не обладает способностью делить речевое сообщение на элементы, подобные фонемам.

Мы хотели бы указать дополнительно на некоторые особенности восприятия речи человеком, о которых обычно не вспоминают или даже о них не знают.

Прежде всего, это отдельный от общей слуховой системы механизм восприятия речи. На рис. показана обычно предполагаемая структура обработки речевого сигнала в слуховой системе. На рис. показана структура, скорее всего, реализуемая человеком.

В пользу такой модели говорит целый ряд экспериментальных фактов.
  1. Дихотическое восприятие синтезированных речевых слогов.

Соответствующий эксперимент выглядит следующим образом. Испытуемому предъявляются синтетические слоги, обладающие структурой представленной на рисунке. Соответствующие синтезированные звуки воспринимаются как чисто речевые слоги без примеси какого-либо неречевого звука. Предъявленные отдельно переходные участки третьей форманты воспринимаются как неречевые звуки. При одновременном предъявлении переходных участков и стационарных составляющих при постепенном увеличении интенсивности переходных участков испытуемый начинает слышать на фоне речевого слога неречевую составляющую. Такой эксперимент отчетливо говорит, во-первых, о раздельности речевой и неречевой составляющих слуховой системы и, во-вторых, о функциональной блокировке речеслуховой системой механизмов восприятия неречевых составляющих звука.
  1. Врожденная способность младенцев отличать речь от неречи: уменьшение α-ритма на энцефалограмме, снимаемой с левого полушария при подаче речевого сигнала.
  2. Наличие способности младенцев различать речевые признаки до овладения речью. При этом способность различать некоторые признаки, которые не используются в данном конкретном языке, исчезает по мере овладения речью.

Наличие отдельного речевого канала в значительной степени объясняет cocktail-party эффект.

Следует указать еще на одну особенность восприятия речи человеком, которая хорошо известна исследователям, работающим в области техники связи, но абсолютно не учитываемая при автоматическом распознавании речи. Речевой сигнал достаточно хорошо воспринимается человеком даже в очень узкой полосе частот, причем расположенной в любой части речевого диапазона. Существует мера разборчивости, обладающая свойством аддитивности при расширении частотного диапазона: индекс артикуляции или формантная разборчивость. Такое свойство речевого сигнала и речеслуховой системы совершенно не соответствует механизмам обработки речи, принятым в системах автоматического распознавания. На рисунке показано, как индекс артикуляции (формантная разборчивость) зависит от ширины полосы. В нижней части рисунка показана связь слоговой и словесной разборчивости с формантной разборчивостью. Видно, что даже при очень узкой полосе пропускания и расположенной в довольно произвольной части спектра разборчивость речи остается на уровне, недоступном для ныне существующих систем автоматического распознавания речи.