Машины, которые говорят и слушают

Реферат - Компьютеры, программирование

Другие рефераты по предмету Компьютеры, программирование

?знавания речи лиц, не участвовавших в получении обучающей выборки (для двух новых дикторов средняя надежность распознавания 97 и 92%).

S 1.3. Развитие систем распознавания/понимания слитной речи

Задача общения человека и ЭВМ с помощью естественной,слитной речи оказалась гораздо более сложной, чем построение систем распознавания изолированных слов. Одной из первых практических систем распознавания последовательности слитных словосочетаний (пять слов исходного словаря) явилась система фирмы KdC .описанная ранее.

В дальнейшем будем различать системы распознавания *и системы понимания слитной речи. В первых, как правило, рассматриваются фразы, составленные из последовательности слов, между которыми синтаксическая и семантическая связь либо отсутствует,либо слишком жесткая (используется автономная грамматика).Системы понимания, в отличие от систем распознавания, при декодировании входного высказывания используют высшие лингвистические уровни языков, близкие к естественным, работая с фразами, в которых допустимы стилистические ошибки, бессмысленные звуковые сочетания, произвольные паузы и междометия.

При построении систем понимания речи необходимо в большей степени, чем при создании систем распознавания слитной речи, использовать опыт специалистов по искусственному интеллекту, а также привлекать специальные знания о синтаксисе, семантике и прагматике языка общения. В то же время отметим, что деление на системы автоматического распознавания и понимания является 20

достаточно условным и фактически определяется коэффициентом ветвления, который показывает, сколько возможных слов допускается после каждого слова высказывания. В современных системах распознавания слитной речи средний коэффициент не превышает,как правило, 30 (в системе Nac-ISQ), а в системах понимания этот коэффициент достигает 200-300 (бессмысленные звукосочетания типа цмм ... , эээ ... и т.д., а также паузы и междометия можно рассматривать в СПР как возможные варианты слов).

Так как автоматическое распознавание 300 - 300 слов в непрерывном речевом потоке - сложная задача, веди использовать обычные математические методы распознавания, то для ее решения и привлекаются высшие уровни знания о языке (синтаксис, сематика и прагматика), а также другие способы, обеспечивающие сужение числа альтернатив на каждом шаге принятия решения о слове, используемые обычно в задачах искусственного интеллекта (ИИ). В связи с этим в системах понимания говорят о семантической точности распознавания смысла фразы, когда не все составляющие (слова) могут быть распознаны правильно.

Перейдем к рассмотрению систем распознавания слитной речи. Как правило, такие системы работают по принципу фонемного распознавания, от точности которого зависит общая надежность работы системы. Одной из наиболее интересных отечественных систем с обучением на конкретного диктора и словарь является система, построенная в Институте кибернетики АН УССР им. В.М.Гяуи-кова [l9,20] , развитием которой стала кооперативная система распознавания рвчи[213.

В основу этой системы положена математическая модель речевого сигнала, в которой каждой фонеме соответствует полученный алгоритмически (на основе анализа текущей автокорреляции сигнала, параметров линейного предсказания и текущего энергетического спектра) определенный набор бинарных признаков ( двоичный код). Модель учитывает коартикуляционныв эффекты, изменение длительности фонем и динамику интенсивности сигнала. Модель автоматического распознавания Института кибернетики АН СССР использует анализ сигнала посредством синтеза.

Некоторый процеср порождает из элементарных эталонных сигналов по определенным правилам эталонную слитную речь (общий для всех слов алфавит эталонных элементов содержит около 80 элементов кодов). Распознавание слитной рччи сводится к необходимости нахождения наиболее правдоподобного эталонного сигнала слитной речи.

В этой модели автоматически находятся границы отдельных фонем, паузы, тип и общее количество фонем в распознаваемой последовательности о учетом априорной вероятности частоты встречаемости фонем. Эталонный сигнал слитной речи формируется из эталонных сигналов отдельных слов путем нелинейного преобразования исходных словесных эталонов. При этом эталонные сигналы слов складывались в эталонную слитную речь так, что паузы между словами имели различную длительность (в том чис/ie и нулевую),а длительность элементов фразы изменялась плавно. Параметрами грамматики, порождающей эталонные фразы, являлись: алфавит эталонных элементов, акустике-фонетические транскрипции слов, правила стыковки слов во фразе, правила нелинейной деформации сигналов вдоль оси времени и некоторые другие параметры.

Для экспериментов по распознаванию слитной речи ( словарь включал 200 слов) были получены 1000 реализации этих слов, произнесенных одним диктором (обучающая выборка). При испытаниях система дала 0,5% ошибок и 3% отказов при распознавании слов в слитном потоке. Расширение словаря до 300 слов увеличило количество ошибок до 1%, причем отказов было 3,5%. При экспериментах со словарем из 100 слов удалось получить время распознавания (на ЭВМ БЭСМ-6), равное I с на I слово [193 Отметим, что близкий к этому метод используется в системах распознавания слитной речи (СРСР), разработанных в Отделе вычислительной науки исследовательского цент?/p>