Обработка речевых сигналов

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование

й сокращений, чисел, аббревиатур и специальных знаков с учетом особенностей грамматики русского языка.

Существует несколько подходов к решению поставленных задач:

1)системы аллофонного синтеза - обеспечивают стабильное, но недостаточно естественное, роботизированное звучание;

)системы, основанные на подходе Unit Selection - обеспечивают гораздо более естественное звучание, однако могут содержать фрагменты речи с резкими провалами качества, вплоть до потери разборчивости;

)гибридная технология, основанная на подходе Unit Selection и дополненная единицами аллофонного синтеза.

На основе этой технологии была создана система VitalVoice, которая обеспечивает стабильное и естественное звучание на акустическом уровне.

 

2.5 Распознавание речи

 

Речевое общение является естественным и удобным для человека. Задача распознавания речи состоит в том, что бы убрать посредника в общении человека и компьютера. Управление машиной голосом в реальном времени, а также ввод информации посредством человеческой речи намного упростит жизнь современного человека. Научить машину понимать без посредника тот язык, на котором говорят между собой люди - задачи распознавания речи.

Ученые и инженеры уже много лет решают проблему речевого общения человека и машины. Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры. Коммерческие программы по распознаванию речи появились в начале девяностых годов.

Все системы распознавания речи можно разделить на два класса:

) Системы, зависимые от диктора - настраиваются на речь диктора в процессе обучения. Для работы с другим диктором такие системы требуют полной перенастройки.

 

Рисунок 2.4 - Распознавание речи

 

) Системы, не зависимые от диктора - работа которых не зависит от диктора. Такие системы не требуют предварительного обучения и способны распознавать речь любого диктора.

Изначально на рынке появились системы первого вида. В них звуковой образ команды хранился в виде целостного эталона. Для сравнения неизвестного произнесения и эталона команды использовались методы динамического программирования. Эти системы хорошо работали при распознавании небольших наборов из 10-30 команд и понимали только одного диктора. Для работы с другим диктором эти системы требовали полной перенастройки.

Для того чтобы понимать слитную речь, необходимо было перейти к словарям гораздо больших размеров, от нескольких десятков до сотен тысяч слов. Методы, использовавшиеся в системах первого вида, не подходили для решения этой задачи, так как просто невозможно создать эталоны для такого количества слов.

Кроме этого, существовало желание сделать систему, не зависящую от диктора. Это весьма сложная задача, поскольку у каждого человека индивидуальная манера произнесения: темп речи, тембр голоса, особенности произношения. Такие различия называются вариативностью речи. Чтобы ее учесть, были предложены новые статистические методы, опирающиеся в основном на математические аппараты Скрытых Марковских Моделей (СММ) или Искусственных Нейронных сетей. Вместо создания эталонов для каждого слова, создаются эталоны отдельных звуков, из которых состоят слова, так называемые акустические модели. Акустические модели формируются путём статистической обработки больших речевых баз данных, содержащих записи речи сотен людей.

В существующих системах распознавания речи используются два принципиально разных подхода:

Распознавание голосовых меток

Распознавание лексических

Отметим, что создание систем распознавания речи представляет собой чрезвычайно сложную задачу.

 

2.6 Поиск ключевых слов

 

Технология поиска ключевых слов решает задачу поиска нужного слова или словосочетания в речевом потоке. Системы выделения ключевых слов дают возможность анализировать ежедневные диалоги между людьми с указанием места ключевых слов в потоке речи. Они позволяют извлекать нужную информацию из большого потока телефонных разговоров, несмотря на спонтанную организацию диалога, неограниченный лексикон, количество собеседников и шумовые помехи. Процесс поиска может быть либо в реальном времени, либо в сформированных звуковых файлах.

Технология поиска ключевых слов тесно связана с технологией распознавания речи, и до недавнего времени была её составляющей.

Фактически же грань между технологиями условна. При хорошем распознавании слитной речи и преобразовании её в печатный вид проблема поиска ключевых слов отпадает сама собой: поиск будет осуществляться в сформированном тексте. Тем не менее, в связи с недостаточным качеством работы современных систем распознавания слитной речи, подобный подход вовсе не является идеальным решением.

Подходы к выделению ключевых слов:

Поиск по шаблону - для каждого ключевого слова записывается несколько вариантов его произнесения различными дикторами, на основе чего создается шаблон, который используется для организации поиска данного слова в речевом массиве при помощи алгоритмов динамического программирования. Главным недостатком такого подхода является то, что создание шаблона для каждого слова является достаточно затратным процессом (слово нельзя просто ввести с клавиатуры).

Поиск по фонемной решетке - при помощи системы распознавания фонем для речевого сигнала строится большая сеть возможных звуков в различные моменты времени, по которой осу?/p>