Машины, которые говорят и слушают

Реферат - Компьютеры, программирование

Другие рефераты по предмету Компьютеры, программирование

53

нала импульсами голосовых связок большинство таких точек соответствует моментам смыкания связок.) Даяее, для каждого отрезка волны длительностью 10 мс с помощью ДПФ вычисляется 33-точечный логарифмированный энергетический спектр. Временные отсчеты для получения спектра берутся, начиная с момента, соответствующего найденной точке возбуждения. Если десятимиллисекундный сегмент содержит одну точку возбуждения, то логарифмы энергетического спектра вычисляются по формуле

^ = ' Чю \ Ц, ^ ехр (-^тп/32 \ '

где п = 0 - 32; Л„, - отсчеты речевой волны, следующие за моментом возбуждения; У - оценка (в дБ) логарифма энергетического спектра на частотах 156, 25 х п (в Гц).

Итеративный анализ составляющих этого спектра и позволяет оценить все требуемые для синтезатора формантные параметры. Процедура итеративного анали-а посредством синтеза (когда спектр, синтезированный по приближенным формантным параметрам речи, сравнивается с реальным спектром входной речевой волны, и если расхождения велики, производится уточнение формант) позволяет получать параметры качественной синтетической речи.

В ряде работ подчеркивается, что для повышения естественности синтезированной речи целесообразно разработать хорошие правила корректировки микро- и макровариаций частоты основного тона, длительности звуков и интенсивности. Полная модель генерации частоты основного тона, его микро- и макровариаций рассмотрена в Ll04] , где исследовались различные синтетические структуры, позволившие выявить, в частности, влияние модальности на контур основного тона в вопросо-ответных системах при перемещении центрального слова фразы (слово, на которое делается акцент при вопросе). (Формирование контура ochobhofj тона будет более подробно рассмотрено в п.1.4.4).

В [113'] предлагается для повышения качества синтезированной речи (полученной методом линейного предсказания), поступающей на наушники, использовать эффект бинауральной реверберации который можно смоделировать, подав синтезированную речь на громкоговоритель и записав (в условиях реальной комнаты) прошедшув через громкоговоритель речь в два канала через разнесенные микрофоны. Полученные таким способом сигналы поступают на правый и левый наушники, создавая у слушателя впечатление более естест' венной речи.

54

для повышения натуральности речи в [162] предлагается про-записывать на магнитный диск больший емкости сообщения в Siawe параметров, представляющих собой набор раноон -коэффициентов. Требуемые фразы считываются в буферную память. На стомегабайтном диске можно таким образом записать 5000 сообщений яжительностыо по 15 с каждое. Время выборки сообщения 0,1 с,мак-симвльное число возможных каналов, по которым может поступать информация, - 128.

Ряд работ, появившихся в последние годы, посвящен повыше-шф качества синтезированной речи за счет модернизации модели источников возбуждения. Модель смешанного источника возбуждения рассмотрена в [1523 . Смешение достигается делением речевого спектра на две области - низкочастотную, возбуждаемую импульс-нк источником, и высокочастотную, которая возбуждается шумовым источником. Для определения степени оэвончения вводится параметр fc показывающий частоту отсечки между звонкой и глухой областями. Для компрессии речи Fp может выцеляться автоматически из речевого спектра и передаваться в управляющие цепи. Эксперименты, при которых использовалась новая модель, показали ее эффективность при синтезе звонких фрикативных и помогли ис-кяючить характерное "жужжание" вокодерной речи.

8 [166 3 описана новая функция возбуждения для синтеза,использующего коэффициенты линейного предсказания. Эта функция за счет соответствующего сглаживания, инверсной фильтрации и усечения верхушки сохраняет фазовые характеристики импульсов возбуждения, Поступающих из голосовой щели. Отмечается, что качество речи при этом существенно улучшается, а между тем до последнего времени в lpg-синтезаторах слишком мало усилий было направлено на поиск более соответствующих реальным функций возбуждения рачаобразующего тракта из-за того, что не были установлены четкие соотношения между остатком линейного предсказания и формой возбуждающей волны.

В [137] описан LPU-синтеэатор речи, разработанный в Норвегии. По мнении авторов, он обеспечивает высококачественную речь (при высокой компрессии) за счет использования более совер-аенной модели смешанного возбуждения. В модели предусмотрено использование:

- фильтра импульсов основного тона - двухполюсного фильтра, Делающего импульсы возбуждения более похожими на реальные импуль-^i поступающие с голосовых связок в полоогя речеобрааующего тракта;

55

Орфограф^еский текст

I

Трансляция "графема-фонема"

фонетическая цепочка

- фильтра, моделирующего влияние излучения речевого потока с губ (liP - radiation filter)!

- дополнительного фрикативного источника, который автоматически подключается при формировании звонких взрывных и фрикативных.

Ряд работ, связанных с повышением качества синтезированной речи, относится к проблеме формализации правил наложения на фонетическую цепочку интонационного контура. Они -Зудут подробно рассмотрены в п. 1.4.4.

1.4.3. Дифонный синтез речи. Одним из направлений, обеспечивших синтез более высококачественной речи, стало н