Информация это совокупность сведений об окружающем нас мире

Вид материала

Содержание

Полосные вокодеры (ПВ)
Формантные вокодеры
Фонемные вокодеры (ФнВ)
Ортогональные вокодеры (ОВ)
Канальный вокодер
Гомоморфные вокодеры

Подобный материал:

1 2 3 4 5 6 7 8 9 10 11

Вокодеры

Вокодер предст. собой устройство, осуществляющее параметрическое компандирование (сжатие) речевых сигналов. Компрессия речевых сигналов на передающем конце канала связи производитсяв анализаторе, выд-щем из речевого сигнала медленно меняющиеся параметры. Эти параметры передаются по каналу связи. На приёмном конце с помощью местных источников сигналов, управляемых принятыми параметрами синтезируется речевой сигнал. Вокодеры разл-ся по принципам анализа и синтеза речевых сигналов: полосные (канальные), формантные, фонемные, гармонические (ортогональные) и др.

В последние годы распространение получили ЛПК-вокодеры, в которых используются принципы линейно-программирующего (предикативного) кодирования находят применение и полувокодеры , в которых наряду с синтезированием речевых сигналов на одном уч-ке частотного диапазона используются речевые сигналы, переданные с помощью непосредственного кодирования на другом уч-ке частотного диап-на. Вокодеры различаются также по методам преобразования сигналов: аналоговые, цифровые, аналогово-цифровые. Упрощенная структурная схема классического вокодера имеет вид:

РИС.1

Кодер в схеме обычно называют анализатором, а декодер – синтезатором. Поэтому в отсутствие квантования об устр-ве, схема кот. приведена на рис. 1 говорят как об устройстве анализа – синтеза. В анализаторе оцениваются параметры (в устройстве оценивания УО), определяется тип сегмента данных, тон или шум (вокализованный или невокализованный), оценивается период следования и амплитуда импульсов основного тона в устр-ве выделения осн. тона (ВОТ). Оценки пар-ров амплитуды импульсов и периода, а в его отсутствие оценка дисперсии шумового возбуждения после квантования вместе с решением тон-шум кодируются, уплотняются и передаются на приемную сторону.

В синтезаторе сигнал восст-ся с пом. квазилинейного цифрового фильтра ЦФ или набора ЦФ, параметры или характеристики которого устанавливаются равными принятым оценкам. На вход ЦФ поступает возбуждение либо от генератора тона ГТ (это обычно периодическая последовательность импульсов заданной формы), либо от генератора шума ГШ, в зав-и от сост-я перекл-ля П. Период , амплитуда или дисперсия возбуждения устанавливаются равными принятым оценкам. Способы выполнения анализа в вокодерах разделяют на спектральные и временные.

Спектральные способы анализа лежат в основе полосных, формантных и ортогональных вокодеров. В таких вокодерах на передающей стороне выч-ся оценка огибающей амплитудного спектра сигнала на интервалах в 10-30 мс. В полосных вокодерах эта оценка получается в форме ступенчатой интерполяции огибающей, значения кот. форм-ся на выходе гребенки (набора) ЦФ и сглаживающих устр-в. В формантных вокодерах огибающая спектра описывается оценками формантных пар-ров, а в ортогональных вокодерах - ортогональным рядом.

Еще одной разновидностью цифровых вокодеров является так называемый гомоморфный вокодер. Для вокодеров этого типа характерно использование алгоритмов преобразований, основанных на представлении речевых сигналов в виде свертки функции возбуждения голосового источника с импульсной характеристикой голосового тракта.

Временные способы анализа используются вокодерах с линейным предсказанием и некоторых других. В УО формируются, например, оценки частки частных корреляций или однозначно связанных с ними параметров. Важным достоинством методов анализа с предсказанием является их непосредственная связь с исходными моделями, в которых сконцентрированы априорные сведения о сигнале. Это открывает вполне определенную перспективу соверш-я вокодерных систем путем повыш-я точности исходных моделей и разработки оптимальных алгоритмов анализа.

К настоящему времени имеются достаточные основания для такого соверш-я, т.к. с одной стороны, вокодеры не обеспечивают качество передачи сравнимое с качеством при дельта-модуляции и, с другой, глубокое изучение процессов, протекающих в артикулярном аппарате и речеобразовании показало ограниченность применяемого в вокодерах описания сигналов.

Преимуществом спектральных методов является возможность использования в них изученных и изложенных в основном на спектральном языке простейших свойств слухового восприятия слуховых сигналов. В настоящее время более эффективными являются ЛПК – вокодеры.

Полосные вокодеры (ПВ)

Типовая структурная схема ПВ приведена на рис.2. Речевой сигнал от микрофона поступает на гребенку полосовых фильтров анализатора. На выходе каждого фильтра включены детектор и сглаживающий фильтр низких частот (ФНЧ), выделяющие огибающую речевого сигнала в данной частотной полосе. Полученные медленно меняющиеся напряжения на выходе ФНЧ характеризуют амплитуду речевых сигналов a_m(t) в данной частотной полосе. Речевой сигнал поступает также на устройство выделения ОТ, на выходе которого формируется сигнал, характеризующий частоту ОТ (t).

Кроме того, в анализаторе выделяется состав спектра звуков речи: дискретный для вокализованных звуков (то есть тон) и сплошной для невокализованных звуков (т.е. шум). Устройство выделения сигналов тон-шум может работать либо непоср-но от речевых сигналов, либо от сигналов, полученных на выходе устройства выделения ОТ. Поэтому устройство выделения сигналов тон-шум по рис.2 имеет два входа, а в конкретных схемах используется один из них.

РИСУНОК 2

Сигналы, полученные на выходе сглаживающих фильтров СФ и на выходах устройств выделения сигналов основного тона ВОТ и тон-шум ВТШ объединяются и преобразуются в сигналы приемлемые для передачи по каналу связи. Объединение и преобразование производится в устройствах, кот. на схеме показаны как объединяющее устройство.

На приемном конце канала связи производится разделение сигналов в разделяющем устройстве и преобразование их в сигналы, необходимые для работы синтезатора. В аналоговых вокодерах объединяющее и разделяющее устройства реализуются на принципах частотного разделения сигналов, а аналого-цифровых и цифровых вокодерах на принципах временного разделения сигналов. Сигналы тон-шум управляют переключателем, с помощью которого на входную гребенку полосовых фильтров ПФ подается либо широкополосный шум от генератора шума ГШ, либо импульсы от генератора основного тона ГОТ. Последний управляется сигналом (t) таким образом ,что частота следования импульсов на выходе равна частоте основного (ОТ) речевого сигнала на передающем конце. Совокупность ГОТ, ГШ и схема переключателя тон-шум называется генератором речевого спектра (ГРС). С выхода входных ПФ сигналы поступают на амплитудные модуляторы АМ (модулируемые сигналы). На другой вход АМ в качестве модулирующих поступают сигналы, которые обычно после разделяющего устройства проходят через сглаживающие ФНЧ. С выхода АМ сигналя поступают на гребенку выходных ПФ, служащих для уменьшения побочных продуктов модуляции возникающий в АМ. Совокупность схем и узлов, в которых преобразуются речевые сигналы в пределах каждой частотной полосы, (от входа ПФ анализатора до выхода ПФ синтезатора обычно называют спектральным каналом полосного вокодера).

На рис.3 схематически показано преобразование спектра гласного звука в вокодере, содержащем гребенку из идеальных ПФ. Спектр на выходе вокодера отличается от спектра на входе тем, что плавная огибающая спектра заменяется ступенчатой.

Структурные схемы полосных вокодеров могут несколько отличаться от схемы на рис.2. Например, в некоторых схемах отсутствуют устройства выделения и переключения тон-шум. Но вместо этого на ПФ, охватывающие верхнюю часть частотного диапазона постоянно подается шум от ГШ, а на остальные фильтры импульсы ОТ. В других схемах могут отсутствовать сглаживающие фильтры на передаче или приеме. В некоторых схемах синтезатор содержит только одну гребенку ПФ. В последнем случае с ГШ выдается хаотическая последовательность импульсов и АМ работают в режиме амплитудных импульсных модуляторов. Ширина полосы сглаживающих фильтров обычно составляет от 0 до 34 Гц. Для передачи сигналов тон-шум и ОТ достаточной является полоса до 50 Гц. Таким образом ширина полосы, занимаемой вокодерными сигналами без учета потерь на расфильтровку f=N+100 Гц. Число ПФ в вокодерах различно. Наиболее часто используют вокодеры с числом фильтров N=6-12. При увеличении числа фильтров повышается разборчивость и улучшается качество звучания речи, но одновременно возрастает ширина полосы занимаемая сигналом вокодера. Из приведенной формулы следует, что при N=6 f=310Гц, а при N=12 f=520 Гц. По нормам для систем передачи один телефонный канал занимает полосу f=3400-300=3100 Гц, т.е. полосной вокодер дает сжатие полосы примерно в 6-10 раз. При числе спектральных каналов N от 6 до 12 удается получить достаточно высокую разборчивость речи, однако звучание речи существенно отличается от натурального: речь сопровождается специфическими призвуками, узнаваемость голосов не высокая. Ширина полосы фильтров обычно выбирается не одинаковой: в нижней части спектра более узкая , в верхней более широкая. Законы изменения ширины полосы различны: октавный, логарифмический и др. Наиболее часто выбираются полосы равной разборчивости или равного кол-ва информации. Для идеальной работы необходимо было бы иметь фильтры, у которых в полосе пропускания затухание очень мало, а вне ее бесконечно велико. Однако реализовать такие фильтры практически невозможно и используются фильтры, у которых частотные характеристики перекрываются и затухание на средней частоте соседних фильтров составляет 20-45 дБ. За граничную частоту фильтров принимают либо частоту, соответствующую точке пересечения частотных характеристик соседних фильтров, либо частоту , соответствующую определенному затуханию, например, 6 дб. Возможны и другие методы определения граничных частот.

Из-за неидеальности частотных характеристик фильтра реальный спектр на выходе вокодера отличается от приведенного на рис.3д тем, что на границах фильтров изменяются амплитуды сигналов. Это происходит за счет неравномерности характеристики затухания и взаимного влияния сигналов одной и той же частоты, проходящих через соседние фильтры с разным фазовым сдвигом.

Формантные вокодеры

В формантных вокодерах огибающая спектра рабочего сигнала аппроксимируется с помощью комбинации нескольких простых резонансных кривых, число кот. обычно соответствует числу формантных областей (обычно 24). Структурная схема формантного вокодера имеет вид:

(РИС. 4)

Устройство выделения осн. сигнала и сигнала тон-шум, объединяющее и разъединяющее устройства, а также генератор речевого спектра в формантных вокодерах выполняют те же ф-ции, что и в полосных.

Устройства выделения амплитуд формант могут выполняться также, как и в полосных вокодерах выполняются устройства для выделения уровней в различных частотных полосах (полосовой фильтр (ПФ), детектор и сглаживающий фильтр). Устройство выделения частоты формант, реализуется различными способами, из которых наиболее известны два: с помощью ПФ и рометров (частотомеров).

При использовании 1-го способа речевой диапазон частот разбивается на достаточно большое количество полос. Сигналы с выходов ПФ, охватывающих область каждой из формант подаются на амплитудный дискриминатор, с помощью которого определяется в каком из фильтров в данный момент наиболее высокий уровень. Средняя частота этого фильтра принимается за формантную частоту F_ф. При таком способе анализа по каналу связи достаточно передать информацию о том, в каком из каналов уровень наибольший для каждой формантной области. Номер канала при данном способе однозначно определяет формантную частоту. Детектор, с помощью которого определяется уровень форманты a_Ф подключается к фильтру с наибольшим уровнем. В некоторых случаях за амплитуду форманты a_Ф принимается уровень сигнала в полосе, соответствующей ширине полосы, охватывающей данную формантную область.

При использовании рометров речевой диапазон с помощью фильтров делится на широкие полосы, каждая из которых соответствует области одной из формант. На выходе каждого из фильтров включается рометр – устройство, с помощью которого определяется плотность нулей в речевом сигнале. В рометре, обычно, предельно ограничивается речевой сигнал и затем измеряется частота следования им пульсов с помощью общеизвестных схем частотомеров. Т.к. средняя частота следования однополярных импульсов через ноль примерно равна частоте, имеющей в спектре речевого сигнала наибольшую амплитуду, то напряжение на выходе рометра пропорционально формантной частоте. Для повышения точности работы рометры иногда делают двухступенчатыми.

В качестве генератора формант используют либо управляемые резонансные контуры, либо управляемые полосовые фильтры, на выходе которых или на входе включены амплитудные модуляторы. Среднюю частоту управляемых контуров, или фильтров устанавливают с помощью сигналов, характеризующих частоту форманты F_Ф. Амплитудные модуляторы управляются сигналами, характеризующими уровень (т.е. амплитуду) формант a_Ф. Частотные характеристики управляемых контуров или фильтров соответствуют среднестатистической огибающей спектра речевого сигнала в каждой формантной области. На рис.5 схематически показано преобразование спектра в формантном вокодере с передачей амплитуд и частот трёх формант.

Обычно в формантных вокодерах кроме основного тона передаётся не более 6-ти параметров, характеризующих частоты: а₁, а₂, а₃, F₁,F₂, F₃. Для передачи каждого из этих параметров отводится полоса 25-35 Гц, т.е. примерно такая же, как и в полосных вокодерах. Т.к. число передаваемых параметров в формантных вокодерах обычно меньше, чем в полосных, то и суммарная полоса, занимаемая сигналами форм-ных вок-ров также меньше. Разборчивость речи при использовании форм-ных вок-ров может быть получена достаточно высокой, однако, как и у полосовых вок-ров, натуральность звучания речи невысока, речь сопровождается специфическими искажениями и призвуками. В некоторых типах форм-ных вок-ров сигналы основного тона не передаются, речевые сигналы синтезируются при постоянной частоте ОТ, поэтому узнаваемость голосов отсутствует и речь звучит монотонно.

Фонемные вокодеры (ФнВ)

ФнВ предназначены для получения компрессии речевых сигналов, близкой к предельной. На передающем конце производится анализ речевых сигналов и определяется какая из фонем в данный момент произносится. По каналу связи передаются сигналы, характеризующие номер фонемы. При обычной речи произносится около 10-ти фонем в сек. Поскольку число фонем в русском языке не превышает 64, то достаточно пропускать по каналу связи 60 имп/сек (6-тизначный код 10 раз/сек), что соответствует ширине полосы около 40 Гц. Структурная схема ФнВ на рис.6.

РИС.6

В ФнВ узнаваемость голосов отсутствует, качество звучания речи невысокое главным образом из-за того, что анализаторы не обеспечивают необходимой точности выделения фонем из слитной речи. Создание приемлемого по качеству речи синтезатора особых трудностей не представляет. Анализаторы в ФнВ выполняются с учётом статистических свойств и характерных особенностей речевых сигналов. В процессе анализа выделяются различные параметры, характеризующие речевой сигнал: распределение энергии по частоте, местоположение и интенсивности формант, распределение переходов через ноль на коротких отрезках времени и т.д. Выделенные и переданные по каналу связи параметры сопоставляются с хранящимися в памяти анализатора значениями параметров, соответствующих параметрам эталонных фонем, слогов или слов. Каждой фонеме соответствует определённая кодовая комбинация, которая передаётся в канал после того, как будет определено к какой из эталонных фонем ближе всего эталонный речевой сигнал.

Методы используемые в анализаторах ФнВ могут быть применены не только для уплотнения каналов связи, но и для создания автоматических пишущих машинок, печатающих с голоса, и для управления различными мех-ми и процессами. Особый интерес к ФнВ проявляется в последнее время, т.к. создание высококачественного ФнВ может не только дать большой выигрыш по ширине полосы канала связи, но и решить проблему ввода-вывода речевой информации в ЭВМ, т.е. обеспечить непосредственный контакт человека с ЭВМ или роботом.

Ортогональные вокодеры (ОВ)

Как отмечалось выше, в полосовых вок-рах огибающая спектра речевых сигналов аппроксимируется ступенчатой кривой, а в формантных – резонансными кривыми. Очевидно, что огибающую спектра можно аппроксимировать и другими способами, например, представить в виде суммы парабол, функции (sin X)/X, гармонических или других ортогональных ф-ций. При таких способах аппроксимации на передающем конце канала производится выделение огибающей спектра речевого сигнала и разложение её в ряд. Затем у каждого члена ряда определяются коэф-ты и их значение, являющиеся параметрами речевого сигнала, передаются по каналу связи. На приёмном конце синтезируется огибающая спектра речевого сигнала. Вокодеры такого типа обычно называют ортогональными или гармоническими вокодерами. Генератор речевого спектра, объединяющее и разъединяющее устройства, устройство выделения сигналов основного тона или тон-шум в ОВ могут быть выполнены также, как и в полосном. Структурная схема ОВ имеет вид:

(РИС.7)

В

качестве устройства выделения огибающей может быть использована гребенка полосовых фильтров с их большим количеством. С помощью матричной схемы производится выделение коэффициентов - членов ряда. Схема матрицы варьируется от того, по каким ортогональным функциям производится разложение в ряд.(тригонометрические функции, функции Досселя, полиномы Лежандра, и т.д.). Управляющее устройство служит для получения на основе значений коэффициентов членов ряда сигналов, необходимых для управления многополюсником. С помощью управляющего устройства и многополюсника с переменной характеристикой синтезируется частотная характеристика, соответствующая огибающей спектра речевого сигнала. Управляющее устройство и многополюсник могут представлять собой единое устройство. Схема гармонического вокодера впервые была предложена Пироговым в 1958 г. Позднее появились разновидности этой схемы, например косинусной, логарифмический, Чебышевский вокодеры. Все они несколько отличаются схемным выполнением, однако общая структурная схема остается такой же, как на рис.7. Для передачи каждого из коэффициентов разложения в ряд необходима такая же полоса, как и для передачи уровней в полосовом вокодере. Число коэффициентов, значения которых надо передавать, равно 8-10 и следовательно полоса частот в канале связи будет такой же как и у полосовых вокодеров. Звучание речи на выходе гармонических вокодеров существенно отличается от натурального, речь сопровождается искажениями и призвуками, также как и у фонемных вокодеров, так и для полосовых вокодеров.

Канальный вокодер

Канальные вокодеры разработаны в 1928 году. Основная часть процесса кодирования в канальных вокодерах состоит в определении коротковременного спектра сигнала. (Рисунок 8)

Б
N1
лок полосовых фильтров кодера исп-ся для разделения речи на полосы, в кот. производится двухполупериодное выпрямление и фильтрация для определения относ. ур-ней мощности. Отд. ур-ни мощности кодируются и передаются на приемную сторону.. Этим канальный вокодер весьма похож на кодер с разделением на полосы. В доп-е к изм-ю спектра сигнала совр. канальные вокодеры опр-ют также хар-р возбужд-я речи (гласный или звонкий согласный звук в отличие от глухого звука) и частоту ОТ для гласных или зв. согласных звуков. Измерение возбужд-я исп-ся для синтеза речевого сигнала в декодере путем пропускания сигнала соотв-но подобранного ист-ка через модель ф-ции передачи речеобразующего тракта в частотной области. Возбуждение гласных или зв. согласных звуков имитируется с пом. ген-ра импульсов ГИ с частотой повторения, определяемой периодом ОТ. Возбужд-е глухих звуков имитируется шумовым ген-ром ГШ. Вследствие синтезируемого хар-ра возб-ния этот тип вокодера иногда наз-ют вокодером с возбужд-ем ОТ. Как показано на рис.8, декодер реализует ф-цию речеобразующего тракта с пом. блока полосовых фильтров, ур-ни мощности на входах кот. опр-ся ур-нями мощности в соотв. полосах кодера. Т.о. вых. сигналы каждого полосового фильтра в декодере аналогичны вых. сигналам соотв. полосовых фильтров в кодере. Суперпозиция сигналов отдельных полос воссоздает спектр исходного сигнала.

ЛПК-вокодеры

Коэф-ты предсказания, знач-я кот. передаются по каналу связи, исп-ся в кач-ве перем. пар-ров в рекурсивном цифровом фильтре, на вход кот. подаются сигналы возбужд-я S_В. В кач-ве сигналов возбужд-я в ЛПК-вокодере исп-ся также сигналы, кот. имеют место на вых. ген-ров речевого спектра ГРС во всех других типах вокодеров. При воспроизв-нии вокализов. звуков это последовательности импульсов ОТ, а при воспроизв-нии невокализ. звуков – это случ. последовательность импульсов от ген-ра шума. Вместо коэф-тов предсказания в больш-ве вариантов схем ЛПК-вокодеров предусматривается получ-е эквивалентного набора величин, наз. коэф-тами отражения k₀. Опыт показывает, что эти параметры менее чувств-ны к квантованию, чем коэф-ты предсказания a_m. Наборы пар-ров k₀ или a_m преобразуются друг в друга с пом. стандартных рекуррентных соотношений. Структурная схема ЛПК-вокодера в обоих случаях остается одинаковой и имеет следующий вид:

(РИСУНОК)

Ширина полосы фильтров на входе и выходе выбир-ся с учетом исп-мых электроакустич. преобраз-лей. Преобраз-ли АЦП и ЦАП работают на принципах ИКМ. Анализатор сигналов возбужд-я осуществлениет выделение сигналов ОТ и Т-Ш и общ. ур-ня речевого сигнала (огибающей речевого сигнала). В сигнале ошибки e(n) более явно, чем в исх. речевом сигнале S(t) выражены признаки, по кот. выд-ся сигналы возбужд-я. Поэтому устройство выделения сигналов возбужд-я подключено не ко входу, а к выходу анализатора. Ост. узлы вып-ют те же ф-ции, что и в ранее рассмотренных типах вокодеров.

Гомоморфные вокодеры

На основе выч-я дискретного спектра кепстра построен гомоморфный вокодер, в кот. каждые 10-20 мс выч-ся кепстр изолир. или перекрывающихся сегментов сигнала. НЧ часть кепстра умнож-ся на весовую ф-цию и квантуется. Выделение сигналов ОТ и Т-Ш м.б. также осущ-но кепстральным методом. В синтезаторе осуществляется отклик звонких и глухих звуков по кепстру и осуществляется свертка с ф-ции возбужд-я. Вокодер был промоделирован на ЭВМ при 26 пар-рах квантов. с частотой отсчетов от 50 до 100 Гц. При 6-значном коде было достигнуто высокое кач-во речи. Вычисление кепстра сигнала длит-ю 2 сек. заняло около часа машинного времени, поэтому схемотехнич. реализация дан. типа вокодеров нецелесообразна.

Blog