Кодирование речи в системах сотовой связи
Информация - Компьютеры, программирование
Другие материалы по предмету Компьютеры, программирование
?ей частоты радиосигнала с минимальным сдвигом (GMSK - Gaussian Minimum Shift Keying) с индексом манипуляции, равным 0,3.
Рис. 2. Структурная схема процесса обработки речи в стандарте GSM
VAD Voice Activity Detection - детектор активности речи;(Discontinuous Transmission) - система прерывистой передачи речи
Снижение требуемой скорости передачи цифрового потока приводит к ухудшению качества передаваемой речи. Наиболее низкая скорость передачи информации (1 - 3 кбит/с) требуется при использовании вокодеров. Однако при этом очень низкое качество речи. Звук приобретает синтетический характер.
Высокое качество речи при допустимом снижении требований к скорости передачи можно получить при использовании различных модификаций ИКМ, за счет усложнения аппаратуры. Для того, чтобы иметь высокое качество речи при передаче с относительно низкими скоростями, в GSM используется способ кодирования, объединяющий вокодеры и дифференциальную ИКМ. Такой способ получил название дифференциального кодирования.
Вокодерное преобразование основано на использовании особенностей человеческого голосового тракта. Голосовые связки генерируют некоторую частоту, которая модулируется горлом и ртом, как фильтром. Зная в каждый момент частоту и параметры фильтра можно восстановить (создать) требуемый звуковой сигнал.
В фиксированные промежутки времени голосовые органы человека не остаются в фиксированном положении, и возбуждения носят более комплексный характер, чем передаваемые характер возбуждения и период основного тона. Это приводит к значительному ухудшению качества.
Дифференциальная ИКМ учитывает корреляцию дискретных отсчетов АИМ-сигнала. При этом кодируются не сами дискретные отсчеты, а разность амплитуд поступившего и предыдущего дискретных отсчетов. Поскольку диапазон изменения амплитуд разности дискретных отсчетов меньше диапазона изменения амплитуд самих дискретных отсчетов, для их кодирования требуется меньшее число разрядов. Таким образом, дифференциальное кодирование подразумевает деление речевого сигнала на отрезки в 20 мс с предыдущим кодированием.
В стандарте GSM используется метод RPE-LTP (линейное предсказание с возбуждением регулярной последовательностью импульсов и долговременным предсказанием). Упрощенная блок-схема кодека представлена на рис. 3.
Рис. 3. Упрощенная блок-схема кодека речи в стандарте GSM
Работа кодера заключается в следующем.
Блок предварительной обработки осуществляет: предыскажение входного сигнала при помощи цифрового фильтра, подчеркивающего верхние частоты; разбиение сигнала на сегменты по 160 выборок (20 мс); взвешивание каждого из сегментов окном Хэмминга.
Далее для каждого 20-мс сегмента оцениваются параметры фильтра кратковременного ЛП - 8 коэффициентов частичной корреляции ki i=1-8 (порядок предсказания М=8), которые для передачи по каналу связи преобразуются в логарифмические отношения площадей ri, причем для функции логарифма используется кусочно-линейная аппроксимация.
Сигнал с выхода блока предварительной обработки фильтруется решетчатым фильтром-анализатором кратковременного ЛП, и по его выходному сигналу (остатку предсказания еn) оцениваются параметры длительного предсказания: коэффициент предсказания g и задержка d. При этом 160-выборочный сегмент остатка кратковременного предсказания еn разделяется на 4 подсегмента, по 40 выборок в каждом, и параметры g,d оцениваются для каждого из подсегментов в отдельности, причем для оценки задержки d для текущего подсегмента используется скользящий подсегмент из 40 выборок, перемещающийся в пределах предшествующих 128 выборок сигнала остатка предсказания еn . Сигнал еn фильтруется фильтром-анализатором ДП, а выходной сигнал последнего (остаток предсказания fn) фильтруется сглаживающим фильтром, и по нему формируются параметры сигнала возбуждения в отдельности для каждого из 40-выборочных подсегментов.
Сигнал возбуждения одного подсегмента состоит из 13 импульсов, следующих через равные промежутки времени (втрое большие, чем интервал дискретизации исходного сигнала), и имеющих различные амплитуды. Для формирования сигнала возбуждения 40 импульсов подсегмента сглаженного остатка fn обрабатываются следующим образом. Последний (40-ой) импульс отбрасывается, а первые 39 импульсов разбиваются на три последовательности: в первой - импульсы 1,4,..., 37, во второй - импульсы 2,5,..., 38, в третьей - импульсы 3,6,...,39. В качестве сигнала возбуждения выбирается та из последовательностей, энергия которой больше. Амплитуды импульсов нормируются по отношению к импульсу с наибольшей амплитудой, и нормированные амплитуды кодируются тремя битами каждая при линейной шкале квантования. Абсолютное значение наибольшей амплитуды кодируется шестью битами в логарифмическом масштабе. Положение начального импульса 13-элементной последовательности кодируется двумя битами, т.е. номер последовательности, выбранной в качестве сигнала возбуждения для данного подсегмента.
Таким образом, выходная информация кодера речи для одного 20-миллисекундного сегмента речи включает параметры: фильтра кратковременного ЛП 8 коэффициентов логарифмического отношения площадей ri, i=1-8 - один набор на весь сегмент; фильтра ДП - коэффициент предсказания g и задержка d - для каждого из четырех подсегментов; сигнала возбуждения - номер последовательности n, максимальная амплитуда v, нормированные амплитуды bi, i=1-13, импу?/p>