Кодирование речи в системах сотовой связи
Информация - Компьютеры, программирование
Другие материалы по предмету Компьютеры, программирование
°ми, полученными из оценки для данного сегмента;
Рис. 1. Процедура кодирования-декодирования речи в методе с линейным предсказанием
При декодировании принятый сигнал возбуждения пропускается через синтезирующий фильтр, параметры которого были приняты одновременно с сигналом возбуждения.
Конечно практические схемы намного сложнее приведенного алгоритма. Для большего устранения избыточности речи помимо кратковременного предсказания (STP - Short Term Prediction), применяют еще долговременное предсказание (LTP - Long Term Prediction), в значительной мере устраняющее избыточность и приближающее остаток предсказания по своим статистическим свойствам к белому шуму. Вдобавок, использование остатка предсказания в качестве сигнала возбуждения оказывается недостаточно эффективным, так как требует для кодирования слишком много бит. Поэтому на практике используют более экономичные (по загрузке канала связи, но не по вычислительным ресурсам) методы формирования сигналов возбуждения. В настоящее время используют различные варианты многоимпульсного возбуждения.
Если на вход инверсного фильтра длительного предсказания подать остаток кратковременного предсказания, то на выходе получится сигнал ошибки фильтра длительного предсказания. Эта ошибка близка к белому гауссовскому шуму, для которого значения можно передать весьма экономичным образом, т.к. параметры такого шума математически хорошо изучены. Значит, вместо передачи полного объема информации о сигнале возбуждения можно передавать сведения только об остатке с фильтра долговременного предсказания и параметры самих фильтров кратковременного и долговременного предсказания. Это и приводит к уменьшению количества передаваемых бит для описания параметров сигнала возбуждения. Параметры фильтра долговременного предсказания могут быть определены, например, из условия минимизации среднеквадратического значения ошибки длительного предсказания на некотором интервале, составляющем 20-25% от длительности передаваемого сегмента речи. При этом возникает задержка d в пределах 20 - 160 интервалов дискретизации сигнала, что соответствует диапазону частот основного тона 50-400 Гц. Сигнал возбуждения, аппроксимирующий остаток сигнала фильтра долговременного предсказания, моделируется в виде определенного числа импульсов на интервале кадра возбуждения (excitation frame), составляющего 50% от длительности передаваемого сегмента речи.
Для оценки параметров последовательности импульсов сигнала возбуждения существует несколько методов. В методе многоимпульсного возбуждения (MPE - Multi-Pulse Excitation) оптимизируется как положение, так и амплитуды импульсов. В методе возбуждения регулярной последовательностью импульсов (RPE - Regular-Pulse Excitation) взаимное положение импульсов предопределено. Для этого используется сетка равноотстоящих импульсов, а оптимизируется расположение этой сетки в пределах кадра возбуждения (так как число импульсов возбуждения обычно в 3-4 раза меньше числа выборок в кадре) и амплитуды импульсов. В методе стохастического кодирования, или в методе линейного предсказания с кодовым возбуждением (CELP - Code-Excited Linear Prediction), с разновидностью возбуждения векторной суммой (VSELP - Vector Sum Excited Linear Prediction), наиболее подходящий вектор возбуждения выбирается из заранее составленной кодовой книги (или кодового словаря), содержащего обычно 2N, N=7 - 10, квазислучайных векторов заданной длины с элементами, нормированными по амплитуде. Амплитуда вектора возбуждения кодируется отдельно в соответствии с громкостью передаваемого элемента речи. В методе возбуждения последовательностью бинарных импульсов с преобразованием (TBPE - Transformed Binary Pulse Excitation) сигналом возбуждения является последовательность равноотстоящих по времени и квазислучайных по знаку (с амплитудами 1) импульсов, умноженных на некоторую матрицу преобразования.
2.Кодирование речи в стандарте GSM
Обработка речи в стандарте GSM осуществляется в рамках принятого режима прерывистой передачи (DTX - Discontinuous Transmission), которая обеспечивает включение передатчика только во время самого разговора. Система DTX управляется детектором активности речи (VAD - Voice Activity Detection), который обеспечивает обнаружение и выделение интервалов речи с шумом и шум без речи даже в тех случаях, когда уровень шума соизмерим с уровнем сигнала речи. В состав системы DTX также входит устройство формирования комфортного шума, который включается в паузах речи. В системе DTX происходит также экстраполяция фрагментов речи, утерянных из-за помех в канале. Структурная схема обработки речи в стандарте GSM приведена на рис. 2.
Основным устройством в данной схеме является речевой кодек. В соответствии со стандартом GSM каждый радиоканал используется для организации 8 цифровых каналов с временным разделением. Следовательно, если бы это были стандартные ИКМ каналы, то потребовалась бы скорость передачи 64 х 8 = 512 кбит/с. Такую скорость передачи пользовательской информации по одному частотному радиоканалу обеспечить практически невозможно. В качестве выхода из положения используются методы уплотнения передаваемой информации и применение сложных методов кодирования, уменьшающих избыточность, а значит и требующих меньшие скорости передачи. При этом, как правило, используются методы фазовой модуляции (манипуляции). В системе GSM используется гауссовская фазовая манипуляции несу?/p>