Система регистрации речи диспетчерских переговоров

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование



онять и проанализировать:

  • Формат Ogg Vorbis изначально оптимизирован для потокового вещания: степень сжатия может меняется автоматически в зависимости от условий передачи, пакеты не имеют предопределённого размера (минимального, максимального или ожидаемого), они (пакеты) могут быть обрезаны или повреждены - ничто из этого не вызовет сбоя воспроизведения, к тому же в контейнер встроен механизм коррекции ошибок;
  • Благодаря тому, что Vorbis - "урождённый" VBR (variable bitrate) формат, он не привязан к "ступеням" битрейта (96, 112, 128, 160, 192...), а кодирует каждый кадр (frame) с тем битрейтом, который больше всего соответствует текущим условиям (это может быть и 113, и 178, и 234);
  • В алгоритм кодека встроена функция "bitrate peeling" - возможность уменьшения битрейта без перекодирования;
  • Данные, сжатые по алгоритму Vorbis, в среднем занимают меньше места по сравнению с данными, сжатыми по алгоритму MP3. Или, при одинаковом размере, будут звучать лучше;
  • Ogg Vorbis идеально подходит в качестве стандарта передачи аудиоданных в глобальной сети, то есть является реальной заменой MP3 и WMA, а также подходит для хранения записей с качеством, близким к CD. Это доказывают многочисленные "слепые" тесты (когда участники теста не знают, каким алгоритмом зажат тот или иной файл - все они предварительно декодируются и предоставляются в формате WAV), проведённые независимыми исследователями.
  • Эти исследования показывают, что на низких битрейтах (96 и менее) у Vorbis нет конкурентов, на средних он звучит идентично с WMA, а на высоких битрейтах (от 170 и выше) Vorbis опережают только AAC, Real Audio 8 и - иногда - Musepack. В то же время, качество MP3 на всех битрейтах отмечено как наихудшее.
  • Ogg Vorbis всё чаще используется разработчиками программного обеспечения в своих продуктах (преимущественно в играх: LockOn, Heroes of Might and Magic IV, Unreal Tournament 2003, Vietnam, Код доступа: Рай, Crimsonland).
  • кодек нашёл применение в качестве стандарта для китайского EVD - Enhanced Versatile Disc, замене DVD.

Теперь рассмотрим слабые стороны, их немного:

  • важнейшим препятствием на пути Ogg Vorbis (как, в принципе, и любого другого формата) стоит консерватизм пользователей.
  • немалую роль играет сопротивление софтверных компаний (как гигантов, так и средних компаний): несмотря на наличие всех исходных кодов и отсутствие лицензионных отчислений, разработчики или упорно игнорируют наличие альтернативных форматов, или вставляют им палки в колёса. Microsoft же, как всегда, агрессивно рекламирует своё детище - WMA, при этом, выставляя худшие стороны в лучшем свете: поддержка DRM, по мнению Microsoft, является величайшим благом для пользователя. Кстати, Windows кроме "родных" форматов WMA, MP3 и WAV наотрез отказывается воспроизводить прочие аудиофайлы.
  • свою лепту вносят и производители мультимедийной техники, которые только к концу 2003 года начали потихоньку "раскачиваться" и встраивать поддержку Ogg Vorbis в плееры, диктофоны и блочные проигрыватели DVD. Иногда, правда, это делается за счёт других форматов (как поступила iRiver - пользователь может выбирать между WMA и Ogg, но вместе они быть не могут). Непонятно, почему это не делалось раньше.
  • Еще один из недостатков формата OGG Vorbis - это относительная медленность упаковки и недоработанность кодеков. Впрочем, с оптимизацией программ для упаковки OGG и эти недостатки исчезнут.

2.6 Кодеки для сжатия только речи

Сжатие голосовых данных неразрывно связано с вокодерными методами. Вокодер - это некий прибор (теперь он для нас является черным ящиком) или алгоритм, который осуществляет анализ и формализацию структуры голосовой информации. Затем формализованные данные можно обрабатывать обычными математическими методами - сжимать их, преобразовывать, зашифровывать, редактировать и так далее.

Вокодерные методы позволяют добиться очень высокой степени сжатия (до 100 раз), но качество звука при этом получается более чем посредственное. В коммерческих кодеках редко применяется сжатие более чем в 30 раз из соображений сохранения минимального благозвучия фонограммы. Например, кодек Voxware MetaVoice позволяет разместить 1 минуту звучания в файле размером 25 Кb, что соответствует сжатию в 37 раз. Необходимо подчеркнуть, что оцифровку голоса рекомендуется проводить только при частоте 8 KHz, разрядности 16 bit, и в монофоническом режиме. Это стандарт, многие кодеки просто не поддерживают другие параметры. Характеристики наиболее широко распространенных кодеков сведены в таблицу 2. Степень сжатия указана относительно исходного 1-минутного файла PCM 8 KHz/16 bit/mono, размер которого - 938 Kb.

Таблица 2

формат | степень сжатия, раз (приблизительно) | 1 минута, Kb

MSN 13000 Baud 10 96

MSN 8000 Baud 15 61

MS GSM 6.10 10 96

DSP Group Truewords 15 63

L&H CELP 4,8 25 36

L&H SBS 12 10 87

ACELP.net 5 25 37

ACELP.net 8,5 15 62

Сжатие голосовых сигналов широко применяется в IP-телефонии, которая без этого была бы невозможна. Недостаток всех перечисленных кодеков - они не обладают свойством изменения скорос