Система регистрации речи диспетчерских переговоров
Дипломная работа - Компьютеры, программирование
Другие дипломы по предмету Компьютеры, программирование
?пектра от источника находящегося на удалении от слушателя несколько запаздывает.
Речь:
- Частотный спектр, несущий информацию в человеческой речи: от 500 Hz до 2 kHz
- Низкие частоты - басы и гласные
- Высокие частоты - согласные
- Лучшее сжатие речи достигается с использованием параметрических кодеров (LPC, CELP, и пр.), пытающихся представить речь как набор параметров некоторой речевой модели. Кодеки общего назначения (MPEG и др.), как правило, дают худшее сжатие.
2.4 Диспетчер сжатия звука
Во всех версиях Windows (начиная с Windows 95) присутствует специальный интерфейс, предназначенный для преобразования форматов звуковых данных. Он называется Audio Compression Manager (ACM), диспетчер сжатия звука. Этот интерфейс позволяет изменять частоту, разрядность, количество каналов, а также тип сжатия звуковых данных (format tag). При достаточной мощности процессора преобразование с успехом может выполняться в реальном времени. ACM включает в себя набор кодеков, которые, собственно, и выполняют необходимые преобразования. Кодек, компрессор/декомпрессор, - исполняемый файл с расширением *.acm. Они находятся в системной папке \Windows\system. Как правило, кодек позволяет осуществить не только сжатие, но и распаковку звуковых данных, т. е. восстановление исходного сигнала РСМ. (Хотя существуют кодеки только для воспроизведения). Пользователь может самостоятельно удалять ненужные ему кодеки, и может самостоятельно установить новые, что придает системе гибкость. После установки кодека все программы, пользующиеся системой ACM, получают возможность работать с этим форматом звуковых данных. Приложения непосредственно взаимодействуют только с диспетчером, который выбирает нужные драйверы, передает информацию между приложением и драйверами, и выполняет прочие функции по координации работы подсистемы
Практически все серьезные звуковые программы осуществляют преобразование форматов средствами интерфейса Audio Compression Manager (ACM): это и звуковые редакторы (Sound Forge, Cool Edit, Gold Wave и др.); и конвертеры (Wave Convert PRO); и проигрыватели звуковых файлов. WinAmp, например, с настройкой по умолчанию воспроизводит файлы с расширением *.mp3 через свой внутренний декодер, так называемый NullSoft MPEG Audio Decoder, а файлы с расширением *.wav - через систему ACM, даже если в них тот же самый MP3.
Дальше идет обзор наиболее распространенных кодеков системы Audio Compression Manager (ACM) и определены те области, в которых их применение могло бы быть оправданным и эффективным.
2.5 Универсальные кодеки
Под универсальностью подразумевается, прежде всего, пригодность для кодирования сигнала произвольной формы (например, музыки), сохраняя, насколько это возможно, все оттенки и особенности оригинала. Напротив, сжатие речи имеет целью только передачу смысла сообщения. Идеальный компрессор речи преобразовывал ее бы в текст, аналогично тому, как программы оптического распознавания символов преобразуют картинку в текст. По мере своего развития голосовые компрессоры неотвратимо приближаются к этому идеалу. Естественно, попытка сжать музыку компрессором, предназначенным для сжатия речи, приведет к тому, что от музыки просто ничего не останется. Яркий пример универсального формата - широко известный MP3. Он работает на особенностях слухового восприятия человека, не предъявляя жестких требований к структуре входного сигнала, соотношению частот и т. п. Речевые кодеки (например, Voxware MetaVoice) имеют значительно большую степень сжатия, однако удовлетворительное качество достигается только на сигналах, имеющих определённую структуру, то есть речевых. Рассмотрим эти два семейства форматов отдельно.
1) MPEG
Первый вариант стандарта группы MPEG (Motion Pictures Experts Group) появился в далеком 1992 году. Это был довольно несовершенный стандарт, предназначался он для сжатия видео и звука при спутниковом и кабельном цифровом вещании. О компьютерах и интернете тогда никто и не думал. Параметры этого стандарта (аудио): 48, 44.1, 32 КГц, mono, dual (два моно канала), стерео, интенсивное стерео (объединяются сигналы с частотой выше 2000 Гц.), m/s stereo (один канал переносит сумму - другой разницу).
Позже стандарт MPEG-1 был немного расширен и стал называться MPEG-2:
- Появились новые виды частот 16, 22.05, 24 КГц.
- Поддержка многоканальности - возможность иметь 5 полноценных каналов (left, center, right, left surround, right surround) + 1 низкочастотный (subwoofer).
- Появился AAC (Advanced Audio Coding - прогрессивное кодирование звука), стандарт - обеспечивает очень высокое качество звука со скоростью 64 kbps per channel (килобит в сек. на канал), возможно использовать 48 основных каналов, 16 низкочастотных каналов для звуковых эффектов, 16 многоязыковых каналов и 16 каналов данных. До 16 программ может быть описано используя любое количество элементов звуковых и других данных. Для AAC существуют три вида профиля - Main (используется, когда нет лишней памяти), Low Complexity (LC), Scalable Sampling Rate (SSR, требуется декодер с изменяемой скоростью приема данных).
MPEG Layer-3 Audio Codec for MSACM
Данный продукт разработан в немецком институте имени Фраунхофера - Fraunhofer Institut Integrierte Schaltungen IIS. Первоначально этот кодек был неотъемлемой частью программы MPEG Layer-3 Producer. Но теперь он распространяется сам по себе, в виде файла I3enc.exe размером 294 Кбайт. Встр