Обработка речевых сигналов
Дипломная работа - Компьютеры, программирование
Другие дипломы по предмету Компьютеры, программирование
µцибелах. Например, если мощность одного сигнала превосходит мощность другого в два раза, то первый сигнал будет громче на 10lоg10(2) = 3,01 дБ.
Децибелы можно применять только для сравнения двух сигналов. Однако измерение звуков в децибелах оказалось настолько удобным, что используют некоторый звук в качестве стандартного эталона. Этот эталон очень близок к самому тихому звуку, который только может расслышать человек. Самый громкий звук, который способен слышать человек, громче эталона приблизительно на 120 дБ (в миллион миллионов раз громче, чем эталон) - его громкость почти соответствует громкости работающего рядом реактивного двигателя. Слух человека приспособлен для восприятия звуков в широком диапазоне громкости.
Шкала децибелов также используется для измерения потерь звука. Если два различных звука с одной и той же энергией пропустить через некоторую электронную цепь или цифровой алгоритм обработки звука, на выходе один звук может оказаться на 6 дБ слабее другого.
Шкала децибелов используется и для измерения уровня шума или искажений, которые были добавлены (непреднамеренно) к любому сигналу.
Есть несколько причин, по которым с помощью измерений, проведенных в децибелах, удается хорошо аппроксимировать то, как человек ощущает громкость. Во-первых, чувство слуха у человека очень близко к логарифму: ощущаемая разница и громкости двух звуков зависит от отношения, а не от разности мощностей каждого из звуков. Хотя это будет и не совсем корректно, было бы неплохо рассматривать децибел как минимально ощущаемое изменение громкости.
Еще один аспект, для которого измерения в децибелах дают точную картину ощущений человека - это то, что ощущаемая громкость очень сильно зависит от относительной мощности. В частности, известна акустическая иллюзия, называемая маскированием. Если звук образуется двумя независимыми компонентами и одна из этих компонент гораздо громче другой, то более тихая компонента часто будет неслышна. Фактически, слух человека настраивается к уровню более громкого звука и более тихий звук слышится гораздо более тихим, чем он есть на самом деле. Это особенно относится к тем ситуациям, когда у этих звуков очень близки высоты тона.
Эффект маскирования - это важный инструмент в современных аудиотехнологий. Определяя и выборочно отбрасывая слабые звуки, которые будут маскированы более громкими, можно в целом упростить звук и добиться того, что обрабатывать его будет проще. Хорошее понимание эффекта маскирования позволит выявить наиболее слышимые составляющие сложного звука: для этого требуется понять, что звуки с самыми большими амплитудами вовсе не обязательно слышны лучше всех остальных.
Есть еще несколько факторов, которые влияют на наше восприятие громкости. Во-первых, громкость частично зависит от высоты тона. Слух человека более чувствителен в определенном среднем диапазоне частот. Его чувствительность прогрессирующе падает на более низких или высоких тонах. В результате этого, если взять звук средней высоты тона и звук высокого тона, у которых будет одинаковая мощность, то более громким покажется звук среднего тона.
Кроме того, сложные звуки человек слышит хуже звуков простых тонов. В частности, очень трудно расслышать высокочастотный шум. Метод цифрового преобразования, называемый размыванием (dithering) позволяет преобразовать ошибки некоторых типов в менее различимый высокочастотный шум.
.4.3 Спектральное преобразование сигнала
Поскольку любой звук раскладывается на синусоидальные волны, мы можем построить частотный спектр звука.
Спектр частот звуковой волны представляет собой график зависимости амплитуды от частоты.
На рисунке 4.6 показаны некоторые основные характеристики синусоиды. Частота - это количество полных циклов, которые укладываются в одну секунду; она связана с периодом времени, необходимым для одного цикла. Вертикальная шкала обозначает амплитуду, которая соответствует величине отсчета, электрического напряжения, тока или давление воздуха.
Рисунок 4.6 - Частота, период и амплитуда волны
Математически синусоида описывается функциями sin() или соs(). Простая функция sin(t) имеет амплитуду равную единице, период равный 2 секунд и соответствующую частоту, равную 1/2 циклов секунду. Можно преобразовать эту запись в более полезную форму: Asin(2ft) что соответствует синусоиде с амплитудой А и частотой f.
Здесь предполагается, что t представляет собой время (в секундах), f - значение частоты. При работе с дискретным сигналом в качестве t удобнее использовать номер отсчета. В этом случае запись Asin(2ft) представляет синусоиду с амплитудой А и частотой fS, где S - частота дискретизации. Далее будем работать в каждый момент времени с группами по N отсчетов и интересовать нас будут определенные частоты, поэтому я использую записи вида sin(2ft/N) и cos(2ft/N), которые представляют волны с единичной амплитудой и частотой равной fS/N.
Амплитуда и частота не дают полной картины. Временные задержки могут послужить причиной смещения волн друг относительно друга, как показано на рисунке 4.3. Хотя измеряются эти смещения как временные задержки, более удобно представлять их как дробные части периода, называемые фазой.
Рисунок 4.7 - Три синусоиды с различной частотой
Поскольку синусоиды тесно связаны с окружностями, фаза измеряется в градусах. Один полный цикл - это 360. На рисунке 4.8 показана еще одна синусоида. Ее временная, горизонтальная, ось ра