Основы спектрального анализа звуков

Вид материалаЛекция
Подобный материал:

Основы спектрального анализа звуков

Лекция 12

Артефакты спектрального анализа и принцип неопределённости Гейзенберга


На предыдущей лекции мы рассмотрели проблему разложения любого звукового сигнала на элементарные гармонические сигналы (составляющие), которые в дальнейшем мы будем называть атомарными информационными элементами звука. Повторим основные выводы и введём некоторые новые обозначения.

Будем обозначать исследуемый звуковой сигнал так же, как и на прошлой лекции, .

Комплексный спектр это сигнала находится с помощью преобразования Фурье так:

. (12.1)

Этот спектр позволяет нам определить, на какие элементарные гармонические сигналы разных частот раскладывается наш исследуемый звуковой сигнал . Иными словами, спектра описывает полный набор гармоник, на которые раскладывается исследуемый сигнал .

Для удобства описания, вместо формулы (12.1) часто используют более выразительную следующую запись:

, (12.2)

подчёркивая тем самым, что на вход преобразования Фурье подаётся временная функция , а на выходе получается функция, зависящая не от времени, а от частоты.

Чтобы подчеркнуть комплексность получаемого спектра, его обычно представляют в одном из следующих видов:

, (12.3)

где - это амплитудный спектр гармоник, (12.4)

а - это фазовый спектр гармоник. (12.5)

Если правую часть уравнения (12.3) прологарифмировать, то мы получим следующее выражение:

. (12.6)

Получается так, что реальная часть логарифма от комплексного спектра равна амплитудному спектру в логарифмической шкале (что совпадает с законом Вебера-Фехнера), а мнимая часть логарифма от комплексного спектра равна фазовому спектру гармоник, значения которых (фазовых значений) наше ухо не ощущает. Такое интересное совпадение поначалу может обескуражить, но мы на это не будем обращать внимание. Но подчеркнём принципиально важное для нас сейчас обстоятельство – преобразование Фурье переводит любой сигнал из временной физической сигнальной области в информационное частотное пространство, в котором инвариантны частоты гармоник, на которые раскладывается звуковой сигнал.

Обозначим атомарный информационный элемент звука (гармонику) следующим образом:

. (12.7)

Воспользуемся графическим образом, отражающий область слышимости гармоник с разными частотами и амплитудами, взятый из замечательной книги E.Zwicker and H.Fastl “Psychoacoustics: facts and models” (Second Edition, Springer, 1999) на странице 17 (см. рис. 12.1).



Если некоторый звуковой сигнал будет состоять из двух гармоник:

, (12.8)

то их положение на слуховом информационном пространстве может иметь, например, такой вид, какой показан на рис. 12.2.



Глядя на эти рисунки, легче можно понять, почему отдельные гармонические сигналы мы назвали атомарными информационными элементами звука. Всё слуховое информационное пространство (рис. 12.1) ограничено снизу кривой порога слышимости, а сверху – кривой болевого порога звучащих гармоник разных частот и амплитуд. Это пространство имеет несколько неправильные очертания, но оно несколько напоминает по форме другое информационное пространство, которое имеется в нашем глазу – сетчатку глаза. В сетчатке атомарными информационными объектами являются палочки и колбочки. Аналогом их в цифровой информационной технологии являются пискелы. Эта аналогия не вполне корректна, поскольку в изображении все пикселы (в двумерном пространстве) играют свою роль. В нашем же звуковом информационном пространство не могут две точки находиться на одной вертикале. И поэтому любой звук отражается в этом пространстве, в лучшем случае, лишь в виде некоторой кривой линии (амплитудного спектра), начинающейся слева на низких частотах (около 20 Гц), и заканчивающейся справа на высоких частотах (около 20 кГц).

Подобные рассуждения выглядят, довольно-таки, красиво и убедительно, если только не считаться с реальными законами природы. Дело в том, что, даже если исходный звуковой сигнал состоит всего лишь из одной единственной гармоники (некоторой частоты и амплитуды), то реально наша слуховая система «не увидит» её виде точки в информационном слуховом пространстве. В действительности эта точка несколько размоется. Почему? Да потому, что все эти рассуждения справедливы для спектров бесконечно долго звучащих гармонических сигналов. А реальная наша слуховая система анализирует звуки на относительно небольших временных интервалах. Длина этого интервала колеблется от 30 до 50 мс. Получается так, что наша слуховая система, которая как и весь нейронный механизм мозга, работает дискретно с частотой кадров 20-33 кадра в секунду. Поэтому спектральный анализ должен проводиться по кадрам. А это приводит к некоторым неприятным эффектам.

На первых этапах исследования и анализа звуковых сигналов с помощью цифровых информационных технологий, разработчики просто нарезали сигнал на отдельные кадры, как, например, показано на рис. 12.3.



Если один кусочек этого гармонического сигнала в кадре отправить на преобразование Фурье, то мы не получим одиночную спектральную линию, как показано для примера на рис. 12.1. А получится график амплитудного (логарифмического) спектра, показанного на рис. 12.4.

На рис. 12.4 красным цветом показано истинное значение частоты и амплитуды гармонического сигнала (12.7)1. Но тонкая спектральная (красная) линия существенно размылась. И, что хуже всего, – появилось множество артефактов2, фактически сводящих полезность спектрального анализа на нет. Действительно, если каждая гармоническая компонента звукового сигнала будет вносить свои подобные артефакты, то отличить истинные следы звука от артефактов не удастся.



В этой связи в 60-е годы прошлого века многие ученые предприняли усиленные попытки улучшить качество получаемых спектров от отдельных кадров звукового сигнала. Оказалось, что если кадр вырезать не грубо («прямыми ножницами»), а умножать сам звуковой сигнал на некоторую гладкую функцию3, то артефакты можно существенно подавить.

Например, на рис. 12.5 показан пример вырезания кусочка (кадра) сигнала с помощью одного периода функции косинуса (это окно иногда называют окном Хеннинга). Логарифмический спектр вырезанного таким образом одиночного гармонического сигнала показан на рис. 12.6. На рисунке хорошо видно, что артефакты спектрального анализа в значительной мере исчезли, но, всё равно, ещё остались.

В те же годы известный исследователь Хемминг предложил комбинацию из двух типов окон – прямоугольного и косинусного – и рассчитал их соотношение таким образом, чтобы величина артефактов была минимальной. Но и эта лучшая из лучших комбинаций простейших окон оказалась, на самом деле, не лучшей в принципе. Лучшим во всех отношения окон оказалось окно Гаусса.

Для сравнения вносимых артефактов всеми типами временных окон на рис. 12.7 показаны результаты применения этих окон на примере получения амплитудного спектра одиночного гармоничного сигнала (12.7). А на рис. 12.8 показан спектр гласного звука «о».

Из рисунков хорошо видно, что временное окно Гаусса не создаёт артефактов. Но что следует особо отметить, так это одно замечательное свойство получаемого амплитудного (не в логарифмическом, а в линейном масштабе) спектра всё того же одиночного гармонического сигнала. Оказывается, что график получаемого спектра сам имеет виду функции Гаусса (см. рис. 12.9). Причём, полуширина временного окна Гаусса связана с полушириной получаемого спектра следующим простым отношением:

. (12.9)

Это соотношение отражает принцип неопределённости Гейзенберга. Рассказать о самом Гейзенберге. Привести примеры проявления принципа неопределённости Гейзенберга в ядерной физике, в спектральном анализе, в математической статистике (критерий Стьюдента), в психологии и в социальных явлениях.





Принцип неопределённости Гейзенберга позволяет получить ответы на многие вопросы, связанные с тем, почему следы некоторых гармонических составляющих сигнала не различаются на спектре. Общий ответ на этот вопрос можно сформулировать так. Если мы построим спектральный фильм с частотой кадров , то гармоники, различающиеся по частоте, менее, чем на , мы не различим – их следы на спектре сольются.

Рассмотрим это утверждение на следующем примере.









На рис. 12.10 показан сигнал, про который известно лишь то, что он состоит из нескольких гармоник разных частот.



Вырезая с помощью временного окна Гаусса маленькой ширины (т.е. относительно мало) один кадр этого сложного сигнала, мы получим амплитудный спектр, показанный на рис. 12.11. Из-за того, что очень мало, полуширина амплитудного спектра от каждой гармоники будет настолько велика, что спектральные лепестки от частот всех гармоник сольются и перекроют друг друга (см. рис. 12.11).

Увеличив немного ширину временного окна Гаусса, мы получим другой спектр, показанный на рис. 12.12. По этому спектру уже можно предположить, что в исследуемом сигнале имеются, по крайней мере, две гармонические составляющие.



Продолжая увеличивать ширину временного окна, мы получим спектр, показанный на рис. 12.13. Затем – спектры на рис. 12.14 и 12.15. Останавливаясь на последнем рисунке, можно с большой степенью уверенности утверждать, что сигнал на рис. 12.10 состоит из трёх отдельных составляющих. После столь больших по объёму иллюстраций, вернёмся к вопросу поиска гармонических компонент в реальных речевых сигналах.

Здесь следует подчеркнуть, что в чистом виде гармонических компонентов в реальном речевом сигнале не бывает. Иначе говоря, мы не продуцируем гармонические компоненты типа (12.7). Но, тем не менее, квазигармонические компоненты в речи, всё же, присутствуют.

Единственными квазигармоническими компонентами в речевом сигнале являются затухающие гармоники, возникающие в резонаторе (в речевом тракте) после хлопка голосовых связок. Взаимное расположение частот этих затухающих гармоник и определяет формантную структуру речевого сигнала. Синтезированный пример затухающего гармонического сигнала показан на рис. 12.16. Если вырезать из этого сигнала с помощью временного окна Гаусса маленький фрагмент, и отправить его на преобразование Фурье, то получится амплитудный спектр (в логарифмическом масштабе), показанный на рис. 12.17.



Если же вырезать из реального речевого сигнала один период между двумя хлопками голосовых связок (см. рис. 12.18), и где-то посреди этого фрагмента разместить временное окно спектрального оценивания, то мы получим амплитудный спектр, показанный на рис. 12.19. На этом рисунке красными линиями показаны значения проявившихся частот сложных резонансных колебаний речевого тракта. На этом рисунке хорошо видно, что с выбранной маленькой шириной временного окна спектрального оценивания далеко не все резонансные частоты речевого тракта проявились в спектре достаточно хорошо.

Но это неизбежно. В этой связи можно сформулировать следующие рекомендации по визуализации следов резонансных частот речевого тракта. Частота кадров спектрального фильма должна быть на порядок (раз в 10) больше частоты работы голосовых связок. Но увеличивать частоту кадров спектрального фильма до бесконечности нельзя, поскольку из принципа неопределенности Гейзенберга следы формант на сонограмме начнут сливаться.






1 А как бы выглядел спектр на предыдущем слайде, если бы прямоугольное окно вырезало бы ровно N периодов гармонического сигнала? Вспомнить о ряде Фурье.

2 Артефакт - [от лат. arte искусственно + factus сделанный] – биол. образования или процессы, возникающие иногда при исследовании биологического объекта вследствие воздействия на него самих условий исследования.

3 Эту функцию называют по-разному: весовой функцией, оконной функцией, взвешивающей функцией или взвешивающим окном.