На правах рукописи
Топников Артем Игоревич
ОЦЕНКА РАЗБОРЧИВОСТИ И ОБРАБОТКА РЕЧЕВЫХ СИГНАЛОВ В ЗАДАЧЕ ШУМОПОДАВЛЕНИЯ
Специальность 05.12.04 Радиотехника, в том числе системы и устройства телевидения
Автореферат диссертации на соискание ученой степени кандидата технических наук
Владимир - 2012
Работа выполнена на кафедре динамики электронных систем Ярославского государственного университета им. П.Г. Демидова (ЯрГУ) Научный руководитель доктор технических наук, доцент ЯрГУ Приоров Андрей Леонидович
Официальные оппоненты: доктор физико-математических наук, профессор, зав.
кафедрой Основ нанотехнологии и теоретической физики ВГУ Рау Валерий Георгиевич кандидат технических наук, нач. отдела защиты информации филиала ОАО АКБ Югра, г. Ярославль Меньшиков Борис Николаевич
Ведущая организация: ОАО Ярославский радиозавод
Защита диссертации состоится 14 декабря 2012 г. в 14.00 часов на заседании диссертационного совета Д 212.025.04 при Владимирском государственном университете имени Александра Григорьевича и Николая Григорьевича Столетовых (ВГУ) по адресу: 600000, г. Владимир, ул. Горького, д. 87, ВГУ, ФРЭМТ, ауд. 301.
С диссертацией можно ознакомиться в библиотеке Владимирского государственного университета имени Александра Григорьевича и Николая Григорьевича Столетовых.
Автореферат разослан 12 ноября 2012 г.
Отзывы на автореферат, заверенные печатью, просим направлять по адресу:
600000, г. Владимир, ул. Горького, д. 87, ВГУ, ФРЭМТ.
Ученый секретарь диссертационного совета доктор технических наук, профессор А.Г. Самойлов
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. Речевой сигнал - основной переносчик информации при естественном общении между людьми. Велика удельная доля речевой информации и в общем ее объеме, передаваемом радиотехническими системами. При распространении в воздушном пространстве, а также при передаче в радиотехнических системах связи, речевые сигналы подвергаются искажениям.
Сильные искажения способны не только ухудшить эстетическое качество воспринимаемых сигналов, но и привести к потере части информации, что снижает разборчивость речи. Существует значительное отличие между качеством и разборчивостью речевого сигнала, что приводит к необходимости отдельной оценки этих характеристик.
В настоящее время известно множество методов подавления шума в речевых сигналах. Выбор конкретного метода связан с особенностями воздействующего на речевой сигнал шума, наиболее вероятного диапазона отношений сигнал/шум (ОСШ) и множеством другим факторов, включая аппаратную базу, используемую для реализации метода шумоподавления.
Вместе с тем, по-прежнему наблюдается потребность в создании новых и в усовершенствовании существующих методов шумоподавления. В частности, некоторые из них, улучшая качество зашумленного речевого сигнала, могут снижать его разборчивость. Также для некоторых методов характерны артефакты типа "музыкальный шум", осложняющие восприятие информации, содержащейся в речевом сигнале. Другой важный вопрос, определяющий направление развития методов шумоподавления, - работа с сильно зашумленными речевыми сигналами при ОСШ ниже 0 дБ. В подобных случаях особо важным является повышение разборчивости.
С решением задачи повышения качества и разборчивости непосредственно связана необходимость в достоверных методах оценки этих характеристик речевого сигнала. Особой актуальностью обладают работы, направленные на разработку неэталонных критериев. Использование таких критериев в радиотехнических системах позволяет производить автоматизированный контроль разборчивости в речевых сигналах, а также осуществлять выбор методов их обработки, наиболее подходящих в каждом конкретном случае.
Таким образом, проблема разработки новых неэталонных критериев разборчивости и методов подавления шума в речевых сигналах является актуальной.
Состояние проблемы. Основополагающие работы по обработке и анализу речевых сигналов связаны с именами таких известных зарубежных ученых, как Рабинер Л., Шафер Р., Фланаган Дж., Янг Б., Мермелштейн П., Левинсон С. и др.
Большой вклад в развитие методов анализа речевых сигналов внесли работы зарубежных и отечественных ученых Парзена Э., Розенблатта М., РимскогоКорсакова А.В., Сапожкова М.А., Михайлова В.Г., Рихтера С.Г., Тартаковского Г.П., Санникова В.Г. и др.
В области шумоподавления в речевых сигналах наибольшую известность получили работы ученых Болла С., Лима Дж., Ефрайма Я., Малла Д., Скалара Ф., Филхо Дж., Коэна И., Лойзо Ф., Прохорова Ю.Н. и др.
Работы указанных ученых содержат теоретическое обоснование, описание и сравнение методов анализа и обработки зашумленных речевых сигналов. Однако некоторые вопросы в этой области по-прежнему не решены или требуют дополнительных исследований.
Целью работы является создание и исследование методов анализа и обработки зашумленных речевых сигналов.
Для достижения указанной цели в диссертационной работе поставлены и решены следующие задачи:
модификация объективного критерия разборчивости SNR loss для поддиапазонного анализа разборчивости речевых сигналов;
разработка неэталонной версии критерия объективной оценки разборчивости SNR loss, а также его поддиапазонной модификации;
создание эффективного метода поиска похожих фрагментов речевого сигнала, применимого для использования в составе метода нелокального усреднения во временной области;
модификация метода нелокального усреднения на основе предложенного метода поиска похожих фрагментов и сравнение результатов работы предложенного метода шумоподавления с другими на основе объективных критериев качества и разборчивости речевых сигналов;
создание метода постобработки зашумленных речевых сигналов, обработанных с использованием метода нелокального усреднения во временной области.
Методы исследования. При решении поставленных задач использованы методы цифровой обработки сигналов, линейной алгебры, теории вероятностей и математической статистики. Широко использовались методы компьютерного моделирования.
Объектом исследования является система подавления шума в речевых сигналах.
Предметом исследований являются методы объективной оценки разборчивости речевых сигналов, а также методы подавления шума в речевых сигналах, обеспечивающие повышение их качества и разборчивости.
Научная новизна 1. Предложен подход к поддиапазонной оценке разборчивости речевых сигналов, основанный на модификации объективного критерия разборчивости SNR loss.
2. Разработан метод неэталонной оценки значений объективного критерия разборчивости SNR loss, а также его поддиапазонной модификации, для зашумленных речевых сигналов.
3. Предложен подход к поиску похожих фрагментов речевых сигналов, основанный на применении алгоритма кластеризации к-средних.
4. На основе предложенного метода поиска похожих фрагментов модифицирован метод подавления шума в речевых сигналах, основанный на принципе нелокального усреднения во временной области.
Практическая значимость 1. Предложенные модификации объективного критерия разборчивости SNR loss позволяют проводить поддиапазонный анализ разборчивости речевых сигналов для исследования и усовершенствования методов подавления шума в речевых сигналах.
2. Предложенный метод неэталонной оценки критерия SNR loss и его поддиапазонных модификаций может использоваться для контроля разборчивости речи в радиотехнических системах связи и автоматического выбора методов шумоподавления. Средняя величина абсолютной ошибки при неэталонной оценке критерия SNR loss не превышает 3,55%.
3. Предложенный метод неэталонной оценки критерия SNR loss допускает относительно простую аппаратную реализацию, в частности, на цифровых сигнальных процессорах.
4. Разработанный метод подавления шума, основанный на поиске похожих фрагментов с применением алгоритма кластеризации к-средних и принципа нелокального усреднения сигнала во временной области, позволяет значительно улучшать качество и разборчивость зашумленных речевых сигналов при отрицательных значениях ОСШ.
5. Предложенный метод постобработки прост в реализации и позволяет добиться дополнительного улучшения качества и разборчивости зашумленных сигналов, обработанных при помощи метода шумоподавления, основанного на нелокальном усреднении сигнала во временной области.
Результаты работы внедрены в соответствующие разработки ОАО "Ярославский радиозавод" и МОО "Союз криминалистов" г. Ярославль. Отдельные результаты работы внедрены в учебный процесс Ярославского государственного университета им. П.Г. Демидова в рамках дисциплины "Цифровая обработка речевых сигналов", а также в научно-исследовательские работы при выполнении исследований в рамках грантов "Развитие нелинейной теории цифровой обработки сигналов и изображений в технических системах" (грант РФФИ № 10-08-01186), "Разработка методов оценки качества видеоинформации" (грант РФФИ № 12-0801215), "Развитие нелинейной теории цифровой обработки сигналов и изображений в радиотехнике и связи" (Программа "Развитие научного потенциала высшей школы (2009-2010 годы)", № 2.1.2/7067).
ичный вклад автора. Выносимые на защиту положения предложены и реализованы автором в ходе выполнения научно-исследовательских работ на кафедре динамики электронных систем Ярославского государственного университета им. П.Г. Демидова. Практическая реализация методов и моделирование на ЭВМ проводились коллективом исследователей при личном участии автора.
Достоверность материалов диссертационной работы подтверждена результатами компьютерного моделирования, демонстрирующими эффективность предложенных методов в задачах анализа и обработки речевых сигналов.
Апробация работы. Результаты работы докладывались и обсуждались на:
11-й, 12-й, 13-й, 14-й Международной конференции УЦифровая обработка сигналов и ее применениеФ, М., 2009, 2010, 2011, 2012.
XVIII Международной научно-технической конференции студентов и аспирантов УРадиоэлектроника, электротехника и энергетикаУ, М., 2012.
9-й Международной научно-технической конференции "Перспективные технологии в средствах передачи информации", Владимир-Суздаль, 2011.
Международной научно-практической конференции студентов и молодых ученых "Молодежь и наука: модернизация и инновационное развитие страны", Пенза, 2011.
II-ой Международной молодежной научно-практической конференции "Научно-практические исследования и проблемы современной молодежи", Елабуга, 2010.
XIII Всероссийской научно-практической конференции УПроблемы развития средств ПВО в современных условияхУ, Ярославль, 2012.
2-й Всероссийской конференции УРадиоэлектронные средства передачи и приема сигналов и визуализации информации - РЭС-2012У, М.-Таганрог, 2012.
8-й Всероссийской научно-технической конференции УИнформационные технологии в электротехнике и электроэнергетикеУ, Чебоксары, 2012.
IХ Всероссийской научно-технической конференции "Динамика нелинейных дискретных электротехнических и электронных систем", Чебоксары, 2011.
65-й Научной сессии, посвященной Дню радио, РНТОРЭС им. А.С. Попова, М., 2010.
16-й Всероссийской научно-технической конференции УНовые информационные технологии в научных исследованиях и в образованииФ, Рязань, 2009.
Научно-технической конференции "Проблемы автоматизации и управления в технических системах", Пенза, 2008.
62-й, 63-й, 64-й Региональной научно-технической конференции студентов, магистрантов и аспирантов высших учебных заведения с международным участием "Молодежь. Наука. Инновации", Ярославль, 2009, 2010, 2011.
9-й Областной научно-практической конференции студентов, аспирантов и молодых ученых вузов "Ярославский край. Наше общество в третьем тысячелетии", Ярославль, 2008.
Публикации. По теме диссертации опубликованы 23 научные работы, из них 2 статьи в рецензируемых журналах из перечня ВАК.
Структура и объем работы. Диссертация состоит из введения, трех глав, заключения, списка литературы и приложения. Содержание работы изложено на 1странице. Список литературы включает 120 наименований. В работе представлен рисунок и 22 таблицы.
Основные научные положения и результаты, выносимые на защиту 1. Объективный метод поддиапазонной оценки разборчивости речевых сигналов, основанный на модифицированной версии критерия SNR loss.
2. Метод неэталонной оценки значений объективного критерия разборчивости SNR loss, а также значений его поддиапазонной версии.
3. Метод подавления шума в речевых сигналах, основанный на нелокальном усреднении во временной области и поиске похожих фрагментов с применением алгоритма к-средних.
4. Результаты исследования предложенного метода шумоподавления и его сравнения с двумя другими методами.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность выбранной темы, сформулированы цель и задачи исследования, изложены основные положения, выносимые на защиту, показаны научная новизна и практическая значимость работы.
В первой главе дана краткая характеристика задачи подавления шума в речевых сигналах и ее взаимосвязь с задачами повышения их качества и разборчивости. Изложены основы теории речеобразования и восприятия речи человеком.
Проанализированы основные подходы к подавлению шума в речевых сигналах. Более подробно рассмотрено два метода шумоподавления, обладающие наибольшей значимостью для данной работы. Метод Скалара является одним из самых применяемых и эффективных методов шумоподавления, поэтому часто используется для сравнений. Метод шумоподавления на основе принципа нелокального усреднения является одним из самых новых и обладает перспективами с позиции дальнейшего усовершенствования.
Рассмотрены основные подходы к оценке качества и разборчивости речевых сигналов. Объективные критерии, используемые в данной работе для оценки работы методов шумоподавления, описаны более подробно. В качестве таковых выбраны критерии разборчивости SNR loss и fAI, а также объективные критерии качества PESQ, LLR, WSS, сегментное ОСШ и трехкомпонентный комбинированный критерий.
Во второй главе предложен подход к поддиапазонной оценке разборчивости речевых сигналов, базирующийся на усовершенствовании критерия SNR loss.
Данный критерий заключается в вычислении значения SNRloss, которое изменяется в интервале от 0 до 1 и характеризует разборчивость речевого сигнала. Нулевое значение соответствует идеальной разборчивости, а единичное - ее нулевому уровню. Первые этапы модифицированной версии критерия аналогичны этапам его оригинальной версии, а последние два этапа осуществляются отдельно для 2 или частотных поддиапазонов (в зависимости от варианта модификации). В результате при использовании модифицированного критерия вычисляется 2 или коэффициента, каждый из которых характеризует разборчивость речевого сигнала в отдельном поддиапазоне и вклад данного поддиапазона в суммарную разборчивость речевого сигнала. Приведем краткое описание модифицированной поддиапазонной версии критерия SNR loss.
Вычисления осуществляются для отдельных временных интервалов (кадров).
Для каждой j-й критической полосы каждого m-го кадра вычисляется следующая величина:
X j,m , L j,m SNRX j,m SNRX j,m 10 lg X j,m где SNRX j,m - входное отношение сигнал/шум в полосе j и интервале m, SNRX j,m - ОСШ после обработки в полосе j и интервале m, X j,m - j-я составляющая амплитудного спектра незашумленного (эталонного) сигнала, вычисленного с учетом критических полос для m-го временного интервала, X j,m - j-я составляющая амплитудного спектра обработанного сигнала, вычисленного с учетом критических полос для m-го временного интервала. Очевидно, что при X j,m X j,m величина L j,m 0. В целом значение L j,m может быть как положительным, так и отрицательным.
Затем значения L j,m ограничиваются в пределах определенного диапазона :
SNRlim, SNRlim L j,m min max L j,m,SNRlim,SNRlim.
Полученные на предыдущем этапе значения L j,m масштабируются на интервал [0, 1]:
C SNRlim L ,m, если L ,m SNRLOSS j,m C L ,m, если L ,m 0, SNRlim где C и C - параметры масштабирующей функции.
На следующем этапе вместо усреднения значений SNRLOSS j,m по всем критическим полосам, как это предусмотрено оригинальной версией критерия SNR loss, в предлагаемой модификации производится усреднение SNRLOSS j,m по отдельным группам полос, образующим поддиапазоны:
En W j SNRLOSS j,m jSn f SNRLOSS n,m , En W j jSn где n - номер поддиапазона, Sn - номер начальной полосы поддиапазона, En - номер конечной полосы поддиапазона, W j - весовая функция, учитывающая психоакустические закономерности восприятия речевых сигналов.
Важно, чтобы при выборе границ поддиапазонов суммы весов, соответствующих разным поддиапазонам, примерно равнялись друг другу.
Предлагаемое распределение критических полос по поддиапазонам представлено в табл. 1. Наборы центральных частот, ширина полос, а также весовые коэффициенты для критических полос аналогичны тем, что используются в оригинальной версии SNR loss, так как главным образом определяются свойствами слуховой системы человека.
Таблица Распределение критических полос по поддиапазонам Вариант Номер Номера Диапазон центральных Сумма весовых модификации поддиапазона объединяемых частот объединяемых коэффициентов полос полос, Гц объединяемых полос 2-х 1 1-12 50,000 - 904,128 0,67поддиапазонный 2 13-25 1020,380 - 3597,630 0,631 1-8 50,000 - 540,000 0,443-х 2 9-16 617,372 - 1442,540 0,41поддиапазонный 3 17-25 1610,700 - 3597,630 0,45 Заключительный этап вычислений в модифицированном случае принимает следующий вид:
M n SNR f SNRLOSS n,m.
LOSS M mВ результате получается 2 или 3 коэффициента (в зависимости от варианта модификации), каждый из которых может принимать значения от 0 до 1.
Предлагаемые модификации критерия SNR loss предлагается обозначать как SNR loss-2 и SNR loss-3, а значения этих критериев - как SNRloss-2 и SNRloss-3.
Отдельные поддиапазонные коэффициенты в критериях SNRloss-2 и SNRloss-допускается обозначать как SNRloss-2n и SNRloss-3n, где n - номер поддиапазона.
Благодаря модификации критерия SNR loss становится возможным проводить поддиапазонный анализ разборчивости сигналов, обработанных с помощью методов шумоподавления. Таким образом можно оценивать работу алгоритма не в целом, а отдельно в каждом из анализируемых поддиапазонов. В качестве примера рассмотрен поддиапазонный анализ метода шумоподавления, предложенного Скаларом. Моделирование осуществляется в среде Matlab. Речевые фрагменты зашумлялись аддитивным белым гауссовским шумом (АБГШ). Производилось сравнение значений SNRloss-2 и SNRloss-3 на входе и выходе метода шумоподавления Скалара при различных значениях ОСШ из диапазона [-10, 10] дБ.
Кроме очевидного вывода о росте степени разборчивости с увеличением ОСШ можно сделать вывод о том, что высокочастотная составляющая речевого сигнала имеет меньшую устойчивость к воздействию шумов, нежели низкочастотная. Это можно объяснить тем, что основная часть энергии речевых сигналов сосредоточена в низкочастотной области и именно эти составляющие наиболее устойчивы к воздействию шумов. Кроме того, в области низких частот с ростом ОСШ наблюдается наибольшее увеличение разборчивости после шумоподавления с использованием метода Скалара, в то время как относительный вклад высокочастотной части в общую разборчивость при подавлении шума в речевом сигнале уменьшается с ростом ОСШ (рис. 1).
1 0,0,0,0,0,0,0,0,-10 -5 0 5 -10 -5 0 5 ОСШ, дБ ОСШ, дБ Поддиапазон Поддиапазон Поддиапазон поддиапазон Поддиапазон а) б) Рис. 1. Значения поддиапазонных коэффициентов разборчивости после шумоподавления для разных поддиапазонов и ОСШ: а) анализ в двух поддиапазонах, б) анализ в трех поддиапазонах SNRloss-SNRloss-Разработан метод неэталонной оценки значений критерия разборчивости речи SNR loss. Выбор этого эталонного метода в качестве основы для создания неэталонного критерия связан с тем, что он учитывает особенности искажений, вносимых системами шумоподавления, и обладает высокой достоверностью.
Идея, лежащая в основе создания неэталонной версии критерия SNR loss, состоит в том, чтобы вычислять значение SNRloss для оцениваемого (зашумленного) сигнала и сигнала, полученного шумоподавлением с использованием метода, предложенного Скаларом и Филхо. При этом сигнал на выходе алгоритма шумоподавления считается чистым (эталонным). Это допустимо, так как сигнал на выходе метода шумоподавления является оценкой чистого (незашумленного) сигнала.
Проанализирована взаимосвязь значений SNRloss, вычисленных таким образом, (обозначим их как SNRloss') с истинными значениями SNRloss, полученными при использовании чистого сигнала в качестве эталона (рис. 2). Для моделирования использовалось шесть незашумленных речевых фрагментов, каждый из которых зашумлялся АБГШ. Для каждого фрагмента формировались 2зашумленных версий: 5 реализаций шума для каждого ОСШ из диапазона от -15 до 30 дБ. В ходе моделирования значения SNRloss измерялись для 1380 сигналов (фраз по 230 вариантов зашумления каждая). Множество точек на рис. распределено таким образом, что позволяет сделать предположение о возможности линейной аппроксимации зависимости SNRloss от SNRloss'. На основе имеющихся данных и метода наименьших квадратов взаимосвязь может быть описана уравнением парной линейной регрессии:
SNRloss=b1 SNRloss'+b0. (1) Установлено, что для данного типа шума коэффициенты уравнения (1) принимают следующие значения: b1=0,8909; b0=0,043. Даже при использовании линейной регрессии наблюдается высокое значение коэффициента детерминации (выше 0,99), характеризующего связь между истинными значениями SNRloss и значениями SNRloss, полученными путем подстановки значений SNRloss' в уравнение (1).
0,0,0,0,0,0,0,4 0,5 0,6 0,7 0,8 0,9 SNRloss' Рис. 2. Взаимосвязь значений SNRloss' и SNRloss для АБГШ SNRloss Для проверки предложенного неэталонного метода оценки значений SNRloss проведено дополнительное моделирование. Для обеспечения достоверности выбран набор речевых фрагментов, отличный от того, который использовался в первой части исследований. Для 24 речевых фрагментов измерено в общей сложности 55пар значений SNRloss и SNRloss' (для разных реализаций шума и ОСШ).
Полученные значения SNRloss' подставлялись в выражение (1). Таким образом было найдено 5520 неэталонных оценок значений SNRloss. Сравнение неэталонных оценок с истинными значениями критерия, полученными эталонным методом, позволяет судить о достаточно высокой точности предложенного метода неэталонной оценки. При использовании линейной аппроксимации средняя величина абсолютной ошибки составляет примерно 0,008, а ее максимальная величина равна 0,036. Средняя величина относительной ошибки составляет примерно 1,05%, а ее максимальное значение равно 4,72%. Полученные результаты свидетельствуют о перспективности применения предложенного подхода к неэталонной оценке значений критерия SNR loss.
Следующим шагом исследования стала проверка применимости данного подхода для других видов шумов, наиболее часто встречающихся при решении практических задач. С этой целью использовалась специализированная база шумов Noisex-92, состоящая из записей реальных шумов различных типов.
Для осуществления неэталонной оценки значений SNRloss в случае воздействия на сигнал шума произвольного типа возможно три подхода:
использование регрессионного выражения (1) с параметрами, полученными для АБГШ; использование этого регрессионного выражения с параметрами, полученными для смешанной выборки, состоящей из речевых сигналов, зашумленных шумами разных типов; нахождение новых параметров зависимости (1), индивидуальных для каждого конкретного типа шума. Первые два подхода более универсальны и удобны на практике, однако третий подход потенциально способен обеспечить большую точность. Проведенные исследования подтверждают, что наибольшая достоверность достигается при использовании третьего подхода, однако он обладает наименьшей универсальностью и не применим в случаях, когда тип шума заранее не известен. Первый и второй подходы в среднем обладают сопоставимой точностью, однако при работе с некоторыми типами шумов второй подход позволяет достичь более низкой средней абсолютной ошибки. С учетом простоты первого подхода, который не подразумевает использования базы аудиозаписей шумов, именно его рекомендуется использовать в случаях, когда шумовые условия заранее неизвестны или тип шума может меняться с течением времени.
Также на основе предложенного неэталонного метода оценки значений SNRloss предложен неэталонный метод поддиапазонной оценки разборчивости.
Исследовано два подхода к оценке коэффициентов уравнения регрессии, необходимых для получения значений оценки. Первый подход обладает большей универсальностью, второй - позволяет достичь более высокой точности. Для 2-поддиапазонной версии метода величина относительной ошибки изменяется в пределах от 1% до 6,34% (при использовании первого подхода) и от 0,98% до 2,5% (при использовании второго). Для 3-поддиапазонной версии метода величина относительной ошибки изменяется в пределах от 1,11% до 11,11% (при использовании первого подхода) и от 1,12% до 3,39% (при использовании второго).
Более высокие значения ошибки характерны для оценки критерия разборчивости в высокочастотной области спектра речевых сигналов.
В третьей главе предложен новый подход к поиску похожих фрагментов речевого сигнала на основе алгоритма кластеризации к-средних, а так же базирующийся на применении этого подхода метод шумоподавления.
Характер задачи поиска похожих фрагментов речевого сигнала позволяет сформулировать ее как задачу кластеризации. Фрагменты речевого сигнала, отнесенные к одному из классов, могут интерпретироваться как похожие фрагменты. В качестве алгоритма кластеризации выбран широко распространенный алгоритм к-средних (k-means). Сочетание предлагаемого подхода к поиску похожих фрагментов и принципа нелокального усреднения позволяют создать новый метод шумоподавления.
Приведем краткое описание данного метода. Как и в оригинальной версии метода нелокального усреднения во временной области, в предлагаемом методе для достижения высокого качества обработки поиск осуществляется не по исходному зашумленному речевому сигналу, а по так называемому опорному сигналу, который получается из входного путем применения метода шумоподавления, предложенного Скаларом и Филхо. Отличием предлагаемого метода является то, что обратное преобразование Фурье в методе Скалара осуществляется только для спектральных составляющих, соответствующих частотному интервалу от 0 до 2000 Гц.
Исследования показали, что составляющие, соответствующие более высоким частотам, имеют крайне низкое ОСШ, и их учет может негативно сказаться на качестве процедуры поиска в целом.
Далее исходный зашумленный сигнал и опорный сигнал разбиваются на перекрывающиеся окна длиной 512 отсчетов, каждое из которых, в свою очередь, разбивается на перекрывающиеся фрагменты длиной 16-20 отсчетов. Затем набор фрагментов опорного сигнала поступает на вход алгоритма кластеризации к-средних. В результате работы алгоритма кластеризации каждый из фрагментов опорного сигнала, соответствующий определенному фрагменту зашумленного сигнала, относится к определенному классу (кластеру). Фрагменты зашумленного речевого сигнала, относящиеся к одному кластеру, усредняются между собой и заменяются копиями фрагмента, полученного в результате усреднения. Выполнение описанной последовательности операций приводит к подавлению аддитивного шума в сигнале. В отличие от метода поиска похожих фрагментов сигнала, используемого в оригинальной версии метода нелокального усреднения во временной области, предложенный подход не требует оценки порога, зависящего от мощности шума.
Предложенный метод шумоподавления реализован в среде моделирования Matlab. Тестирование производится на речевой базе, состоящей из 30 аудиозаписей.
Частота дискретизации речевых сигналов составляет 8 кГц, отсчеты представлены с использованием импульсно-кодовой модуляции, точность представления отсчетов - 16 бит на отсчет. В качестве модели шума использовался АБГШ.
Для установления верхней границы эффективности (способности улучшать качество и разборчивость речевых сигналов) предложенного метода проведено моделирование в идеализированных условиях. В этом случае поиск похожих фрагментов осуществлялся по незашумленному сигналу, а сам процесс усреднения проводился с использованием отсчетов зашумленного сигнала. Результаты такого моделирования позволяют оценить работу предложенного механизма усреднения при условии идеального поиска фрагментов. Эти результаты не могут быть достигнуты в реальных условиях функционирования методов шумоподавления, однако могут рассматриваться как верхняя граница эффективности и способствовать выбору перспективных направлений совершенствования методов шумоподавления.
Схожесть оригинального (классического) метода нелокального усреднения с предлагаемым позволяет провести их сравнение как субъективно (в том числе и визуально по спектрограммам), так и на основе объективных критериев качества и разборчивости.
Проведенное моделирование позволяет сделать вывод, что при работе в идеализированных условиях предлагаемый метод превосходит оригинальную версию метода нелокального усреднения по критерию разборчивости fAI и сегментному ОСШ во всем исследуемом диапазоне входных значений ОСШ (от -до 10 дБ). Выигрыш предлагаемого метода по субъективному критерию разборчивости SNR loss, критерию качества PESQ и коэффициентам Cbak и Csig трехкомпонентного комбинированного критерия качества наблюдается при всех значениях ОСШ за исключением ОСШ=10 дБ. Выигрыш предлагаемого метода в области отрицательных значений ОСШ и ОСШ=0 дБ наблюдается по критерию качества LLR, а также коэффициенту Csig, входящего в трехкомпонентный критерий качества. В большей части исследуемого диапазона ОСШ предлагаемый метод уступает классической версии метода нелокального усреднения лишь по критерию WSS и выходному значению ОСШ. В целом исследования в идеализированных условиях позволяют сделать вывод о перспективности предложенного метода шумоподавления и преимуществах его работы при отрицательных значениях ОСШ, т.е. наиболее сложных условиях, когда повышение разборчивости и качества речи наиболее необходимо.
Дальнейшие исследования производились без применения указанной идеализации, то есть в условиях, возникающих при решении практических задач, связанных с подавлением шума в речевых сигналах. Установлено, что исследуемый метод шумоподавления хорошо сохраняет структуру спектра речевого сигнала даже при низких значениях ОСШ (рис. 3), при этом в спектральной области не наблюдается локальных всплесков, возникающих при работе ряда других методов шумоподавления. Субъективная оценка результатов работы предложенного метода на слух при ОСШ, находящихся в пределах от -10 до 10 дБ, позволяет сделать вывод о том, что имеет место существенное улучшение качества обрабатываемых речевых сигналов. Важной особенностью метода является отсутствие в выходном сигнале артефактов типа "музыкальный шум".
Также произведено сравнение предложенного метода (km-NLM) с более ранней версией одномерного метода нелокального усреднения (NLM) и методом Скалара (WFS) на основе объективных критериев разборчивости и качества. По критерию разборчивости fAI предложенный метод превосходит два других, участвующих в сравнении (рис. 4, а). Однако анализ на основе критерия разборчивости SNR loss свидетельствует о том, что при значениях ОСШ>10 дБ применение методов, основанных на нелокальном усреднении, может приводить к ухудшению разборчивости.
а) б) в) г) д) е) Рис. 3. Сигналы: исходный сигнал во временной (а) и частотной (г) областях; зашумленный сигнал (ОСШ=-5 дБ) во временной (б) и частотной (д) областях; сигнал после шумоподавления во временной (в) и частотной (е) областях Анализ на основе критерия качества PESQ (рис. 4, б) позволяет сделать вывод о превосходстве предлагаемого метода во всем исследуемом диапазоне входных ОСШ (от -10 до 10 дБ). Выигрыш предлагаемого метода по сравнению с более ранней версией одномерного метода нелокального усреднения составляет в зависимости от ОСШ 0,06-0,17 по шкале MOS (Mean Opinion Score). По сравнению с исходным зашумленным сигналом применение предлагаемого метода позволяет улучшить качество на 0,23-0,77 единиц шкалы MOS.
0,0,km-NLM 2,0,4 km-NLM NLM 0,NLM WFS 0,WFS Noisy 1,0,-10 -5 0 5 -10 -5 0 5 ОСШ, дБ ОСШ, дБ а) б) Рис. 4. Сравнение методов шумоподавление на основе: а) критерия разборчивости fAI;
б) критерия качества PESQ Более детальный анализ позволяет реализовать трехкомпонентный комбинированный критерий качества. В этом методе качество сигнала характеризуется тремя значениями: Csig (качества речевого сигнала), Cbak (качество фона), Covl (общее качество). Можно сделать вывод, что при низких значениях ОСШ (-5 и -10 дБ) метод на основе кластеризации превосходит классическую версию метода нелокального усреднения по качеству обработки речевого сигнала и общему качеству. В положительной области значений ОСШ тенденция имеет противоположный характер - несколько лучшие качество обработки сигналов и общее качество показывает классическая версия метода нелокального усреднения, что особенно заметно при ОСШ=10 дБ.
По качеству обработки фона во всем исследуемом диапазоне значений ОСШ оба нелокальных метода показывают достаточно близкие результаты. При ОСШ=дБ предложенный метод уступает по ряду критериев двум другим, участвующим в сравнении. Для минимизации этого недостатка предложен простой метод постобработки сигнала, основанный на пороговой обработке в спектральной области. Применение постобработки позволяет добиться улучшения разборчивости примерно на 0,023 единицы по критерию SNR loss, при этом по остальным объективным критериям также наблюдается улучшение качества и разборчивости обрабатываемых речевых сигналов.
С учетом того, что применение методов, основанных на принципе нелокального усреднения, к сигналам с высоким значением ОСШ может приводить к ухудшению разборчивости, предлагается до стадии шумоподавления производить неэталонную оценку разборчивости зашумленного сигнала. В случаях, когда неэталонная оценка критерия SNR loss для зашумленного сигнала имеет значение ниже 0,8, применение методов шумоподавления, основанных на нелокальном усреднении во временной области, с целью повышения разборчивости неэффективно и для подавления шума может применяться более простой метод, предложенный Скаларом. В случаях, когда значение оценки критерия SNR loss превышает уровень 0,8, рекомендуется использовать предлагаемый метод, основанный на алгоритме кластеризации к-средних и нелокальном усреднении во временной области.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ На основании проведенных исследований в области цифровой обработки речевых сигналов в работе получены следующие результаты:
fAI PESQ 1. Предложена модификация критерия SNR loss, позволяющая осуществлять поддиапазонную оценку разборчивости речевых сигналов. Данная модификация позволяет более детально исследовать влияние шумов и других искажающих факторов на разборчивость речи, а также производить более детальный анализ методов шумоподавления. Приведен пример анализа метода шумоподавления с использованием предлагаемого подхода.
2. Разработан и реализован в среде Matlab неэталонный метод оценки значений критерия разборчивости SNR loss. В случае воздействия на речевой сигнал АБГШ средняя величина абсолютной ошибки при оценке значений SNRloss составляет примерно 0,008. Средняя величина относительной ошибки составляет примерно 1,05%, а ее максимальное значение равно 4,72%.
3. Для осуществления неэталонной оценки значений SNRloss в случае воздействия на речевой сигнал шумов различных типов предложено и исследовано три подхода (метода выбора коэффициентов регрессии). Один из подходов позволяет добиться более высокой точности, но он не применим в случаях, когда шумовые условия заранее неизвестны или тип шума может меняться с течением времени. В указанных случаях возможно применение двух других подходов, обладающих несколько меньшей точностью, но большей универсальностью.
Величина средней относительной ошибки при оценке значений SNRloss для речевых сигналов, зашумленных произвольным типом шума, варьируется в пределах от 1,05% до 3,55%, в зависимости от выбранного подхода и типа шума.
4. Предложена и исследована неэталонная версия поддиапазонного критерия разборчивости. Исследовано два подхода к оценке коэффициентов уравнения регрессии, необходимых для получения значений оценки. Первый подход обладает большей универсальностью, второй - позволяет достичь более высокой точности.
Например, для 2-поддиапазонной версии метода величина относительной ошибки изменяется в пределах от 1% до 6,34% (при использовании первого подхода) и от 0,98% до 2,5% (при использовании второго подхода).
5. Предложен новый подход к поиску похожих фрагментов зашумленного речевого сигнала, основанный на алгоритме кластеризации к-средних. Сочетание данного подхода с принципом нелокального усреднения во временной области позволяет создать новый метод шумоподавления. Предложенный метод реализован в среде Matlab.
6. На основе субъективных тестов установлено, что при обработке зашумленных сигналов с использованием предложенного метода имеет место значительное улучшение качества сигнала. При этом не возникает нежелательных артефактов типа "музыкальный шум", характерных для ряда методов, осуществляющих шумоподавление в спектральной области.
7. С использованием объективных критериев качества и разборчивости установлено, что предложенный метод шумоподавления способствует улучшению качества и разборчивости зашумленных сигналов в широком диапазоне ОСШ (исследования производились в диапазоне от -10 до 10 дБ). При обработке сигнала, зашумленного аддитивным белым гауссовским шумом, улучшение качества по шкале MOS, оцененное при помощи критерия PESQ, составляет от 0,23 (при ОСШ=-10 дБ) до 0,77 (при ОСШ=5 дБ). Предложенный метод демонстрирует выигрыш по критерию PESQ и при сравнении с другими методами шумоподавления: на 0,06-0,17 единиц шкалы MOS по сравнению с более ранней версией метода на основе нелокального усреднения и 0,01-0,17 единиц по сравнению с методом Скалара.
8. Анализ и сравнение методов на основе других субъективных критериев позволяет сделать вывод, что предложенный метод особенно эффективен при отрицательных значениях ОСШ. Недостатком метода является то, что при относительно высоких значениях ОСШ (в частности, при ОСШ=10 дБ) предложенный метод уступает по ряду критериев двум другим, участвующим в сравнении. Для минимизации этого недостатка предложен простой метод постобработки сигнала, основанный на пороговой обработке в спектральной области. Применение постобработки позволяет добиться улучшения разборчивости примерно на 0,023 единицы по критерию SNR loss, при этом по остальным объективным критериям также наблюдается улучшение качества и разборчивости обрабатываемых речевых сигналов.
В приложении приведены акты внедрения результатов диссертационной работы.
ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ Статьи в журналахиз перечня ВАК 1. Новоселов С.А., Топников А.И., Савватин А.И., Приоров А.Л. Подавление шума в речевых сигналах на основе метода нелокального усреднения // Цифровая обработка сигналов. 2011. №4. С. 23Ц28.
2. Топников А.И., Веселов И.А., Новоселов С.А., Приоров А.Л. Выделение речевых команд на основе помехоустойчивых параметров и моделей гауссовых смесей // Проектирование и технология электронных средств. 2011.
№4. С. 31Ц35.
Материалы международных и всероссийских конференций 3. Топников А.И., Веселов И.А., Новоселов С.А., Приоров А.Л. Особенности применения подхода нелокального усреднения в задаче подавления шума в речевых сигналах // Матер. 2-й всерос. конф. Радиоэлектронные средства передачи и приема сигналов и визуализации информации - РЭС-2012.
М.-Таганрог, 2012. С. 111Ц116.
4. Топников А.И., Новоселов С.А., Веселов И.А. Одномерный метод нелокального усреднения для подавления шума в системах автоматического распознавания речевых команд // Докл. 14-й междунар. конф. Цифровая обработка сигналов и её применение. М., 2012. Т. 2. С. 470Ц474.
5. Топников А.И. Об одном подходе к предобработке звуковых сигналов в системах слепого разделения недоопределенных смесей // Тез. докл. XVIII междунар. науч.-техн. конф. студентов и аспирантов Радиоэлектроника, электротехника и энергетика. М., 2012. Т. 1. С. 157Ц158.
6. Топников А.И., Веселов И.А., Новоселов С.А. Детектор речевой активности на основе моделей гауссовских смесей // Матер. 8-й всерос. науч.-техн. конф.
Информационные технологии в электротехнике и электроэнергетике.
Чебоксары, 2012. С. 214Ц215.
7. Новоселов С.А., Топников А.И. Потенциальная эффективность подавления шума в речевых сигналах методом нелокального усреднения // Сб. тр.
междунар. науч.-практ. конф. студентов и молодых ученых Молодежь и наука: модернизация и инновационное развитие страны. Пенза, 2011. Ч. 2.
С. 292Ц295.
8. Топников А.И. Практические аспекты слепого разделения недоопределенных смесей речевых сигналов // Матер. 9-й междунар. науч.-техн. конф.
"Перспективные технологии в средствах передачи информации". ВладимирСуздаль, 2011. Т. 2. С. 29Ц31.
9. Новоселов С.А., Топников А.И., Савватин А.И. Алгоритм шумоочистки речевых команд методом спектрального слежения // Докл. 13-й междунар.
конф. "Цифровая обработка сигналов и ее применение". М., 2011. Т. 1.
С. 224-226.
10. Топников А.И., Скопинцев Я.М., Веселов И.А. Усовершенствование алгоритма слепого разделения недоопределенных смесей речевых сигналов // Докл. 13-й междунар. конф. "Цифровая обработка сигналов и ее применение".
М., 2011. Т. 1. С. 252Ц254.
11. Топников А.И., Новоселов С.А. Анализ независимых компонент в задаче разделения смесей речевых сигналов // Докл. 12-й междунар. конф. "Цифровая обработка сигналов и ее применение". М., 2010. С. 197Ц199.
12. Топников А.И., Новоселов С.А. Оценка качества работы алгоритмов слепой декомпозиции сигналов // Тр. II международной молодежной науч.-практ.
конф. Т. 3. Елабуга, 2010. С. 110-114.
13. Топников А.И. Слепая декомпозиция звуковых сигналов на основе анализа независимых компонент // Тр. 65-й науч. сессии, посвященной Дню радио. М., 2010. С. 205Ц207.
14. Новоселов С.А., Веселов И.А., Новиков А.Е., Топников А.И. Применение вейвлет-преобразования и скрытых Марковских моделей в задаче распознавания речевых команд // Докл. 11-й междунар. конф. "Цифровая обработка сигналов и ее применение", М., 2009. Т.1. С. 244-247.
Свидетельства о государственной регистрации программ для ЭВМ 15. Новоселов С.А., Топников А.И., Савватин А.И., Приоров А.Л. Научноисследовательская программа для подавления шума в речевых сигналах Yar_SpeechCleaner // Свидетельство о регистрации в Реестре программ для ЭВМ №2011616845 от 31.10.2011.
16. Савватин А.И., Новоселов С.А., Топников А.И., Приоров А.Л. Научноисследовательская программа для защищенной передачи речевых сигналов YarSecureVoice // Свидетельство о регистрации в Реестре программ для ЭВМ №2011619616 от 19.11.2011.
Подписано в печать 09.11.12. Формат 6084 1/16.
Усл. печ. л. 1,0. Тираж 100 экз.
Отдел оперативной полиграфии ЯрГУ.
150000, г. Ярославль, ул. Советская, 14.
Авторефераты по всем темам >> Авторефераты по техническим специальностям