На правах рукописи
ГОЛУБИНСКИЙ АНДРЕЙ НИКОЛАЕВИЧ
МОДЕЛИ РЕЧЕВЫХ СИГНАЛОВ ДЛЯ АУТЕНТИФИКАЦИИ ЛИЧНОСТИ ПО ГОЛОСУ Специальности:
05.13.18 - Математическое моделирование, численные методы и комплексы программ;
05.13.19 - Методы и системы защиты информации, информационная безопасность.
АВТОРЕФЕРАТ
диссертации на соискание учёной степени доктора технических наук
Воронеж - 2010
Работа выполнена на кафедре радиотехники Воронежского института МВД России.
Научный консультант: доктор технических наук, доцент Булгаков Олег Митрофанович
Официальные оппоненты: доктор технических наук, доцент Тарасов Александр Алексеевич доктор технических наук, профессор Алексеев Владимир Витальевич доктор технических наук, профессор Дурденко Владимир Андреевич
Ведущая организация: Московский инженерно-физический институт (Национальный исследовательский ядерный университет)
Защита диссертации состоится л 21 декабря 2010 года в ___ часов, в ауд. № 215 / 1 корп. на заседании диссертационного совета Д 203.004.в Воронежском институте МВД России по адресу: 394065, г. Воронеж, пр. Патриотов, 53.
С диссертацией можно ознакомится в библиотеке Воронежского института МВД России.
Автореферат разослан л ___ __________ 2010 г.
Ученый секретарь диссертационного совета С.В. Белокуров
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы. В настоящее время аутентификация личности по голосу широко применяется в системах контроля доступа к информационным или материальным ресурсам на основе биометрических параметров. Системы аутентификации личности по голосу обладают рядом преимуществ относительно других биометрических систем, основными из которых являются сравнительно небольшая стоимость и относительная простота практической реализации.
Развитие систем аутентификации личности по голосу лимитируется уровнем их надежности. Точность идентификации (установление) и верификации (подтверждение) личности по голосу в существенной мере определяется адекватностью математической модели, описывающей речевой сигнал. Увеличение точности в рамках существующих методов описания речевых сигналов, если и возможно, то приводит, как правило, к значительному увеличению количества параметров модели, что влечет за собой увеличение систематической ошибки и времени обработки поступивших данных, а также снижение значимости таких параметров для характеристики индивидуальных особенностей голоса человека. Высокий уровень ошибок систем аутентификации по голосу обуславливается также трансформацией голоса, вследствие болезней, особых эмоциональных состояний, возрастных изменений и т. д.
Используемые в диссертации теоретико-методологические посылки основываются на трудах отечественных и зарубежных исследователей в области акустической теории речеобразования и обработки речевых сигналов, таких как:
Г. Фант, М.А. Сапожков, Дж. Фланаган, А.А. Пирогов, Б. Атал, Дж. Додингтон, Л.Р. Рабинер, Б. Гоулд, Р.В. Шафер, Д.Д. Маркел, А.Х. Грей, С. Левинсон, Б.М. Лобанов, Л.А. Чистович, Н.Г. Загоруйко, Г.С. Рамишвили, Ю.Н. Прохоров, В.Н. Сорокин, В.Г. Михайлов, Т.К. Винцюк, В.И. Галунов, В.Р. Женило, Р.К. Потапова, А.В. Аграновский, С.В. Дворянкин, А.А. Петровский, В. Чу, Р.Г. Голдберг, С.Л. Коваль и др.
Обоснованию подходов к разработке математических моделей речевых сигналов посвящено сравнительно немного научных публикаций. Это объясняется, прежде всего, сложной полиинформативной и полимодуляционной структурой речевого сигнала, а также большим количеством информации, используемой при анализе и синтезе математических моделей речевых сигналов. Однако, сегодня прогресс микроэлектроники наряду с применением цифровых технологий преобразования речевых сигналов дает возможность оперировать большими объёмами информации, обрабатывая её с приемлемой скоростью. При этом зачастую цифровые речевые технологии опережают речевую науку.
Наибольшую точность описания имеют математические модели, соответствующие физике процессов, поэтому при разработке математической модели речевого сигнала необходима её адекватность акустической теории речеобразования. Таким образом, повышение надежности проектируемых систем аутентификации возможно за счет разработки и использования новых методов построения адекватных математических моделей речевых сигналов.
В последнее время проявляется интерес к созданию математических моделей речевых сигналов, основывающихся на теории модуляции в рамках детерминированного подхода и характеризующихся небольшим количеством существенных параметров речевых сигналов и высокой точностью их описания.
Однако общие свойства параметров речевых сигналов, описанных такими моделями, практически не исследованы.
Таким образом, повышение надежности систем верификации и идентификации личности по голосу и развитие голосовых систем разграничения доступа требуют решения крупной актуальной научной проблемы - разработки теоретических основ анализа и синтеза высокоточных адаптивных математических моделей речевых сигналов с минимальным количеством высокоинформативных физически интерпретируемых существенных параметров применительно к задачам голосовой аутентификации.
Работа выполнена в рамках госбюджетных НИР кафедры радиотехники Воронежского института МВД России.
Цель и задачи исследования. Целью работы является разработка методов построения математических моделей речевых сигналов для верификации и идентификации личности по голосу.
Для достижения данной цели в работе решены следующие задачи:
1. Разработка концепции построения математических моделей речевых сигналов для задач голосовой аутентификации на основе акустической теории речеобразования.
2. Разработка методов синтеза и анализа математических моделей речевого сигнала на основе теории модуляции с использованием детерминированного и стохастического подходов.
3. Разработка обобщённого метода аналитического расчета амплитуд несущих гармоник полигармонических математических моделей речевого сигнала.
4. Разработка высокоточных методов оценки частоты основного тона и формантных частот речевого сигнала.
5. Разработка способа проверки адекватности математической модели речевого сигнала экспериментальным данным.
6. Разработка мер различимости для верификации и идентификации личности по голосу и методов аналитического расчета их весовых коэффициентов.
7. Создание и реализация алгоритмов функционирования систем верификации и идентификации личности по голосу.
Методы исследования. При решении поставленных задач использовались современные аналитические и вычислительные методы теории вероятностей и математической статистики, теории случайных процессов, теории речеобразования, математического анализа, цифровой обработки сигналов, теории оптимального приёма, кластерного анализа, численные методы, методы программирования и моделирования на ЭВМ.
Научная новизна работы заключается в том, что в ней впервые:
1. Дана систематизация математических моделей речевых сигналов для задач аутентификации по голосу и сформулирована концепция их построения в явном виде, включающая в себя систему признаков модели и требований к ее структуре, существенным параметрам и методам их определения и оценки точности их расчетов, методам проверки модели на адекватность и мерам различимости.
2. Для задач аутентификации по голосу на основе теории модуляции разработаны и апробированы методы синтеза и анализа детерминированных и стохастических импульсных полигармонических математических моделей речевого сигнала с получением аналитических выражений для характеристик моделей.
3. Разработаны методы выделения модулирующего колебания и аналитического расчета амплитуд несущих колебаний полигармонических математических моделей речевого сигнала, построенных на основе теории модуляции, с оценкой точности расчетных параметров в аналитическом виде.
4. Разработана математическая модель речевого сигнала в виде суммы квазидетерминированной компоненты с полигармоническими модулирующим и несущим колебаниями и процесса авторегрессии.
5. Разработаны методы и алгоритмы и получены выражения для оценки точности вычисления частоты основного тона речевого сигнала на основе полигармонической математической модели: по минимуму невязки коэффициентов корреляции, а также по формированию оптимальной оценки при известных и неизвестных амплитудах и начальных фазах несущих гармоник.
6. Разработан метод оценки формантных частот вокализованных участков речи на основе полигармонической математической модели.
7. Получен способ проверки адекватности математической модели речевого сигнала экспериментальным данным по коэффициентам корреляции при использовании критерия соответствия на базе коэффициента множественной корреляции.
8. Для задач аутентификации личности по голосу разработаны новые эффективные меры различимости речевых сигналов для математической модели в виде импульса АМ-колебания с несколькими несущими частотами, методика вычисления начального значения порога меры различимости для критерия принятия решения.
9. Разработаны алгоритмы и синтезированы структурные схемы устройств аутентификации диктора по голосу, обеспечивающие повышение точности систем разграничения доступа.
Практическая значимость исследования заключается в перспективах расширенного применения разработанных методов синтеза и анализа математических моделей речевых сигналов в практических системах аутентификации по голосу. Разработанные структурные схемы устройств и алгоритмы реализации систем верификации и идентификации личности по голосу, могут быть положены в основу реальных технических устройств, работающих в составе систем разграничения доступа. Полученные в работе методы высокоточных оценок существенных параметров моделей речевых сигналов призваны повысить надёжность систем голосовой идентификации и верификации самого широкого спектра их практического приложения.
Внедрение научных результатов. Полученные в диссертации результаты использовались при выполнении научно-исследовательских работ в Воронежском институте МВД России, внедрены в научно-исследовательский процесс в ОАО Концерн Созвездие (г. Воронеж), в ОАО ВНИИ Вега (г. Воронеж), в ФГНИИ - РЭБ ОЭСЗ Министерства обороны России (г. Воронеж), в Военной академии связи (г. Санкт-Петербург), в ЗАО Учебно-методический центр при Санкт-Петербургском государственном университете телекоммуникаций им.
проф. М.А. Бонч-Бруевича (г. Санкт-Петербург). Кроме того, результаты внедрены в учебный процесс в Воронежском институте МВД России и в практическую деятельность ЗАО ВТБ 24.
На защиту выносятся:
1. Метод синтеза и анализа математических моделей речевого сигнала на основе теории модуляции с использованием детерминированного подхода.
2. Метод синтеза и анализа математических моделей речевого сигнала на основе теории модуляции с использованием стохастического подхода.
3. Обобщенный метод аналитического расчета и выражения для оценки точности амплитудных параметров математических моделей речевого сигнала, построенных на основе теории модуляции.
4. Метод и характеристики оценки частоты основного тона речевого сигнала на основе полигармонической математической модели по минимуму невязки коэффициентов корреляции.
5. Метод и характеристики оценки частоты основного тона речевого сигнала при неизвестных амплитудах и начальных фазах несущих гармоник, основывающийся на полигармонической математической модели.
6. Метод оценки формантных частот вокализованных участков речи на основе полигармонической математической модели.
7. Меры различимости речевых сигналов для аутентификации личности по голосу на основе математической модели в виде импульса АМ-колебания с несколькими несущими частотами.
8. Алгоритмы функционирования и структурные схемы устройств аутентификации диктора по голосу в системах разграничения доступа.
Апробация работы. Основные положения диссертационной работы докладывались и обсуждались на Международных и Всероссийских научнотехнических конференциях, таких как: VII, X, XI, ХVI международная научнотехническая конференция УРадиолокация, навигация, связьФ (Воронеж, 2001, 2004, 2005, 2010); XV международная научная конференция УИнформатизация и информационная безопасность правоохранительных органовФ (Москва, 2006);
Международная научно-практическая конференция УСовременные проблемы борьбы с преступностьюФ (Воронеж, 2006); Международная научнопрактическая конференция УОбеспечение общественной безопасности в Центральном федеральном округе Российской ФедерацииФ (Воронеж, 2007); Международная научно-практическая конференция УПреступность в России: состояние, проблемы предупреждения и раскрытия преступленийФ (Воронеж, 2008);
Международная научно-практическая конференция УОбеспечение законности и правопорядка в странах СНГФ (Воронеж, 2009); Международная научнопрактическая конференция УОбщественная безопасность, законность и правопорядок в III тысячелетииФ (Воронеж, 2010); XXIII международная научная конференция УМатематические методы в технике и технологияхФ (Саратов, 2010); XVI международная научно-техническая конференция УИнформационные системы и технологииФ (Нижний Новгород, 2010); VII международная научно-практическая конференция УАктуальные вопросы современной наукиФ (Таганрог, 2010); Международная научно-техническая конференция УНаука и образование - 2010Ф (Мурманск, 2010); I международная научно-практическая конференция УНаука и современностьФ (Новосибирск, 2010); VI международная открытая научная конференция УСовременные проблемы информатизации в технике и технологияхФ (Воронеж, 2001); ХV международная открытая научная конференция УСовременные проблемы информатизации в экономике и обеспечении безопасностиФ (Воронеж, 2010); Всероссийская конференция УИнтеллектуальные информационные системыФ (Воронеж, 1999); Всероссийская научно-практическая конференция УСовременные проблемы борьбы с преступностьюФ (Воронеж, 2003, 2005); V, VII всероссийская научно-практическая конференция УОхрана, безопасность и связьФ (Воронеж, 2005, 2009); Общероссийская научная конференция УАктуальные вопросы современной науки и образованияФ (Красноярск, 2010);
XXII сессия УРоссийского акустического обществаФ (Москва, 2010).
Публикации. По теме диссертации опубликовано 66 научных работ:
1 монография, 1 учебное пособие, 18 статей в ведущих рецензируемых научных журналах, которые входят в утвержденный ВАК Минобрнауки РФ Перечень периодических научных и научно-технических изданий, выпускаемых в Российской Федерации, в которых рекомендуется публикация основных результатов диссертаций на соискание ученой степени доктора наук, 1 заявка на изобретение (принято решение о выдаче патента), 1 депонированная рукопись, 1 регистрация программы в ФАП, 4 заключительных отчета о НИР, 11 научных статей и материалы 28 докладов на международных и всероссийских научнотехнических и научно-практических конференциях.
ичный вклад автора. Основные научные результаты получены автором лично. Из 66 работ по теме диссертации 34 написаны без соавторов. В приведенном списке научных работ из опубликованных в соавторстве лично соискателем предложено: в [13, 14, 16, 17, 19, 39, 49-55, 57] - разработка основных концептуальных положений, постановки задач, выбор методов их решения; в [31-34] - основные идеи по методам построения и расчета параметров математических моделей речевых сигналов; в [1, 20, 23, 35-38] - постановка экспериментов, анализ и интерпретация, полученных результатов и выводы; в [47, 56] - алгоритмы и структурные схемы устройств аутентификации.
Структура и объём работы. Диссертация состоит из введения, пяти глав, заключения, списка литературы, включающего 400 наименований. Общий объём диссертации составляет 403 страницы машинописного текста, включая 53 рисунка и 19 таблиц.
КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертации, определена цель работы, изложены научная новизна и практическая ценность полученных результатов, сформулированы основные положения, выносимые на защиту.
В первой главе приведен анализ современного состояния и проблем развития систем биометрической аутентификации личности по голосу. Проанализированы проблемы консолидации речевой науки, речевых технологии и практики применения систем биометрической аутентификации по голосу.
Рассмотрены следующие основные подходы к параметрическому описанию речевых сигналов и построению их математических моделей в задачах верификации и идентификации по голосу: приближенное описание речевого тракта (решение волнового уравнения совместно с граничными и начальными условиями, передаточная функция и др.); мгновенные или усреднённые приближенные численные характеристики речевых сигналов (спектральные, корреляционные, кепстральные, вейвлет, фрактальные, статистические характеристики частоты основного тона, описание на основе скрытых марковских моделей и др.); математические модели речевых сигналов (на основе линейного или нелинейного предсказания, полигармонические (в т.ч. с шумовой составляющей), на основе модуляционной теории и др.).
Проанализированы особенности и недостатки известных методов описания уникальности голоса, например: большое количество малозначимых численных параметров; громоздкость математического аппарата; отсутствие четкой физической интерпретации моделей, несогласование их с теорией речеобразования и механизмами речевого поведения человека; экспериментальный подбор весовых коэффициентов; приближение статистической некоррелированности последовательности векторов наблюдений и др. Отмечены достоинства математических моделей, заданных в явном виде: ясность физической интерпретации, принципиальная возможность получения характеристик модели в аналитическом виде, реализация конструктивных подходов к оптимизации и адаптации модели и др.
Показано, что перспективным направлением повышения надёжности систем разграничения доступа к информационным и материальным ресурсам на основе аутентификации личности по голосу, является разработка эффективных подходов к построению математических моделей, обладающих высокой точностью описания и простотой реализации алгоритмов и устройств на их основе за счет оперирования компактным набором существенных параметров речевого сигнала и адекватности акустической теории речеобразования.
Согласно предложенной концепции построения математических моделей, аутентификация по голосу должна осуществляться на основе сравнения наиболее значимых существенных параметров речевых сигналов, характеризующих индивидуальные особенности голоса человека. Наиболее информативными в этом плане являются параметры, характеризующие вокализованные сегменты речи. Разработка в явном виде математических моделей рассматриваемого класса должна включать в себя:
1) математическую формализацию речевого сигнала на основе акустической теории речеобразования;
2) выявление значимой характеристики речевого сигнала для расчёта существенных параметров математической модели речевого сигнала;
3) невязку (между характеристиками речевого сигнала и модели) и критерий для расчёта существенных параметров модели;
4) методы расчёта существенных параметров модели;
5) характеристики оценки точности рассчитанных существенных параметров.
Наиболее эффективно проблема разработки математических моделей речевых сигналов может решаться на основе комплексного подхода, оптимально объединяющего в себе полигармоническое, модуляционное и импульсное описания, а также использовании соответствующих данным моделям мер различимости для критерия принятия решения о результате аутентификации.
Во второй главе рассмотрены вопросы синтеза и анализа математических моделей речевого сигнала на основе теории модуляции с использованием детерминированного подхода. Согласно физическим представлениям о формировании речевого сигнала, его вокализованные сегменты можно представить как результат прохождения квазипериодического сигнала возбуждения, генерируемого голосовыми связками посредством нагнетания потока воздуха из лёгких, через резонатор сложной формы, состоящий из бронхов, легких, диафрагмы, трахеи, гортани, глотки, небной занавески, языка, ротовой и носовой полостей. Изменения конфигурации голосового тракта и колебания голосовых связок взаимосвязаны, т.е. вся речеобразующая система функционирует как единый сложный объект, и артикуляционный аппарат является нелинейной параметрической системой с распределенными параметрами. Вследствие этого сформированный речевой сигнал оказывается сложным по своей структуре, и его математическое описание в явном аналитическом виде затруднительно.
Информация, заключённая в речевом сигнале, может быть разделена на основную, заключающуюся в передаче смыслового содержания речи, и дополнительную, передающую индивидуальные особенности говорящего, его физическое и эмоциональное состояние, а также характеристики передающей среды. Особенностями речевого сигнала, вытекающими из такого рассмотрения, являются его полиинформативность и полимодуляционность. Сепарация речевого сигнала на смысловую и индивидуальную составляющие вызывает большие трудности.
Однако для описания индивидуальных особенностей голоса возможно упрощение математической модели речевого сигнала, при условии, что она будет адекватно отражать отвечающие за уникальность существенные параметры.
В качестве существенных параметров, характеризующих уникальность голоса человека, предлагается использовать усреднённое на сегменте вокализации значение частоты основного тона (ЧОТ), характеризующей индивидуальный генератор, а также амплитуды гармоник несущего колебания, характеризующие спектральные компоненты индивидуального генератора и селективные свойства индивидуального резонатора. Изменение во времени амплитуды речевого сигнала на участке вокализованного сегмента соответствуют сигналу, модулирующему квазипериодическое несущее колебание. Таким образом, вокализованный речевой сегмент можно описать математической моделью в виде импульса АМколебания с несколькими несущими частотами при модуляции суммой гармоник:
K L u(t) = (1) M cos(2p kF0t + Fk )U cos(2p l f0t +jl ), t [0;t ], k l и k =0 l=где F0 - наименьшая частота модулирующего колебания; Mk и Fk - глубина модуляции и начальная фаза k -й гармоники модулирующего колебания; f0 - ЧОТ;
Ul и jl - амплитуда и начальная фаза l-й гармоники несущего колебания; (K+1) и L - количество модулирующих и несущих гармоник (низкочастотная составляющая несущего колебания, как правило, не учитывается, из-за затухания в резонаторе речевого тракта, а также сильного ослабления и искажения микрофоном и звуковой платой ЭВМ); tи - длительность вокализованного сегмента.
Математическая модель (1) с полигармоническими модулирующим и несущим колебаниями, характеризует индивидуальные особенности голоса:
тембр (форму спектра) посредством амплитуд несущих гармоник, и тон посредством усреднённого значения ЧОТ.
В критерии для аналитического расчета оценок амплитуд несущих гармоник Ul при детерминированном подходе использована нижняя граница среднеквадратичной ошибки (невязки):
J м eb = (2) (b - bэ.ц.)2 о inf, j j j=где bм и bэ.ц. - соответственно нормированные автокорреляционные функции j j (НАКФ) математической модели (1) и центрированного речевого сигнала; J - количество учитываемых отсчётов НАКФ;
N -By ( j) By ( j) bэ.ц. = = ; By ( j) = yi yi- j, j = 0, J ; (3) j By (0) Ey i=N -yi = xi - x, i = 0, N -1; x = xi, (4) N i = где xi - начальные отсчеты речевого сигнала; N - число отсчетов. НАКФ модели (1):
Bu (t ) Bu (t ) bм = bм ( jD) ; bм (t ) = =, (5) j Bu (0) Eu здесь D = 1 / fd - интервал дискретизации; fd - частота дискретизации; АКФ и энергия модели сигнала (1) для t 0 определяются выражениями:
K K L L Bu(t ) = M MnUlUm k k =0 n=0 l=1 m=[Y(l + m,k + n,jl + jm,Fk + Fn,l - m,k - n,jl -jm,Fk - Fn) + + Y(l - m,k - n,jl -jm,Fk - Fn,l + m,k + n,jl + jm,Fk + Fn) + + Y(l + m,k - n,jl + jm,Fk - Fn,l - m,k + n,jl -jm,Fk + Fn) + + Y(l - m,k + n,jl -jm,Fk + Fn,l + m,k - n,jl +jm,Fk - Fn) + + Y(l + m,-k + n,jl + jm,-Fk + Fn,l - m,-k - n,jl -jm,-Fk - Fn) + + Y(l - m,-k - n,jl -jm,-Fk - Fn,l + m,-k + n,jl +jm,-Fk + Fn) + + Y(l + m,-k - n,jl + jm,-Fk - Fn,l - m,-k + n,jl -jm,-Fk + Fn) + + Y(l - m,-k + n,jl -jm,-Fk + Fn,l + m,-k - n,jl +jm,-Fk - Fn)], (6) где функция tи -t c d y z cos ;
Y(a,b,c,d,e,x, y, z) = sincp(af0 +bF0)(tи -t)+ + + xF0)t + + 2 2 2 p(ef0 2 2 Eu = Bu (0). (7) ) Для расчета оценок существенных параметров Ul модели (1), на основе ) имеющейся оценки ЧОТ f0, согласно критерию (2) можно воспользоваться методом наименьших квадратов (МНК), приравняв производную eb по каждому из Ul к нулю. В результате получается система из L нелинейных уравнений в виде полиномов 4-й степени, не имеющая однозначного решения. Для решения полученной системы относительно Ul, делались следующие допущения:
1) среди компонент АКФ, соответствующих модулирующему и несущему колебаниям, учитывались только наиболее существенные по значению (т.е. не перекрёстные компоненты при k = n и l = m );
2) энергия одинаковых речевых сегментов (например, одинаковых парольных фраз) полагалась постоянной (Eu=const).
В итоге система нелинейных уравнений сводится к линейной:
A V = B, (8) где V - матрица-столбец размером L 1, с элементами:
Vl = Ul2 ; (9) B - матрица-столбец L 1, с элементами:
J э.ц.
Bp = (10) b S ;
j j, p j=A - квадратная матрица L L, с элементами:
J Ap,l = (11) S S ; l, p = 1, L, Eu j=1 j, p j,l а элементы матрицы S вычисляются следующим образом:
K t - jD и S = j,l M 2{sinc[2p (lf0 + kF0 )(tи - jD) + (jl + Fk )]+ k k=+ sinc[2p (lf0 - kF0 )(t - jD) + (jl - Fk )]+ и + 2sinc[2p lf0(tи - jD) + jl )]cos[2p kF0 jD + Fk ]+ + 2sinc[2p kF0(t - jD) + Fk ]cos[2p lf0 jD + jl ]+ и + cos[2p(lf0 + kF0) jD + (jl + Fk)]+ cos[2p(lf0 - kF0) jD + (jl - Fk )]}. (12) Таким образом, решение системы (8) относительно Ul, имеет вид:
Ul = Vl, (13) V = A-1B. (14) Максимальное количество гармоник несущего колебания Lmax, которые можно учесть в полосе частот [0; fв], где fв - верхняя частота в спектре речевого сигнала будет равно:
fв fd Lmax = =, (15) 2 f0 f где - означает отбрасывание дробной части; fв = fd / 2 - при дискретизации по теореме Котельникова.
Для определения учитываемого количества отсчётов НАКФ J следует воспользоваться одним из критериев, основанных на заданном: уровне ослабления значения НАКФ по модулю на J -м отсчете относительно максимального значения; уровне отношения энергии сигнала при отбрасывании отсчётов НАКФ выше J-го к энергии сигнала; уровне отношения энергии ошибки НАКФ при отбрасывании отсчётов НАКФ выше J-го к энергии сигнала и др. При этом для значения fd = 6000 Гц целесообразно принять для расчётов J 200, что, как правило, соответствует | bэ.ц. | < 0,4. Если использовать частоту дискретизаj jJ ции fd 2, то значение J2 вычисляется:
fd J2 = J. (16) fd Расчёт показывает, что для речевого материала в виде парольной фразы УонФ при заданных параметрах: fd =6000 Гц; tи=0,3 с; F0=10 Гц; M0=1; F0=0;
M1=1; F1=p; L=6; jl =0; Eu =1; J=200; следующие семь коэффициентов модели, отражают индивидуальные особенности голоса: f0=155,2 Гц; U1=0,819;
U2=0,784; U3=1,457; U4=0,315; U5=0,327; U6=0,142, при этом ошибка модели составила eb=0,994. На рис. 1 для данного речевого материала, приведены зависимости НАКФ bэ.ц. центрированного речевого сигнала - сплошной линией, и j НАКФ bм математической модели (1) при указанных выше значениях параметj ров - пунктирной линией. Из графиков видно, что НАКФ модели достаточно хорошо аппроксимирует НАКФ речевого сигнала, что подтверждает пригодность предложенной модели к описанию вокализованных сегментов речи.
На рис. 2 сплошной линией приведён график нормированной спектральной плотности энергии (НСПЭ) речевого сигнала:
Wk WN ( fk ) WN (k fd / N) =, k = 0, N / 2 -1, (17) max[Wk ] & где Wk = Ck - квадрат модуля коэффициентов дискретного преобразования м Фурье (ДПФ). Штриховой линией изображён график НСПЭ WN ( f ) математической модели:
bэ.ц.j, bмj WN( f ), WмN( f ), дБ 0,0, -0, -0, - --0, --0,-0,6 -0 100 200 300 j 0 200 400 600 800 1000 f, Гц Рис. 1. НАКФ речевого сигнала и Рис. 2. НСПЭ речевого сигнала и математической модели математической модели [S ( f )] м u. (18) W ( f ) = N max [S ( f )] u Спектральная плотность Su ( f ) модели (1) рассчитывается:
K L t и Su ( f ) = M U {sinc [p ( f + l f0 + kF0)t ]e i(jl +Fk )+ k l и k =0 l=-i(jl +Fk ) i(jl -Fk ) + sinc [p ( f - (l f0 + kF0 ))t ]e + sinc [p ( f + l f0 - kF0 )tи ]e + и -i (jl -Fk ) + sinc [p ( f - (l f0 - kF0 ))t ] e }. (19) и Как видно из рис. 2, график WN ( f ) содержит максимумы, соответствующие наличию гармоник, кратных ЧОТ (основной тон и обертона речевого сигнала). На шестом обертоне значение НСМЭ соответствует величине -20,2 дБ, а начиная с частоты 970 Гц, значения спектральных компонент НСПЭ не превышают -35 дБ. Из графиков, представленных на рис. 2, видно, что НСПЭ речевого сигнала удовлетворительно сходится с НСПЭ модели (1), однозначно характеризуя такие существенные параметры, как ЧОТ, частоты обертонов, а также значения НСПЭ в областях максимумов на данных частотах.
Предложена математическая модель речевого сигнала, основанная на аппроксимации спектра набором постоянных составляющих в окрестностях ЧОТ и обертонов:
L u(t) = sinc (2p F0 t) Ul cos(2p l f0t ). (20) l=Для расчёта амплитуд несущих гармоник согласно (13) элементы матрицы S, входящие в (10), (11), вычисляются:
L sinc(2p F0 jD) S = cos(2p l f0 jD). (21) j,l Fl=Математическую модель речевого сигнала (20) целесообразно применять в тех случаях, когда затруднена или нецелесообразна оценка длительности произнесения контрольного речевого материала, т.е. затухающая огибающая модулирующего колебания дает возможность без оценки длительности речевого сигнала осуществлять адекватное описание вокализованных участков речи.
Предложенная математическая модель речевого сигнала адекватно описывает вокализованные участки речи, сравнительно проста в анализе и расчете её существенных параметров, прозрачно физически интерпретируема. Однако точность описания вокализованных участков речи математической моделью (20) несколько меньше относительно модели в виде импульса АМ-колебания с несколькими несущими частотами (1). Для рассмотренного выше речевого материала ошибка eb увеличилась примерно в 2 раза. Для другого вокализованного речевого материала eb возрастает, как правило, от 1,5 до 3 раз.
Рассмотрены вопросы, связанные с обобщенной математической моделью речевого сигнала в виде импульса колебания с амплитудно-частотной модуляцией:
K L P 0 u(t) = M cos( 2p kF0t + Fk )U cos2p l f0 t + l m sin(Wfp t + Ffp ) +jl , k l p k=0 l=1 p= t[0;tи], (22) где mp, Wfp и Ffp0 - соответственно индекс модуляции, круговая частота и начальная фаза p-й гармоники разложения в ряд Фурье ЧОТ. Отмечено, что модель вида (22) является потенциально более точной, вследствие непосредственного учёта осцилляций основного тона. С помощью аппарата функций Бесселя в аналитическом виде получены такие характеристики модели, как АКФ и спектральная плотность энергии. Данная модель обладает несколько большей точностью, однако принципиально более сложна для анализа, что накладывает определённые ограничения для её практического использования.
Разработан метод выделения модулирующего колебания uмод(t) из огибающей речевого сигнала U(t) с целью оценки параметров F0, Mk и Fk. Для этого U(t), полученную на основе свойств преобразования Гильберта, необходимо пропустить через фильтр нижних частот (ФНЧ). Для получения uмод(t) из экспериментального речевого материала на основе модели (1) необходимо вычислить U(t). Спектральную плотность речевого сигнала рассчитывают на основе коэффициентов ДПФ, например, с помощью одного из алгоритмов быстрого преобразования Фурье (БПФ). Графики огибающей Ui для речевого материала в виде фонем УоФ, УэФ, УиФ представлены тонкими сплошными линиями соответственно на рис. 3, 4, 5.
Для анализа качества выделения модулирующего колебания из огибающей от различных частот среза при фильтрации ФНЧ (в данном случае цифровым фильтром (ЦФ), синтезированным на основе фильтра Баттерворта 3-го порядка с затуханием L = Ц18 дБ на октаву), на рис. 3Ц5 приведены графики отсчетов огибающей на выходе ФНЧ wi, для значений: fср=30 Гц (жирные сплошные линии); fср=25 Гц (штриховые линии); fср=20 Гц (пунктирные линии);
fср=15 Гц (штрих-пунктирные линии).
Рис. 3. Огибающая фонемы УоФ до и после Рис. 4. Огибающая фонемы УэФ до и после фильтрации ФНЧ фильтрации ФНЧ Из графиков, приведенных на рис.
3Ц5, видно, что модулирующее колебание представляет собой низкочастотную составляющую огибающей речевого сигнала.
Из анализа сигнала огибающей на выходе ФНЧ установлено, что, начиная с Рис. 5. Огибающая фонемы УиФ до и после частоты среза фильтра fср25 Гц и менее, фильтрации ФНЧ высокочастотные осцилляции в модулирующем колебании практически отсутствуют, при одновременном сохранении существенных особенностей поведения низкочастотной составляющей огибающей речевого сигнала до f 10 Гц (что соответствует при F0=1/tи значению K3). При этом сигнал на выходе ФНЧ смещен на интервал времени, примерно равный среднему групповому времени задержки в полосе пропускания ЦФ.
Таким образом, для ФНЧ с равномерной АЧХ в полосе пропускания и резким ослаблением в полосе задерживания частоту среза следует выбирать из условия K F0< fср< f0. При анализе качества выделения модулирующего колебания было установлено, что следует выбирать ЦФ с затуханием LЦ12 дБ/окт. Это обусловлено с одной стороны необходимостью подавления высокочастотных осцилляций несущего колебания в полосе задерживания, а с другой - сохранением существенных гармоник модулирующего колебания в полосе пропускания.
Предлагаемый подход позволяет относительно просто получить модулирующее колебание uмод(t) в численной форме, которое затем можно аппроксимировать или использовать для определения параметров F0, Mk и Fk при разложении данного колебания в ряд Фурье.
В третьей главе приводится метод синтеза и анализа математических моделей речевого сигнала на основе теории модуляции с использованием стохастического подхода. Рассмотрены физическое обоснование и сущность метода синтеза и анализа стохастической модуляционной математической модели речевого сигнала. Фазовые соотношения (фазочастотную характеристику речевого тракта, а в конечном итоге и фазовый спектр выходного колебания в виде речевого сигнала) такой сложной акустической резонансной системы, как речевой тракт человека, при детерминированном подходе зачастую весьма затруднительно описать с высокой точностью. Таким образом, целесообразна разработка и исследование математических моделей речевого сигнала для аутентификации по голосу, при использовании стохастического подхода, позволяющего адекватно описать случайные составляющие начальных фаз гармоник в речевом сигнале. Данный подход в ряде случаев позволяет повысить точность математической модели.
Математическая модель речевого сигнала в виде импульса АМ-колебания с несколькими несущими частотами и случайными начальными фазами при модуляции суммой гармоник имеет вид (1), при этом начальные фазы Fk и jl являются случайными величинами, не коррелированными между собой и равномерно распределёнными в интервале [0;2p], с плотностями вероятностей:
1 pjl = ; pFk =. (23) 2p 2p Показано, что модель (1) с полигармоническими модулирующим и несущим колебаниями при выполнении (23) является реализацией стационарного в широком смысле, эргодического случайного процесса, и соответствует квазидетерминированному процессу.
В критерии для аналитического расчета оценок амплитуд несущих гармоник Ul при стохастическом подходе использовалась нижняя граница невязки:
J м er = (24) (r - rjэ.ц.)2 о inf, j j=м где rj и rjэ.ц. - соответственно коэффициенты корреляции (КК) математической модели (1) при выполнении (23) и центрированного речевого сигнала; J - количество учитываемых отсчётов КК. При этом:
N -1- j Ry ( j) Ry ( j) rjэ.ц. = = ; Ry ( j) = yi yi+ j, j = 0, J ; (25) Ry (0) N s i=y Ru (t ) Ru (t ) м rj = rм ( jD) ; rм (t ) = = ; (26) Ru (0) su K L Ru (t ) = (27) M 2 cos [2p kF0t ]U 2 cos [2p l f0t ], t [0;t ], k l и k =0 l =2 где s и su - соответственно дисперсии центрированного речевого сигнала и y модели; t =|t2Цt1|.
Число учитываемых отсчетов КК J, определим как номер отсчёта КК, начиная с которого все значения КК находятся в доверительных границах нулевых значений 3sr, полученных по методу Бартлетта для КК (показаны на рис.
6 штриховыми линиями):
N / 1 + 2 (rjэ.ц. ) 2 (28) s = r N j = - стандартная ошибка для коэффициентов корреляции. Анализ речевых сигналов различных дикторов показал, что, как правило, все значения КК заходят в границы Бартлетта 3sr до 200 отсчета при fd = 6000 Гц (при этом для случая, показанного на рис. 6 все значения КК заходили в границы Бартлетта, начиная со 156 отсчёта), таким образом, целесообразно выбрать значение J200.
Вычисление амплитуд несущих гармоник на основе (13), для квазидетерминированной полигармонической модели, основано на элементах матрицы S, которые рассчитываются как:
K S = (29) M cos(2p kF0 j D) cos(2p l f0 j D).
j,l k k =В качестве примера для речевого материала в виде парольной фразы УонФ при заданных параметрах: fd =6000 Гц; tи=0,3 с; M0=1,414; F0=0; M1=1; F1=p;
L=6; jl =0; F0=15 Гц; su =23,218; J=200; были получены следующие семь коэффициентов модели, отражающих индивидуальные особенности голоса: f0=155,Гц; U1=2,249; U2=2,173; U3=3,994; U4=0,900; U5=0,937; U6=0,433. Абсолютная ошибка модели составила er=1,154. На рис. 6 для данного речевого материала, м приведен сплошной линией график rjэ.ц., а пунктирной линией зависимость rj.
Для анализа спектральных компонент речевого сигнала от частоты приведём рис. 7, на котором изображёны графики нормированной на максимум спектральной плотности мощности (НМСПМ) речевого сигнала WN ( f ) (сплошной м линией) и модели WN ( f ) (пунктирной линией):
G- W ( f ) y э.ц.
WN ( f ) =, Wy ( f ) = 2D1+ r w(g)cos(2p f D g), (30) g max [W ( f )] y g= где G - точка отсечения спектрального окна Тьюки w(g):
1 1+ p g cos , g G;
w(g) = (31) 2 G , g > G;
Wu( f ) м WN ( f ) = ; (32) max[Wu( f )] tи K 2 L Wu( f ) = M U2{sinc[2p( f + (lf0 + kF0))tи]+ sinc[2p( f - (lf0 + kF0))tи]+ k l k=0 l=+ sinc[2p ( f + (lf0 - k F0 ))t ] + sinc[2p ( f - (lf0 - k F0 ))t ]}. (33) и и Из графиков, представленных на рис. 6,7, а также значений вычисленных ошибок er видно, что КК и НМСПМ полигармонической модуляционной квазидетерминированной модели (1), (23) достаточно хорошо аппроксимируют соответствующие характеристики вокализованных речевых сегментов.
rэ.ц.j, rмj WN( f ), WмN( f ), дБ 0,0, - 3sr 0, -0, --0, --0,-3sr -0,6 0 50 100 150 200 250 j -50 0 200 400 600 800 1000 f, Гц Рис. 6. КК речевого сигнала и Рис. 7. НМСПМ речевого сигнала и математической модели математической модели Представлена математическая модель речевого сигнала в виде суммы квазидетерминированного случайного процесса u(t) и белого шума n(t) с ограниченным верхней частотой fв спектром и односторонней спектральной плотностью мощности N0:
x (t) = u(t) + n(t). (34) Рассмотрены вопросы оценки степени вокализации речевого сегмента на основе экспериментального КК. Вычислены характеристики модели (34) - математическое ожидание, функция корреляции (ФК), дисперсия, КК, СПМ. Приведена оценка параметра шумовой компоненты N0 на основе соотношения:
s n N0 =, (35) fв где дисперсия шумовой компоненты s рассчитывается по формуле:
n 2 s = sx - (sups )2, (36) n здесь sx и (sups )2 - соответственно оценки дисперсии сигнала x(t) и апостериорной дисперсии периодической компоненты модели.
Разработана математическая модель речевого сигнала в виде суммы квазидетерминированного случайного процесса u(t) и процесса авторегрессии (АР) n(t). Смешанная модель задаётся своими отсчётами:
xi = ui + ni, (37) где xi = x (t) = x (iD) ; ui = u(t) = u(iD) - отсчёты периодической компоt =iD t=iD ненты. Шумовая компонента модели (37) описывается процессом АР:
P ni = ni- p + bai, (38) f p p=где ai - сигнал возбуждения в виде реализации белого гауссовского шума; P - порядок модели АР; fp - коэффициенты линейного предсказания (КЛП); b - коэффициент усиления. Для расчета оценок параметров fp, b модели АР (38) необходимо определить КК rn( jD) шумовой компоненты ni смешанной модели (37). В этой связи, полагая, что периодическая и шумовая компоненты некоррелированны между собой, соотношение для отсчётов КК принимает вид:
rn ( jD) = (z2 +1) rx ( jD) - z2 ru ( jD), (39) где отношение сигнал-шум (ОСШ) определяется как:
ps (su )z2 =. (40) s n На основе ОСШ можно привести условные границы, позволяющие определить степень вокализации речевого сигнала, а также вклад периодической или шумовой компонент в смешанную стохастическую модель.
Изложены вопросы построения модели АР с постоянными коэффициентами для вокализованного речевого сегмента после предварительной фильтрации с целью выравнивания спектра. Исследованы вопросы выбора параметров и характеристик ЦФ для обеспечения достаточного уровня ослабления периодических составляющих кратных частоте основного тона. Установлено, что при фильтрации вокализованного речевого сегмента с помощью режекторного фильтра Чебышева 2-го рода 8-го порядка на ЧОТ и частоте первого обертона (в ряде случаев дополнительно на частотах второго и третьего обертонов), построенная на полученный сигнал модель АР 12-гоЦ15-го порядка адекватна на основе остаточных ошибок по критерию c2 с вероятностью 99,9%.
В четвертой главе представлены методы расчета параметров математических моделей речевого сигнала, построенных на основе теории модуляции.
Приведён обобщенный метод и характеристики аналитического расчета амплитудных параметров математических моделей речевого сигнала, построенных на основе теории модуляции и заданных в виде явной функции времени.
НАКФ (или КК) Ra(t) математической модели речевого сигнала, может быть записана в виде:
L Ra (t ) = (41) U 2Sl (t ), Ka0 l =0 l где Ka0 - энергия (или дисперсия) модели; Sl(t) - некоторая функция, зависящая от номера несущей гармоники l, интервала времени t и параметров математической модели (например, ЧОТ, частота модулирующего колебания, длительность сегмента и др.); НАКФ (или КК) Rj задана J экспериментальными отсчетами. Выражение (41) в матричной форме:
Ka0 Ra = S V, (42) где Ra = Ka / Ka0 - матрица-столбец размером J 1 с элементами Ra = Ra( jD) ; S - прямоугольная матрица J (L +1), с элементами j S = Sl ( jD) ; V - матрица-столбец (L +1) 1 с элементами Vl = Ul2.
jl Оценки амплитуд несущих гармоник рассчитывались при использовании МНК, при этом минимизировалась невязка:
T 1 e(V) = (Ra- R)T (Ra- R) = - S V R - S V (43) R Ka0 Ka0 по вектору вычисляемых параметров e(V) V = 0, (44) T где R = K / K0 - матрица-столбец размером J 1 с элементами Rj ; - знак транспонирования. При допущении Ka0=const система нелинейных уравнений, состоящая из полиномов четвертой степени, сводится к линейной. Отсюда вектор оценок параметров Vl (при Ka0= K0):
V = Ka0(ST S)-1 STR. (45) Таким образом, решение системы (44) относительно параметров Ul математической модели:
Ul = Vl, l = 0, L. (46) При расчете амплитудных параметров по выражению (45) в зависимости от вида модели будут изменяться функциональная зависимость НАКФ или КК, т.е. будут меняться параметры Sjl и Ka0. Таким образом, применение общих соотношений для расчета параметров математических моделей речевых сигналов возможно как в рамках стохастического, так и в рамках детерминированного подходов без потери общности рассуждений.
С учётом линейной зависимости матрицы наблюдений K и матрицы па) раметров V, несмещённые и эффективные оценки Vl (на основе матрицы рас) сеяния оценок МНК (V) ) имеют дисперсию:
) K0 ) ) sVl ={(V)} = e( V){(ST S)-1}. (47) l,l l,l J - L ) Относительные ошибки существенных параметров Ul модели для доверитель) ных интервалов 3sVl (при доверительной вероятности P = 99,7% ):
) ) DUl 3sVl 3K0 ) ) ) dUl = ) 100 ; DUl ) = ) e ( V){(ST S)-1}. (48) l,l Ul 2Ul 2Ul J - L Для рассмотренного примера в главе 3, применительно к квазидетерминированной модели, относительные ошибки соответствующих гармоник:
) ) ) ) ) dU1 =0,433%; dU2 =0,464%; dU3 =0,137%; dU4 =2,707%; dU5 =2,495%;
) ) dU6 =11,662%. Таким образом, оценки амплитуд гармоник Ul удовлетворительно группируются относительно их значений для широких доверительных интервалов.
Приведены метод, алгоритм и характеристики оценки ЧОТ речевого сигнала на основе минимума невязки коэффициентов корреляции при использовании полигармонической математической модели. Оценка ЧОТ вычисляется:
) f0 = arg inf [e ( f )], (49) r f где невязка при стохастическом подходе:
J м er ( f ) = (rj ЧОТ ( f ) - rjэ.ц.( f0)), (50) j=здесь f0 - истинное значение ЧОТ; f - текущее значение варьируемой частоты при сканировании диапазона наиболее вероятного нахождения ЧОТ, как правим ло, f[70; 330] Гц; rj ЧОТ - КК математической модели для оценки ЧОТ, упрощенный вид которого для H-гармонической оценочной модели:
H rjмЧОТ( f ) = (51) cos(2p l f0 j D).
H l=В качестве примера на рис. 8 приведёна зависимость оценочной ошибки от частоты сканирования в оценочной модели для вокализованного сегмента речи в виде слова УонФ.
er ( f ) s, Гц 0, 0, 0, 0, 0, 70 100 150 200 250 300 f, Гц 0 5 10 15 H Рис. 8. Оценочная ошибка ЧОТ речевого сигнала Рис. 9. Усреднённое СКО ЧОТ при использовании оценочной полигармонической в зависимости от количества математической модели гармоник оценочной модели На рис. 8 изображены зависимости для разного количества гармоник оценочной модели: H=3 - пунктирной линией; H=4 - сплошной линией; H=5 - штриховой линией. Для данного случая глобальный минимум (оценка ЧОТ ре) чевого сигнала) наблюдался на частоте: f0 =155,2 Гц, при шаге изменения частоты Df =0,1 Гц. Для анализа качества работы предложенного метода оценки ЧОТ генерировались различные эталонные полигармонические сигналы. Мо) ) дуль относительной погрешности оценки ЧОТ d f0 = ( f0 - f0эт)/ f0эт 100%, как правило, не превышает 0,3%, при шаге Df =0,1 Гц.
В качестве статистической характеристики точности вычисленной оценки ЧОТ использовалось усреднённое среднеквадратическое отклонение (СКО):
) ) ) s s ( f0 | f0) = (D+( f0 | f0) + D-( f0 | f0)), (52) 2 J H J H ) э.ц. э.ц.
D( f0 | f0) = r - 1 cos[2pl( f0 Df ) jD] - r - 1 cos[2pl f0 jD] j j H H l=1 j=1 l=1 j=1 - J H (53) H (2pl jD)sin [2pl f0 jD] .
j=1 l =1 График зависимости усреднённого СКО s от количества гармоник в оценочной модели H (для речевого материала УонФ) приведён на рис. 9. Наибольшая точность оценки при Df =0,1 Гц (s = 0,021 Гц) наблюдается для оценочной модели, содержащей 19 гармоник (все гармоники, укладывающиеся до верхней частоты в спектре речевого сигнала).
Установлено, что для практического использования в большинстве случаев можно рекомендовать трёхгармоническую оценочную модель ( L = 3) для частотного шага Df =0,1 Гц, при этом s 0,082 Гц обеспечивает вполне доста) точную точность оценки (вероятность попадания оценки f0 в доверительный интервал f0 s равна P 68,3%). Доверительный интервал для P 99,7%:
3s 0,245Гц.
Поведена оценка ЧОТ и исследованы её характеристики на основе метода максимального правдоподобия при известных амплитудах и начальных фазах несущих гармоник. Оценка ЧОТ базируется на математической модели речевого сигнала:
x (t, f0) = u(t, f0) + n(t), (54) где u(t, f0) - детерминированный сигнал в виде модуляционной полигармонической модели (1); n(t) - шумовая компонента в виде модели гауссовского случайного процесса с нулевым средним значением и функцией корреляции вида R(t1,t2)= (N0 / 2) d(t1 - t2), где d () - d-функция Дирака.
Оценка максимального правдоподобия (ОМП) ЧОТ определяется как:
) f0 = argsupM ( f ), (55) где логарифм функционала отношения правдоподобия (ЛФОП):
T T 2 M ( f ) = (56) x (t, f0)u(t, f )dt - u2(t, f )dt, N0 0 N0 где T - время наблюдения; u(t, f ) - опорный сигнал:
H u(t, f ) = cos(2p l f t +jl ). (57) U l l=На основе блок-схемы данного алгоритма измерения оценки ЧОТ речевого сигнала были вычислены значения оценки ЧОТ для различных вокализованных речевых сегментов. Результаты экспериментальных измерений оценки ЧОТ соответствуют точности оценки, которую можно определить на основе полученного выражения для дисперсии:
-H H ) D( f0 | f0) (58) U 2 U 2 l2, 0l 0l 2 4p z2T l=1 l=1 где U0 l - истинные значения амплитуд несущих гармоник.
При оценке ЧОТ распределение амплитуд Ul и начальных фаз jl несущих гармоник, образующих сложный полигармонический сигнал, как правило, является трудно получаемой информацией. В этой связи разработан метод оценки ЧОТ при неизвестных Ul и jl, рассчитаны характеристики точности полученной оценки. Максимизация ЛФОП (56) по неизвестным несущественным параметрам xl и yl ( xl = Ul cos(ql ) ; yl = Ul sin(ql ) ; ql = -jl ) приводит к выражению:
N0 H 2 H 2 M( f )= ( f ) + ( f ), (59) Xl Yl 2T l =1 l =1 где соответствующие синфазные и квадратурные компоненты:
T T 2 Xl( f ) = x(t, f0)cos(2p l f t)dt ; Yl( f )= x (t, f0)sin(2p l f t)dt. (60) N0 0 N0 Как видно из (59), (60) оптимальная обработка полигармонического сигнала для оценки его параметров, сводится к получению билинейной формы из квадратурных компонент корреляционного интеграла. Данная обработка справедлива для случая разрешения гармоник, что обеспечивается при f0T 2,7.
Разработанная на основе (59), (60) блок-схема алгоритма расчёта оценки ЧОТ при оптимальной временной обработке сигнала в случае отсутствия априорной информации о распределении амплитуд и начальных фаз гармоник входного сигнала позволяет получить высокоточную оценку, дисперсия которой:
-H H ) D( f0 | f0) = (61) U 2 U 2 l2.
0 l 0 l 2 p z2T l=1 l =1 Представлен метод и получены характеристики оценки формантных частот (ФЧ) речевого сигнала на основе его полигармонической математической модели. Сущность метода заключается в следующем. Положим, что известны ) ) значения оценок f0 и Ul, при этом количество амплитуд гармоник принимают равным Lmax (15). По известным значениям Ul определяют их глобальный мак) ) симум Ul max1, и за оценку ФЧ принимают его аргумент: F1 = lmax1 f0, т.е. оценка соответствует резонансно усиленной lmax1-й гармонике основного тона, или же (lmax1Ц1)-му обертону. Далее находят первый минимум Ul min1, после значения аргумента которого l определяют следующий первый максимум Ul max2;
)min1, ) оценка второй ФЧ: F2 = lmax 2 f0. При необходимости можно сузить интервал поиска максимумов, используя диапазоны наиболее вероятного нахождения соответствующих ФЧ. Далее находят следующий первый минимум Ul min2, после значения аргумента которого lmin2, ищут первый максимум Ul max3; оценка треть) ) ей ФЧ: F3 = lmax3 f0, и т.д. Разработанный метод даёт конструктивный подход к вычислению оценок ФЧ в рамках математической модели, записанной в явном виде, обладает удовлетворительной точностью, а также лишён ряда недостатков, которые присущи, например, методу моментов и его модификациям.
Полученные оценки ФЧ могут быть использованы в качестве параметров для аутентификации личности по голосу.
В пятой главе изложены вопросы, связанные с проверкой адекватности математической модели речевого сигнала на основе экспериментальных данных. Проанализированы основные меры близости, входящие совместно с решающим правилом в критерий соответствия математической модели речевому сигналу. Приведена методика проверки математической модели речевого сигнала на адекватность экспериментальным данным при использовании статистического критерия на базе коэффициента множественной корреляции, где в качестве существенной характеристики речевого сигнала выступает КК. Установлено, что между коэффициентами корреляции речевого сигнала рассчитанными м по экспериментальным данным rjэ и математической модели rj существует тесная корреляционная связь. При этом модуляционная полигармоническая математическая модель вокализованного речевого сегмента соответствует экспериментальным данным с вероятностью принятия правильной гипотезы P >99,9% (при fd=6000 Гц; J =200).
Изложены теоретические основы методов аналитического расчета весовых коэффициентов для меры различимости в виде взвешенной суммы квадратов ошибок, наиболее часто используемой для аутентификации по голосу:
L эт D = (lа - ll ), (62) w l l l=где lэт и lа - значения l -го параметра математической модели речевого сигнала l l эталонного и аутентифицируемого дикторов соответственно; wl - весовые коэффициенты. Приведены три метода, основанные на: 1) критерии минимизации расстояния между УсвоимиФ и эталоном; 2) критерии максимизации расстояния между УчужимиФ и эталоном; 3) критерии минимаксного расстояния между УсвоимиФ, УчужимиФ и эталоном соответственно. Последний, обобщённый метод основан на нахождении минимума обобщенной результирующей меры:
P M 2 об св чуж ч DS = DS + DS = (Dсв) + (Dmуж), (63) p p=1 m=а критерий для аналитического расчета wl представлен в виде:
P M 2 об ч min[DS ]= min (Dсв) + (Dmуж), (64) p w w l l p=1 m=1 св ч где DS и DSуж - результирующие меры априори УсвоихФ и УчужихФ относительно эталона (для определённой парольной фразы); P и M - соответственно количество реализаций парольной фразы для УсвоихФ и УчужихФ дикторов;
L+1 L+1 L+ч Dсв = g ; Dmуж = hl,m ;
w w w = 1;
p l l, p l l l=1 l =1 l=f g1, p ( f0св - f0эт )2 ; h1,m ( f0чуж - f0эт )-2 ;
w1 w ;
, p,m св эт ч эт U g (U1, p -U1 )2 ; h2,m (U1,уж -U1 )-2 ; w2 w1 ;
2, p m (65)....................
св эт чуж эт g (UL, p -UL )2; hL+1,m (U -U )-2, wL+1 wU, L+1, p L L,m L эт эт св св ч чуж где f0эт,U1,Е,UL ; f0св,U1, p,Е,U и f0чуж,U1,уж,Е,U - параметры ма, p L, p,m m L,m тематической модели парольной фразы соответственно для эталонной реализации эталонного диктора, p -й реализации эталонного диктора и m -й реализации неэталонных дикторов.
об Приравняв к нулю первые производные DS по wl, получим систему из L линейных уравнений, которую необходимо решить относительно весов wl с учётом их нормировки на единицу. Точка экстремума, определяемая вторыми об производными DS - это минимум. Элементы матриц A и B, входящих в A = B, (66) где - матрица-столбец размером L 1 с элементами wl, l = 2, L +1; A - квадратная матрица L L, с элементами P M Aj,l = (g -g )(g1, -gl, ) + (h -hj,m)(h1,m -hl,m); j,l = 2, L +1; (67) 1, p j, p p p 1,m p=1 m=B - матрица-столбец L 1, с элементами P M B = (68) g (g1, - g ) + h (h1,m -h ), j 1, p p j, p 1,m j,m p=1 m=определяют решение линейной системы относительно wl, которое в матричной форме имеет вид:
= A-1B. (69) При использовании критерия (64), необходимо иметь, как минимум, три реализации - две произнесенные эталонным диктором на этапе обучения системы и одну реализацию аутентифицируемого диктора. Однако, для набора статистики, достаточной для объективного отражения свойств когорты, отвечающей за формирование адекватных оценок весов wl, необходимо иметь, как правило, не три исходные реализации, а гораздо больше.
С целью устранения вышеуказанного недостатка были предложены несколько новых мер различимости для задач аутентификации (верификации и идентификации) личности по голосу применительно к полигармонической математической модели речевого сигнала. Одной из мер различимости, показавшей свою высокую эффективность в практических расчётах, является мера между аутентифицируемыми и эталонными существенными параметрами:
2 L f0а - f0эт L f0а - f0эт D = -Ulэт)2 + L(DUlэт)2 + (d f0эт)2 l -Ulэт)2, (70) (U а (Uа f0эт l=1 l f0эт l= где d f0эт = Df0эт f0эт - относительный интервал вариации ЧОТ; DUlэт - абсолютный интервал вариации амплитуд несущих гармоник.
Разработанная методика оценки начального значения порога D0 для критерия принятия решения о результате аутентификации базируется на учёте вариаций существенных параметров и определяется точностью метода, на основе которого вычислен тот или иной параметр. Даны рекомендации по использованию значений D0 в конкретных случаях.
На основе новых методов разработаны и проанализированы алгоритмы функционирования систем аутентификации личности по голосу, включающие в себя способ, устройство и блок-схемы алгоритмов работы систем верификации и идентификации по голосу на основе математической модели с полигармоническими модулирующим и несущим колебаниями. Отдельно рассмотрены вопросы оценки качества работы систем аутентификации личности по голосу.
При аутентификации по голосу на основе полигармонической математической модели с существенными параметрами f0, U1,Е, U10, с применением меры различимости (70) для 100 различных дикторов средняя вероятность равных ошибок (для различного вокализованного речевого материала) при верификации составила 0,2-0,8%, а при идентификации - 0,5-1,5%. Время аутентификации оказалось равным примерно 1 с.
Таким образом, ключевым положением работы, обеспечивающим предметное решение задач аутентификации, является представление сегментов речевого сигнала с помощью математических моделей, заданных в явном виде.
Разработанная методология построения математических моделей речевых сигналов применительно к аутентификации по голосу позволяет конструктивно разработать модель в рамках детерминированного или стохастического подхода, а также рассчитать существенные параметры речевых сигналов, на основе которых принимается решение об аутентификации.
В заключении подведены итоги диссертационной работы в целом, сформулированы следующие основные результаты и выводы.
1. Требованиям к математическим моделям речевых сигналов с точки зрения обеспечения высокой надёжности систем аутентификации по голосу: высокой точности, минимальному количеству относительно просто рассчитываемых существенных параметров, в наибольшей мере удовлетворяют модели, основанные на физических принципах акустической теории речеобразования и описывающие вокализованные сегменты речи.
2. Разработанная на основе данного подхода модуляционная импульсная полигармоническая математическая модель речевого сигнала позволяет компактно описать вокализованные сегменты речи, учитывая временную вариацию спектра речевого сигнала соответствующей модуляцией амплитуд и частот модели. Существенными параметрами математической модели речевого сигнала, характеризующими уникальность голоса, являются усреднённая частота основного тона и амплитуды несущих гармоник.
3. Характеристикой речевого сигнала для расчёта существенных параметров его детерминированной математической модели служит автокорреляционная функция, а для стохастической модели - функция корреляции, число значимых отсчетов которых следует выбирать исходя из уровня ослабления автокорреляционной функции относительно её наибольшего значения и из условия захождения функции корреляции в доверительные границы нулевых значений, полученных по методу Бартлетта. По номеру отсчёта функции корреляции, начиная с которого она заходит в границы Бартлетта, можно также проводить разграничение речевых сегментов на вокализованные и невокализованные.
4. Выделение модулирующего колебания полигармонической математической модели речевого сигнала осуществляется путём пропускания огибающей речевого сигнала через фильтр нижних частот.
5. Получены аналитические выражения характеристик модуляционной импульсной полигармонической математической модели: автокорреляционной функции и спектральной плотности энергии (при детерминированном подходе), функции корреляции и спектральной плотности мощности (при стохастическом подходе), которые могут эффективно применяться для аутентификации по голосу на основе вокализованных участков речи.
6. Случайная компонента вокализованных сегментов речевого сигнала корректно описывается случайными начальными фазами модулирующего и несущего колебаний модуляционной полигармонической математической модели.
Введение в данную модель аддитивной компоненты в виде ограниченного по полосе частот белого шума обеспечивает приемлемую точность учета шумовой составляющей речевого сигнала, а использование в качестве аддитивной компоненты процесса авторегрессии дает высокую точность описания речевых сегментов с различной степенью вокализации, определяемой отношением Усигнал-шумФ.
7. Разработан обобщённый метод аналитического расчета амплитуд несущих гармоник модуляционных полигармонических математических моделей речевого сигнала. В явном виде выражена зависимость точности оценки амплитуд несущих гармоник от математической модели и ее ошибки.
8. Разработанный метод оценки частоты основного тона речевого сигнала на основе минимума невязки коэффициентов корреляции при использовании полигармонической математической модели обеспечивает относительную погрешность оценки частоты основного тона менее 0,3%, при шаге частотной сетки Df =0,1 Гц, причем для большинства практических случаев в оценочной модели достаточно трёх гармоник несущего колебания. Снижение относительной погрешности измерения частоты основного тона в два раза и более может быть достигнуто предварительной фильтрацией речевого сигнала цифровым полосониж верх вым фильтром с нижней и верхней частотами среза fср =60 Гц и fср =340 Гц.
9. На основе метода максимального правдоподобия разработаны способы получения оптимальной оценки частоты основного тона для известных и неизвестных амплитуд и начальных фаз несущих гармоник. Дисперсия оценки определяется отношением Усигнал-шумФ, длительностью вокализованного сегмента, количеством и значениями амплитуд несущих гармоник в оценочной модели.
10. Оценки частоты основного тона и амплитуд несущих гармоник используются в методе оценки формантных частот, синтезированном на основе полигармонической модели речевого сигнала.
11. Для проверки адекватности математической модели речевого сигнала по сопоставлению коэффициентов корреляции математической модели и речевого сигнала разработана методика, использующая критерий соответствия на основе коэффициента множественной корреляции.
12. Для задач аутентификации личности по голосу разработаны методы аналитического расчёта весовых коэффициентов меры различимости между существенными параметрами математической модели эталонного и аутентифицируемого диктора в виде взвешенной суммы квадратов ошибок, две новые эффективные меры различимости речевых сигналов для математической модели в виде импульса АМ-колебания с несколькими несущими частотами, методика вычисления начального значения порога меры различимости для критерия принятия решения, учитывающая значения доверительных интервалов вариаций существенных параметров.
13. Разработанные алгоритмы аутентификации диктора по голосу в системах разграничения доступа обеспечивают среднюю вероятность равных ошибок верификации и идентификации соответственно 0,2Ц0,8% и 0,5Ц1,5%, что позволяет повысить надёжность и эффективность работы синтезированных на их основе систем обеспечения информационной безопасности.
Основное содержание диссертации изложено в следующих работах:
Публикации в журналах из перечня ВАК:
1. Ролдугин С.В. Модели речевых сигналов для идентификации личности по голосу / С.В. Ролдугин, А.Н. Голубинский, Т.А. Вольская // Радиотехника. - 2002. - № 11. - С. 79Ц81.
2. Голубинский А.Н. Модель речевого сигнала в виде импульса АМ-колебания с несколькими несущими для верификации личности по голосу / А.Н. Голубинский // Системы управления и информационные технологии. - 2007. - № 4. - С. 86Ц91.
3. Голубинский А.Н. К вопросу о разработке математической модели речевого сигнала на основе особенностей его характеристик / А.Н. Голубинский // Системы управления и информационные технологии. - 2008. - № 2. - С. 80Ц85.
4. Голубинский А.Н. Физическая интерпретация математической модели речевого сигнала, в виде импульса АМ-колебания с несколькими несущими частотами, на основе принципов речеобразования / А.Н. Голубинский // Системы управления и информационные технологии. - 2008. - № 3. - С. 78Ц82.
5. Голубинский А.Н. Обработка речевого сигнала на основе модели в виде импульса АМ-колебания с несколькими несущими частотами / А.Н. Голубинский // Телекоммуникации. - 2008. - № 12. - С. 13Ц17.
6. Голубинский А.Н. Методика расчета параметров модели речевого сигнала в виде импульса АМ-колебания с несколькими несущими частотами, для случая модуляции суммой гармоник / А.Н. Голубинский // Системы управления и информационные технологии. - 2008. - № 4.1. - С. 156Ц161.
7. Голубинский А.Н. Общий случай модели речевого сигнала в виде суммы квазидетерминированного случайного процесса и белого шума с ограниченным по полосе частот спектром / А.Н. Голубинский // Системы управления и информационные технологии. - 2009. - № 1. - С. 95Ц100.
8. Голубинский А.Н. Метод аналитического расчета параметров математических моделей речевого сигнала, построенных на основе теории модуляции / А.Н. Голубинский // Системы управления и информационные технологии. - 2009. - № 1.3. - С. 332Ц336.
9. Голубинский А.Н. Критерии соответствия математической модели речевого сигнала экспериментальным данным / А.Н. Голубинский // Системы управления и информационные технологии. - 2009. - № 2.1. - С. 113Ц118.
10. Голубинский А.Н. Метод оценки частоты основного тона речевого сигнала на основе минимума невязки коэффициентов корреляции / А.Н. Голубинский // Телекоммуникации. - 2009. - № 8. - С. 16Ц21.
11. Голубинский А.Н. Математическая модель речевого сигнала, основанная на аппроксимации спектра набором постоянных составляющих в соответствующих полосах частот / А.Н. Голубинский // Безопасность информационных технологий. - 2009. - № 2. - С. 12Ц18.
12.Голубинский А.Н. Стохастические модели речевого сигнала, и их частные случаи в виде квазидетерминированных и детерминированных моделей / А.Н. Голубинский // Телекоммуникации. - 2009. - № 9. - С. 15Ц20.
13. Голубинский А.Н. Выделение модулирующего колебания из огибающей речевого сигнала / А.Н. Голубинский, О.М. Булгаков // Системы управления и информационные технологии. - 2009. - № 4.1. - С. 130Ц134.
14. Голубинский А.Н. Аутентификация личности по вокализованным участкам речи на основе частоты основного тона и амплитуд кратных гармоник в области первых двух формант / А.Н. Голубинский, О.М. Булгаков // Системы управления и информационные технологии. - 2009. - № 4.1. - С. 134Ц139.
15. Голубинский А.Н. Методика проверки на адекватность математической модели речевого сигнала экспериментальным данным / А.Н. Голубинский // Информационные технологии. - 2009. - № 12. - С. 54Ц59.
16. Голубинский А.Н. Метод расчета весовых коэффициентов меры различимости речевого сигнала, моделируемого импульсом АМ-колебания с несколькими несущими / А.Н. Голубинский, О.М. Булгаков // Телекоммуникации. - 2010. - № 1. - С. 10Ц15.
17.Булгаков О.М. Оценка частоты основного тона речевого сигнала методом максимального правдоподобия при известном распределении амплитуд и начальных фаз гармоник сложного несущего колебания / О.М. Булгаков, А.Н. Голубинский // Вестник ВИ МВД России. - 2010. - № 2. - С. 154Ц162.
18. Голубинский А.Н. Оценка частоты основного тона речевого сигнала при априори неизвестных амплитудах и начальных фазах полигармонического несущего колебания / А.Н. Голубинский // Вестник ВИ МВД России. - 2010. - № 3. - С. 101Ц108.
Монография:
19. Голубинский А.Н. Математические модели речевых сигналов для верификации и идентификации личности по голосу / А.Н. Голубинский, О.М. Булгаков. - Воронеж: Воронежский государственный университет, 2010. - 364 с.
Учебное пособие:
20. Голубинский А.Н. Теория цифровой обработки сигналов: Учеб. пособие / А.Н. Голубинский, С.В. Ролдугин, И.В. Лазарев. - Воронеж: ВИ МВД России, 2009. - 132 с.
Заявка на изобретение:
21. Заявка на изобретение № 2008143852/09 РФ: МПК 8 G 10 L 17/00. Способ и устройство автоматической верификации личности по голосу / А.Н. Голубинский; Заявл. 05.11.2008; Опубл. 10.05.2010; Бюл. № 13. (решение о выдаче патента 06.05.2010) Регистрация программы:
22. Голубинский А.Н. Расчет существенных параметров математической модели речевого сигнала, построенной на основе модуляционной теории, применительно к задачам аутентификации личности по голосу / Государственный фонд алгоритмов и программ (Москва), регистрационный номер 50200901049 от 16.11.09г.
Статьи в научных периодических изданиях:
23.Ролдугин С.В. Расчет параметров авторегрессионной модели речевого сигнала / С.В. Ролдугин, А.Н. Голубинский // Вестник ВИ МВД России. - 2001.
- С. 28Ц33.
24. Голубинский А.Н. К вопросу о модели речевого сигнала для верификации личности по голосу / А.Н. Голубинский // Вестник ВИ МВД России. - 2005.
- С. 29Ц34.
25. Голубинский А.Н. Алгоритмы оценки частоты основного тона и обертонов речевого сигнала / А.Н. Голубинский // Вестник ВИ МВД России. - 2006. - С. 15Ц19.
26.Голубинский А.Н. Расчет параметров модели речевого сигнала в виде импульса АМ-колебания с несколькими несущими / А.Н. Голубинский // Вестник ВИ МВД России. - 2006. - С. 20Ц24.
27.Голубинский А.Н. Спектральный анализ речевого сигнала и его модели в виде импульса АМ-колебания с несколькими несущими / А.Н. Голубинский // Вестник ВИ МВД России. - 2006. - С. 25Ц29.
28.Голубинский А.Н. Методы аппроксимации экспериментальных данных и построения моделей / А.Н. Голубинский // Вестник ВИ МВД России. - 2007.
- № 2. - С. 138Ц143.
29. Голубинский А.Н. Расчет частоты основного тона речевого сигнала на основе полигармонической математической модели / А.Н. Голубинский // Вестник ВИ МВД России. - 2009. - № 1. - С. 81Ц89.
Депонированная рукопись:
30.Голубинский А.Н. Разработка математической модели речевого сигнала в виде импульса АМ-колебания с несколькими несущими частотами, применительно к задаче верификации личности по голосу / А.Н. Голубинский; Воронежский институт МВД России. - Воронеж, 2008. - 29 с. - Деп. в ВИНИТИ 09.07.08, №591-В2008.
Отчеты о НИР:
31. Организация радиосвязи в подразделениях ОВД и Внутренних войск МВД России в условиях проведения спецопераций: Отчет о НИР (заключительный) / Воронежский институт МВД России. Руководитель: А.Н. Лукин. - № ГР 01032904. - Воронеж, 2003. - 253 с. - А.Н. Голубинский: раздел 4 - С. 224Ц245.
32.Синтез алгоритмов различения звуковых и оптических сигналов: Отчет о НИР (заключительный) / Воронежский институт МВД России. Руководитель: А.Н. Лукин. - № ГР 01021801. - Воронеж, 2004. - 91 с. - А.Н. Голубинский: раздел 1 - С. 10Ц39.
33. Обработка звуковых и оптических сигналов: Отчет о НИР (заключительный) / Воронежский институт МВД России. Руководитель: А.Н. Лукин. - № ГР 01068673. - Воронеж, 2008. - 50 с. - А.Н. Голубинский: разделы 1Ц8 - С. 5Ц50.
34. Совершенствование средств низовой УКВ радиосвязи: Отчет о НИР (заключительный) / Воронежский институт МВД России. Руководитель: Ю.К. Рогачев. - № ГР 03095963. - Воронеж, 2009. - 140 с. - А.Н. Голубинский: разделы 1, 2 - С. 12Ц79.
Материалы международных и всероссийских конференций:
35. Сумин В.И. Анализ основных параметров функционирования охранных систем / В.И. Сумин, А.Н. Голубинский // Всероссийская конференция УИнтеллектуальные информационные системыФ: Сборник трудов. - Воронеж:
ВГТУ, 1999. - С. 193Ц194.
36. Ролдугин С.В. Расчет параметров стохастической модели речевого сигнала / С.В. Ролдугин, А.Н. Голубинский // VI Международная открытая научная конференция УСовременные проблемы информатизации в технике и технологияхФ: Сборник трудов. - Воронеж: ВЭПИ, 2001. - С. 25.
37. Маршаков В.К. Идентификация речевого сигнала на основе его авторегрессионной модели / В.К. Маршаков, С.В. Ролдугин, А.Н. Голубинский // VII Международная научно-техническая конференция УРадиолокация, навигация, связьФ. - Т. 1. - Воронеж: ВНИИС, 2001. - С. 266Ц272.
38. Голубинский А.Н. Формирование тестового речевого сигнала, используемого для исследования блоков ЦСЧ / А.Н. Голубинский, С.В. Ролдугин // Всероссийская научно-практическая конференция УСовременные проблемы борьбы с преступностьюФ: Сборник материалов. - Воронеж: ВИ МВД России, 2003. - С. 35Ц36.
39. Голубинский А.Н. К вопросу об одной модели речевого сигнала для верификации личности по голосу / А.Н. Голубинский, С.В. Ролдугин // Всероссийская научно-практическая конференция УСовременные проблемы борьбы с преступностьюФ: Сборник материалов. - Воронеж: ВИ МВД России, 2005. - С. 26Ц27.
40. Голубинский А.Н. Анализ результатов идентификации личности по голосу Уна слухФ / А.Н. Голубинский // V Всероссийская научно-практическая конференция УОхрана, безопасность и связьФ: Сборник материалов. - Воронеж:
ВИ МВД России, 2005. - C. 65Ц66.
41. Голубинский А.Н. Алгоритм оценки частоты основного тона речевого сигнала корреляционным методом / А.Н. Голубинский // Международная научнопрактическая конференция УСовременные проблемы борьбы с преступностьюФ: Сборник материалов. - Воронеж: ВИ МВД России, 2006. - С. 39Ц40.
42. Голубинский А.Н. Алгоритм оценки частоты основного тона и обертонов речевого сигнала спектральным методом / А.Н. Голубинский // Международная научно-практическая конференция УСовременные проблемы борьбы с преступностьюФ: Сборник материалов. - Воронеж: ВИ МВД России, 2006. - С. 41Ц42.
43.Голубинский А.Н. О расчете параметров модели речевого сигнала в виде импульса АМ-колебания с несколькими несущими / А.Н. Голубинский // Международная научно-практическая конференция УСовременные проблемы борьбы с преступностьюФ: Сборник материалов. - Воронеж: ВИ МВД России, 2006. - С. 43Ц44.
44. Голубинский А.Н. О модели речевого сигнала для верификации личности по голосу / А.Н. Голубинский // XV Международная научная конференция УИнформатизация и информационная безопасность правоохранительных органовФ:
Сборник трудов. - М.: Академия управления МВД России, 2006. - С. 341Ц346.
45. Голубинский А.Н. О методах аппроксимации экспериментальных данных и построения моделей / А.Н. Голубинский // Международная научнопрактическая конференция УОбеспечение общественной безопасности в Центральном федеральном округе Российской ФедерацииФ: Сборник материалов. - Ч. 4. - Воронеж: ВИ МВД России, 2007. - С. 74Ц77.
46. Голубинский А.Н. Об интерпретации модели речевого сигнала, в виде импульса АМ-колебания с несколькими несущими частотами, на основе физических принципов речеобразования / А.Н. Голубинский // Международная научно-практическая конференция УПреступность в России: состояние, проблемы предупреждения и раскрытия преступленийФ: Сборник материалов. - Ч. 2. - Воронеж: ВИ МВД России, 2008. - С. 75Ц80.
47. Голубинский А.Н. Разработка алгоритма верификации личности по голосу на основе математической модели речевого сигнала в виде импульса АМколебания с несколькими несущими частотами / А.Н. Голубинский, Ю.А.
азукин // Международная научно-практическая конференция УОбеспечение законности и правопорядка в странах СНГФ: Сборник материалов. - Ч. 2. - Воронеж: ВИ МВД России, 2009. - С. 56Ц62.
48.Голубинский А.Н. Перспективы разработок математических моделей речевых сигналов / А.Н. Голубинский // ХV Международная открытая научная конференция УСовременные проблемы информатизации в экономике и обеспечении безопасностиФ: Сборник трудов. - Воронеж: УНаучная книгаФ, 2010. - C. 68Ц71.
49. Голубинский А.Н. Точность метода оценки частоты основного тона речевого сигнала при использовании полигармонической математической модели / А.Н. Голубинский, О.М. Булгаков // VII Международная научнопрактическая конференция УАктуальные вопросы современной наукиФ:
Сборник научных трудов. - Таганрог, 2010. - С. 219Ц224.
50. Голубинский А.Н. Оценка вокализации речевого сигнала на основе его коэффициента корреляции / А.Н. Голубинский, О.М. Булгаков // I Международная научно-практическая конференция УНаука и современностьФ: Сборник материалов. - Ч. 2. - Новосибирск, 2010. - С. 83Ц88.
51.Голубинский А.Н. К расчету параметров математических моделей речевых сигналов, построенных на основе модуляционной теории / А.Н. Голубинский, О.М. Булгаков // XVI Международная научно-техническая конференция УРадиолокация, навигация, связьФ. - Т. 1. - Воронеж: НПФ УСаквоееФ, 2010. - С. 69Ц77.
52. Голубинский А.Н. Модифицированный метод оценки частоты основного тона речевого сигнала на основе полигармонической модели при использовании предварительной фильтрации / А.Н. Голубинский, О.М. Булгаков // XVI Международная научно-техническая конференция УИнформационные системы и технологииФ: Сборник материалов. - Нижний Новгород, 2010. - С. 14Ц15.
53. Голубинский А.Н. Обобщенная математическая модель речевого сигнала в виде импульса колебания с амплитудно-частотной модуляцией / А.Н. Голубинский, О.М. Булгаков // Общероссийская научная конференция УАктуальные вопросы современной науки и образованияФ: Сборник материалов в научном журнале УВ мире научных открытийФ. - №3. - Красноярск, 2010. - С. 62Ц65.
54. Голубинский А.Н. Мера различимости для верификации личности по голосу на основе модуляционной полигармонической математической модели / А.Н. Голубинский, О.М. Булгаков // Международная научно-техническая конференция УНаука и образование - 2010Ф: Сборник материалов. - Мурманск, 2010. - С. 168Ц171.
55. Голубинский А.Н. К вопросу о потенциальной точности оценки частоты основного тона речевого сигнала при оптимальной временной обработке / А.Н. Голубинский, О.М. Булгаков // Международная научно-практическая конференция УОбщественная безопасность, законность и правопорядок в III тысячелетииФ: Сборник материалов. - Ч. 3. - Воронеж: ВИ МВД России, 2010. - С. 19Ц24.
56. Голубинский А.Н. Система аутентификации личности по голосу на основе математической модели речевого сигнала / А.Н. Голубинский, О.М. Булгаков // XXIII Международная научная конференция УМатематические методы в технике и технологияхФ: Сборник трудов. - Т. 6. - Саратов, 2010. - С. 19Ц22.
57. Голубинский А.Н. Метод оценки формантных частот, основанный на полигармонической математической модели речевого сигнала / А.Н. Голубинский, О.М. Булгаков // XXII сессия Российского акустического общества:
Сборник трудов XXII сессии РАО. - Т. 3. - М.: ГЕОС, 2010. - С. 32Ц35.
Подписано в печать __.__.2010. Формат 6084 /16. Усл.-печ. л. 2. Тираж 100 экз. Заказ № ___.
Воронежский институт МВД России. 394065, г. Воронеж, пр. Патриотов, 53.
Авторефераты по всем темам >> Авторефераты по техническим специальностям