Применение скрытых моделей Маркова для распознавания речи 1 Частные случаи скрытых моделей Маркова, наиболее подходящие для моделирования речи Модель Бакиса (Left-to-Right).

12 34 a11 a12 a13 a14 0 a22 a23 a24 1 - j = 1 A = = j 0 0 a33 a34 0 - j > 1 0 0 0 a44 = (A, B) 2 Частные случаи скрытых моделей Маркова, наиболее подходящие для моделирования речи Left-to-Right модель с параллельными путями 4 2 1 3 6 5 1 - j = 1 = = (A, B) j 0 - j > 1 3 Частные случаи скрытых моделей Маркова, наиболее подходящие для моделирования речи Полунепрерывные модели - состояния являются дискретными, а наблюдаемые объекты характеризуются плотностью распределения.

a33 a55 a11 a22 a44 a23 a34 a45 a12 b3(x) b5(x) b1(x) b4(x) b2(x) 1 if j = 1 M -Vm)2 = bj (X ) = j C exp - (X m jm 2 m=1 0 if j >1 Vm - векторы из кодовой книги (центры кластеров) Cjm - настраиваемые коэффициенты m 4 - размер кластера Использование линейной комбинации распределений Гаусса для моделирования наблюдаемых сигналов M Vm - вектор из кодовой книги X -Vm bj (X ) = C exp - () jm m - размер соответствующего кластера m= m 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.35 0. 0.35 0. 0.35 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0 0 0 0 0 0 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 V1 = 2, 1 = 1 V2 = 4, = 1.6 V3 = 6, 3 = 0. V1 = 2, 1 = 1 V2 = 4, = 1.6 V3 = 6, 3 = 0. 1 1.4 4. 1 1.4 4. 1 1.4 4. 0. 0. 0. 1. 1. 1. 0. 0. 0. 3. 3. 3. 0. 0. 0. 0. 0. 0. 0. 0. 0. 2. 2. 2. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0 0 0 0 0 0 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 C1 = C2 = C3 = 1 C1 = C3 = 1, C2 = 2 C1 = 10, C2 = 4, C3 = C1 = C2 = C3 = 1 C1 = C3 = 1, C2 = 2 C1 = 10, C2 = 4, C3 = C1 = C2 = C3 = 1 C1 = C3 = 1, C2 = 2 C1 = 10, C2 = 4, C3 = Устройство распознающей системы i = Ai, Bi, Ni Для каждого слова из словаря - своя модель ( ) a11 a a11 a22 ai-1,i- a11 a22 ai-1,i- a11 a22 ai-1,i- aN, N aN, N aN, N a a a a a a a a ai-1,i ai-1,i ai-1,i 1 = (A1, B1) 1 = (A1, B1) Word Word N N N a11 a a11 a22 ai-1,i- a11 a22 ai-1,i- a11 a22 ai-1,i- aN, N aN, N aN, N 2 2 2 a a 2 = (A2, B2) a 2 = (A2, B2) a a a a a ai-1,i ai-1,i ai-1,i Word Word N N N a11 a a11 a22 ai-1,i- a11 a22 ai-1,i- a11 a22 ai-1,i- aN, N aN, N aN, N K K K K K K a a K = (AK, BK ) a K = (AK, BK ) a a a a a ai-1,i ai-1,i ai-1,i Word K Word K NK NK NK Настройка модели (для каждого слова) Векторы из Векторы из Номер Звуковая Наблюдаемая Номер Звуковая Наблюдаемая кодовой книги кодовой книги диктора волна последовательность диктора волна последовательность 1 1 1 1 1 1 1 1 O1O2 ЕOT V11V21ЕVT Speaker 1 O1O2 ЕOT V11V21ЕVT Speaker 1 O1O2 ЕOT V11V21ЕVT Speaker 1 O1O2 ЕOT V11V21ЕVT 1 1 1 1 2 2 2 2 Speaker Speaker Speaker O12O2 ЕOT V12V22 ЕVT O12O2 ЕOT V12V22 ЕVT O12O2 ЕOT V12V22 ЕVT O12O2 ЕOT V12V22 ЕVT 2 2 2 2 ЕЕЕЕ.

ЕЕЕЕ.

K K K K K K K K Speaker K Speaker K Speaker K O1KO2 ЕOT V1KV2K ЕVTK O1KO2 ЕOT V1KV2K ЕVTK O1KO2 ЕOT V1KV2K ЕVTK O1KO2 ЕOT V1KV2K ЕVTK K K K K K K K K Определение числа состояний модели ДВА -> _ _ Д _ ДД ДДВ ДВВ ВВА ВАА АА _ А _ _ a11 a a11 a a a a a _ _ Д _ _ Д a11 a a11 a a a a a _ ДД _ ДД N= 2 x (число триплетов).

ЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕ ЕЕЕЕЕЕЕЕЕЕЕЕЕЕЕ Е Е a11 a a11 a a a a a А _ _ А _ _ a11, a12, a a11 a22 a a11, a23 a a Настройка модели Выбор начального приближения для вероятностей перехода ajj aii aij i, j = i + - два соседних состояния, Nij - число попаданий Ot в состояние Si при условии попадания Ot+1 в состояние S.

j Ni - общее число попаданий Ot в состояние Si.

Nij - начальное приближение для вероятностей перехода ij = Ni Настройка модели Выбор начального приближения для коэффициентов Гауссовой смеси M X -Vm bj (X ) = C exp - () jm m m= Подсчитаем частоты появления векторов из кодовой книги в выбранном j -м состоянии V1 - встретился в состоянии j r1 раз, V2 - встретился в состоянии j r2 раза, и т.д., Отсортируем в порядке убывания: rk rn Е и выберем из них M первых векторов.

rm Тогда Cjm =, M r i i= а - квадратичное отклонение векторов, попавших в состояние S, от Vm.

m j Переоценка параметров (Алгоритм Баума-Уэлша) Формулы переоценки параметров Марковской модели:

T T - ( j) t (i, j) t t= t= ot =k ij = T - bj (k) = T (i) t ( j) t t= t= В процессе применения этих формул могут быть только два случая:

1. P(O > P(O ) - правдоподобность появления данной ) последовательности наблюдений для модели с переоцененными параметрами выше, чем для исходной модели.

2. - точка экстремума = Алгоритм распознавания (Модифицированный алгоритм Витерби) O =o1,o2,Е,oT Новое слово 1. Предварительные преобразования:

bj (ot ) logbj (ot ), 1 j N, aij log aij, 1 i N, 1 j N.

2. Инициализация.

1(i) =bi (o1), 1 i N.

3. Индуктивный переход.

( j) = max[ (i) + aij ]+ bj (ot ), 1 j N, 2 t T, t t- 1iN 4. Останов.

P = max[T (i) ] - наибольшая вероятность наблюдения 1iN последовательности o1o2 ЕoT, которая достигается при прохождении некой * оптимальной последовательности состояний Q =(q1,Е, qT ).

Алгоритм распознавания O =o1,o2,Е,oT Новое слово a11 a a11 a22 ai-1,i- a11 a22 ai-1,i- a11 a22 ai-1,i- aN, N aN, N aN, N a a a a a a a a ai-1,i ai-1,i ai-1,i 1 = (A1, B1) 1 = (A1, B1) P O W1 = P* O ( ) ( ) Word Word N N N a11 a a11 a22 ai-1,i- a11 a22 ai-1,i- a11 a22 ai-1,i- aN, N aN, N aN, N 2 2 2 a a 2 = (A2, B2) a 2 = (A2, B2) a a a a a ai-1,i ai-1,i ai-1,i P O W2 = P* O ( ) ( ) Word Word N N N.

a11 a a11 a22 ai-1,i- a11 a22 ai-1,i- a11 a22 ai-1,i- aN, N aN, N aN, N K K K K K K a a K = (AK, BK ) a K = (AK, BK ) a a a a a ai-1,i ai-1,i ai-1,i Word K Word K P O WK = P* O K ( ) ( ) NK NK NK Повышение апостериорной вероятности распознавания P O Wi - найденная вероятность совпадения с i-мсловом ( ) P Wi - вероятность (частота) появления i-го слова ( ) - номер наиболее похожего слова i = arg max P O Wi P Wi ( ) ( ) i Книги, научные публикации

Blog