Машины, которые говорят и слушают
Реферат - Компьютеры, программирование
Другие рефераты по предмету Компьютеры, программирование
раз завершается повышением тона (нарастающей каденцией ffC ), а завершающая предложение фразе - снижением частоты основного тона (финальная каденция FC ). Дня каждого слова фразы можно найти один ритмозадающий ударный слог, а для каждой фразы - одно слово, которое несет главное, смысловое ударение Ml . Позиция гласного в ударном слоге этого саова 1^,, , определяющем ударение, дает начальную точку двух различных типов частоты основного тона /д . Характер
60
affix Jfl к&чаственн0 определяется типом каденции ( /ус-тип или pC-isW) 1 количественно - другими факторами, такими, как длина гвсного или позиция главного ударения во фраае.
В доподнение к каденции, на изменение /^ влияют основное И вторичное ударения ( S и SS ). Во фразах слитной речи ударе-ijgg появляются тогда, когда необходимо выделить некоторые олова (дроиэнести их бояее выразительно) или когда в беглой речи о^вдиняютоя две последовательные фразы с нарастающей каденцией. Яде обоих типов ударений находится характер изменения основного тона ( S-vw f^ ) на участках, начальные точки которых определяются позицией гласных ударных слогов.
Естественная речь большинства дикторов характеризуется постепенным снижением частоты основного тона (примерно, на полтона lie) от начала к концу фразы. (При формировании синтетической речи это следует учитывать, так как речь с постоянной f, неприятна на слух, монотонна.) На этот основной тип /д нак-хддюаются НС-, FC- и Я-тилы основного тона. Нарастающая ка-данция характеризует возрастание f в конце гласного V^, , не-суцего основное ритмическое ударение ( the main ) Для точной идентификации типа /д необходимо различать два случая)
а) V^i - последний звонкий звук фразы;
б) наличие других звонких между Ущ и концом фразы.
Исследования показали, что в обоих случаях частота основного тона нарастает по синусоидальному закону, но ъ одучае а) время нарастания 120 мо, а в случае б) - 190 мо.
Частота fy возрастает от двух до четырех полутонов. Поо-ае того, как f, достигнет верхней границы (по синусоиде), она продолжает медленно возрастать по линейному закону оо скоростью оолтона в I о. Абсолютные отклонения частоты Af естественной речи сильно меняются от диктора к диктору. Ддя синтетической рвр| однако эти отклонения не должны быть слишком велики. Если -ажду главным ритмическим ударением и концом фрааы содержится ЧНогосложное слово, то часто (например, в одучае ударения на червой части длинного составного слова) возникает вторичная каден-4W SC в ритмическом ударении последнего олова или части слова эов фразы. Начало и- длительность вторичной каденции соответот-вуеэ этим параметрам главной каденции, но отклонение частоты Никогда не превышает полутона.
При объединении фраз, име'"'аих нарастающую каденцию, частота 7 яосле возрастания на конце первой фразы начинает оинусоидадь-"0 уменьшаться на границах между фразами. Сяад частоты начина-
1)ЙйуМоп80 мс ifiP начала второй фразы и имеет общую длительность, -""ую 190 мс. Далее f продолжает уменьшаться ооТторосгыо пол-
'на в I с. ^
В конечных фразах синтезируемого высказывания, где существует каденция типа FC, в начале фраз fg соответствует частоте основного тона, которая определяется предшествующей нарастающей каденцией. Однако за 80 мс до начала гласного ^.определяющего главное ритмическое ударение, /д начинает синусоидально уменьшаться в течение 190 мс до величины, равной двум полутонам по отношению к основному тону в начале предложения. Далее f продолжает уменьшаться со скоростью полтона в I с, пока не закончится предложение.
Изменение основного тона на ударных слогах зависит от того, какой гласный содержит ударный слог: короткий или длинный. В обоих случаях 5-тип основного тона состоит из нарастающего и падающего участков. Это нарастание начинается за 80 мс до начала гласного и продолжается для коротких слогов 160 мс,для длинных - 240 мс. Такое же время продолжается и синусоидальный спад для слогов первого и второго типа. В зависимости от силы ударения подъем частоты основного тона лежит в пределах от двух до пяти полутонов, а спад - от полутона до двух полутонов.
Исследования по управлению просодическими параметрами описаны в [122] . В [2, 103, 104, 163] приводятся исследования различных синтаксических структур и их влияние на микро- и макровариации частоты основного тона в английской речи.Результатом исследований был алгоритм, определяющий динамику основного тона синтезированной английской речи. Алгоритм рассматривается как последовательность двух уровней единой системы, формирующей контур основного тона. На первом (высшем) уровне учитывается влияние синтаксической и семантической информации, на втором (низшем) -информации о фонемной цепочке и лексическом ударении (рис.1.3).
оинтаксическаяСистема верхнего уровняПросодическиеСистема нижнего уровняУР в-информация Семантическаяиндикаторыинформация
ФонетическаяJ \ Конт
осно ногоинформация Информация
Рис. 1.3. Структура алгоритма, определяющего динамику основного тона синтезированной речи
62
рассмотрим далее алгоритм, реализующий формирование контура основного тона для высказывания, в общем случав содержащего несколько предложений, каждое из которых разбивается на фразы, состоящие из нескольких слов. Для формирования контура основного тона на вход сис