Машины, которые говорят и слушают

Реферат - Компьютеры, программирование

Другие рефераты по предмету Компьютеры, программирование

ю систем автоматического речевого вывода ведется в нашей стране в широком диапазоне - от фо" немных синтезаторов до словесных и даже фразовых временных компиляторов.

Если в работах первого направления, при которых фонема рассматривается как набор заданной последовательности движения артикулятороа в артикулчторной программе, стремятся к компактности представления генерируемого речевого сообщения и универсальности, обеспечивающей речевое отображение произвольной текстовой информации, то в компилятивных временных синтезаторах второго направления делается упор на разборчивость и естественность скомпилированных высказываний (в ущерб универсальности и компактности представления сигнала).

Одним из наиболее типичных синтезаторов параметрического типа является ортогональный синтезатор речи [48] . Синтезатор предназначен для выцачи голосом из ЭВЫ в телефонный канал счетов-справок о стоимости состоявшихся междугородных переговоров городской телефонной сети. Речевой сигнал (слово ограниченного по объему словаря) представлен временными изменениями параметров сигнала - логарифмов огибающей амплитудных спектров. Речевые ответы (фразы) вначале формируются в виде списков номеров слоя, речевые эквиваленты которых затем посегментно объединяются и выводятся на синтезатор. Отмечается, что разборчивость синтезируемых фраз близка к 100%, скорость вывода речевого сигнала на синтезатор равна 12 бит/с.

При артикуяяторно-форматном синтезе речи по печатному тексту L6.^] в качестве минимального артикуяяторного компдйкса

72

используется элементарный слог, представленный набором артикуля-торных команд способа и места образования входящих в него фонем. Процесс реализации слога делится на три основные фазы: переходная фаза от предыдущего слога к данному, фаза реализации согласной фонемы и фаза реализации гласной. Синтезатор учитывает просодические характеристики естественной речи, а также то обстоятельство. что в ней могут встретиться сочетания согласных и гласных фон-эы. Система синтеза в последнем случае вводит фиктивные согласные и гласные, разбивая речевой поток не слоги,причем фиктивным звукам приписывается длительность, равная нулю. Для автоматического задания интонационных характеристик фраз в синтезируемой текстовой информации выделяются ранжированные единицы:

фраза, синтагма, фонетическое слово, слог. При автоматической обработке синтезируемого текста определяется число единиц ранга К в единице ранга K-I, номер логически выцеденной единицы ранга К, а также тип интонации.

Для моделирования алгоритмов синтеза использовалась универсальная мини-ЭВМ, обдацаищая быстродействием 200 тыс. операций в I с и оперативной памятью 16 кбайт. Объем программ нодедм синтеза речи составляет 1200 32-разрядных команд. В настоящее время принципы технической реализации артикуляционного синтезатора легли в основу разработки стандартного устройства речевого вывода с микропроцессорным управлением для ЕС ЭВМ [б] . Появились первые синтезаторы, основанные на параметрах линейного предсказания [55,78].

В нашей стране и за рубежом появляется также интерес к устройствам речевого вывода, основанным на компиляции речевого сигнала, соответствующего фразам, из более мелких отрезков речевой волны: слов, слогов, аллофонов ['44,96]. Подобные синтеза-Юры предназначены для информирования пользователей ограниченным количеством типов фраз, часто вполне достаточным. Большие же затраты памяти для хранения в цифровом виде элементов, из которых формируются фразы, не так страшны, потому что новые виды запоминающих устройств (например, на цилиндрических магнитных до-хенах) позволят хранить в малых объемах десятки мегабайт. В СССР работы по компиаятивному выводу ориентированы на использование в качестве основного элемента синтеза как слов, так и схо-^в. Предполагается, что такой синтезатор компилятивного типа ^УДет изготовлен серийно.

Зак.480