Машины, которые говорят и слушают

Реферат - Компьютеры, программирование

Другие рефераты по предмету Компьютеры, программирование

>

- последующие согласные укорачивают длительность гласного Ьо сравнению с некоторым средним значением), если за гласным следует глухой взрывной (характеризуемый смычкой), и удлиняют, если за гласным следует звонкий фрикативный; наибольшее влияние на длительность гласных согласные оказывают в предпаузальной позиции;

-.длительность безударных гласных, если они не находятся

в конце слова, составпяет около 40 мс; в конечных позициях они Содее длительны;

51

- дифтонгизация сильно удлиняет гласную;

- на длительность согласных основное влияние оказывают 2 фактора: положение согласной относительно ударного сдога и границ слова или предложения и консонантность окружения;

- длительности консонантных согласных (а именно глухих фрикативных f,s,S) подчинены точному аддитивному правилу, ударение и границы слова действуют как факторы приращения, а согласные , смежные с фрикативными, действуют как фактор укорачивания;

- наибольшее непостоянство длительностей в зависимости от ударения и позиции проявляют переднеязычные согласные t , d, n ',

- звонкие Фрикативные в середине и конце счов значительно короче глухих фрикативных, находящихся в такой же позиции;

- влияние окружающих согласных на длительность конкретной согласной зависит от способа и места их артикуляции; длительность согласной зависит также от степени консонантности ее окружения;

- в связи с этим комбинации двух последовательных согласных, характеризующихся одним и тем же местом артикуляции, проявляют тенденцию к уменьшению длительности обеих, например, пй и nt;

звонкие фрикативные обычно удлиняют соседнкж. согласную;

- длительность плавных и носовых,согласных сильнее других подвергается воздействию смежных согласных с ослыпей степенью консонантности, влияние которых проявляется даже через границы слов;

- начальная согласная функциональных слов (артикля и предлогов) значительно короче, чем в случаях значимых слов;

- легко предсказуемые слова обычно состоят из более коротких гласных и согласных, чем непредсказуемые;

- в английском языке согласные в начале слова могут обладать другими акустическими характеристиками, чем те же согласные в конце слова (это явление называют селективной аллофонией в отличие от позиционно обусловленной адлофонии, связанной с явлением коартикуляции);

- начальные аллофоны (по сравнению с конечными и средними) имеют более сильные консонантные признаки - большую прерывность, четкость интонационных составляющих (основного тона и гармонической структуры) в потоке рачи, более интенсивную шумовую составляющую фрикативных, более сильный взрыв с явным участком аспирации в глухих взрывных и т.п.; эти свойства начальных аллофонов нвняются признаками начала сообщения, обычно слова.

В С89] рассмотрены и некоторые другие свойства просодии, положенные в о&нову правил преобразования "текст - речь" и обеспечивающие высокую разборчивость и естественность синтетической речи.

52

вГ2] подробно описана лингвистическая и фонетическая сторона паботы, которую необходимо выполнить при реализации качественного синтеза речи по произвольному тексту. Важнейшими этапами иссяедований здесь являются:

- создание более совершенной модели речевого тракта;

- определение более полного набора абстрактных правил лингвистического описания текста;

- разработка полного свода правил, позволяющих вывести фонетические описания по правилам лингвистического описания текста (дравид преобразования букв в звуки);

- формализация морфофонематичаских правил и правил лексического ударения, которые дают на уровне слов окончательную коррекцию цепочки фонем (аллофонов);

- грамматический анализ предложений, раскрывающий иерархическую природу их построения для определения правильности интонационного контура;

- более тщательное иосдедование просодических коррелят лингвистических структур.

Отметим особую важность создания хорошей модели речевого тракта, параметры которой изменяются в соответствии с правилами ре-чвобразования. Хорошая модель позволяет существенно онизить объем информации, описывающей форму речевого сигнала (вырабатываемого на Мходе модели из небольшого числа параметров), а также более глубоко и еотеотвенно описать речевые явления. При параметрическом синтезе информация о фонемах (аллофонах) запоминается в виде комплекса параметров и правил модификации отих параметров под влиянием различных ограничений. В связи о этим для повышения качества синтеза необходимы структурные модели, отражающие ащ ограничения на различных уровнях - артикуляторном, дистрибутивом, словообразовательном, синтаксическом и семантическом. Эти иодеди должны координироваться гибкой структурой управления,обео-почивающей их взаимодействие.

Для повышения естественности и разборчивости речи, генерируе-"ой форматными синтезаторами, в [176 ] предлагается использовать вычисление форматных параметров на более коротких интервалах, что позволяет улучшило синхронный с основным тоном анализ. 1домен-т^ смыкания голосовых связок характеризуются импульсным воабужде" нием. На первом этапе анализа оцифрованной волны такие точки воз-Й<дения легко выделяются (со средней точностью) процедурой пи-Чового детектирования. (Во время шумового возбуждения эти точки ^определяются случайно, тогда как при возбуждении речевого сиг-