76 XII-th International Conference Knowledge-Dialogue-Solution June 20-25, 2006, Varna (Bulgaria) P R O C E E D I N G S FOI-COMMERCE SOFIA, 2006 2 XII-th International Conference Knowledge - Dialogue

Книги по разным темам Pages: | 1 | ... | 74 | 75 | 76 | 77 | 78 | ... | 82 |

i M Х just two different symbols might be in KW and KW. This rule covers four possible types of misspelling i M (the word attempt is used to demonstrate the first three types): (i) attepmt; (ii) atempt; (iii) attembt, and (iv) ozlo. The last type should be considered more attentively. There are two different reasons for this type of misspelling:

I. Problem of symbol recognition. Very often it is simply impossible for the user to distinguish the letter СlТ from the digit С1Т, especially when, for example, the previous symbols are letters but for correct KW digit С1Т need to be typed in, e.g. oz10.

XII-th International Conference "Knowledge - Dialogue - Solution" II. Easier typing. For the user it is easier to press the button 0 once than to press the button 6 three times to enter the letter СoТ in word bonus, because for any reader it is still easy to understand word the b0nus. Another example, when instead of the letter СlТ (pressing the button 5 three times), or СiТ (pressing the button 4 three times) entered digit 1 e.g. tab1e.

Х Similarity of words KW and KW must be more or equal to some Threshold of Similarity (TofS), i M i.e. Smlrt(KW,KW ) TofS. The calculation of Smlrt(KW,KW ) as a percentage is quite simple:

i M i M Smlrt(KW,KW ) = (ACS (KW,KW ) + ACS (KW,KW )) * 2 / ( Length(KW ) + Length(KW ))*100, i M LR i M RL i M i M where ACS (KW,KW ) and ACS stand for Amount of Compared Symbols from Left to Right and LR i M RL Right to Left respectively. For example, for considered words: attepmt; atempt; and attemppt the values of Smlrt(KW,KW ) are as follows:

i M Smlrt(attempt,attepmt) = (4+1)*2/14*100=71.43%, Smlrt(attempt,atepmt)=(2+4)*2/13*100=92.31%, and Smlrt(attempt,attemppt)= (6+1)*2/15*100=93.33%.

Remark: In the result of comparison of words attempt and attemppt from left to right two sequences remain to be compared from right to left: t and pt. That is why ACS (KW,KW ) = 1. The compact RL i M description of first approach to restore KW might be presented in the following manner:

M KW ((KW {KW }) (Smlrt(KW,KW ) TofS)) return(KW ), i i KB i M i where quantifier means exist.

To find out an appropriate value for TofS thousands of BdMs have been tested for three different values of TofS - 50.0%, 75.0%, and 100%. The decreasing of restored KWs are:

6,370 (-1,137) 5,233 (-709) 4,524.

That is caused by type 1 of misspelling (wrong sequence of two letters), because Smlrt(KW,KW ) is i M very sensitive to a wordТs length, e.g. Smlrt(node,ndoe)=50.0%, Smlrt(table,tabel)=60.0%, and Smlrt(axmpridel,amxpridel)=77.78%. In the current version of the algorithm TofS = 75.0% because type 1 misspelling occurs very seldom in short words (i.e. with a length less than 6 characters).

(2) If the previous approach was not success then algorithm is trying to find such KW {KW } that is i KB (i) an initial part of KW, i.e. KW KW, M i M (ii) KW (KW {KW } KW KW ) Select(max(Length(KW )), where quantifier means from all i i KB i M i and Select(max(Length(KW )) stands for Уselect KW with maximum lengthФ, and i i (iii) (Length(KW ) - Length(KW )) (Length(KW ) 2), e.g. airtext airtextww3514.

M i M 14 INo correction. Result of KW correction is shown on Figure 4. To describe the INo correction let us M suppose that pair У81025 cashФ has been entered. This pair has been recognised as BdM because INo {INo } KW {KW } KW {KW } INo {INo }. {INo } = {84025, 86025, 87025, 82085, KWm M INo M KB KB cash 87085, 87023}. It would be not acceptable to advise the user: УPlease try to dial 84025, 86025, 87025, 82085, 87085, or 87023Ф. Instead a heuristic approach is used and might be describe as follows:

Х For each button define a set of Уdirect neighbourФ buttons (DrctN) and a set of Уdiagonal neighbourФ buttons (DgnlN). Given terms easy to explain by example: DrctN(5) = {2, 4, 6, 8} and DgnlN(5) = {1, 3, 7, 8}.

Х Find out the wrongly pressed button. For the considered example, Smlrt(81025,84025)=80%. The same result that we have for INo 86025 and 87025. Thus it is very likely that the wrongly pressed button was 1.

Х Now the right button should be selected. DrctN(1) = {2, 4} and DgnlN(1) = {5} associated with button 1. First of all the right button is searching among DrctN(1). It is easy to see that only button 4 could be the right button and that is why INo 84025 is displayed (see Figure 5).

328 Intelligent Systems Figure 4. KW correction Figure 5. INo correction M The result of testing both KW and INo correction is represented on Figure 6.

Figure 6. Result of Algorithm Testing Remark: In Figure 6 the amount of distinct УStill and All Rejected MessagesФ is displayed and that is why the initial amount of BdM = 34,157 is more than the total amount of tested and corrected messages (33,646). The described algorithm improved BdM recognition by 52.25%.

XII-th International Conference "Knowledge - Dialogue - Solution" Conclusion The recent development in natural language processing has made it clear that formerly independent technologies can be harnessed together to an increasing degree in order to form sophisticated and powerful information delivery vehicles. Written speech, verbal speech and MSM analysis provide complementary functionalities, which can be combined to meet the modern technologies requirements.

Bibliography [1] D.Burns, R.Fallon, P.Lewis, V.Lovitskii, S.Owen, УVerbal Dialogue Versus Written Dialogue*, Proc. of the XI-th International Joint Conference on Knowledge-Dialogue-Solution: KDS-2005, Varna (Bulgaria), 336-244, 2005.

[2] Opinion Research Corporation, www.orc.co.uk.

[3] Tegic Communication, www.tegic.com.

[4] V.A.Lovitskii and K.Wittamore, "DANIL: Databases Access using a Natural Interface Language", Proc. of the International Joint Conference on Knowledge-Dialogue-Solution: KDS-97, Yalta (Ukraine), 282-288, [5] M.R.Quillian, "Word concepts: A theory and simulation of some basic semantic capabilities", C.I.P. working paper 79, Cornegie Inst. of Technol., Pittsburgh, 1965.

AuthorsТ Information Ken Braithwaite - e-mail: ken.braithwaite@2ergo.com Mark Lishman - e-mail: mark.lishman@2ergo.com Vladimir Lovitskii - e-mail: vladimir@2ergo.com David Traynor - e-mail: david.traynor@2ergo.com 2 Ergo Ltd, St. MaryТs Chambers, Haslingden Road, Rawtenstall, Lancashire, BB4 6QX, UK ИССЛЕДОВАНИЕ СТРУКТУРЫ И СВОЙСТВ ОБЪЕКТОВ И ЭЛЕМЕНТОВ СИНТЕЗА ДЛЯ ЗАДАЧИ ОЗВУЧИВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ Юрий Г. Кривонос, Юрий В. Крак, Николай Н. Шатковский Аннотация: Проведен анализ задачи создания систем озвучивания текстовой информации. Описан метод конкатенативного TTS синтеза. Описаны особенности конкатенативных TTS систем.

Предложен выбор объектов и элементов синтеза, представлены их структура и свойства.

Рассмотрены некоторые фонетические, просодические и акустические характеристики естественной речи (для задачи озвучивания украинской речи).

Ключевые слова: озвучивание текстовой информации, синтез естественной речи, объекты и элементы синтеза, просодические характеристики речи.

ACM>

Введение Проблема реализации речевого диалога человека и технических средств - актуальная задача современной кибернетики. Задача озвучивания текстовой информации и создания озвучивающих систем соприкасается с исследованиями в областях математического моделирования, цифровой обработки сигналов, фонетики, морфологии, словообразования и пр.

Достижение ощутимых результатов синтеза речи стало возможным лишь с возрастанием мощности вычислительной техники, а также с развитием математических методов и программных продуктов записи, 330 Intelligent Systems исследования и обработки цифровой звуковой информации. В основу достижений этих результатов положены исследования, проводимые учеными на протяжении 60Ц90-х годов ХХ столетия.

Начиная с 1999 года, для расширения доступа к Сети W3C работал над Моделью речевого интерфейса (Speech Interface Framework), которая позволит людям взаимодействовать, используя телефонную клавиатуру, устные команды, прослушивание предварительно записанной речи, синтезированную речь и музыку [W3C].

В середине 80-х была предложена концепция Text-to-Speech (TTS) синтеза. TTS синтез - это компьютерная система, которая любую полученную текстовую информацию, преобразовывает в эквивалентную звуковую речевую информацию, синтезируя новые слова, словосочетания, предложения [Dutoit, 1993].

Общая постановка задачи конкатенативного TTS синтеза речи Технология TTS синтеза позволяет компьютерам преобразовывать произвольный текст в слышимую речь для доставки текстовой информации людям посредством голосовых сообщений. Ключевая цель TTS приложений в системах связи состоит из представления голосом текстовых сообщений. [Cox, 2000] В последнее время увеличивается количество попыток ее решения, большинство достигнутых результатов связаны с концепцией конкатенативного Text-to-Speech синтеза.

Популярность данной концепции заключается в том, что в основе такого синтеза лежат естественные, произнесенные диктором, коренным носителем языка, элементы речи. Это приводит к достаточно высокому уровню естественности звучания синтезированной речи.

Сначала обрабатывается входящая текстовая информация (ТИ). Выделяются признаки и параметры конкатенативного синтеза, проводится анализ и сегментация текста на текстовые элементы синтеза (начиная аллофонами, заканчивая сложными сегментами синтеза - в зависимости от конкретного TTS метода) [Кривонос, 2005].

Операции, находящиеся в модуле цифровой обработки сигнала, являются компьютерным аналогом динамического контроля артикуляторних мышц и вибрирующей частоты голосовых связок таким образом, что выходящий сигнал подбирает входящие условия. Для того чтобы сделать это правильно, модуль обработки цифрового сигнала должен некоторым образом учитывать ограничения, поскольку для понимания фонетические переходы важнее чем постоянные состояния [Крак, 2005].

Согласно проведенному анализу необходимые звуковые элементы (эквивалентные текстовым) синтеза речи (заблаговременно, согласно определенной конкретной конкатенативной системы синтеза, записанные реальные речевые сигналы) поддаются обработке методами обработки звуковых элементов.

Обработанные речевые звуковые сигналы поступают на блок озвучивания звуковых элементов, где и происходит генерация выходящего звукового сигнала [Кривонос, 2005].

Схематически работа конкатенативных систем TTS синтеза представлена на рисунке.

Вх. ТИ Обработка Математическая и База звуковых входящей ТИ алгоритмическая речевых элементов обработка синтеза и / или звуковых правил их элементов синтеза построения Анализ и Озвучивание Вых. звук сегментация ТИ созданных системой речевых звуковых элементов синтеза Рисунок. Этапы работы конкатенативной системы озвучивания текстовой информации согласно концепции TTS синтеза XII-th International Conference "Knowledge - Dialogue - Solution" Особенности конкатенативных TTS систем Системы конкатенативного синтеза оперируют минимальными речевыми данными - конкатенируемыми элементами синтеза. Здесь принципиальным есть выбор элементов синтеза, от которых будет зависеть естественность звучания, разрывность и разборчивость синтезированной речи.

Такие системы имеют ряд особенностей:

1. Удобство получения информации для озвучивания - данные поступают в виде текстовой информации, которую можно произвольно обрабатывать - размечать, сегментировать, структурировать и пр.

2. Относительная простота концепции - происходит лишь сегментация и конкатенация текстовых и, соответственно, звуковых данных.

3. Математические методы обработки стыков конкатенированных речевых сигналов, с одной стороны, имеют общую основу, а с другой - под каждую конкретную систему разрабатываются отдельно, с учетом ее специфики. Это еще больше повышает естественность звучания синтезируемой речи.

4. Высокий уровень естественности звучания синтезированной речи объясняется тем, что в основе синтеза лежат естественные, произнесенные диктором элементы речи.

5. Высокая скорость работы систем конкатенативного синтеза возможна благодаря мощности современного аппаратного обеспечения и развитию программного, что позволяет осуществлять операции конкатенации цифровых звуковых речевых сигналов с их последующим озвучиванием в режиме реального времени.

6. Удобство обработки и доступность элементов синтеза. Поскольку, все элементы синтеза представляют собой цифровые звуковые файлы, это дает возможность обрабатывать (нормализировать амплитудную составляющую, удалять шумы из рабочего сигнала, изменять частотный спектр и т.п.) конкретные сигналы без угрозы изменения всех речевых данных системы в целом.

7. Структура модуля конкатенации определяется размером и размерностью базы данных естественных звуковых речевых элементов, поскольку, непосредственно зависит от естественных данных, тем самым обеспечивая высокую естественность звучания сгенерированной речи. Поэтому при повышении естественности звучания синтезированной речи будет возрастать и размерность элементной базы синтеза [Hess, 1992].

8. Системы конкатенативного синтеза манипулируют речевыми сигналами как совокупностями речевых элементов. Поэтому для повышения уровня естественности звучания сгенерированных звуковых сигналов необходимо такую структуру сегментации / конкатенации естественных речевых элементов, которая бы учитывала и использовала признаки естественности звучания речевых сигналов [Крак, 2005].

9. Поскольку при синтезе речевых сигналов непосредственно используются реальные речевые данные, то для создания и повышения эффективности работы систем сегментации речевой информации необходимо уделить особое внимание исследованию языковедческой теории - разделам фонетики и словообразования [Крак, 2005].

Выбор объектов и элементов синтеза, их структура и свойства Задачу синтеза естественной речи в ключе конкатенативного TTS синтеза можно рассматривать как задачу озвучивания произвольной текстовой информации, что, с одной стороны, несколько упростит постановку, а с другой - позволит применить большее количество методов цифровой обработки сигналов, учесть многие результаты фонетических исследований8 на уровне конкретных речевых звуковых сигналов.

Произношение слов изменяется в направлении все большего отождествления их с буквами. Это обусловлено тем, что в памяти человек сохраняет слова и представляет их не столько в звуковой, сколько в графической оболочке - этому способствует процедура приобретения знаний (общеобразовательная и высшая школа), где необходимо больше читать и писать, чем говорить [Ющук, 2004].

Pages: | 1 | ... | 74 | 75 | 76 | 77 | 78 | ... | 82 |

Книги по разным темам