Машины, которые говорят и слушают

Реферат - Компьютеры, программирование

Другие рефераты по предмету Компьютеры, программирование

#167; I.<i. Современные тенденции построения практических систем распознавания речи

В середине 70~х гг. получили распространение системы распознавания речи, предназначенные для промышленного использования. Важнейшие требования к таким системам - высокая точность и реальное время распознавания высказывания. Постепенно стал накапливаться опыт эксплуатации подобных систем, который определил их дальнейшее развитие. Первые практические системы автоматического речевого ввода информации обладали рядом положительных свойств, необходимых для пользователей. Мартин [&8] отмечает, что к таким свойствам можно отнести мобильность и возможность совмещения работ оператора, гибкость словаря, 100% точность распознавания (при использовании обратной связи), стабильность эталонных данных и уверенность оператора, контактирующего с системой, обладающей высокой точностью распознавания. Главными недостатками первых систем можно считать длительную подстройку под диктора и словарь, малый объем словаря, отсутствие помехозащищенности от слов, не входящих в рабочий словарь, проблемы фонового шума и шумов дыхания, высокую стоимость и т.д.

Первым широко внедренным устройством систем автоматического речевого ввода данных можно считать vip-ioo, подробно описанное в [58,134] .

В [13б] отмечается использование VXP-100 в конфигурации Threshold -500, которая дает возможность вводить информацию голосом в ЭВМ одновременно трем операторам. Указывается,что средняя точность распознавания слов в этих системах колеблется от 96,5 (для словаря из 35 слов и высокого уровня шумов) до 99,5%

(для словаря из 15 слов и тихого помещения). В [136] рассматривается использование vip - 100 для речевого ввода информации в ЭВМ станков с программным управлением. Отмечается, что для этих целей разработаны три специальные систейн: vw - 50, vno- 100 и virc - 200 с использованием соответственно 31 слова и слитного словосочетания, 4Ь и 65 слов.

Системы VHC -200 применяются для управления четырехшиин-дельными сверлильными станками и лазерами, iопользующимися для обработки полупроводников и сверхтвердых материалов, а также для управления токарными станками. Кроме того, эта система применяется для взаимодействуя с системой искусственного интеллекта и управления голосом.

Данная система используется для технической диагностики компрессоров холодильных установок и при распределении посылок.про-ходящих по конвейеру [П9].

й[П7] описывается использование одной из систем фирмы Threshold Technology для автоматического ввода голосом по телефону гидрографических данных исследования морских акваторий.

Еще одной американской промышленной системой автоматического распознавания изолированных слов является v/RS [l40] . Система предназначена для практического использования в армии и обеспечивает прямую двустороннюю связь между персоналом на передней линии фронта и армейскими информационными системами, использующими автоматическое распознавание слов, идентификацию диктора и его верификацию (подтверждение, тот ли человек разговаривает с системой).

Мини-ЭВМ этой армейской системы полностью обеспечивает автоматизированную обработку сигналов в реальном времени, трансляцию (т.е. автоматическое распознавание) сообщения и синтезированный речевой ответ на три сети связи одновременно для любых трех из 64 пользователей. Рабочий словарь системы 250 слов. Полевой оператор-разведчик оснащ'ен переносным блоком записи донесений для точной записи тактических данных и возможного ввода их по радио или телефонным линиям в армейскую тактическую информационную систему. Для удаленного оператора используются передатчики с частотной модуляцией. Система распознавания слов таз, воспринимая дискретные речевые сообщения (фразы, произносимые в жестком формате пословно), "подсказывает" оператору на каждом шаге, какого рода информацию ждет она от него далее, предварительно подтвердив правильную запись предыцущего донесения.

Жесткий формат фраз определяется специализированным языком точного описания тактических условий в поле деятельности оператора и управления артиллерийским огнем.

Для голосового ответа в '/КЗ используется программно-управляемый звуковой синтезатор фирмы Vocal Interf;ice Division, который позволяет получать цепочки фонем и фонемоподобных звуков в соответствии со смыслом речевого ответа; при этом обеспечивается необходимая модуляция основного тона для большей естественности звучания. Если какой-либо оператор хочет ввести в армейскую тактическую информационную систему донесение после того, как wrs обучалась его речевьм характеристикам, он должен обнаружить канал связи, а затем ввести шесть слов, представляющих' шифр (код) используемой сети, код пользователя и слова завершения.

Хотя система распознавания способна работать автоматически, на стороне v/RS всегда присутствует оператор. Он следит за экраном буквенно-цифрового дисплея, где отражаются донесения,поступающие с трех линий связи. По мере распознавания донесений появляется их буквенный текст. Если донесения полностью удовлетворяют оператора, он передает их для исполнения (и для получения "твердой копии" на бумаге), нажимая на пульте соответствующую клавишу. Оператор может с пульта отредактировать любое . донесение, прежде чем выдать его для исполнения. Оператор может также с пульта управления в тобой момент связаться по радио или телефонному каналу с каждым разведчиком-пользова