Пресс-служба фракции «Единая Россия» Госдума РФ

Вид материалаДокументы

Содержание


НЕ ВСЯКО СЛОВО ЛОЖИТСЯ В СТРОКУ. Парламентская газета, Зенькович Ольга, 26.01.2006, №14, Стр. 12
Цифры и факты
Подобный материал:
1   ...   15   16   17   18   19   20   21   22   ...   49

НЕ ВСЯКО СЛОВО ЛОЖИТСЯ В СТРОКУ.

Парламентская газета, Зенькович Ольга, 26.01.2006, №14, Стр. 12


Важно решить задачу распознавания речи. В идеале это выглядит так: вы диктуете, а текст тут же появляется на экране монитора. А голубая мечта журналиста - чтобы система могла прослушать диктофонную запись, расшифровать и сохранить в виде текстового файла. Но эта задача так же далека от решения, как и в 50-е годы, когда была поставлена.

"Избушка-избушка, повернись к лесу задом, ко мне передом" , - обращался к неодушевленному предмету на куриных ножках добрый молодец. Избушка слушалась. В сказках проблемы голосового управления неодушевленными предметами давно решены. Но то в сказках, а как дело обстоит в действительности?

Полвека назад, после успехов модной науки кибернетики, многие полагали, что с компьютером можно будет общаться на человеческом языке уже через 10-15 лет. В 90-е годы Билл Гейтс громко заявил, что через пять лет компьютер начнет понимать человека. Но сроки все отодвигаются. Почему?

Речевые технологии объединяют несколько задач: распознавание речи, средства речевого управления, синтез голоса, идентификация по образцу речи. Причем две последние уже успешно решаются, где это необходимо. Специалисты уверяют, что на самом деле нет никакой необходимости использовать по-настоящему синтезированный голос. Например, когда вы звоните по заветному номеру узнать, сколько денег осталось на счете, вам отвечает голос "железной леди". Но и в этом случае используется автоматическое комбинирование заранее записанных слов, произнесенных живым диктором. По той же схеме разговаривают столь любимые детьми роботы-игрушки.

Для криминалистики и биометрии идентификация по образу речи - очень важная вещь. Она стоит в одном ряду с любой другой биометрической задачей - идентификацией по отпечаткам пальцев, радужке глаза. Эта задача тоже худо-бедно решается. В остальных случаях идентификация по образу речи переходит в задачу голосового управления. А вот здесь дела обстоят намного хуже.

В основе всех средств распознавания речи лежит представление о том, что устная речь разбита на смысловые единицы, фонемы - минимальные элементы слова, связанные со смыслом. В 40-50-е годы появились технические средства, позволяющие анализировать спектральный состав речевого сигнала. И инженерам тогда казалось, что все очень просто: стоит идентифицировать характерные признаки отдельных фонем, про которые лингвисты, казалось бы, все знают, - и потом остается лишь складывать их в слова. Но на практике оказалось, что все не так уж и легко.

Во-первых, теорий фонем существует множество. В русском языке по одним теориям 43 фонемы, по другим - 64, по третьим - более сотни. Но их может быть и больше. Некоторые исследователи полагают, что предлог "с" в сочетаниях "с мамой" , "с тетей" , "с щипцами" обозначает как минимум три разные фонемы. Кроме того, нельзя уверенно различить согласные "б" , "п" , "т" или звук "м" от "н".

Тем не менее исследователи скрестили инженерный подход к анализу звукового сигнала с самообучающимися программами, в результате появились алгоритмы, которые используются в управлении, например, мобильными телефонами в сочетании с гарнитурами hand free. Но многие недостатки преодолеть так и не удалось. Вспомните, как вы, изучая возможности своего нового мобильника, пытались освоить функцию голосового набора и что из этого получилось. Свои команды мы произносим в разное время по-разному, все зависит от настроения, от времени, от здоровья, не говоря уж о том, что голос меняется даже от выпитой бутылки пива. В итоге наши звуковые сигналы не совпадают с сигналами, занесенными в память телефона. Поэтому наши мечты вроде: прихожу домой, кричу "есть хочу" , плита автоматически включается, а к тому времени, пока вы приводите себя в порядок, духовка открывается, и запеченная курица летит на тарелку - пока придется отложить.

Специалисты считают, что намного важнее решить такую задачу, как распознавание речи. В идеале это выглядит так: вы диктуете, а текст тут же появляется на экране монитора. А голубая мечта журналиста - чтобы система могла прослушать диктофонную запись или телефонный разговор, расшифровать их и сохранить в виде текстового файла. Отличие этой задачи от задачи голосового управления состоит в том, что в случае управления можно фиксировать и анализировать целые слова и фразы, не вникая в их смысл. Для того чтобы компьютер смог расшифровать диктофонную запись, нужно не только уметь идентифицировать то или иное выражение, но сначала выделить его из потока слитной речи, а потом еще и понять, о чем говорится. Эта задача так же далека от решения, как и в 50-е годы, когда была поставлена. Инженерно-акустический уровень распознавания смысловых единиц речи - далеко не единственный и даже не самый сложный.

- Акустики говорят: давайте изучим сигнал, посмотрим на его поведение, выделим фонемы или что-то подобное - фоны, акустические события, акустические состояния. Есть люди, которые считают, что распознавание будет хорошим только тогда, когда инженерная часть будет как следует продумана, - говорит заведующий лабораторией Института системного анализа РАН Дмитрий Богданов. - И, на мой взгляд, они продвинулись достаточно для того, чтобы перейти на другой уровень - семантический. И если бы проблемы семантики были решены, то акустического инженерного уровня, с моей точки зрения, хватило бы. Но не стоит забывать о том, что есть еще и математики, и то, что они предлагают, выглядит лучше, чем предложения инженеров-акустиков. Акустики мне напоминают лингвистов, которые говорят: давайте мы каждое слово русского языка опишем статьей, состоящей хотя бы из сотни слов. На все это могут уйти столетия. Истина, как обычно, видимо, находится где-то посередине.

Но что значит семантика в приложении по распознаванию речи? Ведь для построения речи вовсе недостаточно создать грамматически правильное предложение из орфографически верно записанных слов. Классический пример, кочевавший по страницам докладов ученых-лингвистов, - фраза: "Идея яростно спала". Конечно, если придумать контекст, то фраза будет вполне осмысленной, например сделать "идею" именем собственным, а слово "яростно" обозначить как метафору, что-то вроде "беспокойный". Но в общем случае это бессмысленное сочетание. А вот такое формально неграмотное сочетание слов, как "потуши свет" (свет у нас электрический, правильнее было бы его выключать), является вполне нормативным для русского языка выражением. Поэтому так важно для правильного распознавания текста знать, о чем речь, понимать смысл.

Пока же если кому-то уж очень необходим рабочий сервис в жанре "электронного секретаря" , то самый современный работает следующим образом. Идет заседание, которое надо застенографировать. Звуковой поток в реальном времени поступает через Интернет на сервер, где установлена программа распознавания. Программа может построить правильные предложения, но значительную часть слов она все же распознает с ошибками. Эти слова помечаются, а дальше около десятка работников их поправляют, текст посылается обратно и в виде бегущей строки отображается на экране у всех заинтересованных лиц. Это позволяет в реальном времени получить стенограмму заседания, сохранить ее в базе, разослать по всем нужным адресатам. К сожалению, такая система разработана только для американского английского.

***

ЦИФРЫ И ФАКТЫ

В Госдуме действительных членов различных академий насчитывается 64 человека. Из них примерно 30 академиков и около 17 членов-корреспондентов. В нижней палате парламента заседают почти полсотни профессоров (это не говоря уж о почетных профессорах), 19 доцентов и даже 3 старших научных сотрудника.