Обработка речевых сигналов

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование

что соответствует ослаблению мощности по сравнению с максимумом (25-30 дБ) в 20 и более раз. Это позволяет считать, что полоса пропускания для каналов передачи звуковых сообщений может быть ограничена частотой 4-5 кГц, а, следовательно, частота дискретизации этого сигнала должна составлять 8-10 кГц.

В современных звуковых картах используется импульсно-кодовая модуляция, при которой каждый дискретный отсчет речевого сообщения кодируется в соответствии с некоторыми правилами.

Рассчитано, что для обеспечения соотношения сигнал/шум квантования, равного 36 дБ, требуется не менее семи двоичных разрядов и что для получения высококачественного цифрового кодирования сигнала речи необходимо 11 разрядов. На практике число разрядов определяется разрядность ЭВМ и, как правило, равно или кратно восьми разрядам.

.2 Распознавание и порождение (синтез) речи компьютером

Распознавание и порождение (синтез) речи компьютером является, безусловно, важной проблемой. Десятилетиями ученые и инженеры искали способы, которые позволили бы людям общаться с компьютером так же, как они общаются между собой, а не заставляли человека подстраиваться под способ общения, приемлемый для машины. Много было сделано, но, пожалуй, и на сегодняшний день можно считать, что вопрос далеко не закрыт, хотя именно в последнее время были достигнуты значительные успехи: уже многие годы голосовые команды являются одной из возможных опций программного обеспечения персональных компьютеров, появление функций распознавания речи уже обычное дело в ряде текстовых процессоров, системы распознавания речи работают там, где требуется оказание справочных услуг и в системах безопасности.

Вопросы цифровой обработки сигналов, отдельные области математической статистики, искусственного интеллекта (теории нейронных сетей), связанные с разработкой движков и приложений распознавания и порождения речи.

Вопросы обработки речи являются, главным образом, частью дисциплин, именуемых цифровой обработкой сигналов и распознаванием образов.

Методы цифровой обработки сигналов обычно осуществляют преобразование, очистку и трансформацию звукового сигнала в цифровой формат данных и другие представления, которые могут непосредственно обрабатываться системой распознавания речи. Эти задачи включают также фильтрацию шумовых сигналов, которые примешиваются к звуку при передаче акустических сигналов от воспринимающих устройств (микрофонов) или по сети. Методы же распознавания образов используют при выделении и распознавании отдельных слов или предложений речевого потока или в некоторых случаях для идентификации говорящего.

Кроме того, системы распознавания и синтеза речи затрагивают вопросы лингвистики, в которой заложены фундаментальные концепции и принципы распознавания речи и понимания языка.

2.3 Речевые технологии

Речевые технологии прочно входят в нашу жизнь, легко находят применение в различных сферах нашей жизни и делают её проще. Они открывают возможность для общения человека и компьютера посредством речи, убирая посредника (клавиатуру), что наиболее привычно и удобно для людей.

Системы синтеза и распознавания речи находят свое применение в call-центрах. Они дают возможность переложить часть функций операторов на компьютер. С помощью речевых технологий можно читать книги, sms, озвучивать документы и целые веб сайты, создавать интеллектуальные системы обучения, которые будут принимать несложные экзамены или помогать в изучении языков. С их помощью можно улавливать в потоке речи звуковые фрагменты, так называемые ключевые слова, а так же можно идентифицировать личность. Распознавание и синтез речи очень пригодились бы людям с ограниченными способностями, инвалидам, слепым, слабовидящим.

2.4 Синтез речи

Синтез устной речи - это преобразование заранее не известной текстовой информации в речь. Речевой вывод информации - это реализация речевого интерфейс, для упрощения использования системы. Фактически, благодаря синтезу речи предоставляется еще один канал передачи данных от компьютера, мобильного телефона к человеку, аналогично монитору. Конечно, передать рисунок голосом невозможно, но вот прослушать электронную почту или расписание на день в ряде случаев довольно удобно, особенно если в это время взгляд занят чем-либо другим. Например, придя утром на работу, готовясь к переговорам, Вы могли бы поправлять у зеркала галстук или прическу, в то время как компьютер читает вслух последние новости, почту или напоминает важную информацию для переговоров.

Рисунок 2.2 - Акустическая обработка сигнала

Технология синтеза устной речи нашла широкое применение для людей, имеющих проблемы со зрением. Для всех остальных она создает новое измерение удобства пользования техникой и значительно снижает нагрузку на зрение, на нервную систему, позволяет задействовать слуховую память.

Рисунок 2.3 - Синтез речи

Любой текст состоит из слов, разделенных пробелами и знаками препинания. Произнесение слов зависит от их расположения в предложении, а интонация фразы - от знаков препинания. Наконец, произнесение зависит и от смысла слова! Соответственно, для того чтобы синтезированная речь звучала натурально, необходимо решить целый комплекс задач, связанных как с обеспечением естественности голоса на уровне плавности звучания и интонации, так и с правильной расстановкой ударений, расшифровко