Разработка системы голосового управления электромеханическими устройствами

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование

Содержание

Введение

ГЛАВА 1. ГОЛОСОВОЕ УПРАВЛЕНИЕ техническими устройствами

.1 Состояние проблемы автоматического распознавания речи

.2 Обзор устройств чтения аудио сигналов

.3 Подбор устройств для разработки аудиосистемы

ГЛАВА 2. МОДЕЛЬ ГОЛОСОВОГО УПРАВЛЕНИЯ ПЕРИФЕРИЙНЫМИ УСТРОЙСТВАМИ

.1 Предпосылки к созданию умной системы

.2 Архитектура системы управления периферийными устройствами

.3 Схема управления электрическими устройствами

ГЛАВА 3. РАСЧЕТ ПАРАМЕТРОВ СИСТЕМЫ

.1 Принципиальная схема включения электрических устройств

.2 Принципиальная схема внутреннего источника питания

.3 Область применения

ГЛАВА 4. ЭКОНОМИЧЕСКАЯ ЧАСТЬ

ГЛАВА 5. БЕЗОПАСНОСТЬ ЖИЗНЕДЕЯТЕЛЬНОСТИ

Заключение

Список использованных источников

Введение

В настоящее время вычислительная техника используется во многих областях человеческой деятельности, являясь удобным и многофункциональным инструментом для решения широкого круга задач. Однако, в настоящее время пользователи ЭВМ вынуждены использовать способы взаимодействия, слабо адаптированные к возможностям человеческого общения и ограничивающие способности человека к обмену информацией. Основная цель усовершенствования и развития интерфейса человек-компьютер заключается в организации обмена информацией с ЭВМ таким образом, чтобы:

-Снизить время освоения программных и аппаратных средств;

-Снизить уровень ошибок при передаче информации;

Сделать работу с ЭВМ возможной для людей, не имеющих возможности пользоваться традиционными средствами интерфейса;

Снизить утомляемость, увеличить субъективное удовлетворение пользователя от работы;

Для достижения поставленных целей необходимо применение средств взаимодействия, более полно использующих коммуникативные способности человека. Человек наделен большим количеством возможностей воспринимать и передавать информацию: зрение, слух (в том числе устная речь), жесты и движения, мимика, осязание и другими. Во взаимодействии человека и компьютера существуют два информационных потока:

управляющие команды и данные, передаваемые компьютеру для обработки;

результаты вычислений и другая информация, представляемая компьютером пользователю.

Распространенный в настоящее время человеко-машинный интерфейс использует зрение, как основной канал представления информации пользователю, отображая данные в виде условных знаков на экране компьютера. Воспринимать информацию естественными для человека способами (распознавать речь, жесты, мимику и т.д.) современные средства интерфейса практически не в состоянии.

Лицо человека является важным источником информации при общении между людьми. Выражение лица, мимика, артикуляция при разговоре, движения головой являются удобным, естественным и, что важно, необременительным способом передачи информации. Неспособность компьютера с одной стороны воспринять, а с другой стороны воспроизвести столь естественные для человека способы общения затрудняет передачу и восприятие информации при работе с ЭВМ.

Для обеспечения эффективного речевого диалога между пользователем и ЭВМ необходимы устойчивые системы распознавания речи.

Основной целью дипломной работы является разработка системы голосового управления электромеханическими устройствами. Разработанная в результате работы система совместно с работой базы данных обеспечат основу для последующей разработки модели многомодального распознавания больших словарей русской речи и выполнения множества речевых команд.

ГЛАВА 1. ГОЛОсоВОе УПРАВЛЕНИЕ техническими устройствами

1.1 Состояние проблемы автоматического распознавания речи

Задача машинного распознавания речи привлекает внимание специалистов уже очень давно. Тем не менее, продвинуться в этом направлении удалось относительно недалеко. Процесс распознавания речи представляет собой преобразование акустического сигнала, полученного от микрофона, в последовательность слов. Полученный набор гипотез цепочек слов далее используется для понимания речи [2].

При этом возникает ряд проблем. Во-первых, человек обычно не делает паузы между словами, а при слитном произнесении к задаче распознавания прибавляется еще и задача выделения слов из потока речи, что заведомо более сложно. Возникает необходимость выделять односложные слова - именно с ними и связано максимальное число ошибок реально существующих систем. Можно потребовать, чтобы человек произносил слова по одному, делая достаточно продолжительные паузы или чтобы каждое следующее слово произносилось после звукового сигнала. Но данный подход не удобен и может быть применён только для подачи простых команд [3].

Следующая проблема - различие голосов, диалектов, дикций, возрастных различий, эмоциональное и физическое состояния диктора. Значительное влияние вносит акустический аспект, т.е. смена микрофона, расположение микрофона относительно рта, акустическая обстановка в помещении [4,5,6,7,8].

Именно из-за этих и многих других проблем до полного решения задачи распознавания речи по-прежнему весьма далеко. Существует два существенно различающихся режима работы: с настройкой на голос определенного диктора и без такой настройки. Размеры словаря при работе с настройкой на диктора (speaker-dependent) в настоящее время могут достигать нескольких (и даже многих) тысяч слов при слитном произнесении. Процедура