Системантика
Вид материала | Монография |
Содержание3. Визуальное общение |
3. Визуальное общение
Средством визуального общения выступают графические дисплеи. Общение с ЭВМ по зрительному каналу в форме изображений позволяет существенно увеличить скорость ввода-вывода информации, хранить информацию не только в бинарной, но и в аналоговой форме, в том числе на микроносителях и в голографических запоминающих средах, дает возможность решать на ЭВМ принципиально новый класс задач с привязкой и отображением информации по регионам, отраслям, автоматически вводить информацию со спутников.
Работа систем восприятия изображения зависит от большого числа параметров – двухмерности и трехмерности объекта, освещенности, количества и формы объектов на изображении, скрытности объектов, цвета, размера изображения, разрешающей способности оборудования.
В настоящее время наметился единый подход к решению проблемы общения в форме текста, речи и изображения.
Решаются две задачи: машинного восприятия и машинного понимания.
При восприятии человек преобразует свои ощущения физического мира в образы и формирует свое внутреннее представление, которое описывает наиболее важные отношения. При понимании имеющееся представление преобразуется в выходное сообщение. При этом внутреннее представление сравнивается с реальными и воображаемыми мирами.
До недавнего времени машинный анализ изображений ограничивался либо классификацией фотографий, что фактически представляло собой задачу распознавания образов, либо анализ очень простых сцен. Суть же восприятия визуальной информации состоит в том, что мы уже знаем о мире. Процесс восприятия изображения можно условно разделить на следующие этапы:
предварительная обработка изображения с целью выявления его качества;
разработка языка изображений с утилитами и допустимыми ограничениями;
анализ изображения с выделением линий, областей, контуров и объектов;
определение трехмерной структуры сцены;
семантическая интерпретация выделенных в изображении элементов с их пространственными отношениями и описание сцены в терминах знаний системы.
Будем предполагать, что определенная информация уже извлечена из изображения и представлена в символьном виде, а не в виде яркостных точек.
Задача состоит в отображении символьной информации о представленной сцене (рис. 86) на накопленные знания системы.
Рис. 86. Пример простой сцены
При кратком описании сцена может быть охарактеризована как параллелепипед и цилиндр. Более детально – как параллелепипед, расположенный слева от цилиндра. Можно продолжить детализацию описания. Например, охарактеризовать параллелепипед как совокупность трех граней, и так далее до любого желаемого уровня.
Указанный способ последовательного уточнения описания изображения называется лингвистическим, так как он подобен процессу анализа текста и речи.
Для анализа изображения в этом подходе так же, как и при анализе текста и речи, вводится понятие грамматики. Однако, в отличие от грамматик, используемых при анализе текста, грамматики для изображений являются не одномерными, а двухмерными. В одномерных строках естественной операцией соединения символов является операция конкатенации – размещения символов друг за другом. В двухмерных строках такой естественной операции не существует.
Поясним на примере сцены. Одно из возможных деревьев разбора этой сцены может быть представлено в виде, показанном на рис. 87:
Рис. 87. Дерево разбора
Даже если мы точно определили терминальные вершины, дерево разбора будет приблизительно описывать сцену, поскольку три грани могут быть соединены множеством способов, из которых только некоторые дадут параллелепипед. Существуют различные подходы к соединению символов в двухмерной строке. Наиболее прямолинейным является способ, базирующийся на описании границ. Например, приведем описание четырехугольника (рис. 88).
Четырехугольник:: = отрезок + отрезок + отрезок + отрезок
«+» – конкатенация.
Синтаксическое описание параллелепипеда может иметь вид: соединить точку 4 четырехугольника А с точкой 1 четырехугольника С, точку 3 с точкой 2 и т. д.
Однако для фигур, состоящих из плавных кривых, этот выбор является менее очевидным, и не всегда легко определить, где заканчивается один терминальный символ и начинается другой.
Рис. 88. Разложение параллелепипеда на грани
1. Цилиндр:: = сторона * круг
* – тип соединения этих элементов (голова с головой, хвост с хвостом).
2. Сторона:: = V° + b + V Круг:: = t * b.
Существует распознающая грамматика. На этом примере необходимо распознать вертикальные линии и два типа кривых линий.
Предположим, что нам предъявлено изображение, показанное на рис. 86. Первые два правила показывают, что изображение цилиндра включает символ «сторона» и два вертикальных отрезка.
Первая процедура будет включать поиск вертикального отрезка. При одномерной строке необходимо выбрать первый элемент этой строки, содержащий этот вертикальный отрезок. Найдя этот отрезок, мы будем рассматривать нижний его конец как голову, а верхний – как хвост.
Из второго правила символ «b» присоединится к голове вертикального отрезка. Если кривая не найдена, то следует искать другой вертикальный отрезок. Если он найден, то, значит, найден символ «сторона». Ищем круг по третьему правилу. Элементы «сторона» и «круг» проверяются по принципу «*» (рис. 89).
Во многих приложениях целесообразно структуру сцены описывать на семантическом уровне в виде семантической сети. Для описания сцены на семантическом уровне введем отношения между элементами сцены: «часть», «тип», «смежный», «выше», «ниже», «слева», «справа» (рис. 90).
Рис. 89. Терминальные символы
Рис. 90. Семантическая сеть сцены
Трехмерную модель можно представить двояко, описав:
трехмерную сцену терминами двумерных конструкций;
трехмерную сцену как пространственную конструкцию.
Трехмерное описание рассмотренной сцены может быть произведено такими словами: параллелепипед и цилиндр, стоящие на полу перед стеной.
Трехмерное описание может быть извлечено из двухмерного изображения только на основании дополнительной информации об объектах, присутствующих на сцене.
В общих чертах распознавание пространств сцены можно описать в следующей последовательности: сначала система выявляет из изображения наиболее достоверную и легко извлекаемую информацию об объектах – такую как размер, форма, внешние контуры. Затем осуществляется последовательное сравнение выделенных объектов с моделью. На основании сравнения осуществляется опознание объекта или определяются различия. При выявлении различий выявляется их причина, вызываемая, например, загороженностью одного тела другим, затемненностью объекта. Приняв данное предположение, система производит пересчет всех выделенных точек. Если различия не устраняются, то следовательно, выбранная модель не соответствует анализируемой сцене. В этом случае система выбирает другую модель и делает с ней то же самое.
На первом этапе осуществляется распознание элементов и контуров. Для этого изображение фильтруется и корректируется. Выделяются наиболее значимые элементы. На этапе семантического анализа выделенные объекты с помощью семантической модели объединяются в модель изображения. Полученная модель изображения переводится во внутреннее представление. Другими словами, дается однозначная трактовка изображения в мире системы. Структурная схема восприятия изображений показана на рис. 91.
Модель выходного изображения представляется в виде формального описания объектов, связанных друг с другом пространственными отношениями. Все эти объекты представляются в виде множества яркостных точек, которые выдаются на дисплей.
При понимании информация, содержащаяся в принятом сообщении, сравнивается с имеющимися эталонами.
Общение текстом, голосом, изображением имеет одну методологическую основу. Основой системы общения (рис. 92) является семантическая модель предметной области. Фрагмент действительности, выраженный в запросе в форме текста, речевых сигналов или изображения, поступает в систему отображения на модель предметной области. По результатам отображения формируется ответ в виде текста, речевых сигналов или изображения. Отсюда следует несводимость модели общения к модели языка. На этом принципе базируются мультимедиа системы.
Рис. 91. Структурная схема восприятия изображений
Рис. 92. Схема общения пользователей с информационной системой
Проблемы анализа и синтеза текста и визуального общения достаточно четко изложены в работах Э.В. Попова1.