На правах рукописи
УЦИВ
Вадим Ростиславович
ОБЪЕКТНО-НЕЗАВИСИМый ПОДХОД
к СТРУКТУРНому АНАЛИЗу ИЗОБРАЖЕНИЙ
05.13.01 - Системный анализ, управление
и обработка информации (в технике и технологиях)
Автореферат диссертации на соискание ученой степени
доктора технических наук
Санкт-Петербург - 2011
Работа выполнена на Федеральном Государственном унитарном предприятии Научно-производственная корпорация Государственный оптический институт им. С.И. Вавилова и в Федеральном Государственном бюджетном образовательном учреждении высшего профессионального образования Санкт-Петербургский Государственный университет аэрокосмического приборостроения - на кафедре Информационных систем (№51).
Научный консультант: доктор технических наук
Шейнин Юрий Евгеньевич
Официальные оппоненты:
член-корреспондент РАН доктор технических наук, профессор Мирошников Михаил Михайлович;
доктор технических наук, профессор Тимофеев Адиль Васильевич;
доктор технических наук, профессор Мальцев Георгий Николаевич.
Ведущая организация: "Филиал ФГУП "ЦНИИ "Комета" "Научно-Проектный центр оптико-электронных комплексов наблюдения" ("НП - ОЭКН")
Защита состоится л_13_ марта 2012 г. в 14-00 на заседании диссертационного совета Д 212.233.02 при Федеральном Государственном бюджетном образовательном учреждении высшего профессионального образования Санкт-Петербургский Государственный университет аэрокосмического приборостроения по адресу: 190000, Санкт-Петербург, ул. Большая Морская, дом 67.
С диссертацией можно ознакомиться в библиотеке университета.
Автореферат разослан л____ ________________ 20___ г.
Ученый секретарь
диссертационного совета
доктор технических наук, профессор Осипов Л. А.
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы. Автоматический анализ изображений, ведущий свою историю от первых моделей перцептронов и компьютерных экспериментов по автоматическому распознаванию зрительных образов, выполненных в середине двадцатого века, стал в настоящее время самостоятельным научным направлением, имеющим важные практические приложения в автоматизации производства и контроля качества продукции, неразрушающей диагностике, медицине, криминалистике, системах безопасности, системах дистанционного зондирования Земли, системах наведения и целеуказания, робототехнике и многих других областях. На начальных этапах автоматический анализ изображений основывался на корреляционном сопоставлении и формальных методах распознавания образов в пространствах признаков. Уже на первых шагах стало очевидно, что эти подходы, исходно разработанные для обнаружения сигнала известной формы, не достаточно эффективны при анализе сложным образом изменяющихся двумерных и трехмерных образов, соответствующих изображениям реальных сцен. Поэтому методы пространственной декомпозиции и структурного сопоставления начали применяться уже на ранних стадиях становления науки об автоматическом анализе изображений. Применение методов формальной лингвистики не внесло заметного вклада в прогресс структурного анализа (СА) изображений. Напротив, применение неформальных эвристических методов в течение многих лет неизменно оказывалось достаточно успешным и фактически легло в основу многих экспертных систем конкретного назначения. Ахиллесовой пятой таких экспертных систем оказалась чрезвычайно узкая сфера эффективного применения каждой из них. Например, экспертная система, разработанная для автоматического распознавания танков, не могла эффективно использоваться для распознавания самолетов. Это закономерно следовало из свойств применяемых эвристических решений, отдельно разрабатываемых для распознавания каждого нового конкретного типа объектов. Кризис эвристического подхода стал наиболее очевиден при решении задач сопоставления и распознавания изображений, характеризующихся большой неопределенностью подлежащего анализу сценария, например, при автоматической обработке аэрокосмических снимков или при построении мобильных автономных роботов, функционирующих внутри помещений или на открытой местности. Необходимым шагом в дальнейшем прогрессе компьютерного зрения должна стать разработка объектно-независимых подходов к СА изображений. Построенные в рамках таких подходов алгоритмы должны в основном абстрагироваться от частных особенностей подлежащих анализу зрительных образов и принимать во внимание только самые общие закономерности их формирования, обусловленные свойствами применяемых оптических систем, законами их взаимодействия с объектами наблюдаемого мира и наиболее общими закономерностями его организации.
Целью работы является разработка методов объектно-независимого структурного анализа изображений; разработанные методы должны быть эффективны в условиях сюжетного многообразия и естественных изменений изображений наблюдаемого мира, имеющих наиболее сложную форму в системах анализа аэрокосмических снимков и системах автоматического управления беспилотными аппаратами.
Поставленная цель достигается решением следующих задач:
1. Определение особенностей формирования изображений, обусловленных свойствами наиболее часто применяемых для этого систем преобразования и восприятия физических полей и путями взаимодействия этих полей с объектами отображаемых сцен. Определение моделей наиболее характерных геометрических и фотометрических трансформаций, которым в связи с этим могут подвергаться формируемые изображения.
2. Определение свойств изображений, вытекающих из особенностей организации наблюдаемого мира, и моделей наиболее характерных геометрических и фотометрических трансформаций, которым в связи с этим могут дополнительно подвергаться подлежащие автоматическому анализу зрительные образы.
3. Определение элементов изображений, наиболее устойчивых к трансформациям, обусловленным свойствами систем формирования изображений и особенностями организации наблюдаемого мира, и пригодных к использованию в качестве непроизводных структурных элементов (СЭ) при построении объектно-независимых структурных описаний (СО).
4. Разработка методов выявления непроизводных СЭ на анализируемых изображениях и методов измерения параметров геометрических трансформаций изображений на основе параметров выделенных СЭ.
5. Разработка объектно-независимых методов построения структурных описаний, устойчивых к характерным геометрическим и фотометрическим трансформациям видеоданных и основанных на существенных в контексте решаемой проблемы общих особенностях организации наблюдаемого мира.
6. Построение объектно-независимых методов сопоставления и распознавания изображений на основе их СО.
Методы исследования. Для решения указанных задач в работе применялись методы системного анализа, аналитической геометрии, спектрального анализа, теории групп, компьютерного моделирования, обработки и распознавания изображений.
Научная новизна.
1. Представлена в рамках единой модели структурная организация изображений окружающего мира на разных иерархических уровнях - от микро-уровня, соответствующего текстурам, до макро-уровня, относящегося к объектам и подобъектам. Это дает возможность единообразно применять разработанные объектно-независимые методы структурной декомпозиции и СО изображений реального мира на каждом из иерархических уровней.
2. Разработан инвариантный к аффинным преобразованиям (АП) и проективным преобразованиям (ПП) ортогональный базис обобщенных непроизводных СЭ, пригодный для объектно-независимой структурной декомпозиции изображений на разных иерархических уровнях - от анализа взаимного положения и формы объектов сцены до описания текстуры их поверхностей. При этом группы АП и ПП и их подгруппы выбраны в качестве моделей, наиболее полно соответствующих преобразованиям изображений в самых распространенных схемах организации естественных зрительных систем и систем технического зрения.
3. Предложен объектно-независимый иерархический метод структурной декомпозиции и СО изображений; при этом структурная декомпозиция производится в рамках единой модели при построении описания на каждом иерархическом уровне.
4. Предложен объектно-независимый метод сопоставления изображений реальных сцен с помощью их иерархических СО, построенных в разработанном базисе обобщенных непроизводных СЭ. В основу метода структурного сопоставления положены объектно-независимые ограничения, следующие из существенных в контексте решаемой проблемы общих принципов пространственной организации наблюдаемого мира и его взаимодействия с элементами естественных и искусственных зрительных систем.
5. Разработаны методы измерения параметров аффинных и проективных преобразований изображений объектов на основе аппроксимации этих изображений предложенными обобщенными непроизводными СЭ, и выведены формулы для представления измеренных параметров в аналитическом виде.
6. Разработанный объектно-независимый подход к СА изображений позволяет представить в рамках единой модели и развить известные методы теории автоматической обработки и анализа изображений и методы анализа изображений, реализованные в естественных зрительных системах. Это свидетельствует о достаточно высокой обобщающей способности разработанного подхода.
Практическая значимость работы. Методы и алгоритмы, разработанные в рамках предложенного объектно-независимого подхода, представляют ценность при автоматическом анализе изображений, подвергнутых сложным фотометрическим и геометрическим искажениям и характеризующихся высокой степенью априорной неопределенности сюжета. В частности, они позволяют осуществлять надежное и точное сопоставление, совмещение и совместный пространственно-временной анализ аэрокосмических снимков, сделанных в разные сезоны и с разных ракурсов видео-датчиками различающихся типов (оптическими датчиками видимого или инфракрасного диапазонов электромагнитных волн, радиолокаторами с синтезированной апертурой, лазерными дальномерами и т.п.). Это дает возможность синтезировать высококачественные панорамные снимки, извлекать информацию о третьей координате по взаимному смещению локальных особенностей сопоставленных двумерных видеоданных, выявлять локальные изменения объектов наблюдения во времени, интегрировать (комплексировать) видеоданные, сформированные датчиками разных типов (data fusion). Эти методы могут также использоваться при поиске изображений в базах данных. Разработанные методы и алгоритмы также могут быть полезны при создании систем зрительной адаптации автономных мобильных роботов и систем технического зрения для автоматического управления производством и контролем качества разнообразной продукции.
Реализация результатов работы. На основе концепций, методов и алгоритмов, предложенных в диссертационной работе, был реализован ряд программно-алгоритмических продуктов и электронно-оптических устройств, нашедших применение в нашей стране и за рубежом. Среди них:
- комплекс алгоритмов и структура бортового вычислителя микро-спутника для автоматического сопоставления, совмещения и анализа космических снимков в НИИ Космических Систем им. А.А. Максимова - филиале Федерального Государственного унитарного предприятия Государственный космический научно-производственный центр им. М.В. Хруничева;
- комплекс алгоритмов для автоматического узнавания наблюдаемой местности по ее эталонным изображениям для Федерального Государственного унитарного предприятии Центральный НИИ автоматики и гидравлики;
- программное обеспечение автоматической навигации на основе изображений, сформированных в видимом оптическом диапазоне, для мобильного робота, разработанного компанией LG Electronics;
- аппаратура автоматического измерения отклонения линии визирования объекта привязки на местности в системе управления искусственного спутника Земли для Федерального Государственного унитарного предприятия Научно-производственная корпорация Государственный оптический институт им. С.И. Вавилова.
Результаты диссертации были также использованы в качестве основы выполнения трех научно-исследовательских работ.
Разработанные программы и алгоритмы автоматического сопоставления, совмещения, обработки и анализа аэрокосмических снимков были сведены в единый каталог, опубликованный в Оптическом журнале в 2007 году.
Использование результатов работы подтверждается прилагаемыми к ней актами.
Достоверность полученных в диссертационной работе результатов обеспечивается корректностью используемых методов исследования, математической строгостью выполненных преобразований и доказательств, а также соответствием сформулированных положений и выводов результатам их экспериментальной проверки.
На защиту выносятся следующие положения и результаты:
1. Геометрические и фотометрические модели наблюдаемого мира и систем формирования видеоданных, положенные в основу предлагаемого объектно-независимого подхода к структурному анализу изображений.
2. Разработанный ортогональный базис обобщенных непроизводных структурных элементов, инвариантных к аффинным и проективным преобразованиям и пригодных для объектно-независимой структурной декомпозиции изображений на разных иерархических уровнях - от анализа взаимного положения и формы объектов сцены до описания текстуры их поверхностей.
3. Методы структурной декомпозиции и описания изображений, единообразно реализуемые в рамках предложенной иерархической модели наблюдаемого мира на каждом ее уровне.
4. Методы измерения параметров аффинных и проективных преобразований на основе аппроксимации изображений разработанными структурными элементами и аналитические выражения для измерения параметров аффинных преобразований, выведенные на основе этих методов.
5. Иерархический метод сопоставления изображений реальных сцен с помощью их структурных описаний, построенных в разработанном базисе обобщенных структурных элементов, на основе объектно-независимых ограничений, следующих из результатов системного анализа моделей пространственной организации наблюдаемого мира и его взаимодействия с элементами естественных и искусственных зрительных систем.
6. Обобщение и развитие в рамках разработанных формальных моделей известных методов теории автоматической обработки и анализа изображений и методов анализа изображений, реализованных в естественных зрительных системах.
Апробация работы. Основные результаты работы были представлены
- на ряде международных конференций (второй и третьей конференциях Applications of computer systems в Щецине, Польша; восьми конференциях международного общества SPIE инженеров-оптиков; конференции Control of oscillation and chaos института IEEE инженеров по электротехнике и электронике; 29-той европейской конференции ECVP, посвященной визуальному восприятию);
- на шести конференциях и семинарах Всесоюзного, Всероссийского и республиканского уровня;
- на XXXVI и XXXVIII научных и учебно-методических конференциях профессорско-преподавательского и научного состава в Санкт-Петербургском Государственном университете информационных технологий, механики и оптики.
Публикации. По материалам диссертации опубликованы 35 печатных работ, включая 23 статьи в рецензируемых научных журналах (из них 15 статей в изданиях, включенных в список ВАК), 12 докладов на международных научных конференциях, 6 докладов на Всесоюзных, Всероссийских и республиканских конференциях, две статьи в научных сборниках, главу в монографии, полнотекстовую монографию, международный патент.
ичный вклад. Все основные результаты, изложенные в диссертации, включая постановку задач и их математические и алгоритмические решения, получены автором лично, или выполнены под его научным руководством и при непосредственном участии.
Структура и объем работы. Диссертация состоит из введения, шести глав, заключения, списка литературы из 160 наименований, 8 приложений. Содержание работы изложено на 318 страницах. В работе содержится 49 рисунков и 1 таблица.
СОДЕРЖАНИЕ РАБОТЫ
Во введении описана подлежащая решению проблема, обоснована ее актуальность, сформулированы цель и задачи проводимых исследований, научная новизна и практическая значимость полученных результатов, кратко излагается содержание разделов диссертации.
В первой главе проанализирована история возникновения и совершенствования методов автоматической обработки и распознавания изображений. Анализ проведен в контексте характерных практических трудностей, с которыми сталкивались разработчики методов и алгоритмов, и путей преодоления этих трудностей, предложенных на разных этапах становления науки компьютерного зрения. Показано, что методы корреляционного сопоставления и распознавания образов в пространстве признаков, хорошо проработанные и формализованные в статистической теории связи, в целом оказались недостаточно эффективны при попытке их применения для анализа изображений реальных сцен. Это связано со сложными трансформациями, которым подвергаются такие изображения под влиянием естественных изменений объектов окружающего мира, и с геометрическими и фотометрическими преобразованиями, обусловленными проецированием объектов на поверхность видео-датчиков систем компьютерного зрения. Показано, что указанные трудности более эффективно решаются на основе применения методов СА.
В главе продемонстрировано, что большое количество успешных проектов в области СА изображений основывалось на эвристических подходах, что в конечном итоге приводит к кризису в развитии структурного распознавания. Объектная зависимость многочисленных алгоритмов СА, каждый из которых разрабатывался для решения специфической конкретной задачи, не позволяла эффективно решать задачи автоматического анализа изображений в ситуациях, связанных с высокой неопределенностью сюжета. Примерами таких ситуаций может быть анализ аэрокосмических снимков, или конструирование зрительных систем автономных мобильных роботов.
На основе проведенного анализа в главе формулируется подлежащая решению проблема: делается вывод о необходимости разработки объектно-независимых подходов к автоматическому СА изображений.
Во второй главе сформулированы основные положения, ставшие основой объектно-независимого подхода. Показано, что при выборе принципов построения объектно-независимой системы автоматического анализа изображений необходимо максимально абстрагироваться от частных особенностей, характерных для конкретных практических задач, поэтому в основу объектно-независимого подхода следует положить только наиболее общие и существенные ограничения, следующие из пространственной организации наблюдаемого мира, и ограничения, обусловленные свойствами зрительной системы человека и большинства систем компьютерного зрения:
- Зрительная система человека и большинство систем компьютерного зрения используют оптический объектив на основе сферической линзы, проецирующий изображения объектов на поверхность матрицы световоспринимающих датчиков. Эта поверхность плоская в большинстве систем компьютерного зрения и локально плоская в зрительной системе человека, поэтому проекция изображения, анализируемая такими зрительными системами, трансформируется группой ПП на плоскости, которую можно приблизительно представить как аффинную, если рассматриваемый объект находится достаточно далеко от объектива. На практике часто оказывается достаточным использовать аффинную модель преобразования. Эта модель точна, если строятся изображения плоских поверхностей. Если же отклонения формы поверхности от плоской значительны по сравнению с расстоянием от поверхности до объектива, используемая модель преобразования должна допускать локальные отклонения от АП.
- Объекты окружающего мира, как правило, локально жесткие. Локальное взаимное положение частей объектов не может существенно изменяться мгновенно, иначе картина окружающего мира хаотично рассыпалась бы на глазах. Однако жесткость эта касается только локальных связей, что делает возможным естественное изменение формы живых и неживых объектов, причем реальная форма последних в большинстве случаев может оставаться неизменной, в то время как наблюдаемая форма может меняться под влиянием изменения условий наблюдения. Небольшая локальная нежесткость объектов приводит к небольшим локальным отклонениям взаимного геометрического преобразования их изображений, сопоставляемых во времени, от глобально заданного АП или ПП.
- Объекты окружающего мира, как правило, не прозрачны, поэтому наблюдение прозрачных объектов часто связано со зрительными иллюзиями. Как правило, непрозрачность препятствует появлению изображений зеркально отраженных объектов, которые могут возникать при наблюдении поверхности прозрачного объекта сквозь его тело с задней его стороны, или при отражении от гладких поверхностей. Последний случай в естественных условиях встречается не очень часто и поэтому может также служить источником зрительных иллюзий.
- Наблюдаемый мир состоит из изображений поверхностей объектов, что в совокупности с ограничениями, рассмотренными в предыдущем пункте, обусловливает правила загораживания и затенения наблюдаемых объектов.
- Наблюдаемые поверхности объектов отличаются друг от друга спектральным составом и яркостью отраженного света (реже - излучаемого света), параметрами текстуры, дальностью, локальной пространственной ориентацией, параметрами движения относительно наблюдателя. Яркость, спектральный состав отраженного света и параметры наблюдаемой текстуры поверхностей могут существенно варьировать под действием естественных изменений условий наблюдения. К сожалению, изменения спектрально-яркостных характеристик, обусловленные естественными изменениями наблюдаемых сцен, в общем случае неизвестны или не могут быть компенсированы, что часто делает неэффективным применение известных интегральных методов измерения параметров АП и ПП и методов вычисления инвариантных к ним признаков. В то же время наиболее устойчивыми и поэтому наиболее информативными в условиях действия таких изменений остаются наблюдаемые границы объектов, связанные обычно с резкими перепадами значений перечисленных спектрально-яркостных, текстурных и т.п. признаков, характеризующих их поверхности.
- Наблюдаемый естественный мир структурирован и, как правило, организован иерархически: видимая сцена делится на объекты, объекты делятся на подобъекты, последние в свою очередь имеют собственную внутреннюю структуру и т.д. Если изображение сцены однородно, на нем нечего будет анализировать и распознавать. При этом текселы, являющиеся простыми составляющими текстуры, становятся при соответствующем увеличении пространственного разрешения изображения объектами исследования, имеющими свою форму. Часто в изображениях природных объектов размывается грань между понятиями подобъекта и тексела, когда размеры объектов и текселов на изображениях их поверхностей имеют близкий порядок.
На основе особенностей геометрических преобразований изображений, рассмотренных в п.1 и п.2 и особенностей спектрально-яркостных изменений, описанных в п.5, можно построить следующие модели описания и распознавания наблюдаемых изображений. Спектральные и яркостные параметры света, отраженного от поверхности объекта, или излучаемого поверхностью, сохраненные на эталонном изображении как параметры пикселов с вектором координат (где Т - знак транспонирования), в реальных (не эталонных) условиях наблюдения преобразуются к виду :
, (1)
где - вектор наблюдаемых координат пикселов, претерпевший геометрическое преобразование , определяемое L-компонентным вектором параметров , . Координаты пикселов целочисленные, поэтому , . и - соответственно мультипликативные и аддитивные преобразования спектрально-яркостных характеристик, обусловленные естественными изменениями наблюдаемой сцены (например, изменениями освещения или сезонно-суточными изменениями ландшафтов) и свойствами систем формирования изображения. - аддитивный шум, возникающий в процессе распространения излучения от поверхности объекта наблюдения к световоспринимающим сенсорам, и шум электронно-оптического и аналого-цифрового преобразований. Тип геометрического преобразования обычно может быть оценен исходя из известных условий наблюдения. Если преобразование может быть единообразно описано как АП или ПП на плоскости и если допустимо пренебречь действием искажающих факторов , и , возможно вычисление параметров преобразования или построение системы инвариантных к нему признаков (вектора признаков ) одним из известных способов на основе измеренных спектрально-яркостных характеристик наблюдаемого изображения. В последнем случае процедуру распознавания (отнесения изображения объекта к m-тому классу объектов из M возможных) можно представить следующим образом:
{similarity[,]},
==[=[()]=[m],
где similarity - мера сходства вектора признаков m-того эталонного изображения с вектором признаков наблюдаемого изображения, - функция определения значения параметра m, доставляющего максимум выражению, являющемуся ее аргументом.
В соответствии с альтернативным подходом, если известен тип геометрического преобразования (а согласно п.1 он, как правило, известен), делается попытка по содержимому изображения измерить параметры его преобразования, на основе которых можно вычислить обратное преобразование . При этом i-тый параметр преобразования измеряется как некоторая функция содержимого наблюдаемого изображения:
.
Применив преобразование к наблюдаемому изображению , можно нормализовать его относительно геометрических преобразований. В этом случае операция распознавания изображения объекта (отнесения его к m-тому классу) может быть формально представлена следующим образом:
{similarity[, ]}.
Этот подход более объектно-независим, т.к. не требует применения знаний об объектах распознавания (специфической эталонной информации) по крайней мере на стадии измерения параметров преобразования. Как будет показано ниже, на стадии выделения СЭ объектно-специфичная информация может не использоваться вообще.
В представленной выше форме оба описанных подхода единообразно оперируют со всей площадью изображения, однако, в соответствии с положениями, изложенными выше в п.1 и п.2, взаимное расположение элементов наблюдаемых сцен, рассмотренных в п.6, может меняться, что в большинстве случаев делает непригодным применение интегральных методов описания и распознавания, рассматривающих изображение как неделимое целое. Только структурный подход, позволяющий представлять изображение как совокупность СЭ, взаимное положение и параметры формы которых могут меняться в пределах, разумных с точки зрения законов окружающего мира, оказывается действительно объектно-независимым средством анализа изображений реальных сцен, причем при построении объектно-независимого метода структурного описания изображений необходимо выполнять следующие требования:
- При разработке процедуры обнаружения СЭ необходимо абстрагироваться от индивидуальных особенностей элементарных объектов, соответствующих этим элементам в изображениях реальных сцен, постольку, поскольку эти особенности могут быть связаны со спецификой конкретных решаемых задач. Однако обнаруженные СЭ должны сохранять информацию о параметрах пространственного положения соответствующих им элементарных объектов, т.к. такая информация может быть полезна при структурном описании изображения, последующем определении параметров его геометрического преобразования и общей интерпретации сцены.
- Классификационные признаки выделяемых на изображении СЭ должны быть инвариантны к геометрическим преобразованиям, описанным в п.1. Форма и пространственное положение таких элементов, а также возможные методы их выделения должны быть устойчивы к мультипликативным и аддитивным изменениям спектрально-яркостных признаков и аддитивному шуму, представленным в модели (1), и к естественным изменениям наблюдаемой текстуры поверхностей.
- Общая стратегия построения структурного описания анализируемого изображения должна быть инвариантна к его содержанию. Структурное описание изображения, подвергнутого искажениям, описанным выше в п.1, п.2, п.5 и п.6, должно обеспечивать возможность правильного сопоставления с эталонными описаниями, и в то же время процедура сопоставления должна предоставлять информацию о параметрах взаимного геометрического преобразования сравниваемых изображений, которая может быть необходима для дальнейшей интерпретации изображения наблюдаемой сцены.
- При построении структурных описаний изображений и их сопоставлении необходимо учитывать рассмотренные в п. 1 - 6 этой главы разумные ограничения, обусловленные общими свойствами реального мира и устройством применяемых видео-датчиков.
Возможно ли в действительности сформировать объектно-независимые СЭ, обладающие свойствами, сформулированными в требовании (а)? Нейрофизиологические исследования показывают, что в зрительном анализаторе человека и высших млекопитающих имеются механизмы, позволяющие обнаруживать типовые СЭ изображения, пренебрегая второстепенными особенностями их формы, и измерять пространственные параметры их положения и ориентации. Эти механизмы основываются на вычислении функции корреляции изображения с локально определенными весовыми функциями специальных детекторов (информационными функциями), имеющими узкий пространственный спектр, сосредоточенный вокруг нулевой гармоники. В ниже следующем тексте они упоминаются как обобщенные эталонные функции. Эта идея получила развитие в материалах диссертационной работы. Показано, в частности, что в результате отбрасывания высших пространственных гармоник Фурье-спектра изображения любого пространственно компактного объекта, выделенного из фона внутри локального окна, ограничивающего анализируемую область, изображение (где , или ) этого объекта приводится к виду, аналитически описываемому эллиптическим параболоидом с неограниченной областью определения, который без потери общности для удобства изложения может быть представлен в частной форме
, (2)
где k1, k2 и C - константы. Таким образом, любому компактному локальному объекту изображения соответствует объектно-независимое ядро, описываемое формулой (2). Показано, что координаты ядра могут измеряться путем поиска максимума функции корреляции изображения объекта с весовой функцией детектора, описываемой в локальном окне аналогичным формуле (2) выражением. Весовая функция детектора такого вида может быть представлена в виде суммы двух независимых слагаемых
и (3)
, (4)
причем не сложно убедиться, что детекторы, снабженные весовыми функциями вида (3) и (4), имеют пространственный спектр с нулевой шириной по одной декартовой координате и близкой к нулю шириной по другой пространственной координате и могут использоваться для независимого измерения соответствующей декартовой координаты объекта. Свойства детекторов вида (2), (3) и (4), полезные с точки зрения возможностей измерения параметров АП и ПП, обсуждены в главе 3.
СЭ вида (2) (назовем его элементом первого типа) имеет ряд недостатков. С одной стороны, такой элемент соответствует компактным объектам, размеры которых должны максимально отвечать размерам окна, на котором задана весовая функция применяемого для их выделения детектора. Описывать сильно удлиненные объекты с помощью такого СЭ неэффективно. С другой стороны, согласно п.5 такие признаки, как яркость, спектральный состав отраженного света и параметры текстуры поверхностей, могут в соответствии с моделью (1) претерпевать существенные аддитивные и мультипликативные изменения, влияющие на форму, количество и пространственное положение выделяемых на изображении объектов и соответствующих им СЭ первого типа, что частично входит в противоречие с требованием (б). Однако алфавит СЭ изображений может включать и элементы других типов. Как указано в п.5, наиболее устойчивым к естественным изменениям оказывается положение наблюдаемых границ объектов, соответствующих большим локальным градиентам выше перечисленных наблюдаемых признаков их поверхностей. Таким образом, в алфавит СЭ целесообразно также включить элементы, описывающие области больших градиентов. Такие элементы более эффективны в качестве средства СО некомпактных объектов. В компьютерном зрении для выделения границ используют детекторы вида
и (5)
, (6)
соответствующие заданному в локальном окне фильтру Превитт. Аналогичные детекторы реализуются специальными нейронными ансамблями в живых зрительных системах. Не сложно убедиться, что СЭ, описывающие границы (назовем их элементами второго типа), и соответствующие им детекторы, представленные в (5) и (6), могут быть получены путем дифференцирования выражений (3) и (4), соответственно. Вследствие этого функции (5) и (6) соответственно попарно ортогональны функциям (3) и (4) (т.к. первые содержат только синусные гармоники, а вторые - только косинусные), и по той же причине функции (3) и (4) ортогональны функции (2). Ортогональность выполняется с точностью до нулевой гармоники, которая в перечисленных функциях может быть без ущерба для общности подхода удалена. Предельно узкий спектральный состав предложенных СЭ гарантирует не только их объектную независимость, но и устойчивость к высокочастотному аддитивному шуму. Таким образом, предложен ортогональный базис непроизводных СЭ, отвечающий требованиям (а) и (б), вытекающим из общих закономерностей, сформулированных в п. 1, 5 и 6. Известны и другие ортогональные базисы СЭ, в том числе и более широкие, например, базис Робертса, но для них не гарантируется устойчивость к АП и ПП. Этот недостаток характерен и для других, например, морфологических методов выделения объектов и границ.
В третьей главе рассмотрено, как влияют АП и ПП на элементы предложенного ортогонального базиса, и выведены методы измерения параметров АП и ПП изображений объектов на основе свойств их объектно-независимых ядер, соответствующих указанным элементам базиса. Сначала показано, что АП A может быть разложено на простые геометрические трансформации следующим образом:
, (7)
где a1 Е a6 - параметры АП, представленного в матричной форме, а матрицы Ai описывают в том порядке, в котором они пронумерованы в (7), смещение центра тяжести по двум декартовым координатным осям, вытягивание или сжатие в каком-либо направлении, зеркальное отражение относительно прямой, проходящей через начало координат, масштабирование и вращение относительно начала координат, причем, как показано в п. 3 главы 2, зеркальным отражением изображения в большинстве практически значимых случаев можно пренебречь. Представленный в (7) порядок простых преобразований может быть изменен, однако, именно такой порядок позволяет производить поэтапное измерение их параметров и их компенсацию, начиная с A1 и заканчивая A6. При этом преобразования A1 и A2 взаимно ортогональны и могут быть переставлены местами в (7). Аналогично, могут быть переставлены местами преобразования A5 и A6. Преобразование A4 может быть переставлено местами с преобразованием A5, и оно может измеряться и компенсироваться либо одновременно с преобразованием A3, частью которого оно фактически является, либо одновременно с преобразованием A6.
Далее показано, что элементы предложенного ортогонального базиса можно правильно обнаруживать и классифицировать несмотря на воздействие АП и ПП. Иными словами, предложенные элементы являются инвариантами АП и ПП, что дает возможность обнаруживать их на изображении путем анализа функции его локальной корреляции с детекторами, весовые функции которых описываются формулами (2) - (6). В то же время СЭ первого и второго типа таким образом изменяют параметры своей формы и пространственного положения под действием указанных преобразований, что по виду и величине таких изменений можно однозначно измерять параметры преобразований и такое измерение может осуществляться путем анализа функции взаимной корреляции обнаруженного СЭ с детектором соответствующего типа по измеряемому параметру преобразования.
В частности, функция корреляции изображения с весовой функцией детектора, описываемого параболоидом вращения, относящимся к элементам первого типа, обладает замечательным свойством. Декартовы координаты xc и yc максимума корреляции соответствуют центру тяжести объекта, если последний находится полностью внутри окна, на котором локально определена весовая функция детектора, и вычисляются по формулам (8):
, , (8)
где Ω - двумерная область определения изображения объекта, задаваемая областью определения весовой функции детектора, B(х,у) - яркость пиксела с координатами {х, у}. Это дает возможность измерить параметры линейных смещений A1 и A2 для СЭ первого типа и компенсировать их.
Следующим простым преобразованием, подлежащим в соответствии с (7) измерению и компенсации является изменение A3 масштаба вдоль некоторого направления. Не сложно убедиться, что если в качестве эталонного состояния изображения компактного объекта принять такое, при котором соответствующий этому объекту СЭ первого типа имеет форму параболоида вращения, то под действием преобразования A3 он становится эллиптическим параболоидом. Фурье-спектр параболоида вращения, центрированного в полярной системе координат, не имеет иных гармоник по координате азимута кроме нулевой, в то время как в азимутальной составляющей спектра центрированного эллиптического параболоида появляется вторая гармоника. Таким образом, в качестве эталонного состояния центрированного изображения объекта можно принять такое, при котором функция его взаимной корреляции с весовой функцией (2) детектора, по параметру их взаимного вращения будет константой. На основе такого подхода получены следующие аналитические выражения, с помощью которых могут быть вычислены параметры преобразования A3 - направление Θ и величина μ изменения масштаба изображения объекта:
, (9)
Θ =0,5 arctg(C/E)+πn, (10)
, (11)
, (12)
, (13)
где B(r,φ) - яркость пиксела центрированного изображения объекта, представленного в полярной системе координат, Ω - область определения изображения объекта в полярной системе координат, {r, φ} - соответственно радиус и азимут пиксела в полярной системе координат.
После компенсации преобразования A3 остаются некомпенсированными преобразования A4, A5 и A6 зеркального отражения, равномерного масштабирования и вращения. В главе 4 продемонстрировано, что в общем случае для решения задач выделения и идентификации параметров СЭ первого типа и построения на их основе объектно-независимых структурных описаний производить измерение параметров и компенсацию преобразований A4, A5 и A6 не требуется, поэтому на этом измерение и компенсацию компонентов АП с помощью обобщенных эталонных функций можно закончить. Однако задача структурного сопоставления в вырожденном варианте может сводиться к случаю, когда изображение содержит единственный и неделимый подлежащий сопоставлению объект - единственный СЭ. Такой случай характерен для ряда задач промышленной робототехники и для других практических приложений, в которых изображение объекта анализа легко выделяется из фона и в которых геометрические трансформации хорошо описываются АП или ПП на плоскости, имеющими неизменные параметры по всей площади изображения объекта. В связи с этим в работе также выведены аналитические выражения, с помощью которых по изображению объекта могут быть определены параметры равномерного масштабирования, вращения и зеркального отражения, и это измерение также делается в рамках предложенного единого подхода - на основе анализа функции корреляции изображения с обобщенными эталонными функциями, имеющими узкополосный пространственный спектр. Сделано это следующим образом. Масштабирование A5 не зависит от изменения углового положения пиксела и не влияет на результаты компенсации A6 и A4, поэтому параметр М преобразования можно измерить по проекции изображения на радиус полярной системы координат. В этом случае обобщенная эталонная функция (3) двух декартовых координат и формулы (8) для вычисления декартовых координат центра тяжести могут быть представлены в виде функций одной координаты. Тогда коэффициент М равномерного масштабирования изображения объекта может быть измерен согласно (14) по смещению центра тяжести его проекции на радиус полярной системы координат относительно эталонного положения G центра тяжести этой проекции:
. (14)
В свою очередь, вращение A6 изображения центрированного объекта относительно начала координат и его зеркальное отражение A4 относительно прямой, проходящей через начало координат, не изменяют радиальные координаты точек изображения, поэтому параметры этих преобразований можно измерить по проекции изображения на окружность, т.е. на угловую полярную координату. Однако угловая координата циклична, поэтому использование одномерных параболических обобщенных эталонных функций с неограниченной областью определения в этом случае неприемлемо. В работе показано, что аналитические выражения для параметров вращения и зеркального отражения можно построить на основе фаз нескольких Фурье-гармоник проекции изображения на окружность. Однако гармонические функции не принадлежат разработанному в диссертации базису СЭ. В связи с этим автор показал, как параметры преобразований A6 и A4 можно измерить в рамках процедуры измерения ПП, также выполняемой на основе анализа параметров содержащегося в изображении объектно-независимого СЭ первого типа.
ПП на плоскости описывается следующими выражениями, связывающими векторы координат исходного и преобразованного изображений:
, (15)
, (16)
где a1 Е a6 - параметры АП, упомянутые в (7), а параметры a7 и a8 характеризуют отличие ПП от АП. При этом из (15) и (16) видно, что знаменатель формулы ПП можно выразить на основе скалярного произведения вектора декартовых координат точки и вектора параметров . К сожалению, ПП нелинейно, поэтому не удается определить вектор его параметров в аналитическом виде, как это было сделано для параметров АП. Решение получено в виде итеративной процедуры, основанной на оптимизационном поиске в пространстве параметров a7 и a8. Разработанный метод основан на том, что ПП в отличие от АП приводит к перераспределению точек изображения объекта относительно его центра тяжести, что дает возможность сделать следующее предположение. Пусть центр тяжести изображения объекта расположен в начале координат, и изображение разделяется на две половины (полу-изображения) произвольной прямой, также проходящей через начало координат. Полученные полу-изображения можно представить в виде половинок диполя, массы M1 и M2 которых сконцентрированы в центрах тяжести полу-изображений, отстоящих от начала координат соответственно на расстояния L1 и L2. Диполь уравновешен относительно центра тяжести полного изображения объекта, но в общем случае не симметричен, т.е. M1L1=M2L2, но M1M2 и L1L2, причем в каком-то направлении отношение L2 к L1 максимально. Таким образом, в общем случае изображение можно однозначно представить как диполь, ориентированный в направлении , и можно описать его вектором , длина которого равна отношению L2 к L1, а направление соответствует направлению плеча L2 диполя. В качестве эталонного состояния изображения принимается такое, при котором
M1=M2 и L1=L2, (17)
т.е. при котором оно представляет собой диполь, симметричный и уравновешенный относительно центра тяжести изображения объекта при любом направлении прямой, проходящей через центр тяжести изображения и делящей его на два полу-изображения (: ). В работе показано, что любое изображение объекта, имеющее ограниченную область определения, действительно может быть приведено к эталонному виду симметричного диполя, при котором выполняется условие (17) независимо от направления диполя. Показано также, что любое ПП заданного таким образом эталонного изображения объекта с параметрами a70 и/или a80 вызывает перераспределение точек изображения относительно центра его тяжести, что приводит к нарушению условия (17) и к смещению центра тяжести. При небольшой длине вектора параметров ПП вращение этого вектора приводит к изменению направления смещения, но не приводит к изменению величины смещения центра тяжести. Напротив, если изображение соответствует несимметричному диполю (т.е. если оно ранее уже подверглось некоторому ПП с параметрами , в результате чего ), то вращение вектора параметров дополнительно приложенного к нему тестового ПП приводит к различному по величине смещению центра тяжести, причем для некоторого направления , для которого , величина разности максимальна. В связи с этим предложен метод измерения параметров ПП, составляющих вектор , путем итеративной компенсации этого преобразования. Метод основан на оптимизационном поиске в пространстве параметров a7 и a8. Показано, что процесс сходится, если на каждой его итерации изображение нормализуется относительно смещений A1 и A2 центра тяжести и относительно направленного изменения A3 масштаба (как это было описано выше для АП) и к нему прикладывается небольшое компенсирующее ПП с вектором параметров , имеющим направление . Таким образом, измерение параметров a7 и a8 и компенсация ПП также выполняется на основе анализа параметров содержащегося в изображении объектно-независимого ядра (2). Предложенный подход к измерению параметров ПП имеет аналогии в зрительной системе человека.
Параметры преобразований A6 и A4 предлагается измерить в рамках анализа ПП изображения по направлению наибольшего ускорения смещения центра тяжести нормализованного изображения под действием ПП с циркулирующим вектором параметров и по асимметрии траектории такого смещения по отношению к этому направлению, соответственно.
Показано что СЭ первого типа инвариантны к АП (под действием АП эллиптический параболоид остается таковым), в связи с чем по их пространственному положению и могут быть измерены параметры смещений и равномерного и неравномерного масштабирования соответствующих им объектов на изображении. В то же время неинвариантность этих СЭ по отношению к ПП позволяет измерить параметры вращения и зеркального отражения и параметры a7 и a8 ПП изображения объекта. СЭ второго типа, имеющие вид (5) и (6), представляют собой фрагменты плоскости, по-разному ориентированные в пространстве. В результате АП элементы второго типа остаются плоскостями, но меняется ориентация линии их пересечения с плоскостью изображения. Т.е. СЭ второго типа являются инвариантами АП, а по их пространственному положению могут быть измерены параметры пространственного положения соответствующих им границ объектов на изображении. В то же время ПП изменяет форму СЭ второго типа так, что соответствующая ему линия пересечения с плоскостью изображения прямолинейна, но коэффициент k наклона описывающей его поверхности к плоскости изображения может изменяться вдоль линии пересечения, не меняя, однако, своего знака. Однако встречаемые на практике величины параметров a7 и a8 не связаны с заметным локальным изменением коэффициента наклона k, поэтому можно полагать, что СЭ второго типа инвариантны также и к ПП и пригодны для локального описания формы границ объектов в условиях действия такого преобразования.
В четвертой главе рассмотрены объектно-независимые методы построения структурных описаний изображений на основе СЭ разных иерархических уровней. Наиболее привлекательными представляются СЭ второго типа, поскольку в соответствии с п. 5, сформулированным в главе 2, они наиболее устойчивы к естественным изменениям условий наблюдения, и как показано в главе 3, более инвариантны к ПП. Однако в отличие от элементов первого типа они предназначены для описания локальных фрагментов границ объектов. Дифференцирующие фильтры вида (5) и (6) не могут иметь область определения протяженностью более нескольких единиц пикселов. В противном случае они потеряли бы свойство объектной независимости: для каждой новой конкретной формы объекта приходилось бы разрабатывать свой фильтр для выделения его границы. В компьютерном зрении эта проблема традиционно решается путем описания формы контура, выделенного фильтрами (5) и (6), на основе его прослеживания пиксел за пикселом. Однако традиционное описание границы в виде цепочки ее пикселов на практике оказывается не всегда пригодным для решения задач автоматического сопоставления изображений, поскольку локальная форма выделенных таким образом границ чувствительна к действию шумовой N и мультипликативной M составляющих модели (1) преобразования изображений. Эта проблема традиционно решается путем локального сглаживания контуров, однако, построенное таким образом описание границ в общем случае не инвариантно к АП и ПП. В диссертационной работе это противоречие разрешается путем локальной аппроксимации контуров структурными элементами, инвариантными к АП и ПП. В первую очередь это - отрезки прямых линий. Однако локально построенные отрезки прямой - очень простые и поэтому плохо отличаемые друг от друга СЭ, что препятствует построению на их основе надежных алгоритмов однозначного структурного сопоставления. Поэтому алфавит СЭ дополнен углами контурных линий. Они также инвариантны к АП и ПП, поскольку строятся на основе их инвариантов - прямых линий. В некоторых случаях описанный алфавит СЭ может также дополняться сегментами эллиптических дуг, которые также инвариантны к АП и локально инвариантны к ПП.
Предложенный алфавит описания контура прямыми линиями, углами и т.п. базируется на элементах более высокого иерархического уровня (назовем их элементами первого уровня) по сравнению с элементами нулевого уровня, соответствующими исходно выделенным границам. Построение структурного описания на основе СЭ первого уровня можно также рассматривать в контексте группирования фрагментов границ, соответствующих этим СЭ. Таким образом, проблемы устойчивости к локальному шуму, объектной независимости и инвариантности к естественным геометрическим и фотометрическим преобразованиям решаются путем построения иерархических структурных описаний в соответствии с положениями, сформулированными в п. 1, 5 и 6 главы 2. Прямолинейным сегментам контура на первом уровне соответствуют более крупные СЭ второго типа - вида (5) и (6) - при проецировании этих сегментов на нулевой уровень - уровень полутонового изображения. Показано также, что такие элементы первого уровня как прямолинейные сегменты контура, углы и дуги, выделяются детекторами вида (2), поэтому они являются на первом уровне и элементами первого типа.
Выше описанные СЭ первого уровня могут исчерпывающе описываться следующими наборами параметров: декартовы координаты середины, направление и длина - для отрезков прямых линий, декартовы координаты вершины, направление вершины и величина угла - для углов, декартовы координаты середины, угловой размер или длина и величина кривизны - для дуг. Использование указанных параметров позволяет строить структурные описания, инвариантные к преобразованиям подобия, включающим линейные смещения, равномерное масштабирование и вращение. Инвариантами указанной группы являются, например, относительные угловые взаимные положения СЭ или относительные расстояния между центрами СЭ (получаемые как отношения абсолютных значений расстояний к длинам соответствующих прямых линий и дуг). Для учета принципа локальной жесткости, сформулированного в п. 2 главы 2, в структурное описание включается также информация о непосредственном локальном сопряжении соседних СЭ.
Однако в соответствии с положениями п. 1 и 2, сформулированными в главе 2, наблюдаемые изображения поверхностей объектов могут подвергаться и более сложным геометрическим искажениям, описываемым как АП или ПП. Кроме того, пространственное положение элементов изображения может локально отклоняться от положения, предписанного указанными преобразованиями, и отклонение это тем больше, чем больше отклоняется форма наблюдаемой поверхности от плоской, или чем сильнее локальная нежесткость объекта. В связи с этим решающие правила, входящие в алгоритм структурной классификации, должны допускать значительные отличия расстояний между СЭ, соответствующими друг другу на сопоставляемых изображениях, значительные отличия их взаимных угловых положений, и параметров их размера. Такая неопределенность усугубляется большими количествами достаточно простых и поэтому недостаточно уникальных сопоставляемых СЭ первого уровня (как это проиллюстрировано на рис. 1): на реальных изображениях могут выделяться сотни и даже тысячи таких элементов. Это приводит к недостаточной однозначности решения задачи структурного сопоставления. При этом чем дальше друг от друга СЭ, взаимное положение которых описывается, тем сильнее неопределенность.
Степень неопределенности, обусловленную большим количеством похожих СЭ (большой размерностью задачи структурного сопоставления, равной числу перестановок Pn=n! на всем множестве n выделенных СЭ), удается многократно уменьшить путем введения в структурное описание дополнительного иерархического уровня, в рамках которого простые контурные элементы объединяются в группы. Это дает возможность на более низком иерархическом уровне не сопоставлять каждый СЭ одного изображения с каждым СЭ другого, а по отдельности сопоставлять структурные описания, построенные в рамках k созданных групп. Число элементов mi (i=1Еk) каждой группы может быть на один - два порядка меньше числа n СЭ первого уровня, выделенных во всем изображении. Структурное сопоставление групп целиком как более сложных элементов изображения может производиться на более высоком иерархическом уровне. В результате такого группирования значительно уменьшается неопределенность результатов сопоставления. С одной стороны, это связано с уменьшением размерности задачи структурного сопоставления, равной теперь (без существенной потери общности размер группы m задан здесь постоянным и равным n/k). С другой стороны, неопределенность сопоставления уменьшается за счет более пространственно компактного расположения СЭ, относящихся к одной и той же группе.
При реализации группирования были исследованы две стратегии, следующие из принципа иерархичности организации окружающего мира, сформулированного в п. 6 главы 2. Согласно первой стратегии в одну группу включались СЭ первого уровня, составляющие одну непрерывную контурную линию. Логично предполагать, что такая линия должна относиться к одному конкретному объекту из совокупности которых и состоит сцена. Пример структурного описания непрерывных контурных линий приведен на рис. 2. Эта стратегия имеет хорошую вычислительную эффективность, обеспечивает выделение наибольшего числа СЭ, что особенно важно, если изображение содержит недостаточно большое их количество, и в большинстве случаев обеспечивает хорошую надежность структурного сопоставления. Однако если модель преобразования изображения включает значительные мультипликативные и аддитивные трансформации контрастно-яркостных параметров и значительные локальные отклонения геометрического преобразования от АП или ПП, происходит разрыв непрерывных контурных линий или слипание контуров, принадлежащих разным объектам. Это приводит к недопустимому искажению структурного описания в сложных условиях наблюдения.
Согласно второй стратегии к одной и той же группе должны относиться СЭ, принадлежащие некоторым образом заданному локальному компактному региону. Этот подход свободен от недостатков, характерных для первой стратегии. Полученные структурные описания более гибки и устойчивы к действию сложных искажающих факторов, и обеспечивают лучшую надежность сопоставления. В целом этот подход более соответствует иерархическому делению сцен, сформулированному в п. 6 главы 2, поэтому он выбран в качестве основного. Наибольшие трудности в этом случае связаны с построением регионов группирования СЭ. Уже на начальных этапах исследования отличные практические результаты были получены при примитивном делении изображения сеткой ортогональных линий на равновеликие прямоугольные регионы группирования. Иллюстрация такого группирования приведена на рис. 1. Возможность примитивного группирования была обусловлена характером сопоставляемых изображений: это были аэрокосмические снимки достаточно плоского рельефа, сделанные с большого расстояния, поэтому ко всей площади снимка и, в частности, к каждому региону группирования допустимо было применять одну и ту же модель АП или ПП. Однако последнее допущение становится некорректным при сопоставлении изображений трехмерных сцен, если видео-датчик находится вблизи сцены или внутри нее. В этом случае изображение каждой отдельной поверхности подвергается геометрическому преобразованию с индивидуальными параметрами, поэтому регионы группирования должны соответствовать отдельным наблюдаемым поверхностям объектов.
К сожалению, при применении традиционных методов сегментации изображений для разделения сцены на изображения отдельных поверхностей объектов не всегда обеспечивается необходимая инвариантность к естественным изменениям условий наблюдения. В диссертационной работе проблему устойчивого разделения изображений на семантически значимые области, реально соответствующие отдельным объектам, удалось решить путем моделирования механизмов формирования зон внимания, сходных с аналогичными механизмами, найденными в живых зрительных системах. Согласно таким механизмам наибольшую ценность для последующего лизучения представляют области изображения, соответствующие экстремумам функции его локальной корреляции с обобщенными эталонными функциями, имеющими низкочастотный пространственный спектр, а выделенные таким образом элементы изображения используются далее как основа его СА. Однако именно такой подход был использован в главе 2 при формировании СЭ первого типа, в результате чего и были синтезированы оптимальные в условиях действия АП и ПП структурные элементы и соответствующие им весовые функции детекторов, имеющие вид (2). Использование СЭ вида (2) для выделения регионов изображения в целях группирования относящихся к ним контуров представляется тем более рациональным, что элементы первого и второго типов как раз и были синтезированы для обнаружения компактных СЭ и относящихся к ним границ, соответственно. Однако в главе 2 остались неразрешенными две проблемы: для корректного выделения и измерения параметров СЭ первого типа они должны быть правильно отделены от фона и должны полностью вписываться в окно, на котором задана весовая функция детектора вида (2).
В рамках моделирования зон внимания первую из проблем удалось решить, учитывая системное взаимодействие операции сегментации изображения с параметрами формы выделенных с ее помощью объектов. Была также использована адаптивная подстройка пороговых яркостей, отделяющих объект от фона, на основе анализа изменения гистограммы яркости от центра к периферии окна, на котором задана весовая функция детектора. Этот метод разделения, аналогичный методу ожидания-максимизации, был также экстраполирован для перехода к многомерным пространствам признаков текстуры. Вторая проблема была решена в соответствии с п. 6 главы 2, представляющим окружающий мир как иерархическую систему объектов и подобъектов. Окно, на котором задается детектор вида (2), выделяющий представляющие интерес объекты, имеет размер, изменяющийся от полного размера изображения до некоторого минимального уровня (аналогично тому, как меняется размер зоны внимания, при рассматривании изображения живой зрительной системой). При этом детектор вида (2) дает заметно возрастающий отклик, если выделяемые объекты оптимально вписываются в окно, на котором детектор задан. Примеры зон внимания, построенных для изображений двумерных и трехмерных сцен, показаны на рис. 3.
Результаты построения зон внимания, полученные на основе анализа яркости пикселов или признаков текстуры, показывают, что предложенный метод выделения локальных объектов и соответствующих им регионов группирования контуров путем обнаружения непроизводных элементов первого типа на разных иерархических (масштабных) уровнях оказался достаточно успешным. Система регионов группирования, соответствующих объектам и подобъектам, также может быть организована иерархически, что соответствует положениям п. 6, сформулированным в главе 2.
В соответствии с положениями п. 6 главы 2 вследствие иерархического характера организации изображений наблюдаемого мира система объектов и подобъектов (и относящихся к ним границ) может применяться не только на макро-уровне, соответствующем крупным компонентам сцен, но и для описания текстур на изображениях их поверхностей, причем на микро-уровне (т.е. на уровне текстур) для описания могут использоваться такие же как на макро-уровне непроизводные СЭ. Следуя этому принципу, СЭ первого и второго типов были применены для описания и распознавания текстур. На рис. 4 приведен пример сегментации аэрофотоснимка, выполненной на основе структурного описания текстуры на единственном иерархическом уровне. Однако для естественных ландшафтов характерны также ситуации, когда не существует четкой грани между подобъектами и текселами на поверхностях объектов (случаи сложных текстур). В таких случаях применение традиционных подходов приводит к недопустимой фрагментированности результатов сегментации изображений, как это продемонстрировано на рис. 5. Эта проблема решается в работе путем построения иерархических алгоритмов описания и сегментации текстур, причем на разных иерархических уровнях успешно используются одни и те же СЭ (элементы первого и второго типов), принадлежащие разработанному ортогональному базису. На рис. 6 показан результат сегментации, основанной на иерархическом описании текстур. Описание текстур каждого иерархического уровня базировалось на анализе плотностей распределения обнаруженных текселов по типам соответствующих им СЭ, по значениям их контрастно-яркостных параметров и параметров пространственного положения и формы, описанным в главе 3 для СЭ первого и второго типов.
В пятой главе описана реализация предложенного объектно-независимого подхода при сопоставлении изображений на основе их иерархических структурных описаний. В соответствии с многоуровневой организацией используемых описаний система их сопоставления также иерархическая многоуровневая. В работе было рассмотрено два разных метода сопоставления: с помощью оптимизирующей нейронной сети Хопфилда-Танка и методом обхода дерева решений. Предпочтение было отдано второму методу. Схема разработанной объектно-независимой системы структурного сопоставления приведена на рис. 7. Основой структурного сопоставления, выполняемого на уровне контурных СЭ (первом иерархическом уровне), является оптимизированный обход дерева всевозможных вариантов взаимно-однозначных сопоставлений СЭ двух изображений (дерева решений). Каждый вариант такого сопоставления можно представить как
где - сопоставление l-того СЭ из множества n элементов, принадлежащих некоторой группе элементов первого изображения, с m-тым элементом некоторой группы во втором изображении, k=Pn=n! - число возможных вариантов структурного сопоставления, равное числу перестановок в множестве из n элементов (в целях упрощения изложения здесь принято допущение, что два множества сопоставляемых элементов имеют одинаковый размер). Для сокращения вычислительных затрат, связанных с сопоставлением, любая из ветвей (подветвей) дерева решений исключается из дальнейшего рассмотрения при первом встреченном несоответствии параметров сопоставляемых элементов el и em, а операции проверки соответствия параметров выполняются в порядке увеличения связанных с ними вычислительных затрат. Сначала анализируется совпадение собственных типов сопоставляемых СЭ и их собственных параметров, и при несовпадении данная ветвь дерева решений из последующего анализа исключается (например, угол нельзя сопоставить с фрагментом линии, а разница длин сопоставляемых фрагментов не может быть больше заданной доли от длины наименьшего из них). Затем анализируется совпадение параметров, связанных с парами сопоставленных СЭ, например, расстояния между их центрами, или относительного азимута направления от одного элемента к другому. Далее проверяются параметры троек сопоставленных элементов, например, не соответствует ли матрица преобразования координат, рассчитанная по трем сопоставленным элементам, преобразованию с зеркальным отражением.
В результате этой трехэтапной проверки подавляющая часть неправильных версий сопоставления отвергается. Для немногих оставленных для дальнейшего рассмотрения гипотез анализируется связанная с ними суммарная ошибка пересчета координат СЭ от одного сопоставляемого изображения к другому и суммарное отклонение взаимно-соответствующих точек контуров, возникающее при пересчете координат. Окончательно, для каждой пары групп элементов первого и второго изображений выбирается гипотеза сопоставления, имеющая наилучшее качество, т.е. связанная с наименьшими значениями указанных интегральных ошибок.
учшая гипотеза сопоставления для каждой пары групп (перечень попарных соответствий входящих в группы элементов и соответствующий гипотезе показатель качества) передается на следующий (второй) иерархический уровень, на котором делается попытка сопоставления регионов группирования как неделимых СЭ более высокого уровня. При этом могут учитываться взаимное пространственное положение и параметры формы регионов группирования в двух сопоставляемых изображениях, а также показатели качества сопоставления, соответствующие каждой паре групп в соответствии с результатами сопоставления на предыдущем иерархическом уровне. Для лучших гипотез сопоставления, выработанных на втором иерархическом уровне, в соответствии с рассчитанными для них параметрами преобразования координат делается попытка скорректировать форму регионов группирования, в результате чего именно для более качественных гипотез сопоставления и далее увеличивается количество правильно сопоставленных контурных элементов, и уменьшается количество неправильных сопоставлений на первом иерархическом уровне.
Аналогичные нисходящие обратные связи соединяют первый иерархический уровень с нулевым, на котором формируются контурные СЭ. Под действием этих обратных связей для наилучших гипотез сопоставления на первом и втором иерархических уровнях корректируются процессы формирования контурных СЭ на нулевом иерархическом уровне. Коррекция работы более низких иерархических уровней на основе результатов сопоставления более высокого уровня, выполняется итеративно, в результате чего показатели качества сопоставления, соответствующие лучшим верным гипотезам, возрастают, а неправильные гипотезы еще сильнее подавляются.
Реализованная таким образом иерархическая система демонстрирует возможность выполнения объектно-независимого структурного сопоставления изображений, отвечающего принципу иерархического структурирования окружающего мира, сформулированному в п. 6 главы 2. При построении иерархической системы использовано итеративное улучшение гипотез с помощью нисходящих обратных связей в соответствии с принципом адаптивного резонанса, описанным для живых зрительных систем. Таким путем принимается во внимание системное взаимодействие разных иерархических уровней организации окружающего мира. Система сопоставления может включать несколько иерархических уровней, соответствующих регионам группирования (объектам и подобъектам и соответствующим им зонам внимания) разного масштаба. При построении системы структурного сопоставления учтены и остальные пять принципов организации объектно-независимых систем СА, сформулированные в главе 2.
В заключение в главе оцениваются показатели эффективности разработанных методов. В частности, относительная частота правильного сопоставления снимков с сезонными и ракурсными отличиями достигает 96%, что 3,5 раза лучше чем у метода Фурье-Меллина, при этом ошибка совмещения изображений плоского рельефа не превышает пиксела.
В шестой главе приведены результаты решения практически важных задач, связанных со СА изображений, на основе разработанного объектно-независимого подхода. Рассмотренные достижения могут применяться в разных областях, поэтому в соответствии с особенностями решаемых задач и для компактности изложения полученные результаты целесообразно систематизировать здесь по нескольким тематическим группам.
1. Автоматическая запись изображений в общей системе координат. Внутри этой группы приложений можно выделить три подгруппы:
а) Выполнялась запись разнородных изображений в общей системе координат:
- изображений, сформированных в видимом или ИК диапазонах;
- видеоданных, сформированных радарами с синтезированной апертурой, интерференционными радиолокаторами, лазерными, акустическими или радиолокационными дальномерами;
- векторных изображений, характерных для географических карт, геоинформационных систем, чертежей CAD-формата.
Такое объединение разнородных данных (data fusion) часто используется для оптимизации визуального восприятия видеоданных (например, аэрокосмические снимки, совмещаются с картой местности), для коррекции изображений с учетом дальнометрических данных, для восполнения информации, утраченной в результате затенения или загораживания, видеоданными, полученными с других ракурсов наблюдения. Задача осложняется в этом случае существенными отличиями сопоставляемых изображений, обусловленными, отличающимися свойствами применяемых датчиков, отличающимися ракурсами наблюдения, отличающимися способами формирования изображений, локальными отклонениями формы отображаемых поверхностей от плоской. Примеры успешного сопоставления радиолокационных снимков с оптическими и векторных чертежей с оптическими изображениями приведены соответственно на рис. 8 и 9.
б) Выполнялась запись в общей системе координат изображений, сформированных в разное время или с разных ракурсов. Этот вариант сопоставления имеет следующие практические приложения:
- мониторинг местности для выявления изменений и обнаружения признаков возникновения природных и техногенных катастроф;
- сопоставление изображения объекта с эталонным, например, в целях контроля качества произведенной продукции или для выявления мест разрушения деталей;
- стереоскопическое измерение дальности по сопоставленным снимкам, сделанным с разных ракурсов.
Задача сопоставления осложняется изменением ракурса наблюдения и характера освещения, а также сезонно-суточными изменениями местности. Дополнительные трудности сопоставления связаны с неплоским характером отображаемых поверхностей. Пример сопоставления аэрофотоснимков, сделанных в разные сезоны, представлен на рис. 10.
в) Выполнялся синтез аэрокосмических изображений больших регионов на основе локальных снимков местности.
2. Поиск изображений в базах данных. Выполнялось опознавание ключевого фрагмента изображения в одном или нескольких изображениях, хранящихся в базе данных, и определение координат искомого фрагмента в найденных изображениях при решении задач:
- автоматической навигации мобильного робота или беспилотного аппарата;
- автоматического нахождения и локализации заданных конкретных объектов;
- автоматического обнаружения и локализации объектов заданного класса.
3. Автоматическая сегментация аэрокосмических снимков, распознавание и идентификация элементов ландшафта на основе параметров их текстур при решении задач мониторинга Земли из космоса в целях рационального землепользования и выявления признаков природных и техногенных катастроф. Примеры выполнения одноуровневой и иерархической сегментации аэрофотоснимков по текстуре показаны на рис. 4 и 6.
4. Распознавание неделимого изображения единственного объекта является упрощенным частным случаем структурного распознавания. Применение такого упрощения оправдано, если аддитивными, мультипликативными и шумовыми составляющими преобразования яркости пикселов, описанными в модели (1), можно пренебречь, а геометрическое преобразование, представленное в этой модели может быть сведено к АП или одной из его подгрупп. Тогда после измерения параметров и компенсации АП методами, описанными в главе 3, объект может быть распознан одним из подходящих известных способов. Именно такие упрощения оказываются правомерными при решении некоторых задач промышленной робототехники. В связи с этим предложенный в настоящей работе подход был успешно применен при распознавании и измерении параметров положения деталей на конвейерах.
В заключении приведены основные результаты работы и сформулированы следующие из них выводы. Перечисляются также важные исследовательские и хозяйственные проекты, в которых нашли практическое применение результаты диссертационной работы, и приводятся сведения о полученных актах о внедрении. Приводятся также сведения о методах и инструментах обработки изображений, которые были обобщены или улучшены в рамках разработанного автором объектно-независимого подхода.
В Приложения 1 Ц 7 вынесены поясняющие материалы, которые лутяжелили бы текст работы и не способствовали бы правильному восприятию ее общей структуры, если бы были включены в основную ее часть.
В Приложении 8 приведены акты о внедрении результатов работы.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ
1. Достигнута цель работы: в рамках проблемы, сформулированной автором, разработаны методы объектно-независимого СА изображений, основанного на существенных в контексте решаемых задач общих закономерностях пространственной организации наблюдаемого мира и свойствах наиболее часто применяемых систем формирования изображений.
2. Разработанный объектно-независимый подход позволяет представить в рамках единой модели и усовершенствовать ряд известных методов и инструментов теории автоматической обработки и анализа изображений и методы анализа изображений, реализованные в естественных зрительных системах. Это свидетельствует о его высокой обобщающей способности.
3. Методы и алгоритмы, разработанные в рамках предложенного подхода, объектно-независимы и робастны, поэтому они представляют ценность при автоматическом анализе изображений, подвергнутых сложным фотометрическим и геометрическим искажениям и характеризующихся высокой априорной неопределенностью сюжета. В частности, они позволяют осуществлять надежное и точное сопоставление, совмещение и совместный пространственно-временной анализ аэрокосмических снимков, сделанных в разные сезоны и с разных ракурсов видео-датчиками различающихся типов: синтезировать панорамные снимки, выполнять стерео-анализ, интеграцию видеоданных, сформированных датчиками разных типов (data fusion), выявление их локальных изменений. Эти методы могут также использоваться при поиске изображений в базах данных, в системах зрительной адаптации автономных мобильных роботов и в системах технического зрения для автоматического управления производством и контроля качества продукции.
4. На основе концепций, методов и алгоритмов, предложенных в работе, реализован ряд программно-алгоритмических продуктов, нашедших применение в нашей стране и за рубежом. Результаты работы представляют основу для решения важных исследовательских и хозяйственных задач.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ ДИССЕРТАЦИИ ПРЕДСТАВЛЕНЫ В СЛЕДУЮЩИХ РАБОТАХ:
(статьи 1Ц15 опубликованы в изданиях, включенных в список изданий, рекомендованных ВАК для опубликования результатов диссертаций, и в изданиях, перечисленных в Thomson Reuters: Science Citation Index Expanded / Conference Proceedings Citation Index)
1. Луцив В.Р., Данилов Е.П. Нейронные сети: современное состояние и перспективы // Оптико-механическая промышленность. Оптический журнал. 1991. No.4. С. 20-33.
2. Луцив В.Р., Долинов Д.С., Жеребко А.К., Новикова Т.А. Применение искусственных нейронных сетей в задачах обработки изображений // Оптический журнал. 1997. Т. 64, №2. С. 45-52.
3. Луцив В.Р. , Жеребко А.К. Согласованная фильтрация в естественных и искусственных нейронных сетях // Оптический журнал. 1999. Т. 66, №9. С. 69-72.
4. Lutsiv V.R., Allinson N.M., Zherebko A.K., Barabanov N.E. Neural net based images matching // SPIE Proceedings. 2000. V. 3962 УApplications of artificial neural networks in image processingФ. P. 128-137.
5. Lutsiv. V.R., Malyshev I.A., Pepelka V.A. Automatic fusion of the multiple sensor and multiple season images // SPIE Proceedings. 2001. V. 4380 УSignal Processing, Sensor Fusion, and Target Recognition XФ. P. 174-183.
6. Луцив В.Р., Малышев И.А., Потапов А.С. Совмещение аэро-космических изображений с субпиксельной точностью методом локальной корреляции // Оптический журнал. 2004. Т. 71, №5. С. 31-36.
7. Луцив В.Р., Малышев И.А., Потапов А.С. Принцип минимальной длины описания как средство улучшения дискриминантных методов распознавания // Оптический журнал. 2006. Т. 73, №10. С. 41-46.
8. Луцив В.Р., Андреев В.С., Губкин А.Ф., Ильяшенко А.С., Кадыков А.Б., Лапина Н.Н., Малышев И.А., Новикова Т.А., Потапов А.С. Алгоритмы автоматической обработки и анализа аэрокосмических снимков // Оптический журнал. 2007. Т. 74, №.5, С. 12-30.
9. Луцив В.Р. Моделирование зон внимания в задачах автоматической декомпозиции и структурного анализа изображений // Оптический журнал. 2007. Т. 74, №4. С. 59-67.
10. Луцив В.Р. Применение обобщенных эталонных функций в естественных и искусственных зрительных системах // Оптический журнал. 2007. Т. 74, № 11. С. 47-52.
11. Луцив В.Р., Новикова Т.А. Моделирование зон внимания на основе анализа локальных особенностей текстуры изображений // Оптический журнал. 2008. Т. 75, №7. С. 55-64.
12. Луцив В.Р. Объектно-независимый подход к структурному анализу изображений // Оптический журнал. 2008. Т. 75, №11. С. 26-34.
13. Луцив В.Р. Метод итеративной компенсации проективных искажений изображений // Оптический журнал. 2009. Т. 76, №7. С. 53-60.
14. Аверкин А.Н., Луцив В.Р., Потапов А.С. Построение систем локальных инвариантных признаков изображения на основе преобразования Фурье-Меллина // Оптический журнал. 2010. Т. 77, №1. C. 36-41.
15. Луцив В.Р., Лапина Н.Н., Малышев И.А., Потапов А.С. Особенности сопоставления изображений в задачах определения местоположения мобильного робота // Оптический журнал. 2010. Т. 77, №11. C. 25-34.
16. Луцив В.Р. Визуальные системы роботов. Глава VIII / Мясников В.А., Игнатьев М.Б., Покровский А.М. Программное управление оборудованием. - 2-е изд. - Л.: Машиностроение, 1984. С. 354-381.
17. Луцив В.Р. Создание гибких оптических информационных систем для ГАП // Материалы краткосрочного семинара Гибкие автоматизированные производства в радиоаппарато- и приборостроении. - Л.: ЛДНТП, 1984. С. 31-34.
18. Луцив. В.Р. Методы обработки изображений при управлении роботами в ГАП // Сб. ЭВМ в проектировании и производстве. Вып.2 /Под. ред. Г.В. Орловского. - Л.: Машиностроение, 1985. С. 154-162.
19. Луцив В.Р. Модель искажения изображений в зрительных анализаторах // Тезисы докладов к зональному семинару Состояние, опыт и направления работ по комплексной автоматизации на основе гибких автоматизированных производств, робототехнических комплексов и промышленных роботов. Пенза, 1985. С. 86-88.
20. Луцив В.Р., Постнова М.Н. Алгоритмы распознавания изображений в ГПС // Материалы краткосрочного семинара Опыт разработки и эксплуатации АСУ ТП. - Л.: ЛДНТП, 1985. С. 46-48.
21. Луцив В.Р. К вопросу структурного анализа изображений // Сб. Иконика/ книга VI / Труды ГОИ. 1992. Т. 79, Вып. 213. - С.-Петербург: ГОИ им. С.И. Вавилова. С. 65-71.
22. Луцив В.Р., Долинов Д.С. Нейронная сеть для сопоставления изображений, реализованная на транспьютерах // Материалы V Конференции Транспьютерные системы и их применение. Москва, Домодедово, 1995. 1 с.
23. Luciv V, Dolinov D, Zherebko A. On the use of the neuron-like and parallel computational architectures for image processing // Proceedings of the 2-nd international conference УApplications of computer systemsФ. Szczecin, Poland, 1995. P. 213-214.
24. Luciv V., Dolinov D., Zherebko A. The artificial neural networks for image contours extraction and image segmentation on the base of texture geometric features // Proceedings of the third international conference УApplications of computer systemsФ. Szczecin, Poland, 1996. P. 355-363.
25. Lutsiv V.R., Dolinov D.S., Zherebko A.K., Barabanov N.E. The artificial neural network for image contours extraction // Proceedings of the IEEE international conference УControl of oscillation and chaosФ, August 27-29, 1997, St. Petersburg, Russia. P. 536-538.
26. Lutsiv. V.R., Malyshev I.A., Pepelka V.A., Potapov A.S. The target independent algorithms for description and structural matching of aerospace photographs // SPIE Proceedings. 2002. V. 4741 УGeo-spatial image exploitation developments and applications IФ. P. 351-362.
27. Луцив В.Р., Сильников М.В., Петроченков С.А., Новикова Т.А. О количественной оценке маскировочных свойств специзделий и спецобмундирования // Тезисы докладов пятой Всероссийской научно-практической конференции Актуальные проблемы защиты и безопасности. С.-Петербург, 2 - 5 апреля 2002. C. 36-37.
28. Lutsiv. V.R., Potapov A.S. Information-theoretic approach to image description and interpretation // SPIE Proceedings. 2003. V. 5400 УSeventh International Workshop on Nondestructive Testing and Computer Simulations in Science and EngineeringФ. P. 277-283.
29. Lutsiv. V.R., Malyshev I.A., Potapov A.S. Hierarchical structural matching algorithms for registration of aerospace images // SPIE Proceedings. 2003. V. 5238 УImage and Signal Processing for Remote Sensing IXФ. P. 164-175.
30. Lutsiv V., Malyshev I., Novikova T. Hierarchical approaches to analysis of natural textures // SPIE Proceedings. 2004. V. 5426 УAutomatic Target Recognition XIVФ. P. 144-154.
31. Lutsiv V.R., Potapov A.S., Malyshev I.A. Sub-pixel precise image analysis in the industrial environment // SPIE Proceedings. 2004. V. 5831 УEighth International Workshop on Nondestructive Testing and Computer Simulations in Science and EngineeringФ. P. 199-203.
32. Lutsiv V., Potapov A., Novikova T., Lapina N. Hierarchical 3D structural
matching in the aerospace photographs and indoor scenes // SPIE Proceedings. 2005. V. 5807 УAutomatic Target Recognition XVФ. P. 455-466.
33. Lutsiv V. Computer simulation of attention fields in the task of image inspection and structural matching // Perception, V. 35, Supplement: ECVP 2006. Abstracts. (29th European conference on visual perception. St. Petersburg, 20-25 August 2006). P. 50.
34. Patent KR20110009547 (A) (Korea). Apparatus and method for detecting rotation-invariant features for localization of a mobile robot / Lutsiv V., Potapov A., Redkov V., and others; LG Electronics Inc. - Appl. No. KR20090066995 2009.07.22; Prior. No. KR20090066995 2009.07.22; Publ. 2011.01.28 by UK Intellectual Property Office;>
35. Вадим Луцив. Автоматический анализ изображений. Объектно-независимый структурный подход. - Саарбрюккен, Германия: Ламберт Академик Паблишинг, 2011 г. - 300с.
Авторефераты по всем темам >> Авторефераты по техническим специальностям