Авторефераты по всем темам >> Авторефераты по техническим специальностям

На правах рукописи

Куракин Алексей Владимирович

Распознавание динамических жестов в системе компьютерного зрения на основе медиального представления формы изображений

05.13.17 - Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Москва - 2012

Работа выполнена на кафедре Интеллектуальные системы факультета управления и прикладной математики Московского физико-технического института (государственного университета).

Научный консультант:

доктор технических наук, профессор Местецкий Леонид Моисеевич

Официальные оппоненты:

Чернов Владимир Михайлович, доктор физико-математических наук, ФГБОУ ВПО Самарский государственный аэрокосмический университет имени академин ка С. П. Королёва (национальный исследовательский университет), профессор кафедры геоинформатики и информационной безопасности;

Копылов Андрей Валериевич, кандидат технических наук, ФГБОУ ВПО Тульский государственный университет, доцент кафедры автоматики и телемеханики.

Ведущая организация: Московский государственный университет имени М. В. Ломон носова.

Защита состоится л 21 декабря 2012 г. в 10.00 часов на заседании диссертационного совета Д 212.215.07, созданного на базе федерального государственного бюджетного обран зовательного учреждения высшего профессионального образования Самарский государн ственный аэрокосмический университет имени академика С.П. Королева (национальный исследовательский университет) (СГАУ), по адресу: 443086, г. Самара, Московское шосн се, д. 34.

С диссертацией можно ознакомиться в библиотеке СГАУ.

Автореферат разослан л 20 ноября 2012 г.

Ученый секретарь диссертационного совета, д. т. н., профессор Белоконов И.В.

Общая характеристика работы

Предмет исследования. Жестом называют телодвижение, преимущественно двин жение рукой, сопровождающее речь или имеющее значение какого-либо сигнала, знака1.

Язык жестов в широком смысле бесконечно разнообразен как по форме жестов, так и по их семантике, поэтому полномасштабное распознавание языка жестов представляет собой сложную задачу даже для человеческого интеллекта. На современном уровне развития систем компьютерного зрения задача автоматического распознавания ставится обычно применительно к небольшому набору заранее определенных жестов.

В данном исследовании в качестве объекта, совершающего жест, рассматриваются кисти рук человека и тело человека. Под позой объекта понимается его форма и положение на отдельном изображении. А под жестом в данной работе понимается предопределенная последовательность поз, то есть предопределенное динамическое изменение формы и полон жения объекта в последовательности изображений. Задача распознавания жестов состоит в регистрации формы и положения объекта, регистрации межкадровых изменений форн мы и положения, и классификации последовательности этих изменений по нескольким предопределенным классам.

Актуальность темы. Жесты всегда были неотъемлемой частью взаимодействия людей между собой. Но жесты также являются удобным средством взаимодействия с комн пьютером во многих сценариях. Можно привести следующие примеры таких сценариев:

управление развлекательными приложениями и системами;

управление медицинским оборудованием при требованиях стерильности, которые можно удовлетворить за счет минимизации тактильного контакта между оператон ром и устройством;

визуализация и моделирование сложных трехмерных данных, удобство работы с кон торыми ограничено при применении стандартных двухмерных манипуляторов, таких как компьютерная мышь;

компьютерное распознавание языка глухонемых.

Руки и тело человека являются естественными манипуляторами и обладают большим числом степеней свободы, поэтому успешное решение задачи распознавания выполняемых Академический словарь русского языка ими жестов раскрывает перспективы для решения широкого круга прикладных задач.

В диссертации рассматривается задача распознавания жестов на основе информации, полученной с доступных визуальных сенсоров, таких как веб-камеры и камеры глубины.

В литературе рассматриваются различные методы решения задач распознавания отн дельных классов жестов. В частности, достаточно много работ (Wang, Popovi 2009; Van c, den Bergh, Van Gool, 2011; Ren et al., 2011; Gudmundsson et al., 2010; Suryanarayan et al., 2010), посвящены определению статической позы руки, при использовании RGB камеры в качестве сенсора. Но предлагаемые решения либо работают с простейшими одиночнын ми жестами, либо обладают большой вычислительной сложностью, которая не позволяет использовать их в системах реального времени.

Появление сенсора Kinect в 2010 году, первой камеры глубины доступной широкой аудитории, открыло широкие возможности для создания систем распознавания жестов, что чрезвычайно повысило актуальность задачи распознавания жестов с использованием камеры глубины. А разработанное для Kinect программное обеспечение выполняет опрен деления положений основных суставов тела человека (Shotton et al., 2011). Однако в нем отсутствует механизм распознавания динамических жестов, более того данное программн ное обеспечение является закрытым, и для воспроизведения лежащего в его основе метода требуется большая база данных всевозможных поз человека для обучения классификатон ра.

В целом, решение задач, связанных с распознаванием сложных динамических жен стов находится на начальном уровне. А разнообразие жестов и способность человека к их пониманию столь велики, что проблема их распознавания с помощью компьютера будет оставаться актуальной долгое время.

Научная задача. Основная задача данной работы заключается в разработке мен тода классификации динамических жестов по видеопоследовательности на основе непрен рывного медиального представления объекта, совершающего жесты. В качестве объектов, совершающих жесты, рассматриваются рука и тело человека. Сложность задачи опреден ляется очень большим разнообразием жестов и вариантов их исполнения, что связано с большим числом степеней свободы рук и тела человека, разнообразием индивидуальных антропометрических и двигательных особенностей различных людей, требованием реальн ного времени работы системы компьютерного зрения.

Выделение признаков затруднено из-за того, что объект нередко наблюдается с окн клюзиями (т.е. разные точки объекта проецируются в одну точку изображения), что привон дит к невозможности оценки значений всех параметров, характеризующих позу объекта.

Более того, так как в работе рассматриваются динамические жесты, их продолжительн ность во времени может быть различна как для разных жестов, так и для повторения одного и того же жеста. Это приводит к тому, что лэффективная размерность признан кового пространства, описывающего жесты, меняется как от жеста к жесту так и между повторениями одного и того же жеста.

Цель исследования. Целью диссертационного исследования является разработка новых методов распознавания поз и жестов по видеопоследовательности, полученной с веб-камер или камеры глубины, позволяющих существенно расширить класс решаемых в реальном времени задач распознавания жестов. Достижение цели повысит эффективность и расширит возможности современных систем компьютерного зрения и распознавания жестов.

Предлагаемый подход. В данной работе предлагается использовать непрерывное медиальное представление для генерации признаковых описаний отдельных кадров, на осн нове которых будет выполняться распознавание жестов. Совокупность признаковых опин саний отдельных кадров образует траекторию жеста. Распознавание жестов предлагается выполнять с помощью метрического классификатора, за счет сравнения траекторий расн познаваемых жестов с траекториями эталонных жестов.

Методы, основанные на непрерывном медиальном представлении2, дают информан тивное признаковое описание и обладают достаточной скоростью обработки. Однако пон добные методы не использовались ранее для онлайн анализа видеопоследовательностей и распознавания динамических жестов, соответственно, их использование в рассматриваен мой задаче требует научной проработки.

Результаты, выносимые на защиту

1. Метод распознавания жестов, представленных видеопоследовательностями, основанн ный на выделении ключевых точек формы объектов в отдельных кадрах, построен нии динамических траекторий ключевых точек в последовательностях изображений и вычислении меры близости траекторий на основе выравнивания.

2. Метод генерации признаков пространственной формы объекта по изображениям или Местецкий Л.М. Непрерывная морфология бинарных изображений: фигуры, скелеты, циркуляры.

Москва, Физматлит, 2009.

по карте глубины на основе непрерывного медиального представления плоских прон екций объекта.

3. Метод связывания фрагментов границ в контуры, основанный на построении внешн него скелета исходных фрагментов границ.

4. Метод сегментации объекта за счет анализа противоположных частей его границ с помощью непрерывного скелета и радиальной функции.

5. Метод сравнения видеопоследовательностей, каждый кадр которых описан множен ством ключевых точек, на основе выравнивания.

Научная новизна. Научная новизна работы определяется:

обоснованием возможности использования непрерывного медиального представлен ния для анализа поз и динамических жестов сложных пространственных объектов в реальном времени работы систем компьютерного зрения;

разработкой оригинальной меры близости видеопоследовательностей, основанной на построении и использовании траекторий ключевых точек, получаемых по медиальн ным признаковым описаниям объектов;

разработкой метода распознавания жестов по карте глубины с обучением по одному прецеденту.

Теоретическая и практическая значимость. Теоретическая значимость работы заключается в разработке и обоснование нового подхода в решении задачи восстановлен ния формы трехмерного объекта в динамике в интересах распознавания жестов в системах компьютерного зрения, а также в разработке аппарата распознавания динамических жен стов при переменной размерности признакового пространства.

Практическая значимость состоит в разработке методов распознавания жестов ладон ни и тела человека, работающих в реальном времени.

Достоверность результатов. Достоверность результатов диссертационной работы подтверждается корректностью постановок рассматриваемых задач исследования, примен нением математически обоснованных методов их решения, программной реализацией и вын числительными экспериментами, проведенными на реальных видеопоследовательностях с жестами рук и тела человека.

Апробация результатов исследования. Основные результаты диссертационнон го исследования докладывались на следующих конференциях: International conference on computer vision theory and applications (Виламора, Алгарве, Португалия, 2011); International Conference on Image Analysis and Recognition (Ванкувер, Канада, 2011); European Signal Processing Conference (Бухарест, Румыния, 2012); Bilateral Russian-Indian Workshop Emerging Applications of Computer Vision (Москва, 2011); 15-я Всероссийская конференция Матен матические методы распознавания образов (Петрозаводск, 2011); 9-я Международная конференция Интеллектуализация обработки информации (Будва, Черногория, 2012);

53-я научная конференция Московского физико-технического института (Долгопрудный, 2010); Конференция Техническое зрение в системах управления-2011 (Москва, 2011).

Методы, разработанные и используемые в диссертации, были применены для участия в соревнованиях Hand Geometric Points Detection Competition 2011 и ChaLearn Gesture Challenge.

В рамках исследования была разработана система управления мышью и объектами на экране компьютера с помощью жестов рук. Примеры видео, демонстрирующих управн ление компьютером с помощью жестов, можно найти по ссылкам [11Ц14].

Основные результаты работы опубликованы в [1Ц10], в том числе в изданиях [1, 2], входящих в список ВАК.

Исследования по теме диссертации поддерживались РФФИ (проекты №11-01-00783-а, №11-07-00462-а).

Структура и объем диссертации. Диссертация состоит из введения, 4 глав основн ного содержания, заключения и библиографии. Работа содержит 108 страниц основного текста, включая 34 иллюстрации. Перечень библиографических источников включает наименований.

Содержание работы Во Введении обоснована актуальность темы диссертационной работы, сформулин рована цель и аргументирована научная новизна исследования, показана практическая значимость полученных результатов, представлены выносимые на защиту научные полон жения.

В первой главе приводится постановка задачи, обзор литературы, по тематике задачи и структура предлагаемого в диссертации подхода.

Рис. 1. Схема предлагаемого подхода.

В разделе 1.1 дается формальная постановка задачи распознавания жестов, расн сматриваемая в диссертации.

В диссертации рассматривается метод распознавания динамических жестов, соверн шаемыми кистью и руками.

Произвольный жест G задается последовательностью изображений G = (I1,..., I|G|) объекта, совершающего жест, где через |G| обозначается количество кадров в жесте G. Бун дем полагать, что имеется обучающая совокупность, заданная набором эталонных жестов G1,..., GN. На вход системы распознавания жестов подается видеопоследовательность V = (I1,..., In), содержащая один или несколько жестов, а задача состоит в определении количества жестов k входящих в видеопоследовательность V, номеров кадров начала sj и окончания ej каждого из жестов, где j {1,..., k}, а также индексов эталонных жестов gj, соответствующих каждому из жестов в видеопоследовательности. Дополнительно могут вычисляться количественные характеристики распознанных жестов такие, как общее пен ремещение объекта на протяжении жеста и координаты объекта и его частей в различные моменты времени.

В разделе 1.2 задача распознавания динамических жестов разбивается на подзадан чу генерации признаков для отдельных кадров и подзадачу распознавания динамических последовательностей признаковых описаний. Для каждой из подзадач приводится обзор существующих методов их решений.

В разделе 1.3 приводится структура предлагаемого в диссертации подхода к рен шению задачи распознавания жестов. Она проиллюстрирована на рисунке 1 и состоит из шести этапов.

На первом этапе выполняется одновременное получение изображений с одной или нескольких камер, выполняющих съемку объекта. В работе используется одна RGB камен ра, стереопара из RGB камер, а так же сенсор глубины Microsoft Kinect.

На втором этапе выполняется сегментация полученных изображений с целью выден ления силуэта искомого объекта. Конкретный метод сегментации зависит от типа испольн зуемых камер и особенностей выделяемого объекта. Для цветных камер используются традиционные методы, основанные на вычитание фона, а для камеры глубины были разн работаны специальные методы сегментации объекта.

На третьем этапе выполняется построение непрерывного медиального представлен ния силуэта изображения объекта Ч множества серединных осей, образованных центрами вписанных в силуэт кругов, и радиальной функции, определяемой радиусами этих кругов.

На четвертом этапе полученное медиальное представление объекта используется для генерации признакового описания каждого отдельного кадра. В качестве признаков выстун пают координаты частей объекта. Для жестов рук Ч это координаты кончиков пальцев, а для жестов, совершаемых телом Ч это координаты кистей рук.

На пятом этапе происходит межкадровая обработка полученных признаковых опин саний с целью фильтрации выбросов, заполнения пропусков и уменьшения шумов.

На шестом этапе производится распознавание динамических жестов на основе полун ченных признаков.

Детально каждый из этапов описан в последующих главах диссертации.

Вторая глава посвящена методам извлечения признаков для отдельных кадров вин деопоследовательности. Общая идея построения признакового описания отдельного кадра состоит в сегментации объекта, построении медиального представления силуэта объекта, выделении ключевых точек объекта на основе медиального представления, и использован нии координат ключевых точек в качестве признакового описания.

В разделе 2.1 дается понятие непрерывного скелета и непрерывного медиального представления.

Для многоугольной фигуры F максимальным пустым кругом будем называть всякий круг B, полностью содержащийся внутри фигуры F, такой что любой другой круг B, содержащийся внутри фигуры F, не содержит в себе B, т. е. B F, B = B : B B.

Скелетом многоугольной фигуры F является множество центров ее максимальных пустых кругов. На скелете определена радиальная функция R(x, y), которая ставит в соответствие каждой точке скелета (x, y) значение радиуса максимального пустого круга с центром в этой точке. Скелет совместно с радиальной функцией называют медиальным (а ) (б ) (в ) (г ) Рис. 2. Выделение тела человека по карте глубины: (а) исходный кадр; (б) движущиеся части, полученные за счет вычитания фона; (в) края на карте глубины; (г) сегментированное тело чен ловека.

представлением объекта.

Скелет многоугольной фигуры можно рассматривать как геометрический граф Ч плоскую фигуру, состоящую из вершин Ч точек на плоскости и ребер Ч линий, соединяюн щих некоторые пары вершин. Степень вершин в таком графе равна 1, 2 или 3.

Для растровых силуэтов перед построением непрерывного скелета выполняется пон строение многоугольной аппроксимации силуэта.

Для анализа скелета и выделения ключевых точек на скелете в диссертации вводятся вспомогательные понятия ветви скелета и радиальной функции вдоль ветви скелета.

Пусть s() : s(l) = {x(l), y(l)}, l [0, L], Ч непрерывная кусочно-гладкая кривая без самопересечений и l является естественной параметризацией кривой (т. е. длиной дуги кривой). Пусть каждая точка кривой s() является одновременно и точкой скелета, а s(0) и s(L) совпадают с некоторыми вершиными скелета. В таком случае кривую s(), соединяющую точки скелета s(0) и s(L), будем называть ветвью скелета.

Для каждой точки скелета с координатами (x, y) известно значение радиальной функн ции R(x, y), равное радиусу максимального пустого круга с центром в этой точке. Дополн нительно для произвольной ветви скелета s() будем рассматривать радиальную функцию вдоль ветви Rs(l) = R(s(l)), l [0, L].

Следует отметить, что использование эффективных алгоритмов для построения и анализа непрерывного скелета делает возможной реализацию всех описанных во второй главе алгоритмов в реальном времени.

В разделе 2.2 приводится разработанный в диссертации метод сегментации силуэта человека на карте глубины.

(а ) (б ) (в ) Рис. 3. Демонстрация сшивки краев: (а) карта глубины; (б) ребра выделенные оператором Canny;

(в) ребра со сшитыми промежутками.

Идея метода проиллюстрирована на рисунке 2, и состоит в определении краев на карте глубины, сегментирующих все изображение на связные области, определении двин жущихся частей переднего плана, и определении области, содержащей наибольшее колин чество пикселей переднего плана.

При использовании такого подхода достаточно лишь небольшой части переднего план на для определения области, являющейся телом человека. Таким образом, выделение пен реднего плана можно производить за счет вычитания фона из текущего кадра, при этом точная модель фона не важна.

В силу того, что человек всегда ближе фона к камере, пиксели, соответствующие фону, будут иметь большую глубину на карте глубины. Соответственно, для накопления фона предлагается вычислять попиксельный максимум интенсивности для нескольких кадров с картой глубины. Более того, так как точная модель фона не нужна, достаточно лишь небольшого числа кадров для ее накопления, и, соответственно, метод работает в реальном времени с малой задержкой.

Для построения контуров объекта по карте глубины в работе предлагается испольн зовать методы выделения края. Однако контуры, получаемые в результате применения стандартных алгоритмов обнаружения края на изображении, зачастую не являются зан мкнутыми и содержат разрывы (рис. 3). По этой причине возникает задача обработка выделенных краев с целью сшивки разрывов и получения замкнутых контуров.

В работе были выделены следующие критерии того, что пара пикселей U и V края должна быть соединена для устранения разрыва. Во-первых, длина UV меньше наперед заданного порога d. Во-вторых, для любых пикселей границы U в окрестности U, и V в (а ) (б ) (в ) (г ) Рис. 4. Демонстрация работы метода заполнения разрывов в контуре, на примере разрыва, через который проходит ветвь скелета AB (а); увеличенное исходное изображение разрыва (б); векн торизованный контур бинарного изображения и построенный скелет (в); результат заполнения разрыва (г).

окрестности V должно выполняться: |UV | > |UV |. В-третьих, по обе стороны от отрезка UV есть достаточное пространство (по площади порядка O |UV |2 ), свободное от границ.

В-четвертых, сшивка всех дыр в контурах приводит к тому, что изображение распадется на компоненты связности, соответствующие фону и переднему плану.

Применение локальных методов сшивки (например, использование морфологических операций дилатации и эрозии) способно удовлетворить лишь первые три критерия. В рабон те был предложен метод сшивки, учитывающий общую топологию изображения, на основе использования непрерывного скелета.

Идея метода сшивки дыр состоит в построении внешнего скелета границ и аналин за его ветвей, соединяющих пары вершин степени 3, с целью определения мест сшивки (рис. 4). Для каждой такой ветви скелета определяется точка, где радиальная функция скелета имеет минимум. Для соответствующего вписанного круга определяются его точки касания t1 и t2 с границей. Если t1t2 < d, то отрезок t1t2 автоматически удовлетворяет критериям 1Ц3, и считается кандидатом на сшивку. Для случая, когда прорисованы все разрывы, определяются две максимальные компоненты связности C1 и C2, и выбирается минимальное подмножество из всех кандидатов на сшивку, которое приведет к разделен нию изображения на компоненты C1 и C2.

В разделе 2.3 описывается метод генерации ключевых точек на основе скелета.

Идея метода состоит в анализе геометрических характеристик ветвей, выходящих из висячих вершин скелета. Рассматриваются все ветви, соединяющие вершины степени 1 и Рис. 5. Иллюстрация алгоритма детектирования пальцев: ветвь AB Ч кандидат на то, чтобы быть пальцем; точка C Ч найденное место сочленения пальца и пясти.

3. Для каждой из таких ветвей выполняется ее классификация на классы 0 и 1. Висячие вершины, соответствующие ветвям класса 1, считаются ключевыми точками скелета. Для классификации ветвей скелета может быть использован эвристический классификатор или методы машинного обучения.

Для силуэта ладони в качестве ключевых точек рассматриваются кончики пальцев, а для выделения таких ключевых точек в работе используется следующий эвристический классификатор. Для каждой ветви-кандидата AB сначала выполнялся поиск точки C Ч вероятного сочленения пальца и пясти (рис. 5), а затем выполняется классификация ветви, используя следующее эвристическое правило:

|AC|/|AB| t1 и t2 < ширина(AC) < t3 и |AB| > tгде t1, t2, t3 и t4 Ч параметры алгоритма, а ширина(AC) Ч среднее значение радиальной функции на ветви AC. Поиск точки C выполняется из тех соображений, что в ее окрестн ности начинается резкий рост ширины ветви, т.е. производная радиальной функции прен восходит заданный порог.

Для поиска ключевых точек на силуэте тела человека предлагается построить прин знаковое описание ветви скелета, и далее использовать методы машинного обучения для классификации. Построение вектора признаков ветви скелета предлагается выполнять с использованием следующих величин, вычисленных в различных точках ветви:

1. r(l) Ч радиальная функция;

2. r3d(l) Ч метрическая радиальная функция;

b r(l)dl a 3. R (a, b) = Ч среднее значение радиальной функции на [a, b];

b-a b r3d(l)dl a 4. R3d (a, b) = Ч среднее значение метрической радиальной функции на [a, b];

b-a 5. L Ч длина ветви скелета;

2 2 L y3d x3d z3d 6. L3d = + + dl Ч метрическая длина ветви скелета.

0 l l l Значение метрической радиальной функции и метрической длины ветви скелета вын числяются и используются, когда в качестве исходных изображений выступает карта глун бины или стереопара. В таком случае, координаты точек ветви скелета можно перевести в трехмерные координаты, а каждому вписанному в силуэт кругу будет соответствовать сфера-прообраз в трехмерном пространстве. Длина получаемой трехмерной кривой будет метрической длиной ветви скелета, а радиусы сфер буду значениями метрической радиальной функции.

В качестве классификатора используется метод опорных векторов (Support Vector Machines, SVM). Для его обучения было вручную размечено порядка 250 изображений, из которых 70% формировали обучающую совокупность, а оставшиеся 30% Ч контрольную.

SVM показал точность в 98% на контрольной выборке.

В разделе 2.4 описан метод сегментации объекта за счет анализа противоположных частей его границ.

Данный метод полезен в ситуации, когда сегментация всего объекта затруднительна или нежелательна (например, из-за большой вычислительной сложности), но есть возможн ность выделить движущиеся части объекта (рис. 6). В таком случае, выделенные движун щиеся части содержат как функциональные части объекта (такие как руки), так и кромки краев больших регионов объекта (тела человека), которые вызваны небольшим смещенин ем объекта как целого и обычно не несут полезной информации. Соответственно, задача состоит в выделении значимых частей объектов и отсеивании краев больших регионов.

Одним из отличительных критериев кромки большой области выступает то, что, если взять две противоположные точки границы кромки, то для одной из них значения прон изводных карты глубины будут небольшими. А для регионов, представляющих интерес (таких как рука или ладонь), обе противоположные точки границы будут лежать в обн ласти сильного перепада глубины. Таким образом, выделение значимых частей объекта, представляющих интерес, можно выполнять за счет анализа противоположных границ A B (а ) (б ) (в ) Рис. 6. Процесс анализа противоположных границ объекта за счет использования непрерывного скелета: (а) движущийся передний план (выделен черным); (б) установление соответствия между противоположными точками границы A и B на основе использования непрерывного скелета; (в) ветвь скелета (белая), соответствующая части объекта, представляющей интерес.

движущихся частей объекта. Скелет является уникальным инструментом для анализа противоположных точек границы.

Обозначим область переднего плана, которую нужно проанализировать, через F.

Рассмотрим какой-либо максимальный вписанный в область F круг C, и пусть T = {t1, t2} Чпара точек касания круга C и границ области F. Для узких и вытянутых облан стей точки касания будут лежать на противоположных границах области. Соответственн но, если все точки из множества T будут принадлежать краю карты глубины, то круг C будет считаться хорошим. Объединение всех хороших кругов соответствует регион нам, представляющим интерес. Подобный анализ можно проводить за счет использования непрерывного скелета области F (рис. 6б) Третья глава посвящена используемым методам межкадровой обработки и уменьн шения влияния шумов на признаковые описания отдельных кадров.

В разделе 3.1 рассматривается алгоритм межкадровой обработки в ситуации, когда в качестве ключевых точек выступают положения ладоней. Причем известно, что на кажн дом кадре присутствует ровно один человек, и, соответственно, не более двух ключевых точек-ладоней.

Обработка кадра в таком случае построена таким образом, что ложных отметок пракн тически не возникает, но возникают пропуски в траекториях. Поэтому задача межкадрон вой обработки состоит в построении траекторий ключевых точек и восполнении пропусков в траекториях. Данная задача решается в два этапа.

На первом этапе выполняется прослеживание траекторий для известных положений рук. Алгоритм прослеживания основан на применении точечного трекинга к обнаруженн ным на каждом кадре положениям рук. При этом соответствие между координатами рук с предыдущего кадра xprev, i 1, 2 и координатами двух рук x1 и x2, найденными на текун i щем кадре, устанавливается за счет минимизации суммы расстояний xprev -xj , где i=1 i i j1 = j2 и j1, j2 {1, 2}. В случае пропуска, предыдущим положением руки xprev считается i последнее обнаруженное положение. В результате получаются одна или две траектории, которые могут содержать пропуски.

На втором этапе выполняется заполнение пропусков в траекториях рук за счет линейн ной интерполяции координат рук между кадрами, на которых координаты рук известны.

В разделе 3.2 рассматривается алгоритм межкадровой обработки в ситуации, когда в качестве ключевых точек выступают положения кончиков пальцев. При этом, требуется не только заполнять пропуски в траекториях, но также сглаживать траектории ключевых точек, с целью уменьшения шумов. Более того, на каждом кадре может присутствовать несколько (один или два) объектов-ладоней.

В таком случае, сначала методом точечного трекинга, аналогичным описанному вын ше, выполняется трекинг объектов-ладоней. Затем для каждой ладони вычисляются ее ориентация и положение центра, и координаты ключевых точек переводятся в относительн ную систему координат, связанную с ладонью. Координаты центра ладони вычисляются как координаты ее центра масс, а угол поворота, определяющий ориентацию, вычисляется на основе использования центральных моментов.

Трекинг ключевых точек производится в относительной системе координат, связанн ной с ладонью. Использование относительных координат кончиков пальцев необходимо, например, в ситуациях быстрого вращения ладони, так как в таком случае сопоставление абсолютных координат ключевых точек приводит к большому количеству ошибок из-за сильного абсолютного сдвига ключевых точек.

Для сглаживания траекторий ключевых точек применяется фильтр низких частот.

При этом отдельно производится сглаживание координат и ориентации ладони, и отдельно сглаживаются относительные координаты ключевых точек.

Вычисленные относительные координаты ключевых точек переводятся назад в син стему координат, связанную с изображением.

В четвертой главе рассматривается метод распознавания простых жестов на оснон ве набора правил, метрика для сравнения траекторий жестов, используемая для распознан вания сложных динамических жестов, и решаемые в диссертации практические задачи.

Для сегментации во времени (определение момента начала и окончания жеста) и расн познавания сложных динамических жестов в диссертации предложен метод основанный на сравнении траекторий жестов (раздел 4.2).

Каждый жест G описывается видеопоследовательностью, которая преобразуется в последовательность признаковых описаний кадров (F1,..., F|G|). Ее предлагается рассматн ривать как траекторию жеста, и выполнять распознавание жестов метрическими методан ми классификации такими, как метод ближайшего соседа, за счет введения меры близости между траекториями.

Мера близости траекторий V = (F1,..., F|G|) и G = (F1,..., F|G|) видеопоследован тельности V и эталонного жеста G вычисляется за счет установления соответствия между элементами обеих траекторий, и вычисления суммы мер близостей признаковых описаний соответствующих кадров.

Соответствие между элементами траекторий задается с помощью двух монотонных функций u(k) и v(k), при k = 1,..., m, так, что элемент Fu(k) последовательности V соотн ветствует элементу Fv(k) последовательности G. А мера сходства вычисляется как:

similarity(G, G) = min m d(Fu(k), F ) k=1 v(k) m m,u(),v() u(1) = u(m) = |G| u(k) u(k + 1) u(k) + (1) v(1) = v(m) = |G| v(k) v(k + 1) v(k) + u(k + 1) > u(k) v(k + 1) > v(k) Для кадров F = (x1,..., xn) и F = (x,..., x ) мера близости d(F, F) их признакон 1 m вых описаний вычисляется по формуле:

n m d(F, F) = minxi - x + minx - xi + C|m - n|, j xi j x j i=1 j=где C Ч коэффициент штрафа за различие в количестве ключевых точек на кадрах.

Для определения оптимального момента начала и окончания жеста оптимизационн ная задача (1) решается, как задача со свободным концом, т.е. полагается, что концы распознаваемого жеста в видео V не фиксированы.

Для экспериментов с данным методом распознавания жестов использовалась база динамических жестов соревнования ChaLearn Gesture Challenge. Данная база состоит из набора независимых пакетов. Каждый из пакетов содержит по 10 обучающих жестов и 30Ц40 контрольных видео по несколько жестов в каждом.

Жесты в данной базе достаточно разнородны, и для экспериментов были отобраны пакеты, содержащие динамические жесты, совершаемые ладонями.

N N Критерий Q = Levenshtein(ci, ti) / |ti| использовался для оценки качен i=1 i=ства распознавания жестов, где ci Ч результат распознавания видео i, ti Ч истинная пон следовательность жестов в видео i, Levenshtein(ci, ti) Ч расстояние Левенштейна между последовательностями ci и ti, а N Ч количество видео.

Дополнительно, для оценки качества сегментации жестов во времени, вычислялась QV ideoCS Ч доля видео для которых все жесты были сегментированы корректно, и доля N |ci| - |ti| / N |ti|.

корректно сегментированных жестов QS = 1 i=1 i=Пакет Q QV ideoCS QS devel01 0,067 89% (33 из 37) 0,devel02 0,23 83% (30 из 36) 0,devel04 0,23 65% (24 из 37) 0,devel07 0,15 92% (35 из 38) 0,Всего 0,17 82% (122 из 148) 0,Таблица 1. Результаты экспериментов на отобранных пакетах.

Результаты экспериментов приведены в таблице 1. Они показали, что доля ошибок распознавания жестов на отобранных пакетах составляет порядка 0,07 - 0,23, что сопостан вимо с результатами современных систем распознавания. Качество сегментации жестов во времени также высокое, и доля верно сегментированных видео достигает 92%.

В разделе 4.1 рассматривается практическая задача, которая заключается в создан нии аппаратно-программного комплекса для управления компьютером с помощью жестов рук. Жесты воспринимаются RGB камерами или камерой глубины, распознаются прон граммным обеспечением и используются для управления курсором мыши, а также для (а ) (б ) (в ) (г ) Рис. 7. Пример используемых жестов.

манипуляций объектами на экране компьютера.

Для управления компьютером требуется небольшое число простых жестов. Выбранн ный в работе набор жестов включает жесты, отличающиеся друг от друга количеством видимых пальцев; сжатую в кулак ладонь; и жест-кольцо из большого и указательного пальца. Примеры рассматриваемых жестов изображены на рисунке 7. При этом координ наты и величину перемещения ладони и кончиков пальцев предлагается использовать для определения координат курсора, направления и расстояния перемещения объекта.

Так как координатами ключевых точек являются координаты кончиков пальцев, то распознавание описанного набора жестов выполняется просто за счет подсчета количества видимых пальцев.

Для экспериментальной проверки и демонстрации данного метода распознавания жестов были разработаны аппаратно-программные комплексы, выполняющие управление компьютером за счет распознавания жестов.

В одном из них используется одна или две веб-камеры, закрепленные над однородной темной поверхностью. Однородная темная поверхность служит для упрощения задачи сегментации ладони на цветном изображении. Описанные выше жесты используются для управления объектами на экране компьютера [11, 12].

Благодаря эффективным алгоритмам построения и стрижки скелета, описанные комн плексы работают в реальном времени. Например, однопоточной реализации алгоритма распознавания жестов требуется около 22 мс на полную обработку одного кадра размен ром 640 480 точек на компьютере 2.4 ГГц Intel Core 2 Quad CPU. Это дает возможность обрабатывать все кадры видеопоследовательности, получаемой с веб-камеры.

Во втором программно-аппаратном комплексе в качестве сенсора используется кан мера глубины Microsoft Kinect. Использование камеры глубины позволяет упростить сегн ментацию объекта, использовать произвольный фон и позволяет определять трехмерные координаты объекта и ключевых точек.

Как и в предыдущем случае, программное обеспечение данного комплекса позволян ет управлять объектами на экране компьютера с помощью жестов рук [13]. Также оно позволяет управлять курсором мыши с помощью рук [14].

В разделе 4.3 приводиться анализ вычислительной сложности подхода в целом, кон торый показал, что вычислительная сложность обработки отдельного кадра будет равна O(S) + O(n log n) + O(k2), где S Ч площадь кадра в пикселях, n Ч число вершин в многон угольниках, используемых для построения скелета, k Ч число ключевых точек на отдельн ном кадре (в практических задачах имеет порядок 2Ц10). А вычислительная сложность распознавания жестов методом динамического программирования равна O(k2m2N), где N Ч количество эталонных жестов, m Ч количество кадров в эталонном видео, максин мально допустимая степень растяжения и сжатия жестов (на практике не более 3).

В Заключении перечислены основные результаты работы:

1. Для решения задачи распознавания динамических жестов в диссертации предложен и обоснован подход, в основе которого лежит использование медиального представн ления объекта для выделения признаковых описаний.

2. Разработан метод построения признакового описания отдельного кадра, за счет вын деления ключевых точек с помощью медиального представления и использования их координат в качестве признаков кадра.

3. Разработан метод сшивки краев на изображении, использующий непрерывный скен лет и учитывающий общую морфологию изображения, с целью получения замкнун тых контуров.

4. Разработан эффективный метод анализа противоположных границ объекта и устан новления соответствия между противоположными точками границ на основе испольн зования непрерывного скелета.

5. Разработан метод сравнения динамических видеопоследовательностей, кадры котон рых описаны множествами ключевых точек.

6. Выполнено теоретическое обоснование корректности и вычислительной эффективнон сти разработанных методов и алгоритмов.

7. Работоспособность и состоятельность предлагаемых методов обоснована вычислин тельными экспериментами и созданными программно-аппаратными комплексами для распознавания жестов.

Список публикаций Статьи в изданиях, входящих в перечень ВАК:

1. Куракин, A. В. Распознавание жестов ладони в реальном времени на основе плоских и пространственных скелетных моделей [Текст] / A. В. Куракин // Информатика и ее применения. Ч 2012. Ч Т. 6, № 1. Ч С. 114Ц121.

2. Mestetskiy, L. Hand geometry analysis by continuous skeletons [Text] / L. Mestetskiy, I. Bakina, A. Kurakin // Image Analysis and Recognition / Ed. by M. Kamel, A. Campilho. Ч Springer Berlin / Heidelberg, 2011. Ч Vol. 6754 of Lecture Notes in Computer Science. Ч Pp. 130Ц139.

Публикации в других изданиях:

3. Kurakin, A. A real time system for dynamic hand gesture recognition with a depth sensor [Text] / A. Kurakin, Z. Zhang, Z. Liu // EUSIPCO-2012: Proceedings of the 20th European Signal Processing Conference. Ч 2012. Ч Pp. 1975Ц1979.

4. Kurakin, A. Hand gesture recognition through on-line skeletonization. application of continuous skeleton to real-time shape analysis [Text] / A. Kurakin, L. Mestetskiy // VISAPP 2011: Proceedings of the 6th International Conference on Computer Vision Theory and Applications. Ч INSTICC Press, 2011. Ч Pp. 555Ц560.

5. Mestetskiy, L. Pose and gesture recognition using stereo images and video sequences [Text] / L. Mestetskiy, A. Kurakin, A. Tsiskaridze // Proceedings of Bilateral Russianн Indian Workshop Emerging Applications of Computer Vision (EACV-2011). Ч MAKS Press, 2011. Ч Pp. 209Ц215.

6. Куракин, А. В. Распознавание жестов ладони с помощью непрерывного скелета [Текст] / А. В. Куракин // Труды 15-й всероссийской конференции Математические методы распознавания образов. Ч Москва: МАКС Пресс, 2011. Ч С. 428Ц431.

7. Куракин, А. В. Использование непрерывного скелета для соединения дыр в контурах на примере сегментации тела человека на карте глубины [Текст] / А. В. Куракин, Л. М. Местецкий // Труды 9-й международной конференции Интеллектуализация обработки информации. Ч Москва: МАКС Пресс, 2012. Ч С. 430Ц432.

8. Куракин, А. В. Генерация признаков с помощью непрерывного скелета на примере зан дачи выделения рук на силуэте человека [Текст] / А. В. Куракин, Л. М. Местецкий // Труды 9-й международной конференции Интеллектуализация обработки информан ции. Ч Москва: МАКС Пресс, 2012. Ч С. 433Ц436.

9. Куракин, А. В. Распознавание двух- и трехмерных жестов ладони на основе анализа скелетного представления ее силуэта [Текст] / А. В. Куракин, Л. М. Местецкий // Тезисы докладов конференции ФТехническое зрение в системах управления 2011Ф. Ч 2011.

10. Куракин, А. В. Распознавание жестов ладони на основе анализа скелетного представн ления силуэта ладони [Текст] / А. В. Куракин, Л. М. Местецкий // Труды 53 научной конференции МФТИ. Ч 2010.

11. Демонстрация программного комплекса для распознавания жестов руки с одной кан мерой [Электронный ресурс] / //youtu. be/eYksnVGt6mo.

12. Демонстрация использования стререопары для определения трехмерных координат ключевых точек [Электронный ресурс] / //youtu. be/ECAKTw3GBnM.

13. Демонстрация распознавания открытой и сжатой ладони, с использованием сенсора Kinect [Электронный ресурс] / //youtu. be/antSN0bQBjg.

14. Демонстрация использования руки для управлением курсором мыши [Электронный ресурс] / //youtu. be/rljffsDcD1I.

Авторефераты по всем темам >> Авторефераты по техническим специальностям

Blog

Распознавание динамических жестов в системе компьютерного зрения на основе медиального представления формы изображений