Теоретико-информационные методы стегоанализа графических данных

Вид материалаАвтореферат

Содержание


Рябко Б.Я.
Монарев В.А.
Общая характеристика работы
Целью работы
Задачи исследования
Практическая ценность полученных результатов
Структура диссертации.
Основные положения, выносимые на защиту
Основное содержание работы
В первой главе
Во второй главе
Тестирование по независимым данным
Третья глава
В четвертой главе
Процент верных решений по выборке
Пороговое значение
Пороговое значение
В пятой главе
Заполнение контейнера
Основные результаты работы
...
Полное содержание
Подобный материал:
  1   2   3


На правах рукописи


Жилкин Михаил Юрьевич


ТЕОРЕТИКО-ИНФОРМАЦИОННЫЕ МЕТОДЫ

СТЕГОАНАЛИЗА ГРАФИЧЕСКИХ ДАННЫХ


Специальность: 05.12.13

«Системы, сети и устройства телекоммуникаций»


АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук


Новосибирск – 2009

Работа выполнена на кафедре прикладной математики и кибернетики Государственного образовательного учреждения высшего профессионального образования “Сибирский государственный университет телекоммуникаций и информатики” (ГОУ ВПО «СибГУТИ»).



Научный руководитель: 

доктор технических наук,

профессор

Рябко Б.Я.


Официальные оппоненты:

доктор технических наук,

профессор

Трофимов В.К.


кандидат физико-математических наук,

доцент

Монарев В.А.


Ведущая организация:

ГОУ ВПО «Санкт-Петербургский государственный университет аэрокосмического приборостроения»




Защита состоится “__” _______ 2009 г. в “__” часов на заседании диссертационного совета Д 219.005.01 при ГОУ ВПО “Сибирский государственный университет телекоммуникаций и информатики”, по адресу:
630102, г. Новосибирск, ул. Кирова, д. 86, ком. 625.


С диссертацией можно ознакомиться в библиотеке
ГОУ ВПО “СибГУТИ”.


Автореферат разослан “__” _______ 2009 г.



Ученый секретарь

диссертационного совета Д 219.005.01

доктор технических наук,

профессор




Мамчев Г.В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ


Актуальность исследования. Диссертация посвящена разработке новых методов обеспечения информационной безопасности в компьютерных и телекоммуникационных сетях. Одной из актуальных проблем безопасности современных компьютерных сетей является борьба с незаконной, скрытой передачей информации.

Для передачи скрытой информации используются различные средства и методы, основные из которых базируются на алгоритмах стеганографии. При этом различного рода «злоумышленники» встраивают информацию, маскируя ее в других сообщениях, которые выглядят безобидно и не вызывают подозрение у потенциального перехватчика (рис. 1). Стеганография имеют богатую историю и широкий спектр различных методов, каждый из которых характерен для своей эпохи. Так, например, в древности применяли тайнопись на табличках, покрытых воском, известен случай передачи сообщения в виде татуировки на голове гонца. В начале XX века использовались симпатические чернила, во времена Второй мировой войны широкое распространение получил метод микрофотографий.




Рис. 1. Лена.jpg. Слева – исходное изображение 300x300 точек,

справа – это же изображение, содержащее 31Кб скрытых данных.


В настоящее время бурное развитие вычислительной техники привело к возникновению особой науки, так называемой цифровой компьютерной стеганографии. Появились новые стеганографические методы, в основе которых лежат особенности представления информации в компьютерных файлах, вычислительных сетях и т.п.

Методы современной компьютерной стеганографии находят применение в области в военной и правительственной связи, защиты авторских прав, для

решения задач обеспечения информационной безопасности. Актуальность проблемы информационной безопасности постоянно растет и стимулирует разработку как новых методов стеганографии, так и методов стегоанализа – обнаружения скрытой информации.

Повсеместное распространение компьютерной техники и глобальных компьютерных сетей, простота в эксплуатации оборудования и доступность для пользователя стеганографического программного обеспечения позволяют сегодня каждому желающему использовать методы стеганографии при передаче информации. Стоит отметить, что этими методами с легкостью могут воспользоваться и злоумышленники, например, для скрытой передачи конфиденциальной информации, коммерческих и государственных секретов и т.п. Поэтому на сегодняшний день стоит проблема построения методов обнаружения скрытых данных в передаваемых сообщениях – задача так называемого стегоанализа.

За последние годы арсенал доступных стеганографических программ заметно расширился. В настоящее время существует более сотни коммерческих, бесплатных и условно-бесплатных пакетов разного назначения: программы, написанные под операционные системы UNIX, MS-DOS, Windows и др., а также кроссплатформенные приложения; имеющие графический интерфейс или интерфейс командной строки; поддерживающие только один или сразу несколько форматов контейнеров; имеющие или не имеющие встроенные средства криптографии и аутентификации; интегрирующиеся в среду или выполняемые отдельно и т.д.

Наиболее популярные программы стеганографии и стегоанализа для файлов графических форматов, такие как Hide and Seek, Jpeg-Jsteg, OutGuess, Steganos, JPHide, F5, Stegdetect и др. часто основаны на алгоритмах, полученных в рамках научных исследований.

Проблемой разработки и усовершенствования методов стеганографии и стегоанализа занимаются многие отечественные и зарубежные ученые: В.Г. Грибунин, И.Н. Оков, Б.Я. Рябко, И.В. Туринцев, А.Н. Фионов, К. Качин (C. Cachin), Р. Андерсон (R. Anderson), Х. Фарид (H. Farid), К. Салливан (K. Sullivan), Д. Фридрич (J. Fridrich), Н. Провос (N. Provos) и др. С каждым годом растет число публикаций, посвященных стеганографии, стегоанализу, а также в смежных областях науки. Широко применяются результаты и достижения классических наук и различных их направлений: теории информации, кодирования, алгебры, физики и т.д.


Целью работы является построение эффективных методов стегоанализа данных в наиболее распространенных на сегодняшний день графических форматах BMP и JPEG. Данные методы должны быть автоматическими, т.е. работать без участия человека и применимыми в телекоммуникационных и компьютерных сетях. Для этого требуются такие характеристики, как высокая скорость обработки данных и высокая вероятность обнаружения скрытой информации.


Задачи исследования - построение экспериментального исследования и разработка методов стегоанализа, базирующихся на алгоритмах сжатия данных. Их применение для методов стеганографии двух типов: 1) основанных на изменении младших разрядов (LSB) и 2) для методов стеганографии в графических форматах с преобразованием Фурье.


Методы исследования
  1. Методы теории информации
  2. Методы теории кодирования
  3. Проведение экспериментальных расчетов на ЭВМ


Научная новизна. Впервые разработан и практически реализован метод стегоанализа, основанный на сжатии данных, эффективность которого выше, чем у ранее известных методов. Данный метод применим в системах обеспечения безопасности компьютерных и телекоммуникационных сетей.

Экспериментально доказаны высокая скорость, эффективность алгоритмов и возможность их применения для наиболее популярных графических форматов: BMP и JPEG. Это позволяет производить стегоанализ «на лету» передаваемой по компьютерным сетям информации, например, при реализации разработанных методов в виде модулей для интеграции с межсетевыми экранами, прокси-серверами и иными системами контроля, учета и ограничения трафика, которые широко применяются в различных организациях.


Практическая ценность полученных результатов
  1. Для наиболее практически распространенных графических форматов построены методы стегоанализа, эффективность которых превосходит ранее известные.
  2. Показана высокая эффективность методов стегоанализа, базирующихся на использовании алгоритмов сжатия данных, и возможность их применения к данным в других форматах.
  3. Параметры предложенных методов позволяют анализировать с их помощью сетевой трафик.


Внедрение результатов исследования в практику. Основные результаты получены в рамках следующих государственных программ:
  • Грант РФФИ № 06-07-89025. Руководитель: д.т.н., проф. Рябко Б.Я.
  • По заданию Федерального агентства науки и инноваций (государственный контракт № 02.514.11.4027.2) выполнение научно-исследовательских работ в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы», лот 3: «Технологии разработки распределенных программных систем получения и использования знаний» по теме: «Технология разработки распределенных программных систем для мониторинга больших корпоративных научно-образовательных сетей передачи данных на базе современных методов интеллектуального анализа данных и машинного обучения»
  • Гранты для выполнения научных исследований аспирантами, магистрантами и молодыми преподавателями СибГУТИ, 2007 и 2008 гг.


Апробация работы

Материалы работы докладывались на следующих российских и международных конференциях:
  • «Информатика и проблемы телекоммуникаций» (Новосибирск, 2007)
  • XI Международный симпозиум по проблемам избыточности в информационных и управляющих системах (Санкт-Петербург, 2007)
  • VIII Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям (Новосибирск, 2007)
  • «Информатика и проблемы телекоммуникаций» (Новосибирск, 2008)
  • Международная научная конференция студентов, аспирантов и молодых ученых «Ломоносов-2008» (МГУ, Москва, 2008)
  • X Всероссийская научно-практическая конференция «Проблемы информационной безопасности государства, общества и личности» (Томск-Красноярск, 2008)
  • XII Международный симпозиум по проблемам избыточности в информационных и управляющих системах (Санкт-Петербург, 2009)


Публикации. По материалам диссертации опубликовано 8 печатных работ, результаты работы отражены в отчетах по грантам и НИР. Список работ приведен на странице 22 автореферата.


Структура диссертации. Диссертация занимает 151 страницу текста и состоит из введения, обзора литературы, рассмотрения основных графических форматов данных, известных методов стеганографии и стегоанализа, описания собственного исследования, заключения с анализом полученных результатов. Работа содержит 23 таблицы и 53 рисунка. Список литературы включает 88 источников.


Основные положения, выносимые на защиту
  1. Методы стегоанализа, основанные на применении сжатия данных, обладают высокой эффективностью и могут использоваться для выявления скрытой передачи информации в телекоммуникационных сетях.
  2. Разработан метод стегоанализа в графических данных для выявления данных, скрытых при помощи LSB-стеганографии. Метод был испытан на файлах формата BMP и доказал свою высокую эффективность.
  3. Разработан метод стегоанализа, предназначенный для работы с графическими форматами на основе преобразований Фурье. Метод успешно опробован на файлах формата JPEG.
  4. Разработаны методы, технические характеристики которых позволяют использовать их для анализа трафика в компьютерных сетях с целью выявления скрытой передачи информации.



ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ


Во введении обоснована актуальность темы, сформулированы цель и задачи исследования, представлены основные положения диссертационной работы, выносимые на защиту.

В первой главе рассматривается общая модель стегосистемы, основные принципы ее функционирования. Даются понятия контейнера, стегоконтейнера, секретного сообщения, алгоритма встраивания, ключа шифрования и дешифрования и т.д. Приводятся примеры часто используемых на практике программ стеганографии, примеры наиболее распространенных алгоритмов, реализующих отдельные этапы задачи включения скрытой информации в контейнер.

Основным понятием стеганографии является стегосистема, которая выполняет задачу скрытия и извлечения информации (рис. 2).

Стегосистема включает в себя контейнер, стегоконтейнер, секретное сообщение, ключ, алгоритмы встраивания и извлечения информации, а также канал передачи информации.

Контейнером называется последовательность данных, в которую необходимо занести секретное сообщение. В современной цифровой стеганографии в качестве контейнеров могут выступать файлы распространенных цифровых форматов, таких как BMP, JPEG, WAV, MP3, AVI, PDF, EXE. Наиболее удобными контейнерами считаются музыкальные файлы, изображения, видео и т.д. Контейнер, содержащий в себе скрытую информацию, называется стегоконтейнером.

Стегосистема задается алгоритмом включения и извлечения информации, которые реализованы в любом стеганографическом программном продукте. Среди наиболее распространенных реализованных стегосистем мы отметим Jpeg-Jsteg, OutGuess, Steganos, JPHide, F5 и т.д.





Рис. 2. Общая модель стегосистемы.


Для встраивания секретного сообщения в контейнер применяется алгоритм встраивания информации, который является основой стегосистемы.

Одна из главных задач алгоритма встраивания – внесение незаметных для восприятия человеком изменений в контейнер. Это требование обычно ограничивает емкость контейнера, т.е. максимальное количество скрытой информации, которое способен вместить в себя контейнер. Емкость контейнера зависит от характеристик самого контейнера, алгоритма включения информации, а иногда и от секретного сообщения. Специальный алгоритм извлечения информации предназначен для проверки наличия секретного сообщения внутри контейнера и его извлечения. Для каждого алгоритма встраивания существует свой алгоритм извлечения информации.

Перед встраиванием в контейнер, в целях повышения безопасности и компактности, секретное сообщение обычно сжимается и шифруется. Для сжатия используются различные алгоритмы, например алгоритмы семейства LZ или на основе BWT. Шифрование информации производится по какому-либо заранее заданному алгоритму, например, AES, Blowfish и т.д. Для получения ключа шифрования и дешифрования используется пароль пользователя или результат вычисления хэш-функции от него. Для корректного извлечения информации пароль должен быть передан принимающей стороне по отдельному безопасному каналу передачи информации. Алгоритмы шифрования, сжатия, хэширования чаще всего встроены в стеганографический пакет.

В качестве контейнеров обычно выбираются данные, не вызывающие подозрения, например, фотографии, популярные музыкальные композиции и видеоролики. Файл с включенной (или встроенной) скрытой информацией, передается по открытому каналу передачи информации получателю сообщения.

Предполагается, что вся проходящая по открытому каналу информация может быть перехвачена и исследована.

Поэтому одно из основных направлений при разработке и улучшении методов стеганографии – достижение наибольшей «незаметности» информации внутри стегоконтейнера, и, наоборот, основная задача стегоанализа – обнаружение факта присутствия скрытой информации.


Во второй главе рассматривается задача стегоанализа, выделяются два основных вида алгоритмов стегоанализа, рассматриваются общие этапы произвольного алгоритма стегоанализа и наиболее распространенный на сегодняшний момент общий принцип стегоанализа контейнеров. Приводится формальное описание разработанного алгоритма стегоанализа, определяются понятия ошибок I и II рода разработанного теста. Описывается разработанная общая схема тестирования графических данных предлагаемым методом с решением задачи оптимизации – выбора наиболее подходящих архиваторов и порогового значения, дающих лучшие характеристики алгоритма в зависимости от требований пользователя.

Различные методы стегоанализа подразделяются на две основные категории:
  1. Методы направленного стегоанализа – предназначенные для работы только с заранее известными стеганографическими алгоритмами.
  2. «Слепые» или универсальные методы – предназначенные для всех алгоритмов стеганографии.

Методы обеих категорий построены с учетом предположения о недоступности исходного пустого контейнера, который был использован для включения информации в исследуемый стегоконтейнер.

Кроме того, стегоанализ «слепыми» методами часто не требует знания использованного алгоритма включения информации, алгоритма шифрования, сжатия, ключа и длины сообщения.

Методы направленного стегоанализа разработаны под конкретные известные алгоритмы стеганографии. Они, как правило, дают немного лучшие результаты в сравнении с универсальными методами.

Положительной стороной универсальных методов является возможность работы с любыми, в том числе и неизвестными стеганографическими алгоритмами.

Известные методы «слепого» стегоанализа обычно построены на алгоритмах, требующих предварительного «обучения» на сериях из заполненных и пустых контейнеров.

Большинство исследований в области стегоанализа направлено на решение основной задачи: определение факта наличия скрытой информации в контейнере. Для решения этой задачи применяются различные методы. Наиболее распространены статистические алгоритмы. Основную роль в таких методах играет статистическая модель неизвестного пустого контейнера. В построенной модели находят параметры и характеристики, наиболее чувствительные к включению скрытой информации. По различию между теоретической моделью и исследуемым контейнером определяется вероятность наличия секретного сообщения.

В основу разработанных методов положен тот факт, что исходный контейнер и добавляемая в него информация статистически независимы, поэтому при добавлении скрытых данных в контейнер, размер при его сжатии вырастает по сравнению с размером исходного сжатого «пустого» контейнера.

Разработанный метод стегоанализа графических данных применяет алгоритмы сжатия данных для проверки статистической независимости информации. Для сжатия используются широко распространенные программы-архиваторы.

Для формального описания алгоритма вводятся следующие обозначения: пусть - последовательность байтов в данных изображений, а - длина последовательности. Последовательность X разбивается на d равных отрезков, обозначаемых , где . Функция возвращает результат обработки контейнера алгоритмом сжатия.

Для удобства вводится функция



которая обозначает коэффициент сжатия отрезка n последовательности X алгоритмом .

Через обозначим псевдослучайное изменение младших битов всех байтов последовательности X.

Пусть X - последовательность, которая подается на вход программе, а - полученная из нее новая последовательность. Введем новую величину



Те отрезки последовательности, которые не содержали “скрытую” информацию сжимаются лучше, чем соответствующие им отрезки последовательности Y, и напротив, коэффициенты сжатия отрезка последовательности X со «спрятанной» информацией и отвечающего ему отрезка последовательности Y отличаются незначительно.

Для определения факта включения информации выбирается пороговое значение для величины и производится оценка количества отрезков, на которых значение величины не превышает порог.

Для экспериментального исследования метода была подготовлена серия изображений («контейнеров») разного разрешения и качественного содержания.

Обработка одного изображения выполнялась следующему алгоритму:
  1. Вход: пустой контейнер, имя архиватора для выполнения сжатия, пороговое значение
  2. Тестирование контейнера разработанным алгоритмом анализа со сжатием заданным архиватором
  3. Определение факта заполнения по заданному значению
  4. Вывод результата: «Заполнен» или «Не заполнен»


Ситуация, когда тест отвечает «Заполнен» на пустом контейнере, называется ошибкой I рода. Ошибка II рода возникает в случае ответа «Не заполнен» при проверке непустого контейнера.

Тестирование большой серии изображений проводилось в несколько этапов:
  1. Настройка. На этом этапе анализировалась небольшая выборка (около 50 изображений) и подбирался наиболее подходящий архиватор и два пороговых значения следующим образом:
    1. и, обеспечивающие отсутствие ошибок I рода (на данной выборке).
    2. и, при которых достигается «золотая середина» – небольшой процент ошибок II рода при небольшом количестве ошибок I рода.
  2. Тестирование по независимым данным. После экспериментального подбора архиватора и двух вариантов порогового значения проводилась проверка результатов на большой серии (не менее 1000) изображений, не использовавшихся на этапе подбора параметров.


Предложенный в работе алгоритм стегоанализа и метод подстройки параметров используются с различными модификациями для стегоанализа графических данных форматов BMP и JPEG.