Теоретико-информационные методы стегоанализа графических данных
Вид материала | Автореферат |
- Обеспечивающей сегодня управление информацией, составляют базы данных (БД) и системы, 148.37kb.
- Примерная программа наименование дисциплины: «Теоретико-числовые методы в криптографии», 222.72kb.
- Московский новый юридический институт информационные системы в экономике, 411.38kb.
- Методическое пособие по курсу «Базы данных и информационные системы» 2011, 489.34kb.
- Программа дисциплины «Методы обработки экспериментальных данных», 318.77kb.
- Варианты предметных областей для курсовой работы по дисциплине «Базы данных и информационные, 245.82kb.
- Информационные системы, использующие базы данных: оборудование, программное обеспечение,, 102.98kb.
- Статистические методы и анализ данных, 190.46kb.
- Направление 230400 «Информационные системы и технологии», 20.25kb.
- Пояснительная записка Программа курса предназначена для учащихся 9-х классов, желающих, 110.41kb.
На правах рукописи
Жилкин Михаил Юрьевич
ТЕОРЕТИКО-ИНФОРМАЦИОННЫЕ МЕТОДЫ
СТЕГОАНАЛИЗА ГРАФИЧЕСКИХ ДАННЫХ
Специальность: 05.12.13
«Системы, сети и устройства телекоммуникаций»
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Новосибирск – 2009
Работа выполнена на кафедре прикладной математики и кибернетики Государственного образовательного учреждения высшего профессионального образования “Сибирский государственный университет телекоммуникаций и информатики” (ГОУ ВПО «СибГУТИ»).
Научный руководитель: | доктор технических наук, профессор Рябко Б.Я. |
Официальные оппоненты: | доктор технических наук, профессор Трофимов В.К. кандидат физико-математических наук, доцент Монарев В.А. |
Ведущая организация: | ГОУ ВПО «Санкт-Петербургский государственный университет аэрокосмического приборостроения» |
Защита состоится “__” _______ 2009 г. в “__” часов на заседании диссертационного совета Д 219.005.01 при ГОУ ВПО “Сибирский государственный университет телекоммуникаций и информатики”, по адресу:
630102, г. Новосибирск, ул. Кирова, д. 86, ком. 625.
С диссертацией можно ознакомиться в библиотеке
ГОУ ВПО “СибГУТИ”.
Автореферат разослан “__” _______ 2009 г.
Ученый секретарь диссертационного совета Д 219.005.01 доктор технических наук, профессор | | Мамчев Г.В. |
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность исследования. Диссертация посвящена разработке новых методов обеспечения информационной безопасности в компьютерных и телекоммуникационных сетях. Одной из актуальных проблем безопасности современных компьютерных сетей является борьба с незаконной, скрытой передачей информации.
Для передачи скрытой информации используются различные средства и методы, основные из которых базируются на алгоритмах стеганографии. При этом различного рода «злоумышленники» встраивают информацию, маскируя ее в других сообщениях, которые выглядят безобидно и не вызывают подозрение у потенциального перехватчика (рис. 1). Стеганография имеют богатую историю и широкий спектр различных методов, каждый из которых характерен для своей эпохи. Так, например, в древности применяли тайнопись на табличках, покрытых воском, известен случай передачи сообщения в виде татуировки на голове гонца. В начале XX века использовались симпатические чернила, во времена Второй мировой войны широкое распространение получил метод микрофотографий.
Рис. 1. Лена.jpg. Слева – исходное изображение 300x300 точек,
справа – это же изображение, содержащее 31Кб скрытых данных.
В настоящее время бурное развитие вычислительной техники привело к возникновению особой науки, так называемой цифровой компьютерной стеганографии. Появились новые стеганографические методы, в основе которых лежат особенности представления информации в компьютерных файлах, вычислительных сетях и т.п.
Методы современной компьютерной стеганографии находят применение в области в военной и правительственной связи, защиты авторских прав, для
решения задач обеспечения информационной безопасности. Актуальность проблемы информационной безопасности постоянно растет и стимулирует разработку как новых методов стеганографии, так и методов стегоанализа – обнаружения скрытой информации.
Повсеместное распространение компьютерной техники и глобальных компьютерных сетей, простота в эксплуатации оборудования и доступность для пользователя стеганографического программного обеспечения позволяют сегодня каждому желающему использовать методы стеганографии при передаче информации. Стоит отметить, что этими методами с легкостью могут воспользоваться и злоумышленники, например, для скрытой передачи конфиденциальной информации, коммерческих и государственных секретов и т.п. Поэтому на сегодняшний день стоит проблема построения методов обнаружения скрытых данных в передаваемых сообщениях – задача так называемого стегоанализа.
За последние годы арсенал доступных стеганографических программ заметно расширился. В настоящее время существует более сотни коммерческих, бесплатных и условно-бесплатных пакетов разного назначения: программы, написанные под операционные системы UNIX, MS-DOS, Windows и др., а также кроссплатформенные приложения; имеющие графический интерфейс или интерфейс командной строки; поддерживающие только один или сразу несколько форматов контейнеров; имеющие или не имеющие встроенные средства криптографии и аутентификации; интегрирующиеся в среду или выполняемые отдельно и т.д.
Наиболее популярные программы стеганографии и стегоанализа для файлов графических форматов, такие как Hide and Seek, Jpeg-Jsteg, OutGuess, Steganos, JPHide, F5, Stegdetect и др. часто основаны на алгоритмах, полученных в рамках научных исследований.
Проблемой разработки и усовершенствования методов стеганографии и стегоанализа занимаются многие отечественные и зарубежные ученые: В.Г. Грибунин, И.Н. Оков, Б.Я. Рябко, И.В. Туринцев, А.Н. Фионов, К. Качин (C. Cachin), Р. Андерсон (R. Anderson), Х. Фарид (H. Farid), К. Салливан (K. Sullivan), Д. Фридрич (J. Fridrich), Н. Провос (N. Provos) и др. С каждым годом растет число публикаций, посвященных стеганографии, стегоанализу, а также в смежных областях науки. Широко применяются результаты и достижения классических наук и различных их направлений: теории информации, кодирования, алгебры, физики и т.д.
Целью работы является построение эффективных методов стегоанализа данных в наиболее распространенных на сегодняшний день графических форматах BMP и JPEG. Данные методы должны быть автоматическими, т.е. работать без участия человека и применимыми в телекоммуникационных и компьютерных сетях. Для этого требуются такие характеристики, как высокая скорость обработки данных и высокая вероятность обнаружения скрытой информации.
Задачи исследования - построение экспериментального исследования и разработка методов стегоанализа, базирующихся на алгоритмах сжатия данных. Их применение для методов стеганографии двух типов: 1) основанных на изменении младших разрядов (LSB) и 2) для методов стеганографии в графических форматах с преобразованием Фурье.
Методы исследования
- Методы теории информации
- Методы теории кодирования
- Проведение экспериментальных расчетов на ЭВМ
Научная новизна. Впервые разработан и практически реализован метод стегоанализа, основанный на сжатии данных, эффективность которого выше, чем у ранее известных методов. Данный метод применим в системах обеспечения безопасности компьютерных и телекоммуникационных сетей.
Экспериментально доказаны высокая скорость, эффективность алгоритмов и возможность их применения для наиболее популярных графических форматов: BMP и JPEG. Это позволяет производить стегоанализ «на лету» передаваемой по компьютерным сетям информации, например, при реализации разработанных методов в виде модулей для интеграции с межсетевыми экранами, прокси-серверами и иными системами контроля, учета и ограничения трафика, которые широко применяются в различных организациях.
Практическая ценность полученных результатов
- Для наиболее практически распространенных графических форматов построены методы стегоанализа, эффективность которых превосходит ранее известные.
- Показана высокая эффективность методов стегоанализа, базирующихся на использовании алгоритмов сжатия данных, и возможность их применения к данным в других форматах.
- Параметры предложенных методов позволяют анализировать с их помощью сетевой трафик.
Внедрение результатов исследования в практику. Основные результаты получены в рамках следующих государственных программ:
- Грант РФФИ № 06-07-89025. Руководитель: д.т.н., проф. Рябко Б.Я.
- По заданию Федерального агентства науки и инноваций (государственный контракт № 02.514.11.4027.2) выполнение научно-исследовательских работ в рамках федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007-2012 годы», лот 3: «Технологии разработки распределенных программных систем получения и использования знаний» по теме: «Технология разработки распределенных программных систем для мониторинга больших корпоративных научно-образовательных сетей передачи данных на базе современных методов интеллектуального анализа данных и машинного обучения»
- Гранты для выполнения научных исследований аспирантами, магистрантами и молодыми преподавателями СибГУТИ, 2007 и 2008 гг.
Апробация работы
Материалы работы докладывались на следующих российских и международных конференциях:
- «Информатика и проблемы телекоммуникаций» (Новосибирск, 2007)
- XI Международный симпозиум по проблемам избыточности в информационных и управляющих системах (Санкт-Петербург, 2007)
- VIII Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям (Новосибирск, 2007)
- «Информатика и проблемы телекоммуникаций» (Новосибирск, 2008)
- Международная научная конференция студентов, аспирантов и молодых ученых «Ломоносов-2008» (МГУ, Москва, 2008)
- X Всероссийская научно-практическая конференция «Проблемы информационной безопасности государства, общества и личности» (Томск-Красноярск, 2008)
- XII Международный симпозиум по проблемам избыточности в информационных и управляющих системах (Санкт-Петербург, 2009)
Публикации. По материалам диссертации опубликовано 8 печатных работ, результаты работы отражены в отчетах по грантам и НИР. Список работ приведен на странице 22 автореферата.
Структура диссертации. Диссертация занимает 151 страницу текста и состоит из введения, обзора литературы, рассмотрения основных графических форматов данных, известных методов стеганографии и стегоанализа, описания собственного исследования, заключения с анализом полученных результатов. Работа содержит 23 таблицы и 53 рисунка. Список литературы включает 88 источников.
Основные положения, выносимые на защиту
- Методы стегоанализа, основанные на применении сжатия данных, обладают высокой эффективностью и могут использоваться для выявления скрытой передачи информации в телекоммуникационных сетях.
- Разработан метод стегоанализа в графических данных для выявления данных, скрытых при помощи LSB-стеганографии. Метод был испытан на файлах формата BMP и доказал свою высокую эффективность.
- Разработан метод стегоанализа, предназначенный для работы с графическими форматами на основе преобразований Фурье. Метод успешно опробован на файлах формата JPEG.
- Разработаны методы, технические характеристики которых позволяют использовать их для анализа трафика в компьютерных сетях с целью выявления скрытой передачи информации.
ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы, сформулированы цель и задачи исследования, представлены основные положения диссертационной работы, выносимые на защиту.
В первой главе рассматривается общая модель стегосистемы, основные принципы ее функционирования. Даются понятия контейнера, стегоконтейнера, секретного сообщения, алгоритма встраивания, ключа шифрования и дешифрования и т.д. Приводятся примеры часто используемых на практике программ стеганографии, примеры наиболее распространенных алгоритмов, реализующих отдельные этапы задачи включения скрытой информации в контейнер.
Основным понятием стеганографии является стегосистема, которая выполняет задачу скрытия и извлечения информации (рис. 2).
Стегосистема включает в себя контейнер, стегоконтейнер, секретное сообщение, ключ, алгоритмы встраивания и извлечения информации, а также канал передачи информации.
Контейнером называется последовательность данных, в которую необходимо занести секретное сообщение. В современной цифровой стеганографии в качестве контейнеров могут выступать файлы распространенных цифровых форматов, таких как BMP, JPEG, WAV, MP3, AVI, PDF, EXE. Наиболее удобными контейнерами считаются музыкальные файлы, изображения, видео и т.д. Контейнер, содержащий в себе скрытую информацию, называется стегоконтейнером.
Стегосистема задается алгоритмом включения и извлечения информации, которые реализованы в любом стеганографическом программном продукте. Среди наиболее распространенных реализованных стегосистем мы отметим Jpeg-Jsteg, OutGuess, Steganos, JPHide, F5 и т.д.
Рис. 2. Общая модель стегосистемы.
Для встраивания секретного сообщения в контейнер применяется алгоритм встраивания информации, который является основой стегосистемы.
Одна из главных задач алгоритма встраивания – внесение незаметных для восприятия человеком изменений в контейнер. Это требование обычно ограничивает емкость контейнера, т.е. максимальное количество скрытой информации, которое способен вместить в себя контейнер. Емкость контейнера зависит от характеристик самого контейнера, алгоритма включения информации, а иногда и от секретного сообщения. Специальный алгоритм извлечения информации предназначен для проверки наличия секретного сообщения внутри контейнера и его извлечения. Для каждого алгоритма встраивания существует свой алгоритм извлечения информации.
Перед встраиванием в контейнер, в целях повышения безопасности и компактности, секретное сообщение обычно сжимается и шифруется. Для сжатия используются различные алгоритмы, например алгоритмы семейства LZ или на основе BWT. Шифрование информации производится по какому-либо заранее заданному алгоритму, например, AES, Blowfish и т.д. Для получения ключа шифрования и дешифрования используется пароль пользователя или результат вычисления хэш-функции от него. Для корректного извлечения информации пароль должен быть передан принимающей стороне по отдельному безопасному каналу передачи информации. Алгоритмы шифрования, сжатия, хэширования чаще всего встроены в стеганографический пакет.
В качестве контейнеров обычно выбираются данные, не вызывающие подозрения, например, фотографии, популярные музыкальные композиции и видеоролики. Файл с включенной (или встроенной) скрытой информацией, передается по открытому каналу передачи информации получателю сообщения.
Предполагается, что вся проходящая по открытому каналу информация может быть перехвачена и исследована.
Поэтому одно из основных направлений при разработке и улучшении методов стеганографии – достижение наибольшей «незаметности» информации внутри стегоконтейнера, и, наоборот, основная задача стегоанализа – обнаружение факта присутствия скрытой информации.
Во второй главе рассматривается задача стегоанализа, выделяются два основных вида алгоритмов стегоанализа, рассматриваются общие этапы произвольного алгоритма стегоанализа и наиболее распространенный на сегодняшний момент общий принцип стегоанализа контейнеров. Приводится формальное описание разработанного алгоритма стегоанализа, определяются понятия ошибок I и II рода разработанного теста. Описывается разработанная общая схема тестирования графических данных предлагаемым методом с решением задачи оптимизации – выбора наиболее подходящих архиваторов и порогового значения, дающих лучшие характеристики алгоритма в зависимости от требований пользователя.
Различные методы стегоанализа подразделяются на две основные категории:
- Методы направленного стегоанализа – предназначенные для работы только с заранее известными стеганографическими алгоритмами.
- «Слепые» или универсальные методы – предназначенные для всех алгоритмов стеганографии.
Методы обеих категорий построены с учетом предположения о недоступности исходного пустого контейнера, который был использован для включения информации в исследуемый стегоконтейнер.
Кроме того, стегоанализ «слепыми» методами часто не требует знания использованного алгоритма включения информации, алгоритма шифрования, сжатия, ключа и длины сообщения.
Методы направленного стегоанализа разработаны под конкретные известные алгоритмы стеганографии. Они, как правило, дают немного лучшие результаты в сравнении с универсальными методами.
Положительной стороной универсальных методов является возможность работы с любыми, в том числе и неизвестными стеганографическими алгоритмами.
Известные методы «слепого» стегоанализа обычно построены на алгоритмах, требующих предварительного «обучения» на сериях из заполненных и пустых контейнеров.
Большинство исследований в области стегоанализа направлено на решение основной задачи: определение факта наличия скрытой информации в контейнере. Для решения этой задачи применяются различные методы. Наиболее распространены статистические алгоритмы. Основную роль в таких методах играет статистическая модель неизвестного пустого контейнера. В построенной модели находят параметры и характеристики, наиболее чувствительные к включению скрытой информации. По различию между теоретической моделью и исследуемым контейнером определяется вероятность наличия секретного сообщения.
В основу разработанных методов положен тот факт, что исходный контейнер и добавляемая в него информация статистически независимы, поэтому при добавлении скрытых данных в контейнер, размер при его сжатии вырастает по сравнению с размером исходного сжатого «пустого» контейнера.
Разработанный метод стегоанализа графических данных применяет алгоритмы сжатия данных для проверки статистической независимости информации. Для сжатия используются широко распространенные программы-архиваторы.
Для формального описания алгоритма вводятся следующие обозначения: пусть - последовательность байтов в данных изображений, а - длина последовательности. Последовательность X разбивается на d равных отрезков, обозначаемых , где . Функция возвращает результат обработки контейнера алгоритмом сжатия.
Для удобства вводится функция
которая обозначает коэффициент сжатия отрезка n последовательности X алгоритмом .
Через обозначим псевдослучайное изменение младших битов всех байтов последовательности X.
Пусть X - последовательность, которая подается на вход программе, а - полученная из нее новая последовательность. Введем новую величину
Те отрезки последовательности, которые не содержали “скрытую” информацию сжимаются лучше, чем соответствующие им отрезки последовательности Y, и напротив, коэффициенты сжатия отрезка последовательности X со «спрятанной» информацией и отвечающего ему отрезка последовательности Y отличаются незначительно.
Для определения факта включения информации выбирается пороговое значение для величины и производится оценка количества отрезков, на которых значение величины не превышает порог.
Для экспериментального исследования метода была подготовлена серия изображений («контейнеров») разного разрешения и качественного содержания.
Обработка одного изображения выполнялась следующему алгоритму:
- Вход: пустой контейнер, имя архиватора для выполнения сжатия, пороговое значение
- Тестирование контейнера разработанным алгоритмом анализа со сжатием заданным архиватором
- Определение факта заполнения по заданному значению
- Вывод результата: «Заполнен» или «Не заполнен»
Ситуация, когда тест отвечает «Заполнен» на пустом контейнере, называется ошибкой I рода. Ошибка II рода возникает в случае ответа «Не заполнен» при проверке непустого контейнера.
Тестирование большой серии изображений проводилось в несколько этапов:
- Настройка. На этом этапе анализировалась небольшая выборка (около 50 изображений) и подбирался наиболее подходящий архиватор и два пороговых значения следующим образом:
- и, обеспечивающие отсутствие ошибок I рода (на данной выборке).
- и, при которых достигается «золотая середина» – небольшой процент ошибок II рода при небольшом количестве ошибок I рода.
- и, обеспечивающие отсутствие ошибок I рода (на данной выборке).
- Тестирование по независимым данным. После экспериментального подбора архиватора и двух вариантов порогового значения проводилась проверка результатов на большой серии (не менее 1000) изображений, не использовавшихся на этапе подбора параметров.
Предложенный в работе алгоритм стегоанализа и метод подстройки параметров используются с различными модификациями для стегоанализа графических данных форматов BMP и JPEG.