Теоретико-информационные методы стегоанализа графических данных

Вид материалаАвтореферат
Третья глава
В четвертой главе
Процент верных решений по выборке
Пороговое значение
Подобный материал:
1   2   3

Третья глава посвящена краткому техническому описанию формата файла BMP и алгоритма JPEG. Рассматриваются два вида форматов BMP, уделяется внимание вопросу применимости методов стеганографии и стегоанализа для в обоих случаях. Для формата JPEG подчеркивается разница между алгоритмом сжатия и форматом файла, обосновывается целесообразность применения библиотеки поддержки форматов для работы с файлами JPEG, которая активно используется в настоящее время в различных программах стеганографии и стегоанализа, в том числе и при реализации разработанного алгоритма стегоанализа. В главе также отмечены причины большой распространенности форматов, благодаря чему их можно считать одними из основных форматов представления графической информации.

Аббревиатура BMP означает BitMap («битовая карта», «битовая матрица»). Формат BMP относится к числу тех графических форматов, где данные представлены «как есть», без каких-либо преобразований, сжатия и т.д. По этой причине файлы BMP имеют довольно большой размер, например, изображение разрешением 1280x800 24бит будет занимать 2.92Мб. Положительной стороной BMP является высокое качество изображения, а также простота формата, что делает его очень популярным для применения в качестве стегоконтейнера. Большинство стеганографических средств предназначено для работы с форматом BMP.

Существуют два основных варианта хранения данных в формате BMP:
  1. Индексированный. Содержит палитру с описанием всех используемых в изображении цветов. Массив самих данных изображения данных содержит только номера элементов массива палитры. Этот вариант формата является неудобным для стеганографии и поэтому редко применяется в этих целях.
  2. Неиндексированный. Наиболее распространенный вариант формата BMP. Палитра отсутсвует, поле данных само хранит описание цветов каждой точки. Этот способ представления данных в основном предназначен для полноцветной графики и в настоящее время очень широко распространен. Основным представителем неиндексированных форматов является 24-битный BMP. Он наиболее популярен в среде различных стеганографичеких программ.

Разработанный метод стегоанализа данных для формата BMP работает только с вариантом «24-битный BMP».

Формат JPEG берет свое название от созданной в середине 1980-x Объединенной группы экспертов по фотографии (Joint Photographic Expert Group), которая входит в состав организации ISO. Целью группы являлось создание эффективного алгоритма сжатия цветных и полутоновых изображений и разработка промышленного стандарта передачи данных с помощью цифровых коммуникационных сетей. Алгоритм JPEG обеспечивает очень высокую степень сжатия данных при сравнительно небольших визуальных искажениях, что сделало его очень популярным для хранения и передачи изображений по компьютерным сетям. В настоящее время формат JPEG является наиболее распространенным среди всех форматов графических файлов.

JPEG является достаточно сложным в сравнении с BMP, поэтому принято различать:
  1. «формат JPEG-файла» - способ представления данных JPEG в файле.
  2. «алгоритм сжатия JPEG» - набор преобразований, переводящих несжатую графическую информацию в сжатые данные JPEG.


Формат JPEG файла в отличие от алгоритма сжатия не был стандартизован, кроме того, он является достаточно громоздким, в нем предусмотрены различные «фирменные расширения». Поэтому, вместо самостоятельной релизации работы с форматом файла, принятой практикой в настоящее время является использование библиотек поддержки форматов, например IJG JPEG Library для формата JPEG. Все операции по обработке файла и выполнению алгоритма JPEG возлагаются на саму библиотеку.

Показано, что файлы форматов 24-бит BMP и JPEG являются наиболее распространенными для передачи графической информации по компьютерным и телекоммуникационным сетям. Данные форматы наиболее часто используются для решения задач стеганографии. Это делает актуальной проблему разработки методов стегоанализа данных в форматах BMP и JPEG.


В четвертой главе рассматриваются известные методы встраивания в BMP-файлы, вопросы автоматического тестирования программ стеганографии формата BMP. Решается задача подбора изображений для тестирования методов стеганографии и стегоанализа. Описываются разработанные алгоритмы выбора порогового значения, наиболее подходящего архиватора, количества отрезков разбиения. Приводятся схемы разработанных для выполнения этих задач скриптов, в том числе и полученное соискателем простое решение, позволяющее проводить параллельную распределенную обработку на вычислительном кластере. Решается задача стегоанализа разработанным методом серии незаполненных контейнеров. Приводится описание наиболее распространенных программ стеганографии формата BMP и экспериментально изученные особенности заполнения программами контейнеров. Проводится экспериментальный анализ контейнеров, созданных рассмотренными программи и выбор параметров разработанного метода стегоанализа, дающих наибольшую эффективность в каждом случае. В конце главы рассматриваются наиболее распространенные существующие методы стегоанализа для формата BMP, сравнивается их эффективность с эффективностью разработанного метода.

В настоящий момент существует более 100 различных стеганографических программных пакетов, большая часть которых имеет поддержку формата BMP. Список наиболее распространенных на сегодняшний день продуктов включает в себя программы: S-Tools 4.0, Steganos Privacy Suite 2008, Image Spyer 2008, SecurEngine 4.0, Steganography 1.6, StegoMagic, wbStego, StegoTools, Hide4PGP 2.0 и др.

Наиболее удобные для тестирования программы, имеющие интерфейс командной строки и открытые исходные коды. Они легко компилировались в UNIX-подобной ОС (например, Linux или FreeBSD). Тестирование программ автоматизировалось с помощью языка скриптов Unix Shell. Программы с закрытыми исходными кодами с интерфейсом командной строки тестировались по предыдущей схеме с применением эмуляторов DosBox и Wine. Для автоматизации приложений с графическим интерфейсом применялтся язык AutoIT.

Выбор незаполненных контейнеров для выполнения задач стегоанализа производился в домашних сетях и в сети Интернет с добавлением некоторого количества собственных фотографий с цифрового фотоаппарата. Обращалось внимание на представительность полученной выборки, т.е. наличие множества файлов с различными параметрами (количество цветов, шумы, разрешение, и т.д.)

Полученные файлы тестировались на наличие аномалий, которые могут нарушить процесс автоматического тестирования и негативно повлиять на результаты.

Разработанный алгоритм стегоанализа файлов формата BMP был реализован в виде программного комплекса, состоящего из различных компонентов. Большинство компонентов написано на языке Unix-shell (интерпретатор GNU Bash). Несколько критичных по быстродействию, точности вычислений и потребляемым ресурсам участков алгоритма реализованы в виде отдельных программ на языке Си. Разработан интерфейс взаимодействия различных модулей, позволяющий модулям легко обмениваться данными. Разработанный и описанный ранее алгоритм стегоанализа файлов формата 24-бит BMP, реализован в виде комплекса. Отдельные компоненты позволяют решать такие задачи, как:
  1. Генерация с помощью выбранной стеганографической программы из пустого контейнера серии заполненных контейнеров с разной степенью заполнения (например, 0%, 10%, 20%, … , 100%)
  2. Стегоанализ разработанным методом одного контейнера
  3. Стегоанализ разработанным методом серии контейнеров
  4. Распределенный параллельный стегоанализ разработанным методом серий контейнеров на вычислительном кластере

Разработанный алгоритм стегоанализа BMP-изображений тестировался на выборке из 1000 незаполненных контейнеров. В табл. 1. представлена зависимость числа верных решений (в % от общего числа файлов) от выбора архиватора при фиксированном значении порога = 1.0 и фиксированном количестве отрезков разбиения N = 10.

Таблица 3

Архиватор

Количество верно определенных файлов, шт.

Процент верных решений по выборке

RAR

970

97%

ZIP

940

94%

GZIP

940

94%

BZIP2

930

93%

7ZIP

920

92%

U

974

97%

I

913

91%


Таблица 1. Выбор архиватора для стегоанализа незаполненных

контейнеров


Специальные типы U и I представляют собой соответственно объединение и пересечение множеств верных решений всех исследуемых архиваторов. Объединение решений (U) дает положительный результат на исследуемом контейнере в том случае, если хотя бы с одним архиватором алгоритм выдал положительный результат. Метод пересечения решений (I) дает положительный результат в том случае, если при проверке контейнера положительный результат выдается со всеми рассмотренными архиваторами. Несмотря на низкий процент верных решений метод I можно считать самым надежным. Самые высокий процент верных решений выдает метод U, однако он менее надежен. При использовании только одного архиватора наиболее подходящим для стегоанализа незаполненных контейнеров является RAR.

В ходе исследования были изучены и протестированы стеганографические пакеты StegoTools, Hide4PGP, SecurEngine, S-Tools и Stegomagic. Пакеты StegoTools, SecurEngine и StegoMagic заносят данные в контейнер последовательно. Программы Hide4PGP и S-Tools размещают скрываемую информацию, размещая ее по контейнеру в различных позициях («распределенный» метод).

В результате проведенного экспериментального исследования лучшими архиваторами для алгоритма стегоанализа BMP, применяемого к контейнерам, созданным рассматриваемыми программами, оказались архиваторы ZIP, GZIP, I и U. Данные значения получены при выборе порогового значения= 1.0.

Путем длительного тестирования и подбора различных параметров (архиватор, порог , и т.д.) получено множество таблиц, отражающих эмпирические зависимости качества метода от выбора соответствующих комбинаций параметров (например, табл. 2, 3). Табличные данные могут быть использованы для настройки разработанного алгоритма: выбора необходимых параметров и с целью обеспечения требуемой на практике эффективности, соотношений ошибок I и II рода и т.д.

Таблица 2.

Пороговое значение , %

Процент заполнения контейнера от его емкости, %

0

10

20

30

40

50

60

70

80

90

100

0.5

97

3

3

3

3

23

47

68

82

90

93

0.6

96

3

3

4

4

36

65

82

92

96

98

0.7

95

4

4

5

6

51

79

92

97

99

99

0.8

95

4

5

6

7

68

91

97

99

99

99

0.9

94

5

6

6

8

85

98

99

99

99

100

1.0

94

6

7

7

9

98

99

99

99

100

100

1.1

94

6

7

7

9

98

99

99

99

100

100

1.2

93

6

7

8

10

98

99

99

100

100

100

1.3

92

7

8

9

11

98

99

99

100

100

100

1.4

92

7

9

10

12

98

99

100

100

100

100

1.5

91

8

9

11

13

99

100

100

100

100

100

1.6

91

9

10

11

15

99

100

100

100

100

100

1.7

90

10

11

12

15

99

100

100

100

100

100

1.8

89

11

12

13

16

99

100

100

100

100

100

1.9

89

12

12

14

17

99

100

100

100

100

100

2.0

88

12

13

15

18

99

100

100

100

100

100