На правах рукописи
Кучин Иван Юрьевич
обработка баз данных с персонифицированной информацией для задач обезличивания и поиска закономерностей
Специальности:
05.13.01 - Системный анализ, управление и обработка информации (промышленность, информатика)
05.13.19 - Методы и системы защиты информации, информационная безопасность
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата технических наук
Астрахань - 2012
Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Астраханский государственный технический университет.
Научный руководитель: | доктор технических наук, профессор Попов Георгий Александрович. |
Официальные оппоненты: | заведующий кафедрой Системы автоматизированного проектирования и поискового конструирования ФГБОУ ВПО Волгоградский государственный технический университет, заслуженный деятель науки РФ, доктор технических наук, профессор Камаев Валерий Анатольевич, профессор кафедры Защита информации ФГБОУ ВПО Северо-Кавказский государственный технический университет, доктор технических наук, профессор Калмыков Игорь Анатольевич. |
Ведущая организация: | ФГБОУ ВПО Саратовский государственный технический университет имени Гагарина Ю.А.. |
Защита состоится л29 марта 2012 г. в 11 часов 00 минут на заседании диссертационного совета Д 307.001.06 при Астраханском государственном техническом университете по адресу: 414025, г.Астрахань, ул. Татищева, 16, главный корпус, ауд. 313.
Отзывы на автореферат в двух экземплярах, заверенные гербовой печатью организации, просим направлять по адресу: 414025, г.Астрахань, ул. Татищева, 16, АГТУ, ученому секретарю диссертационного совета Д 307.001.06.
С диссертацией можно ознакомиться в научной библиотеке Астраханского государственного технического университета.
Автореферат разослан л____ ___________ 20___ г.
Ученый секретарь
диссертационного совета А.А. Ханова
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность исследования. Активное внедрение информационных технологий для повышения эффективности управления привело к формированию больших объемов собранных данных. Количественный рост информации в настоящее время приводит к накоплению качественно новых знаний. Традиционные методы обработки накопленных данных, не дают эффективных подходов для ее интеллектуального анализа, в отличие от методов нового и активно развивающегося научного направления Data Mining, нацеленного на поиск ранее неизвестных знаний.
Особый интерес в качестве объекта поиска новых знаний представляет персонифицированная информация или персональные данные (ПДн), т.е. цифровая информация, генерируемая или так или иначе связанная с конкретной личностью. Значительная потребность в использовании этой информации и ее анализе, в том числе методами Data Mining, в настоящее время испытывается в двух сферах: в бизнес-аналитике и сфере государственных услуг (в связи с активным переводом услуг населения в электронный формат: единая карта гражданина РФ, электронные очереди, электронное правительство и т.п.).
В рамках указанной обработки персонифицированной информации все острее проявляются противоречия требований интеллектуального анализа данных и сохранения приватности личности при использовании ее данных. Так 34,7% организаций, обрабатывающих персональные данные, в качестве основного препятствия к использованию их в качестве объекта исследования называют неясность положений Федерального закона №152 О персональных данных. В частности, Законодательно установлено, но не регламентировано требование проведения предварительной процедуры обезличивания персональных данных перед их исследованием, что значительно препятствует полноценному и безопасному их использованию в качестве объекта поиска новых знаний.
Направлением Data Mining занимались и продолжают заниматься многие российские и зарубежные ученые: Г. Пиатецкий-Шапиро, А.В. Дюк, И.А. Чубуков, H. Edelstein и др. Использование методов Data Mining применительно к анализу персонифицированной информации без угрозы приватности личности рассмотрены в работах: P.Samarati, G.Aggarwal, RJ Bayardo и др. Наконец, вопросами обезличивания персональных данных в нашей стране посвящены работы: С.Д. Рябко, А.Лукацкого, Е.А. Саксонова, Р.В.Шередина, Е.Царева и др.
Диссертационная работа посвящена разработке альтернативной модели обезличивания персональных данных, позволяющей подготовить данные к анализу методами Data Mining и решить задачу безопасного использования данных по достижению первичных целей их обработки. В работе проверяется возможность использования некоторых методов аппарата анализа временных рядов на базах с персонифицированной информацией и предлагаются усовершенствования существующего метода. Кроме того, предложена новая процедура защитного преобразования данных, зависящая от параметров конкретной среды ее реализации, для повышения безопасности ее применения. Указанные мероприятия должны способствовать развитию эффективной и в то же время безопасной обработки ПДн, чем и обосновывается актуальность темы диссертационного исследования.
Объект исследования - базы данных с персонифицированной информацией жителей РФ, находящиеся в свободном доступе в сети Интернет.
Предмет исследования. Методы, модели и алгоритмы обработки больших наборов персонифицированных данных.
Целью диссертационного исследования является повышение эффективности анализа, поиска новых знаний и безопасной обработки на основе обезличивания персонифицированной информации. Для достижения поставленной цели необходимо решить следующие задачи:
- Разработать способы оценки свойств персонифицированной информации на основе построения их классификационной структуры.
- Модифицировать метод SSA-Гусеница для решения задач Data Mining применительно к персональным данным.
- Построить модель и алгоритм обезличивания данных, позволяющие при необходимости восстанавливать исходные данные.
- Разработать алгоритм защитного преобразования, зависящий от параметров конкретной операционной среды обработки.
Методы исследования. В процессе работы использовались методы системного анализа, математического моделирования, теории вероятностей, математической статистики, графов.
Достоверность и обоснованность подтверждена результатами компьютерных экспериментов и внедрением работы в ООО Новая Клиника (г. Астрахань).
Научная новизна диссертационного исследования:
- Сформирована классификационная структура свойств персональных данных вместе со способами оценки этих свойств, которые позволяют повысить степень эффективности и безопасности обработки данных в процессе поиска новых знаний.
- Модифицирован метод SSA-Гусеница применительно к анализу данных, не являющихся временными рядами, а также разработана процедура эффективного выбора длины окна, позволяющая результативнее определять характеристики регулярных составляющих в базах данных.
- Предложена новая модель обезличивания, усовершенствующая модель k-анонимности и обеспечивающая более высокий уровень функциональности, по сравнению с последней, за счет реализации возможности восстановления обезличенной информации.
- Разработан новый алгоритм защитного преобразования данных, который обеспечивает адаптивную связь процесса обезличивания с параметрами конкретной операционной среды.
Практическая значимость.
- Полученные в работе количественные оценки свойств баз данных с персонифицированной информацией могут быть использованы для прогнозирования характеристик результатов идентификации личности в произвольных базах персональных данных.
- Модифицированный метод SSA-Гусеница позволяет применять различные варианты этого метода для анализа данных, не являющихся временными рядами.
- Разработанный в работе алгоритм обезличивания данных может быть использован для безопасного хранения и обработки персональных данных в коммерческих целях.
Апробация работы. Основные положения и отдельные результаты диссертации докладывались и обсуждались на Международной научно-технической конференции Современные информационные технологии - 2011 (Пенза, 2011), Международной конференции по информационной безопасности Info Security Russia (Москва, 2010), I международной научно-практической конференции Эволюция системы научных коммуникаций Ассоциации университетов Прикаспийских государств (Астрахань, 2008), Международной отраслевой научной конференции профессорско-преподавательского состава Астраханского государственного технического университета (Астрахань, 2010).
Публикации. Основные результаты диссертационного исследования опубликованы в 6 печатных работах: 3 статьях в журналах из списка, рекомендованного ВАК РФ, 3 материалах и трудах конференций. Все работы опубликованы без соавторов.
Структура и объем работы. Работа состоит из введения, 3 глав, заключения, списка литературы из 106 наименований и 5 приложений. Основная часть работы изложена на 117 страницах машинописного текста, содержит 17 таблиц и 45 рисунков.
СОДЕРЖАНИЕ РАБОТЫ
Во введении описывается структура работы, обосновывается актуальность выбранной темы, а также формулируются научная новизна и практическая значимость диссертационного исследования. На основе анализа актуальности рассматриваемой проблемы была поставлена следующая задача диссертационного исследования: разработать процедуру обработки персональных данных, которые позволили бы повысить эффективность анализа персонифицированной информации на основе ее обезличивания.
В первой главе был проведен анализ проблемы идентификации личности по персональным данным, позволивший сформировать классификационную структуру свойств объекта исследования, определяющих результат идентификации, а также предложен способ их количественной оценки. Совокупность указанных выявленных свойств, вместе с определяющими их факторами приведена на рис. 1.
Рис. 1. Классификационная структура свойств персональных данных, определяющих результат идентификации
В связи с несовершенством существующей нормативной документации в рассматриваемой области была сформирована необходимая терминологическая база для описания свойств персональных данных, определяющих особенности ее обработки, в частности, введены такие показатели данных как доступность, лидентифицируемость, связность, линформативность и др.
Необходимость числового выражения результатов идентификации потребовала определения количественных оценок выявленных свойств. Свойства линформативности и доступности атрибутов были определены в ходе анализа 9 баз данных (БД) жителей разных городов РФ, общим объемом более 16 млн. записей, найденных в входе поискового эксперимента в сети Интернет. В работе предлагается следующее соотношение для оценки свойства доступности данных D для конкретного атрибута A:
D(Ai) = PAiF Ai + 0,1EAi,
где PAi - вероятность нахождения атрибута Ai в базе данных; F Ai - степень заполнения атрибута Ai (коэффициенты PAi, F Ai были рассчитаны по данным более 16 млн. записей); EAi - доступность атрибута согласно опросу Всероссийского центра изучения общественного мнения (ВЦИОМ), проведенному 16 февраля 2011 года. Коэффициент 0,1 определяет вес результата опроса в общем значении показателя доступности. Расчет был произведен для основных атрибутов, встречающихся в базах с персональными данными (рис. 2).
Рис. 2. Значения параметров, определяющих доступность атрибутов
Свойство линформативности атрибута определяет способность дифференцировать выборку по его значениям. Для подсчета линформативности была предложена формула, аналогичная формуле Шеннона:
,
где A - атрибут базы данных; I(A) - информативность атрибута A; k - число различных значений, которые принимает атрибут A в рассматриваемой базе данных; pi - вероятность того, что атрибут A примет i-е значение. Практический смысл информативности заключается в знании среднего размера группы KСР, на которые разбивается все множество записей при идентификации по рассматриваемому атрибуту (чем выше информативность признака, тем ближе KСР к 1). Для оценки качества распределения атрибутов с точки зрения возможностей идентификации кроме информативности была определена их максимальная информативность Imax(A), которая была рассчитана по лоптимизированным атрибутам с однородным вероятностным распределением:
Imax(A)= - log2(1/NТ) если NТN; Imax(A)= - log2(1/N) если NТ>N,
где N - число записей в базе данных; NТ - максимальное число значений, которое принимает атрибут.
Для оценки максимальной информативности атрибута в базе данных произвольного размера N без непосредственного проведения подсчета необходимо знать распределение этого атрибута, в котором каждому значению Ni (числу записей в базе данных) соответствует число его уникальных (неповторяющихся) значений - Vi. Это распределение, прежде всего, зависит от природы атрибута и в общем случае является случайным.
Диапазон количества уникальных (различных) значений, принимаемых атрибутом фамилия, был построен в результате подсчета Vi в 10 случайно сформированных (из значений исходных БД) базах данных размером Ni на каждой из 42 контрольных точек для 5 наиболее репрезентативных баз данных (БД жителей Астрахани, Тольятти, Тюмени, а также Московской и Астраханской областей) (всего 2100 значений). В получившемся при этом диапазоне возможных значений Vi (рис.а3) была построена кривая, соответствующая средним значениям диапазона.
Рис. 3. Диапазон распределения уникальных значений атрибута фамилия,
его эталонное и аппроксимированное значения
Затем с использованием пакета для анализа Origin Pro v.8.5.1 это осредненное распределение было аппроксимировано встроенной экспоненциальной функцией (график 1 на рис. 3).
Анализ ошибок аппроксимации и относительной ширины диапазона показал стабильность найденной функциональной зависимости после того, как размер базы данных начинает превышать 5000 записей. Аналогичные расчеты были произведены для наиболее распространенных атрибутов баз персональных данных (лимя, лотчество, дата рождения и др.). На графике 2 рис. 3 изображено среднее распределение уникальных значений атрибутов фамилия, лимя и лотчество.
В работе был сформулирован ряд гипотез об особенностях распределения значений атрибутов баз ПДн, которые нашли подтверждение в результате соответствующей проверки в базах данных, собранных в ходе поискового эксперимента.
Кроме того, была выявлена схожесть проблемы идентификации и подходов к ее решению в других прикладных областях, таких как биометрическая идентификации и трасологическая экспертиза.
В результате поискового эксперимента был получен перечень баз персональных данных объемом более 16 млн. записей. Выявлены свойства персонифицированной информации, определяющие результаты идентификации личности и представляющие интерес в процессе обработки данных, которые были количественно оценены по найденным БД. Получены функциональные зависимости распределения значений наиболее часто встречающихся атрибутов баз ПДн, которые могут быть использованы для априорного оценивания результатов идентификации в произвольной базе с персональными данными.
Во второй главе рассматривается возможность использования аппарата анализа временных рядов для поиска знаний в базах с персонифицированной информацией; предлагается ряд процедур, усовершенствующих существующий метод SSA-Гусеница, в частности процедура поиска оптимального размера окна.
Основной проблемой поиска знаний в технологии Data Mining является практически полное отсутствие предварительной информации о характере закономерности, которую пытаются выявить в базе данных. Доступный поиск показал, что единственным подходящим в таких условиях является метод анализа временных рядов SSA-Гусеница, который для одномерного ряда заключается в последовательном выполнении следующих процедур: формирование траекторной матрицы, ее сингулярное разложение, группировка членов разложения, последующее восстановление компонентов разложения, а также визуальный анализ и интерпретация результатов.
Отличительной чертой метода SSA является то, что он не требует предварительного задания модели ряда. В отличие от других существующих методов анализа временных рядов метод SSA разделяет на независимые этапы задачу выделения типовых компонентов (тренд из заданного класса зависимостей, периодические составляющие) и определение вида зависимостей (функций из рассматриваемого класса и соотношений), описывающих количественно каждый выделенный компонент.
Для проведения анализа методом SSA базы данных, не являющейся временным рядом, необходимо ее предварительно подготовить. В работе предлагается следующая процедура подготовки исходных данных:
- Генерирование гипотезы о возможной закономерности в БД.
- Выбор из БД записей, удовлетворяющих гипотезе и их упорядочивание.
- Перевод выбранных данных в числовой формат, и формирование последовательности числовых данных.
Существуют эмпирические методы нахождения длины окна для построения SSA-Гусеницы, в частности, есть рекомендация использовать длину окна, равную половине длины ряда, либо кратную величине периода при поиске гармонической составляющей. В работе предлагается процедура выбора оптимальной длины окна L на основе анализа степени средней коррелированности соседних окон ряда по следующим формулам:
,
где , , , ,
j Цначало просматриваемого окна; l - текущая длина всех окон, (j,l) - соответствующее среднее квадратическое отклонение.
Для проверки возможности применения метода SSA-Гусеница для поиска знаний в базах с персонифицированной информацией, были выбраны 2 подмножества мощностью 2000 записей из БД г. Астрахани. Первое подмножество выбрано из БД с естественным порядком следования записей, второе - из БД, предварительно отсортированной по атрибуту название улицы. При этом из исследуемой базы данных этот атрибут был исключен. Соответствующее распределение атрибута номер квартиры для двух БД представлено на рис. 4.
Рис. 4. Распределение атрибута л№ квартиры в двух БД
Визуально невозможно определить, была ли отсортирована исходная база данных по какому-либо атрибуту либо в этой базе данных естественный порядок следования записей, например, по мере их добавления в нее. Для определения факта скрытой сортировки и нахождения гармонической составляющей (атрибута сортировки) был применен описанный метод SSA-Гусеница (сформирована транспортная матрица, а затем с помощью программы CaterpillarSSA построены двумерные диаграммы пар собственных векторов). Длина окна L первоначально была выбрана равной половине длины ряда (N/2) для решения принципиального вопроса - есть ли в этом временном ряду выраженные гармонические колебания. Полученные таким образом двумерные диаграммы приведены на рис.а5.
Рис. 5. Двумерные диаграммы пар собственных векторов для соответствующих БД
Диаграммы на рис. 5. позволяют сделать однозначный вывод о том, что в первом распределении есть определенные закономерности (двумерная диаграмма собственных векторов, отмеченная стрелкой). Для выделения периодической составляющей необходимо подобрать длину окна, кратную периоду этой компоненты, однако, заранее этот период неизвестен, т.к. атрибут сортировки от нас скрыт. При помощи разработанной процедуры нахождения длины окна, опирающейся на средний уровень корреляционной зависимости между соседними окнами, была найдена длина окна L=303, при которой гармоническая составляющая хорошо просматривается (образуется наиболее правильная фигура; рис. 5, диаграмма 3).
Знание порядка следования записей в базе данных может быть весьма ценно, например, для восстановления идентичности обезличенной информации. Задачу определения свойства упорядоченности атрибута базы данных можно рассматривать как задачу поиска гармонической составляющей во временном ряду с периодом T равным N/K, где N - длина ряда, а K - длина сезонной составляющей. В случае с базой данных, N - это число записей, а K - количество различных значений атрибута, по которому была произведена сортировка.
Предлагаемая процедура позволяет значительно снизить время поиска длины окна. В частности, в рассмотренном выше примере время поиска было снижено в 6 раз по сравнению с направленным перебором (бинарным поиском).
В результате доработки существующего метода анализа временных рядов SSA-Гусеница, стало возможным его применение на БД, не являющихся временными рядами. Предложенная процедура нахождения длины окна на основе анализа корреляционной зависимости позволяет найти период гармонической составляющей, что может быть использовано для поиска знаний методами Data Mining.
В третьей главе описывается разработанная оригинальная модель обезличивания персональных данных, совмещающая в себе существующие подходы к обезличиванию и позволяющая решать задачи, для которых пока не существовало эффективных решений. Предлагается алгоритм обезличивания, реализующий разработанную модель, успешно апробированный на базе данных одного из негосударственных пенсионных фондов г. Астрахани. Описывается альтернативная процедура кодирования персональных данных, опирающаяся на большое количество и сложный характер взаимодействия функций в ядре операционной системы (ОС).
В ходе анализа всех известных на данный момент методов обезличивания были определены два принципиальных способа реализации процедуры обезличивания и рассмотрены варианты их использования для решения практических задач обеспечения приватности личности:
- снижение идентифицирующей способности данных;
- использование недоступных идентификаторов.
Для решения проблемы подготовки базы с персональными данными к исследованиям методами Data Mining за основу была взята модель k-анонимности (k-anonymity), широко известная в зарубежных исследованиях. Ее основная идея заключается в том, что в обезличенной базе данных любая строка должна быть неотличима по идентификаторам, потенциально доступным злоумышленнику, от, как минимум, kаЦа1 других строк, где k - натуральное число, определяющее степень защиты обезличенной базы данных. Используются две возможные процедуры преобразования информации для достижения k-анонимности - удаление и обобщение (с введением доменов), которые могут выполняться на разных уровнях (уровень ячейки БД, уровень строки, столбца) и в разных сочетаниях (отдельно друг от друга либо совместно).
В работе предлагается новая модель обезличивания, основанная как на снижении идентифицирующей способности данных с опорой на классическую модель k-анонимности, так и на использование недоступных идентификаторов. Модель гарантирует восстановление всех обезличенных данных в случае необходимости и позволяет хранить персональные данные неограниченное время без угрозы приватности личности и с соблюдением требований законодательства.
Формализация модели представлена далее: рассматривается база данных в виде двумерной таблицы (рис. 6), содержащая персональные данные множества людей S, База данных B представляет собой множество строк B = {1A1, 2A2, Е nAn}, где - порядковый номер записи, A - атрибут БД. Каждая строка таблицы Li содержит идентифицирующие и общие данные, связанные с конкретным субъектом Sнi.:
Li = pici, pi = aibi,
где pi - полные идентифицирующие данные субъекта Si; ci - общие данные, связанные с субъектом Si; ai - идентифицирующая информация, доступная потенциальному злоумышленнику (доступный идентификатор); bi - идентифицирующая информация, не доступная злоумышленнику (недоступный идентификатор); i - номер строки.
Имеется однозначное отображение (биекция) между множеством S и множеством B (S B). По любой строке Li однозначно восстанавливается один и только один субъект Si.
Функция обезличивания F - это отображение (биективное) множества B в множество D, F: B D, такое, что:
- , причем ai отображается в aiТ так, что соответствующий символ строки aiТ либо совпадает с символом ai, либо равен символу С*Т. Аналогично bi отображается в biТ, где aТ - обезличенная a, bТ - обезличенная b.
- , , где - множество двойников для i-го субъекта (строки), а k - некоторое натуральное число - степень обезличивания, определяется следующим образом: если , то
При попытке поиска информации в обезличенной базе данных оператором либо злоумышленником по общедоступным (известным им) идентификаторам личности и тот и другой получат как минимум k записей, среди которых спрятана искомая информация. В то же время, при необходимости любая запись из базы данных может быть восстановлена, но только при предоставлении полного набора своих идентифицирующих данных. При этом за счет не полного избавления от идентифицирующих свойств при проведении обезличивания информация пригодна к исследованиям методами Data Mining.
В работе был предложен алгоритм (рис. 7), реализующий оригинальную модель обезличивания.
Рис. 7. Блок-схема алгоритма обезличивания с восстановлением
Алгоритм не претендует на поиск лучшего решения с точки зрения минимальности обезличивания и был разработан для демонстрации принципиальной возможности реализации указанной модели. В качестве эффективной меры уменьшения размерности поиска решения обезличивания предлагается использовать шаблоны, формируемые с учетом результатов подсчета информативности атрибутов и корреляции между ними, полученных в первой главе.
Предлагаемый алгоритм был реализован в виде программного продукта, который был успешно использован для проведения обезличивания с возможностью восстановления каждой записи базы данных негосударственного пенсионного фонда, объемом 2159 записей.
В качестве доступного идентификатора был выбран кортеж атрибу-
тов: {лфамилия, лимя, лотчество, дата рождения, пол}. В роли не-
доступного - серия и номер паспорта. График 1 на рис. 8 изображает распределение уникальных значений рассматриваемого кортежа атрибутов в исходной базе данных (прямая линия, все записи уникальны). После обезличивания по сформированному шаблону распределение приобретает вид, представленный на графике 2 (рис. 8). Для гарантированного восстановления обезличенных данных проводится процедура повышения информативности отдельных записей (графика3, рис. 8). Результаты k-анонимности при обезличивании приведены на рис.а9.
Рис. 9. Результаты обезличивания предлагаемым алгоритмом
График 1 на рис. 9 демонстрирует результаты идентификации обезличенной БД по общедоступному идентификатору: все записи обезличены (4ааkаа60). График 2 - результаты идентификации по полному идентифицирующему набору: все записи БД восстанавливаются (kа=а1). Таким образом, обезличенную БД можно хранить неограниченное время без риска нарушения приватности личности.
Основными параметрами предлагаемого алгоритма являются:
- выбор числа k, разделение идентификаторов по степени доступности;
- шаблон обезличивания для достижения k-анонимности.
Параметр обезличивания k выбирается исходя из требований безопасности, предъявляемых к конкретным данным. Определение доступного идентификатора предлагается производить по результатам оценки доступности данных, проведенным в первой главе.
Формирование шаблона обезличивания происходит на основе предложенных в работе способов числового оценивания информативности атрибутов БД, которые необходимы для анализа методами Data Mining, в частности, путем прогнозирования среднего размера группы KСР, получаемого при идентификации обезличенной базы данных по значениям этих атрибутов.
Предложенная модель и алгоритм обезличивания не связаны с конкретной средой обработки информации, однако могут возникнуть задачи, когда для повышения стойкости обезличивания целесообразно также связать процесс обработки с конкретными условиями ее функционирования
Для этого в работе был предложен алгоритм защитного преобразования, опирающийся на большое количество и сложный порядок взаимодействия функций вызовов ядра ОС с открытым кодом. В качестве примера было взято ядро ОС Linux (v2.6.23.11). Проведенный расчет выявил в нем 5211 функций, которые вызываются 481563 раза.
Для реализации предлагаемого алгоритма необходимо провести ряд подготовительных действий:
1. Представление ядра ОС по исходному коду в виде иерархического взвешенного графа. Применительно к ОС Linux подобный граф был построен при помощи утилиты cflow. Графическое представление графа ядра было получено при помощи пакета утилит по автоматической визуализации GraphViz.
2. Сопоставление каждой функции двух натуральных чисел: относительного и абсолютного номера по процедуре, опирающейся на лексикографи-
ческую упорядоченность наименования функций. Назначение каждой вершине символа входного алфавита последовательным перебором вершин и циклическим перечислением символов при их назначении. Пример графа с проведенными подготовительными действиями для упрощенного алфавита приведен на рис. 10.
После завершения описанных подготовительных действий выполняется непосредственно процедура защитного преобразования, приведенная в виде алгоритма на рис. 11.
При кодировании символов используется процедура сцепления символов, что существенно повышает уровень криптостойкости описываемого алгоритма. Восстановление исходной записи при предъявлении ключевой информации происходит путем выполнения действий, аналогичных описанной процедуре обезличивания, но с использованием обратной процедуры восстановления символов по относительным кодам. Достоинством алгоритма является полная открытость алгоритма и отсутствие ключей закрытия, а также возможность быстрой идентификации данных при предъявлении ключевых данных.
Рис. 11. Предлагаемый алгоритм защитного преобразования данных
В работе были рассмотрены различные походы к обезличиванию, принципы, на которых они основаны, и их практическая значимость. Для решения задачи безопасного хранения персональных данных, в том числе для поиска в них знаний методами Data Mining, предложена новая модель обезличивания. Предлагаемый алгоритм реализации модели, использующий результаты выявленных закономерностей в часто встречаемых атрибутах баз персональных данных, показал свою пригодность для решения поставленной задачи на реальной базе данных. Алгоритм защитного преобразования данных, функционирующий в конкретной среде обработки, может быть использован в ситуациях, требующих повышения безопасности проведения процедуры обезличивания данных.
Было произведено внедрение результатов работы в ООО Новая Клиника (г.аАстрахань), в котором был изменен технологический процесс обработки персональных данных пациентов с применением технологии обезличивания. Внедрение позволило выполнить требования Федерального закона №152 О персональных данных, а также реализовать право 2% пациентов, желающих получать медицинские услуги анонимно.
В заключении изложены научные результаты, полученные в диссертационной работе.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ И ВЫВОДЫ
- Сформирована классификационная структура свойств персонифицированной информации и предложены способы количественной оценки их характеристик, что позволяет использовать их для прогнозирования характеристик результатов идентификации личности в произвольных базах персональных данных.
- Проведен ряд поисковых экспериментов с использованием сети Интернет с целью выявления степени доступности персонифицированной информации. На основе статистических характеристик атрибутов баз персональных данных, полученных в ходе поискового эксперимента (объем данных - более 16 млн. записей), выявлены закономерности, которым подчинены персональные данные. Полученные закономерности позволяют провести классификацию идентификаторов личности по степени их доступности и адаптировать механизмы защиты данных с учетом результатов классификации.
- Модифицирован метод SSA-Гусеница, позволяющий использовать аппарат исследования временных рядов для анализа БД произвольного содержания.
- Предложена новая процедура поиска длины окна для метода SSA-Гусеница. Продемонстрирована эффективность разработанной процедуры в задачах выявления скрытых периодических закономерностей, в частности, было отмечено уменьшение времени поиска длины окна в 6 раз, по сравнению с направленным перебором для базы данных объемом 2000 записей.
- Разработана модель обезличивания персональных данных, совмещающая в себе существующие подходы к обезличиванию и позволяющая решать задачи, для которых пока не существовало эффективных решений. Разработан алгоритм обезличивания, реализующий предлагаемую модель, который был успешно апробирован на базе данных негосударственного пенсионного фонда.
- Предложен новый алгоритм защитного преобразования данных, обеспечивающий адаптивную связь процесса обезличивания с параметрами конкретной операционной среды.
ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ
Статьи в журналах, периодических изданиях, включенных в список ВАК РФ
- Кучин, И.Ю. Защита конфиденциальности персональных данных с помощью обезличивания / И.Ю. Кучин // Вестник АГТУ. Серия Управление, вычислительная техника и информатика. - 2010. - №2. - С.158Ц162.
- Кучин, И.Ю. Новации в проблематике обезличения персональных данных /И.Ю. Кучин // Информационная безопасность регионов. - 2011. - №2(9). - С.13Ц17.
- Кучин, И.Ю. Анализ и классификация проблем обработки персонифицированной информации в медицинских учреждениях / И.Ю. Кучин // Астраханский медицинский журнал. - 2011. - Т.6. - № 4. - С.119Ц123.
Статьи в сборниках трудов международных и всероссийских
конференций
- Кучин, И.Ю. Некоторые вопросы по защите персональных данных / И.Ю. Кучин // Сб. статей международной научно-технической конференции CIT conference. - Пенза: Пензенская гос. тех. академия, 2010. - Вып.12. - С. 126Ц130.
- Кучин, И.Ю. Анализ программных средств информационной среды с помощью методов теории графов / И.Ю. Кучин // Сб. трудов I международной научно-практической конференции Эволюция системы научных коммуникаций Ассоциации университетов Прикаспийских государств. - Астрахань: ООО Типография Нова, 2008. - С.178 - 180.
- Кучин, И.Ю. Обзор существующих методов анализа программного кода / И.Ю.аКучин // Актуальные проблемы гуманитарных и естественных наук. Москва. - 2012. - №02 (37). - 2012. - С.94Ц98.
Подписано в печать __.__.20__г. Тираж 100 экз. Заказ №_________
Типография ФГБОУ ВПО АГТУ, тел. 61-45-23
г. Астрахань, Татищева, 16.
Авторефераты по всем темам >> Авторефераты по техническим специальностям