Методы и практика защиты индивидуальных статистических данных (на примере статистики науки) тема диссертации по экономике, полный текст автореферата
Автореферат
Ученая степень | доктор химических наук |
Автор | Нечаева, Елена Георгиевна |
Место защиты | Москва |
Год | 1999 |
Шифр ВАК РФ | 08.00.13 |
Автореферат диссертации по теме "Методы и практика защиты индивидуальных статистических данных (на примере статистики науки)"
РГб ОД
- / МАР 2000
Нечаева Елена Георгиевна
МЕТОДЫ И ПРАКТИКА ЗАЩИТЫ ИНДИВИДУАЛЬНЫХ СТАТИСТИЧЕСКИХ ДАННЫХ (НА ПРИМЕРЕ СТАТИСТИКИ НАУКИ)
Специальность 08.00.13 - Экономико-математические методы
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата экономических наук
Нечаева Елена Георгиевна
МЕТОДЫ И ПРАКТИКА ЗАЩИТЫ ИНДИВИДУАЛЬНЫХ СТАТИСТИЧЕСКИХ ДАННЫХ (НА ПРИМЕРЕ СТАТИСТИКИ НАУКИ)
Специальность 08.00.13 - Экономико-математические методы
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата экономических наук
Работа выпонена в Московском государственном университете экономики, статистики и информатики на кафедре информационного бизнеса и консатинга.
Научные руководители: кандидат экономических наук, профессор
Хорошилов Александр Владиевич,
кандидат экономических наук, старший научный сотрудник Гохберг Леонид Маркович.
Официальные оппоненты: доктор экономических наук, профессор
Мищенко Александр Владимирович,
кандидат экономических наук, Богачев Вадим Виленович.
Ведущая организация: Всероссийский научно-исследовательский
институт межотраслевой информации -Федеральный информационно-аналитический центр оборонной промышленности
Защита диссертации состоится 27 мая 1999 г. в 14 часов на заседании диссертационного совета К 053.19.03. в МЭСИ по адресу: 119501, Москва, ул. Нежинская, 7.
С диссертацией можно ознакомиться в библиотеке университета.
Автореферат разослан ///г7^ 1999 г. Ученый секретарь
диссертационного совета к.э.н. ^I ' И.А. Киселева
С 6/а/ О
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы.
Радикальные перемены, происходящие в нашей стране в течение последнего десятилетия, ставят принципиально новые задачи в экономике, социальной сфере, политике. Решение возникающих при этом проблем невозможно без доступной и достоверной статистической информации, спрос на которую увеличивается и становится все более разнообразным. Значительно расширися круг пользователей статистических данных -сегодня наряду с государственными органами управления он включает широкие деловые круги, средства массовой информации, политические партии, общественные организации, аналитические и исследовательские организации, причем не только отечественные, но и зарубежные. Внедрение международных стандартов в статистическую практику, их адаптация к особенностям национальной экономики увеличивают возможности международного информационного обмена, обеспечивая тем самым необходимую базу для международного сотрудничества и привлечения инвестиций в российскую экономику. Информационные ресурсы становятся товаром, имеющим высокую стоимость. Возможность получения информации, требуемой для принятия обоснованных решений, в условиях рыночной конкуренции часто становится решающим фактором успеха.
В этой ситуации органы государственной статистики призваны уделять серьезное внимание обеспечению безопасности информационных ресурсов статистики, в том числе соблюдению конфиденциальности, гарантируемой поставщикам информации статистическими органами. Как правило, информация, доступная пользователям, представлена в агрегированном виде, т.е. в виде сводных таблиц, содержащих уже обработанные статистические данные, дезагрегировать которые невозможно. Потеря информации в результате агрегирования статистических данных значительно ограничивает возможности детального статистического анализа. Поэтому для целей анализа и обоснования принимаемых решений огромную важность имеют именно индивидуальные данные, служащие основой для построения аналитических моделей, применения различных методов статистического анализа.
Характерным примером статистических данных, представляющих значительный интерес для исследователей, является информация по статистике науки. Повышение роли науки в социально-экономическом прогрессе и, как следствие, важность принятия обоснованных стратегических решений в области научно-технической политики способствуют росту интереса к изучению процессов ее развития во всей их поноте и сложности.
Возможность проведения межстрановых сопоставлений количественных и качественных характеристик национальных научных потенциалов позволяет реально оценить достигнутый уровень развития науки, состояние ее ресурсов, конкурентоспособность и место в мировом научном потенциале, что обусловливает интерес к изучению статистики науки не только в России, но и за рубежом. Однако соответствующие статистические данные, характеризующие исследовательский, производственный и коммерческий потенциал научных организаций России, а также включающие динамические ряды показателей науки и инноваций, во многих случаях носят конфиденциальный характер и не подлежат широкому распространению. В связи с этим возникает необходимость построения такой системы защиты статистической информации, которая наряду с комплексом различных мер по обеспечению сохранности и конфиденциальности информации, позволит обеспечить возможность широкого использования накопленных ресурсов статистики.
Цель и задачи исследования.
Целью диссертационного исследования является разработка теоретических и методологических положений, математического аппарата, методических подходов и программных средств, позволяющих обеспечить конфиденциальность при организации доступа к индивидуальным данным по статистике науки.
В соответствии с поставленной целью в работе сформулированы и решены следующие основные задачи:
1. Для обоснования необходимости и возможности использования средств защиты индивидуальных статистических данных от разглашения:
- исследовано современное состояние проблемы защиты конфиденциальных статистических данных; определены основные требования к методам защиты индивидуальных статистических данных от разглашения; исследованы существующие методические подходы к организации защиты конфиденциальных статистических данных, качественные и количественные параметры, позволяющие оценить эффективность их практической реализации.
2. Для решения задачи защиты индивидуальных данных от разглашения применительно к статистике науки: обоснован выбор микроагрегирования как наиболее эффективного способа защиты индивидуальных данных по статистике науки; проведен анализ эффективности существующих методов микроагрегирования применительно к статистическим данным о деятельности научных организаций России; разработан новый эффективный метод микроагрегирования - индивидуальное ранжирование с компенсацией; выработаны методические рекомендации по оценке качества результатов
микроагрегирования; разработан программный комплекс для защиты индивидуальных данных методами микроагрегирования; подготовлены рекомендации по применению методов микроагрегирования для защиты индивидуальных данных по статистике науки; проведена оценка результатов решения практических задач на основе индивидуальных данных по научным организациям России, защищенных с помощью методов микроагрегирования, с точки зрения сохранения поноты информации и соответствия полученных выводов реальным данным.
Предмет и объект исследований.
Предметом исследования являются математико-статистические методы защиты индивидуальных статистических данных от разглашения при организации широкого доступа к ним. В качестве объекта исследования выступают индивидуальные статистические данные по научным организациям России.
Методика исследования.
Теоретическую и методологическую основу проведенного диссертационного исследования составляют Федеральная целевая программа реформирования статистики в 1997-2000 гг., методические и нормативные документы Госкомстата Российской Федерации, законы Российской Федерации. В процессе исследования изучены и использованы публикации ведущих отечественных и зарубежных специалистов, материалы конференций и семинаров по вопросам организации государственной статистики, теории и практики использования математико-статистических методов защиты конфиденциальных данных, организации информационно-вычислительного обслуживания. В работе использован системный подход к решению задачи защиты индивидуальных данных по статистике науки при организации доступа к массивам первичных данных и публикации статистических данных. В качестве инструментария использовались математические методы, применяемые в экономике и статистике, теория баз данных, элементы теории множеств. Микроагрегирование и статистический анализ данных выпонялись на ЭВМ с использованием специальных программных средств, в том числе разработанных автором.
Научная новизна диссертации.
Научная новизна проведенного исследования заключается в следующем:
- разработан новый метод микроагрегирования - индивидуальное ранжирование с компенсацией, обеспечивающий более поное удовлетворение требований, предъявляемых к качеству данных, по сравнению с существующими методами;
- разработан методический подход к оценке качества результатов м икроагрегирования ;
- выработаны методические рекомендации по применению методов микроагрегирования для защиты индивидуальных данных по статистике науки.
Практическая ценность.
Результаты проведенного исследования могут быть использованы при построении системы информационной безопасности ресурсов статистики. Практическое значение имеют разработанный автором новый метод микроагрегирования индивидуальных статистических данных; рекомендации по применению методов микроагрегирования к статистическим данным; методика оценки качества результатов микроагрегирования; программное обеспечение для микроагрегирования индивидуальных данных.
Разработанный метод микроагрегирования применяется для построения размещаемых в информационно-телекоммуникационной системе "Info-Science" Миннауки РФ баз данных, предназначенных для открытого доступа, а также для баз данных интегрированной информационной системы министерства, разрабатываемой в настоящее время.
Предложенные в диссертации методика и программный комплекс для защиты индивидуальных данных могут быть также использованы Госкомстатом России и его территориальными органами.
Реализация и апробация.
Представленная в диссертации методика защиты индивидуальных статистических данных и программное обеспечение использованы в Центре исследований и статистики науки Миннауки РФ и РАН (ЦИСН) при разработке и эксплуатации баз данных по статистике науки (темы №4 "Актуализация базы данных по научным организациям России", №16 "Разработка базы данных по бюджетному финансированию науки за 1995 г." Заказа Миннауки РФ ЦИСН в 1996 г., темы №3 "Актуализация базы данных по научным организациям России", №6 "Разработка базы данных по бюджетному финансированию науки за 1996 г." Заказа Миннауки РФ ЦИСН в 1997 г., №20 "Формирование базы данных по основным показателям ежегодной статистической отчетности научных организаций", №3 "Внедрение формы государственной статистической отчетности № 2-наука (краткая) и организация ежеквартального сбора и обработки данных" Заказа Миннауки РФ ЦИСН в 1998 г.), а также для защиты индивидуальных данных, предоставляемых ВАК России в ЦИСН. Индивидуальные статистические данные по научным организациям России,
защищенные от разглашения представленным новым методом микроагрегирования, были включены в информационно-программный комплекс "Система поддержки принятия решений в области региональной научно-технической политики" (тема № 15 Заказа Миннауки РФ ЦИСН на проведение НИР в 1997 гг.). Данный комплекс установлен и успешно эксплуатируется в Отделе развития научно-технического потенциала регионов Миннауки РФ.
Основные выводы и результаты исследования обсуждались и получили положительную оценку на российских и международных научных конференциях и семинарах, в том числе:
- совместных семинарах по статистике науки и инноваций Евростата и ЦИСН (Москва, октябрь 1994 г. и сентябрь 1998 г.);
- Второй научно-практической конференции "Проблемы современной эконометрии" (Межвузовский центр экономического образования, Московское общество испытателей природы, Москва, апрель 1996 г.);
- Третьем международном семинаре "Статистическая конфиденциальность" (Евростат, Словения, октябрь 1996 г.);
- Третьем международном семинаре "Новые методы и технологии в статистике" (Евростат, Италия, ноябрь 1998 г.).
Публикации.
Основные положения диссертации отражены в восьми публикациях общим объемом 5,33 п.л.
Состав н структура работы.
Диссертация состоит из введения, трех глав, заключения, списка используемой литературы и приложений.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность темы диссертационной работы, сформулированы цель и задачи исследования, определены научная новизна и практическая значимость полученных результатов.
В первой главе Проблемы защиты конфиденциальных данных в статистике науки исследовано современное состояние статистики науки, задачи обеспечения безопасности информационных ресурсов статистики, существующие методические подходы к организации защиты, определены основные требования к методам защиты конфиденциальных статистических данных.
Проблема защиты конфиденциальных данных становится актуальной для отечественной статистики науки по целому ряду причин. Статистика науки в нашей стране претерпевает существенные изменения, связанные с необходимостью отражения процессов, происходящих в экономике и научно-техни-
ческой сфере, и приобретает более сложный, комплексный характер. По сути статистика науки трансформируется в новую отрасль - статистику исследований, разработок и инноваций, призванную интегрировать показатели, характеризующие отдельные стадии инновационного процесса. Такая интеграция, с одной стороны, позволяет получить более объективное представление о тенденциях научно-технического развития, но, с другой стороны, приводит к опасности раскрытия большого круга показателей, характеризующих деятельность отдельных организаций и отражающих их жизненно важные интересы.
В ходе происходящего в настоящее время системного реформирования статистики1 ставится задача организации защиты статистических информационных ресурсов, в том числе при информационно-телекоммуникационном обслуживании пользователей статистической информации. Достаточно серьезное внимание этим проблемам уделяется при построении статистических информационных систем в странах с рыночной экономикой. Проведенный анализ зарубежной и отечественной статистической практики свидетельствует о преобладании в настоящее время одностороннего подхода к решению проблемы защиты конфиденциальных данных: в качестве главной ставится задача защиты информации при ее передаче по каналам связи, а также исключения несанкционированного доступа к информации при ее обработке и хранении, т.е. физическая защита данных. При этом нередко упускаются из виду такие перспективные направления, как разработка и внедрение средств и методов защиты конфиденциальных данных, позволяющих обеспечить возможности поноценного использования статистической информации. Создание и применение подобных средств позволит, с одной стороны, осуществить фактическую защиту прав и интересов юридических и физических лиц, представивших информацию, а с другой стороны, откроет возможность свободного доступа к данным для проведения аналитический исследований. Одним из возможных путей решения этой проблемы является предоставление доступа к индивидуальным данным, модифицированным с использованием математико-статистических методов защиты. Основным назначением таких методов является предотвращение возможности идентификации объектов исследования при сохранении основных свойств совокупности исходных данных для получения достоверных результатов их анализа.
Применяемые в настоящее время методы защиты конфиденциальных данных от разглашения представлены следующими основными группами: подавление ячеек, изменение классификационной схемы, округление, случай-
1 Федеральная целевая программа "Реформирование статистики в 1997-2000 годах". Постановление Правительства Российской Федерации от 23 ноября 1996 г. № 1410.
пая пертурбация, анонимизация, выборка, ограничения на минимальный объем данных, сокращение детализации, подавление, обмен данными, микроагрегирование. Проведенный анализ существующих подходов к организации защиты данных позволил осуществить уточнение классификации методов защиты конфиденциальных статистических данных, в основу которой предлагается положить одновременно три основных принципа, определяющих технологию защиты применительно к конкретной задаче:
- структура и состав исходных данных;
- уровень агрегирования данных (агрегированные, индивидуальные);
- тип обрабатываемых показателей (количественные, качественные);
- охват совокупности данных (отдельные выходные таблицы,
генеральная совокупность);
- средства обработки (ограничение данных, модификация данных);
- использование защищенных конфиденциальных данных;
- целевое назначение (публикации, базы данных);
- объем предоставляемых данных (полный, сокращенный).
В различных отраслях статистики могут использоваться различные подходы к защите конфиденциальных данных. Отсутствие специальной методологии защиты конфиденциальных данных применительно к статистике науки обусловило основные направления решения поставленной задачи:
- выбор методов защиты, наиболее подходящих к данным по статистике науки с учетом состава и структуры показателей, а также исходя из цели последующего использования защищенных данных;
- разработка методических рекомендаций по применению методов защиты к конкретным статистическим данным.
Во второй главе Методические основы применения математико-статистических методов защиты индивидуальных данных в статистике науки обоснован выбор группы методов микроагрегирования для организации защиты конфиденциальных данных по статистике науки, проведен анализ существующих методов микроагрегирования и представлен разработанный автором новый метод, разработаны методические подходы к оценке качества результатов микроагрегирования, выработаны методические рекомендации по применению методов микроагрегирования к статистическим данным о деятельности научных организаций.
В результате анализа публикаций по статистике науки, информационной базы данных, запросов со стороны пользователей статистической информации получен вывод о том, что проблема использования конфиденциальных данных в статистике науки сводится к тому, чтобы удовлетворить повышенный интерес исследователей к использованию первичных
индивидуальных данных, обеспечить максимально свободный доступ к ним, исключив при этом возможность идентификации объекта исследования. Для решения этой задачи на основе проведенного анализа структуры и состава показателей, а также с учетом практики использования математико-статистических методов защиты данных в странах Европейского Союза обоснован выбор группы методов микроагрегирования в качестве базового подхода к организации защиты индивидуальных данных по статистике науки.
Основная идея, лежащая в основе микроагрегирования, заключается в следующем: исходная совокупность объектов исследования определенным образом разделяется на небольшие группы ближайших друг к другу объектов. Если количество всех объектов N кратно к - числу объектов в группе, то создается п=№к групп по к объектов в каждой. Если N не кратно к, то последняя группа, содержащая менее к объектов, объединяется с предыдущей и, таким образом, содержит более, чем к объектов. Для обеспечения достаточно надежной защиты данных значение к не дожно быть менее трех. Затем значения переменных, входящих в состав вектора, описывающего объект, в каждой группе заменяются на средние групповые значения этих переменных, т.е. реальный объект заменяется некоторым суррогатным объектом.
Формализованное описание общей проблемы микроагрегирования может быть представлено следующим образом.
Пусть генеральная совокупность О состоит из N объектов. Каждый объект со представляет собой вектор из р переменных, т.е. является точкой в пространстве р. Задача состоит в том, чтобы разделить множество О на п (п=И/к) групп (С;,...,СД) по к точек в каждой так, чтобы каждая из этих групп была как можно более однородной. Однородность групп можно определить на основе близости или расстояния {со, со') между элементами в множестве П. В этом случае задача сводится к минимизации внутригрупповой дисперсии:
^(01,...,СД) = 2^(С,),где (1)
44^) = I (2)
Здесь Р(а>) - распределение вероятностей в Д
О(о), О[) - расстояние между а> и множеством С/.
В диссертации показано, что в Я? существует набор таких гиперплоскостей, которые оптимальным образом (точки зрения минимизации ) делят множество 1 на и искомых подмножеств, и приведен итерационный агоритм решения данной задачи. Однако этот агоритм трудно реализовать на практике. Поэтому обычно используются частные случаи данного подхода,
представляющие собой более простые методы группировки данных. Все они имеют общую цель - минимизацию потери информации в результате микроагрегирования - и отличаются друг от друга способом определения расстояния между объектами.
Для определения потерь информации в результате микроагрегирования по сравнению с исходными данными вводится понятие уровня потери информации (Ь), который определяется следующим образом:
=-* Ю0% , где (3)
0(хь...,хр)
О ,..., хр) - средняя внутригрупповая дисперсия;
й(х\,...,хр) - общая дисперсия;
р - число переменных в векторе данных X.
В идеальном случае уровень потери дожен быть равен 0. Обычно уровень потери информации растет с ростом к - числа объектов, объединяемых в одну группу. Однако, существуют исключения из этого правила.
Используемые в настоящее время методы микроагрегирования представлены двумя основными группами: методами ранжирования по одной оси и прочими методами. В методах ранжирования по одной оси в пространстве исходных наблюдений выбирается ось, проекции на которую служат основой для построения группировок. Для выбора такой оси могут быть использованы несколько вариантов, в том числе: одна из переменных, входящих в состав вектора, описывающего объект (метод ранжирования по одной переменной); первая главная компонента, выделенная в результате проведенного компонентного анализа исходной совокупности объектов (метод ранжирования по первой главной компоненте); сумма нормированных величин, рассчитанных для каждой переменной, входящей в состав вектора, описывающего объект (метод ранжирования по сумме нормированных величин). К прочим методам относятся: метод индивидуального ранжирования и метод индивидуального ранжирования с взвешенным скользящим средним. Идея метода индивидуального ранжирования состоит в последовательном применении процедуры микроагрегирования к переменным, описывающим объект, независимо друг от друга. Сначала массив данных ранжируется по возрастанию или убыванию значения первой переменной. Объекты объединяются в группы по к соседних, и производится замена индивидуальных значений на средние групповые только для этой переменной. Затем эти действия повторяются для всех остальных переменных. Полученный результат, в отличие от методов ранжирования по одной оси, не зависит от корреляционной
структуры исходных данных. Метод индивидуального ранжирования со взвешенным скользящим средним заключается в замене исходного значения переменной суррогатным, которое состоит из а% от впереди стоящего наблюдения, Ь% от исходного и с% от следующего наблюдения. При этом, как и в методе индивидуального ранжирования, исходная совокупность сначала ранжируется в возрастающем или убывающем порядке по выбранной переменной, и замена исходного значения суррогатным производится только для этой переменной. В отличие от других методов, после микроагрегирования методом индивидуального ранжирования со взвешенным скользящим средним в суррогатных данных нет повторяющихся -раз одинаковых значений переменной.
Отметим, что основной целью диссертации является защита конфиденциальных данных по статистике науки, представленных количественными показателями, поэтому в работе рассматривались методы микроагрегирования, предназначенные для обработки именно количественных показателей.
Анализ практического использования суррогатных данных показал, что даже при общей удовлетворительной оценке поноты информации в суррогатных данных отклонения в оценке некоторых характеристик совокупности данных могут быть неприемлемыми в случае, когда точно известно для каких целей внешний пользователь намерен использовать предоставленную информацию, и им выдвигается ряд специальных требований к качеству данных. Одним из наиболее часто, встречающихся на практике является требование максимально возможного сохранения сводных значений показателей для выделенных по каким-либо признакам частных совокупностей объектов равными исходным сводным значениям (например, сохранение в суррогатных данных по научным организациям России сводных значений показателей по регионам). Однако в результате микроагрегирования данных известными методами при группировке объектов в суррогатных данных неизбежно возникают отклонения сводных значений показателей. Специально для решения такого рода задач на основе суррогатных данных автором разработан новый метод микроагрегирования - метод индивидуального ранжирования с компенсацией.2
Новый метод предусматривает двухэтапную модификацию данных. На первом этапе к исходным данным применяется агоритм, совпадающий с методом индивидуального ранжирования, и формируется массив суррогатных данных. На втором этапе по заданным группировочным признакам и в исход-
2 Метод индивидуального ранжирования с компенсацией был представлен и получил одобрение на семинаре по проблемам обеспечения конфиденциальности статистических данных, организованном Статистическим агентством Европейского Союза в октябре 1996 г. в Словении.
ном, и в суррогатном массиве данных формируются частные совокупности объектов, для которых дожны быть сохранены сводные значения переменных. Затем в каждой совокупности полученные суррогатные данные отдельно по каждой переменной корректируются следующим образом:
Пусть Я - частная совокупность объектов;
х - значение переменной в составе вектора данных, описывающего объект, в исходных данных;
Е х - сводное значение переменной по частной совокупности Я в
исходных данных;
х' - значение переменной в составе вектора данных, описывающего объект, в суррогатных данных;
Е х' - сводное значение переменной по частной совокупности Я в
суррогатных данных.
Отклонение сводного значения Ех- Еде' распределяется на все
хеН х'еЯ
объекты частной совокупности Я в суррогатных данных пропорционально величине х' . Таким образом определяется Ах' - величина, на которую следует изменить значение переменной х' , чтобы удовлетворить требованию сохранения сводных значений:
( Ех- 1х')х'
ду. = --(3)
Величина скорректированного значения переменной Xя в суррогатных данных определяется по формуле:
х" = х'+Ах' (4)
В результате применения данной процедуры ко всем показателям в каждой из заданных частных совокупностей объектов получается массив суррогатных данных, поностью удовлетворяющий поставленной цели -сводные значения количественных показателей для выделенных совокупностей объектов в суррогатных данных сохраняются равными сводным значениям в исходных данных.
При использовании методов защиты индивидуальных статистических данных получение выводов о свойствах статистических показателей, виде распределения, параметрах и др. основывается на изучении совокупности сурро-
гатных данных. В этих условиях важное значение имеет правильный выбор метода микроагрегирования применительно к конкретным данным, который дожен основываться прежде всего на оценке его преимуществ по сравнению с остальными с позиций сохранения основных свойств совокупности исходных данных. Для этого необходимо произвести оценку качества суррогатных данных, которая определяется двумя основными моментами:
- предположительная оценка эффективности метода для использования данных в конкретных целях на основе имеющихся сведений о данном методе (оценка а-рпоп);
- оценка качества данных после микроагрегирования, основанная на сравнительном анализе статистических характеристик совокупности данных (оценка а-роз1епоп).
Проведенный в ходе исследования анализ существующего подхода к оценке качества результатов микроагрегирования выявил необходимость его усовершенствования. Основным недостатком этого подхода является то, что в итоге только констатируется факт наличия отклонений, нет разработанной методики расчета величины отклонения для каждой статистической характеристики, отсутствуют критерии оценки качества результата. Достаточно высокие требования к качеству суррогатных данных, предъявляемые со стороны пользователей, приводят к необходимости создания системы контроля качества суррогатных данных. С этой целью в работе вводится понятие ошибки микроагрегирования и предлагается методика ее расчета. Допустимые величины ошибок микроагрегирования при оценке различных статистических характеристик изучаемой совокупности данных определены исходя из необходимости обеспечить приемлемый уровень точности данных при решении практических задач. При этом следует уделять особое внимание не только задаче повышения качества суррогатных данных, но и надежности защиты конфиденциальных данных, т.е. необходимо стремиться достичь некоторого баланса между уровнем защиты и качеством результата.
Для оценки качества суррогатных данных предлагается следующий подход:
1) анализ отклонений основных статистических характеристик показателей: среднего значения и среднего квадратического отклонения.
Для среднего значения величина ошибки микроагрегирования Ах определяется по формуле:
Дх = |(х' -х)\/х* 100%, где (5)
х' - среднее значение показателя х в суррогатных данных; х - среднее значение показателя х в исходных данных.
Чем выше степень защиты, тем больше допустимая величина ошибки. В качестве максимально допустимой величины ошибки принимается шах Ах = 10%.
Для среднего квадратического отклонения величина ошибки микроагрегирования Да определяется по формуле: Д <т = |(<т' - ст)| / сг * 100%, где (6)
а' - среднее квадратическое отклонение показателя в суррогатных данных; а - среднее квадратическое отклонение показателя в исходных данных.
В качестве максимально допустимой величины ошибки принимается max Дсг = 10% .
2) анализ отклонений в оценке внутренних взаимосвязей между показателями в совокупности изучаемых данных путем расчета парных коэффициентов корреляции.
Для коэффициента корреляции величина ошибки микроагрегирования ДкД, определяется по формуле:
Акху -\к'ху ~кху\> где (?)
к'ху - парный коэффициент корреляции между показателями х а у в суррогатных данных;
кт - парный коэффициент корреляции между показателями х и у в
исходных данных.
В качестве максимально допустимой величины ошибки принимается max = 0,1.
3) оценка изменений структурной зависимости между переменными по результатам факторного анализа исходных и суррогатных данных;
4) сравнительный анализ результатов решения практических задач на основе исходных и суррогатных данных:
Вопрос о количестве и составе исследуемых статистических характеристик, а также максимально допустимых величинах ошибок является открытым и может варьироваться в зависимости от конкретных условий.
Предложенный методический подход к оценке качества результатов микроагрегирования позволит сделать выбор наилучшего метода микроагрегирования для конкретных данных, а также оценить возможность использования суррогатных данных для проведения исследований различного рода.
В ходе исследования были выработаны рекомендации по подготовке массива защищенных индивидуальных данных по научным организациям, охватывающие три основные этапа:
I этап. Формирование состава показателей и объектов для включения в массив защищенных данных:
- анонимизация, т.е. удаление прямых идентификаторов объектов;
- формирование состава косвенных идентификаторов объектов;
- отбор косвенных идентификаторов объектов, наиболее важных с точки зрения последующего использования данных;
- применение метода изменения классификационной схемы к идентификаторам, имеющим большой диапазон значений, для предупреждения возможного вскрытия конфиденциальных данных из-за наличия в массиве данных уникальных комбинаций косвенных идентификаторов;
- отбор количественных показателей, наиболее значимых с точки зрения последующего использования защищенных данных;
- определение наличия выделяющихся наблюдений и принятие решения об их исключении из массива данных в случае необходимости обеспечения допонительной защиты, а также в зависимости от характера последующего использования суррогатных данных.
II этап. Микроагрегирование данных:
- определение числа объектов в группе при микроагрегировании в зависимости от требований к уровню безопасности защиты данных;
- реализация процедуры микроагрегирования различными методами.
III этап. Оценка качества результата:
- оценка качества суррогатных данных, в том числе с позиций удовлетворения специальным требованиям, и выбор наиболее эффективного метода микроагрегирования;
- выработка рекомендаций по применению методов статистического анализа к полученным суррогатным данным.
В третьей главе Реализация метода микроагрегирования применительно к индивидуальным данным по научным организациям России представлены описание разработанного автором программного комплекса для защиты индивидуальных данных методами микроагрегирования и анализ результатов практического применения предложенной методики защиты к индивидуальным данным по научным организациям России.
Программный комплекс для защиты индивидуальных данных методами микроагрегирования разработан в среде СУБД Visual FoxPro 5.0 для Windows 95 и представляет собой программный продукт, ориентированный на конечного пользователя. В рамках данной программы решаются три основные функциональные задачи: обеспечение доступа к статистическим базам индивидуальных данных и формирование исходного массива индивидуальных данных по запросу пользователя, в том числе из нескольких
источников; микроагрегирование индивидуальных данных различными методами; оценка качества результата.
Практическая реализация метода микроагрегирования для защиты индивидуальных данных по организациям, выпоняющим научные исследования и разработки, проводилась с целью выбора метода микроагрегирования для формирования суррогатных данных, которые могут быть использованы в двух основных направлениях исследования эмпирических данных:
- для выявления закономерностей развития научно-технического потенциала и анализа взаимосвязей между статистическими показателями;
- для расчета статистических характеристик исследуемых совокупностей данных (средних, абсолютных и относительных статистических величин и т.д.) по различным группам объектов.
Для решения данной задачи использовася массив исходных данных по форме государственной статистической отчетности № 2-наука "Сведения о выпонении научных исследований и разработок" в составе отобранных шести косвенных идентификаторов объектов и одиннадцати количественных показателей. Чтобы определить, насколько имеющиеся в исходной совокупности данных выделяющиеся наблюдения влияют на результаты микроагрегирования и оценить необходимость их исключения, были сформированы суррогатные данные двух типов: на основе исходных данных с учетом выделяющихся наблюдений (суррогатные данные первого типа) и на основе исходных данных за исключением выделяющихся наблюдений (суррогатные данные второго типа).
С использованием разработанного программного комплекса было произведено микроагрегирование данных следующими методами: ранжирование по одной переменной, ранжирование по первой главной компоненте, ранжирование по сумме нормированных величин, индивидуальное ранжирование со взвешенным скользящим средним, индивидуальное ранжирование, индивидуальное ранжирование с компенсацией. Для того, чтобы оценить насколько число объектов в группе (к) при микроагрегировании повлияет на качество суррогатных данных и в результате определить оптимальное значение к, позволяющее достичь баланса между качеством данных и герметичностью защиты, микроагрегирование проводилось указанными выше способами при ={3,5,7,9}.
Предварительный анализ результатов микроагрегирования по величине уровня потери информации (см. таблицу 1) показал, что наиболее подходящими методами микроагрегирования индивидуальных статистических данных по научным организациям являются индивидуальное ранжирование и индивидуальное ранжирование с компенсацией. Однако для того, чтобы подтвердить
правильность сделанного вывода, была проведена оценка качества суррогатных данных в соответствии с разработанным в ходе исследования методическим подходом. Статистическая обработка данных проводилась с использованием пакета статистического анализа 8Р88/4+. Результаты проведенного анализа выборочно представлены в таблице 2.
Таблица 1. Уровень потери информации в результате микроагрегирования данных
Тип суррогатных данных Число объектов в группе Ранжирование по одной переменной: численность работников Ранжирование по одной переменно! внутренние текущие затраты на исследования и разработки Ранжирование по первой главной компоненте Ранжирование по сумме нормированных величин Индивидуальное ранжирование со взвешенным скользящим средним а=25% Ь=50% с=25% Индивидуальное ранжирование Индивидуальное ранжирование с компенсацией
3 36,4% 25,3% 23,3% 37,6% 31.7% 5,2% 5,1%
1 5 47,5% 36,3% 28,6% 43,9% 12,3% 12,0%
" 47^8%..... ........37,9%...... ""'зоЗ%......... 43,9% 21,4% 20,8%
38,9% 27,1% 33,8% 35,8% 30,9% 5,7% 5,6%
11 5 49,0% 38,0% 38,4% 42,4% 14,6% 14,4%
7 50,8% 38,9% 39,1% 45,1% 16,1% 15,7%
Средние значения показателей в суррогатных данных, рассчитанные по всей совокупности объектов, совпадают со средними значениями показателей в исходных данных. Этот результат предопределен основным принципом, на котором основана процедура микроагрегирования, и не зависит от применяемого метода. Однако оценка суррогатного среднего значения показателей для некоторой частной совокупности объектов может иметь отклонения от исходного среднего значения. В этом случае заметно преимущество метода индивидуального ранжирования с компенсацией. Так, например, при использовании данного метода с компенсацией по сектору деятельности, оценка среднего значения показателей для групп объектов, сформированных по этому признаку, поностью совпадает с исходными средними значениями.
Методами, позволяющими получить суррогатные данные удовлетворительного качества, согласно принятым критериям оценки качества суррогатных данных по результатам расчета среднего значения, среднего квадратичес-кого отклонения и парных коэффициентов корреляции по всем показателям, включенным в процедуру микроагрегирования, являются индивидуальное ранжирование и индивидуальное ранжирование с компенсацией (при к=3 и к= 5). Если сравнивать между собой результаты анализа суррогатных данных первого и второго типа, то все методы, в основе которых лежит индивидуальное ранжирование, являются более чувствительными к наличию выделяю-
Таблица 2. Статистические характеристики совокупности данных при использовании различных методов
микроагрегирования
(в скобках указаны ошибки микроагрегирования)
Тип Ис- Число Суррогатные данные
сурро- ход- объ- Ранжирование Ранжирование Ранжирование Индивидуаль- Индивидуаль- Индивидуаль-
гатных дан- ектов по одной по первой по сумме ное ное ное
данных ные в переменной: главной нормированны ранжирование ранжирование ранжирование
груп- численность компоненте х величин со взвешенным с
пе работников скользящим компенсацией
средним
Среднее значение показателя "Чис- I 191 3 191 (0%) 191 (0%) 191 (0%) 191 (0%) 191 (0%) 191 (0%)
ленность работников, выпонявших 5 191 (0%) 191 (0%) 191 (0%) 191 (0%) 191 (0%)
исследования и разработки" 11 184 3 184(0%) 184 (0%) 184(0%) 184 (0%) 184 (0%) 184(0%)
5 184 (0%) 184 (0%) 184(0%) 184 (0%) 184 (0%)
Среднее значение показателя "Чис- 1 99 3 97 (2,0%) 100(1,0%) 127 (28,3%) 96 (3%) 97 (2%) 99 (0%)
ленность работников, выпонявших 5 104 (5,1%) 105 (6,1%) 127 (28,3%) 104 (5,1%) 99 (0%)
исследования и разработки" для II 81 3 81 (0%) 87 (7,4%) 108(33,3%) 81 (0%) 81 (0%) 81 (0%)
организаций сектора высшего 5 81(0%) 92(13,6%) 109 (34,5%) 81 (0%) 82(1,2%)
образования
Среднее квадратическое отклоне- 1 16115,5 3 14355,4(10%) 15171,0(5%) 14324,7 (11%) 10372,9(35%) 15557,0 (3%) 15558,3 (3%)
ние показателя "Внутренние теку- 5 13604,0(15%) 13968,6(13%) 13728,8(14%) 14653,1 (9%) 14667,1 (8,9%)
щие затраты на исследования и II 11644,1 3 10780,3 (7%) 10956,2 (5%) 10859,1 (7%) 11292,3 (3%) 11532,9 (1%) 11533,9(1%)
разработки" 5 10479,8 (9%) 10851,4 (6%) 10774,6 (8%) 11643,1 11374,0(2%)
Коэффициент корреляции между I 0,91 3 0,96 (0,05) 0,94 (0,03) 0,97 (0,06) 0,91 (0) 0,87 (0,04) 0,87 (0,04)
показателями "Численность работ- 5 0,93 (0,02) 0,95 (0,04) 0,94 (0,03) 0,87 (0.04) 0,87 (0,04)
ников, выпонявших исследования II 0,89 3 0,95 (0,06) 0.94 (0,05) 0,95 (0,06) 0,89 (0) 0,89 (0) 0,89 (0)
и разработки" и "Внутренние 5 0,94 (0,05) 0,93 (0,04) 0,93 (0,04) 0,89 (0) 0,89 (0)
текущие затраты на исследования и
разработки"
щихся наблюдений. При использовании этих методов суррогатные данные второго типа (без выделяющихся наблюдений) показали лучший результат. По результатам факторного анализа исходных и суррогатных данных обоих типов также предпочтительнее выглядят методы индивидуального ранжирования и индивидуального ранжирования с компенсацией.
Оценка качества суррогатных данных с точки зрения конечного результата их использования была проведена для практических задач, информационной основой которых являются индивидуальные данные по статистике науки:
1. Задача, связанная со сводом и группировкой данных, на примере расчета рейтинга регионов России по показателям науки;
2. Многомерный статистический анализ на примере построения уравнения множественной линейной регрессии.
Возможности применения микроагрегирования при подготовке данных, используемых для расчета рейтинга, продемонстрированы на примере методов индивидуального ранжирования и индивидуального ранжирования с компенсацией по коду региона. Рейтинг регионов России по показателям научно-технического потенциала, рассчитанный на основе суррогатных данных, полученных методом индивидуального ранжирования с компенсацией поностью совпадает с исходным, а при использовании метода индивидуального ранжирования возникают отклонения (см. таблицу 3).
Таблица 3. Рейтинг 15 крупнейших регионов России по показателям
научно-технического потенциала
N5 п/п Исходные данные и суррогатные данные, полученные методом индивидуального Суррогатные данные, полученные методом индивидуального ранжирования
ранжирования с компенсацией по регионам
Регион Относительный рейтинг Регион Относительный рейтинг
1. г. Москва 100,0 г. Москва 100,0
2. г Санкт Петербург 38,46 г. Самкг Петербург 39,54
3. Московская область 34,57 Московская область 32,84
4. Нижегородская область 14,99 Нижегородская область 14,23
5. Новосибирская область 14,27 Новосибирская область 11,96
6. Свердловская область 10,52 Свердловская область 10,20
7. Томская область 7,84 К Самарская область 9,53
8. Челябинская область 7,01 \Х 4 Республика Башкортостан 7,48
9. Самарская область 7,00 Республика Татарстан 6,45
10. Калужская область 6,93 Ростовская область 6,42
11. Ростовская область 6,76 Томская область 6,26
12. Красноярский край 6,72 Челябинская область 6,00
13. Иркутская область 6,47 Красноярский край 5,97
14. Республика Татарстан 6,38 Калужская область 5,86
15. Республика Башкортостан 5,78 Иркутская область 5,25
При расчете рейтинга для частных совокупностей объектов, например, для организаций только государственного сектора деятельности, компенсация, произведенная по коду региона в целом для всей совокупности объектов, уже не обеспечивает равенства сводных значений показателей в исходных и суррогатных данных. Однако следует отметить, что в результате кластерного анализа регионов по абсолютной величине рейтинга, рассчитанного на основе суррогатных данных, полученных методом индивидуального ранжирования с компенсацией, количество и состав кластеров остались прежними.
Таким образом, применение микроагрегирования методом индивидуального ранжирования с компенсацией показало свою эффективность при подготовке индивидуальных данных по статистике науки для использования в задаче расчета рейтинга регионов по показателям науки.
Возможность использования суррогатных данных для проведения многомерного статистического анализа продемонстрирована на примере регрессионного анализа исходных и суррогатных данных, полученных методом индивидуального ранжирования с компенсацией. Для участия в данном эксперименте были отобраны следующие показатели:
- зависимая переменная - показатель "Внутренние текущие затраты на исследования и разработки";
- независимые переменные - показатели "Финансирование внутренних затрат на исследования и разработки за счет собственных средств", "Финансирование внутренних затрат на исследования и разработки за счет средств бюджета", "Численность работников, выпонявших исследования и разработки", "Затраты на оплату труда".
С использованием пакета статистического анализа и прогнозирования 8Р8Б+ 4.0 в обоих случаях были построены уравнения множественной линейной регрессии с коэффициентами, удовлетворяющими критерию значимости коэффициентов модели, основанному на использовании 1-статис-тики Стьюдента.
Уравнение множественной линейной регрессии, полученное на основе анализа исходных данных, выглядит следующим образом:
У = 0.09Х1+0.21Х2+4.82Хз+1.61Х4-116.13, где (5)
У - внутренние текущие затраты на исследования и разработки ;
Х| - финансирование внутренних затрат на исследования и разработки за счет собственных средств;
Х2 - финансирование внутренних затрат на исследования и разработки за счет средств бюджета;
Х3 - численность работников, выпонявших исследования и разработки;
Х4 - затраты на оплату труда.
Уравнение множественной линейной регрессии, полученное на основе анализа суррогатных данных, выглядит так:
У'= 0.18Х|+0.17Х2+3.1 1Хз+1.82Х4-55.59, где (6)
У - внутренние текущие затраты на исследования и разработки (на основе анализа суррогатных данных).
Отметим, что в полученных уравнениях независимые переменные принимают положительные и достаточно большие значения, при которых значения зависимой переменной также положительны.
Для того, чтобы оценить, насколько модель, полученная на основе суррогатных данных, соответствует исходным данным, был проведен сравнительный анализ реальной величины зависимой переменной и расчетных значений У и У на реальных значениях независимых переменных. Отклонения расчетных значений от действительных при использовании уравнения, построенного на основе исходных данных (5), не превышают 29,0% и в среднем составляют 9%, а при использовании уравнения, построенного на основе суррогатных данных (6), не превышают 31,1% и в среднем составляют 7,9%. При этом отклонения оценок показателя, рассчитанных по уравнению (6), от оценок, рассчитанных по уравнению (5), находятся в диапазоне от 0,3% до 9,7% и в среднем составляют 3,5%. Полученные результаты позволяют сделать вывод о том, что уравнение множественной линейной регрессии (6), рассчитанное на основе суррогатных данных, полученных методом индивидуального ранжирования с компенсацией, адекватно реальным данным.
В целом результаты проведенного анализа качества суррогатных данных позволяют сделать следующие выводы:
1. Наиболее эффективным методом защиты индивидуальных данных по статистике науки является метод индивидуального ранжирования с компенсацией.
2. Применительно к исследуемым индивидуальным статистическим данным влияние выделяющихся наблюдений на качество суррогатных данных можно оценить как незначительное. Исключение выделяющихся наблюдений имеет смысл только в целях обеспечения их допонительной защиты.
3. В общем случае рекомендуется проводить микроагрегирование при количестве объектов в группе, равном трем. При необходимости обеспечения более высокой степени защиты число объектов в группе можно увеличить до пяти без значительного ущерба качеству данных.
В заключении сформулированы основные теоретические и практические результаты диссертационного исследования и дана оценка перспектив совершенствования методов защиты конфиденциальных статистических данных.
ОСНОВНЫЕ РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ
1. На основе выделенного круга задач по обеспечению защиты конфиденциальных данных в статистике обоснована необходимость применения математико-статистических методов защиты.
2. В результате проведенного анализа современных подходов к организации защиты конфиденциальных статистических данных с использованием математико-статистических методов выделены основные классификации применяемых методов с точки зрения структуры исходных данных, процедур их обработки и целей дальнейшего использования полученных данных. Определены достоинства и недостатки предлагаемых методов.
3. Обоснован выбор микроагрегирования в качестве базового подхода к организации защиты индивидуальных данных по статистике науки.
4. Предложен новый подход к анализу качества результатов микроагрегирования. На его основе разработана методика оценки качества суррогатных данных.
5. Разработанная методика оценки качества результатов микроагрегирования позволила провести сравнительный анализ существующих методов микроагрегирования на примере индивидуальных данных государственной статистической отчетности научных организаций России, оценить достоинства и недостатки этих методов, выявить потребности в формировании новых, более совершенных методических подходов.
6. Разработан и апробирован на реальных статистических данных новый метод микроагрегирования - индивидуальное ранжирование с компенсацией, обеспечивающий более высокую эффективность по сравнению с существующими методами, особенно при решении задач сводов и группировок.
7. Подготовлены рекомендации по практическому применению методов микроагрегирования к индивидуальным статистическим данным по организациям, выпоняющим исследования и разработки.
8. Разработан комплекс программных средств для микроагрегирования индивидуальных данных. Широкий круг охватываемых методов, возможности формирования массива исходных данных из различных источников позволяют использовать его в различных прикладных задачах.
Предложенные методы предоставляют новые возможности организации защиты конфиденциальных статистических данных. Применение полученных результатов делает возможным предоставление любым заинтересованным пользователям более широкого круга статистических данных, что значительно увеличивает эффективность их практического использования.
Результаты диссертационного исследования имеют широкие перспективы развития по следующим направлениям:
1. Применение разработанных методологических подходов защить индивидуальных данных в различных отраслях государственной статистики.
2. Дальнейшее развитие специальных математико-статистическш методов защиты индивидуальных статистических данных.
3. Разработка методологии и программных средств обеспечени! конфиденциальности статистических данных на всех уровнях агрегирования.
4. Разработка комплексной системы методологических, технических i технологических мер по организации защиты конфиденциальных данных i выходных материалах государственной статистики.
5. Систематическое использование средств защиты конфиденциальны: статистических данных в информационно-вычислительной систем^ статистики.
По теме диссертационного исследования опубликованы следующи работы:
1. Перспективы применения современных статистических методов выборочных обследованиях научных организаций. - Наука и технологии России. 1995. №2(8), с. 8-9. (в соавторстве, авторских - 0,05 п.л.).
2. Статистика объектов нечисловой природы и анализ данных о научно! потенциале. - Социология 4М. 1995. №5-6, с. 118-126. (в соавторстве авторских - 0,1 пл.).
3. Utilization of Microaggregation Methods for Providing Confidentiality fc Data on R&D Institutions. Collections of Papers. Third International Seminar о Statistical Confidentiality, Bled, Slovenia, 1996, c. 218-226. (в соавторстве авторских - 0,5 п.л.).
4. Применение методов микроагрегирования для защит конфиденциальных данных. -Веб.: Математическое моделирована процессов налогообложения (подходы к проблеме). М.: Центр элитарног образования Министерства общего и профессионального образования Рл3 1997, с. 101-120.(1,66 п.л.).
5. Методы защиты конфиденциальных статистических данных на ochoi микроагрегирования. - Вопросы статистики. 1997. №9, с. 74-80. (0,6 п.л).
6. Кадры высшей научной квалификации: попонение последних лет. -М ЦИСН, 1997. (в соавторстве, авторских - 1,5 п.л.).
7. Применение микроагрегирования для защиты конфиденциальнь данных. - Заводская лаборатория. Диагностика материалов. 1998. №1. Т.64, 51-55.(0,42 п.л.).
8. Исследования и разработки в секторе высшего образования. Статистиче кий сборник. -М.: ЦИСН, 1998. (в соавторстве, авторских - 0,5 п.л.)
Похожие диссертации
- Исследование эффективности обновления оборудования ТЭС с учетом неопределенности производственных и экономических факторов
- Методы планирования и оценки индивидуальной траектории профессионального образования в системе непрерывного обучения
- Формирование промышленной политики муниципального образования
- Статистическое изучение факторов финансирования науки
- Методы и практика защиты индивидуальных статистических данных