Книги, научные публикации

АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ РАЗРАБОТКА СИСТЕМ УПРАВЛЕНИЯ НОРМАТИВНО СПРАВОЧНОЙ ИНФОРМАЦИЕЙ ДЛЯ СИСТЕМ ОБРАБОТКИ СТАТИСТИЧЕСКОЙ ИНФОРМАЦИИ К.А. Линев, аспирант кафедры кибернетики

Московского института электроники и математики (технического университета).

Адрес: г. Москва, Б.Трехсвятительский переулок, д. 3, e-mail: ZnTenshi@hotmail.com.

В статье рассматривается задача построения систем управления нормативно справоч ной информацией (СУ НСИ) для систем сбора, контроля качества и обработки статистиче ской информации. Выделяются особенности, характерные для СУ НСИ, предназначенных для использования в области автоматизации статистических исследований, формулируются требования к таким системам. Рассматриваются подходы к построению некоторых из ком понентов изучаемых систем на основании опыта построения СУ НСИ для Всероссийской переписи населения 2010 года (ВПН-2010).

Ключевые слова: мастер-данные, древовидный спрвочник, стаститичкие обзоры, компьютерная под держка, статитический справочник.

од термином нормативно-справочная ин- вочников, часто никогда не предназначавшихся формация (НСИ), или мастер-данные, как для использования в IT инфраструктуре. При этом П правило, понимают условно-постоянную в каждой такой системе присутствуют собственные часть всей корпоративной (учрежденческой) ин- источники пополнения НСИ. Эта ситуация оказы формации, не претерпевающую существенных из- вается серьезным препятствием на пути интегра менений в процессе повседневной деятельности ции корпоративной IT-инфраструктуры и вызыва организации, на основании которой формируются ет огромные трудности при обмене данными между текущие документы. [1] локальными приложениями, а также при создании В крупных, особенно - территориально-распре- сводных аналитических отчетов.

деленных компаниях, в силу исторического их Одним из ярких примеров предприятий, кото развития, часто сосуществует большое количество рым приходится работать с большим количеством действующих систем ведения НСИ, в том числе и НСИ, являются органы государственной статисти не автоматизированных, а также различных спра- ки и частные статистические компании. Огромное БИЗНЕС-ИНФОРМАТИКА №4(10)Ц2009 г.

АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ количество различных справочников и таблиц ис- веденных аналогичных исследований, для каждого пользуется при обработке данных различных ис- исследования необходимо заново производить пер следований, проводимых этими организациями. вичную загрузку и развертывание системы. Каждое При этом справочники постоянно обновляются исследование также потребует новых способов ра по результатам уже проведенных исследований, боты с бизнес-приложениями.

территориально-административных изменений, Высокая стоимость восстановления утерянных в изменений законодательства и по множеству дру- результате ошибок данных. Поскольку сбор инфор гих причин. Рассмотрению вопросов организации мации и представляет собой суть исследования, в СУ НСИ в контексте работы именно таких пред- случае ее потери стоимость восстановления утра приятий и посвящена эта работа. ченных данных равняется стоимости их изначаль СУ НСИ наряду с самой информацией включает ного получения. Таким образом, каждый сбой в СУ также комплекс средств ее поиска, хранения, обра- НСИ наносит серьезный урон всему исследова ботки и распределения, методов ее ведения, поддер- нию. Это в свою очередь делает низкокачественное жания в актуальном состоянии, а также совокупность управление НСИ неприемлемым в информацион организационно-распорядительных документов и ре- ных системах, связанных с обработкой статистиче гламентов, регулирующих использование и ведение ской информации.

данных НСИ. [2] Географическая удаленность элементов системы Любая претендующая на промышленное исполь- друг от друга. Любое крупное исследование связано зование информационная система должна поддер- с управлением большими объемами данных, полу живать управляемые ею данные на высоком уровне чаемыми в удаленных друг от друга узлах системы.

качества. Важную роль играют критерии, которые Это создает ряд специфических сложностей, начи на сегодня универсальны для любых типов корпо- ная с проблем со связью между узлами, заканчивая ративных данных, такие как полнота, непротиво- различиями в местном времени.

речивость, корректность и актуальность. Причем Централизованность. В силу природы поставлен применительно к данным НСИ, жизненный цикл ной задачи, поток информации при сборе стати которых по определению превышает аналогичный стической информации всегда направлен к одно цикл для оперативных данных, они имеют еще му центральному узлу системы, в котором должна большее значение. быть произведена обработка собранных данных.

Вместе с тем, помимо этих классических крите- Эту особенность таких систем можно использовать риев (реализация которых на сегодня обеспечива- при построении СУ НСИ для упрощения, а соот ется вполне отработанными методиками проек- ветственно - повышения надежности таких систем.

тирования данных и надежными программными Таким образом, разработка программного обе продуктами), существуют и более специфические, спечения для СУ НСИ сталкивается со следующим характерные именно для НСИ. Это идентифици- набором задач:

руемость и уникальность, которые обеспечивают Первичная загрузка мастер-данных однозначную и уникальную идентификацию дан- Организация хранения мастер-данных ных, что необходимо для установления ссылок на Организация обновления и распространения них из других элементов НСИ и прикладных доку- мастер-данных ментов [2]. Организация интерфейсов с бизнес-приложе СУ НСИ для систем информационного обеспече- ниями.

ния статистических исследований обладают рядом При выполнении всех этих операций, НСИ долж особенностей, которые приводят к особенной ак- на в каждый момент времени отвечать обозначен туальности качественного управления НСИ в таких ному выше набору критериев качества.

системах. Перечислим наиболее заметные из этих Для каждой из этих задач характерен собствен особенностей. ный круг вопросов, которые необходимо решить Полный цикл жизни СУ НСИ в течение сравни- при разработке ПО СУ НСИ.

тельно небольшого промежутка времени. Поскольку При первичной загрузке данных возникает задача практически каждое статистическое исследование преобразования большого объема существующих уникально за счет как различия требований раз- разнородных справочников к некоторому эталон ных организаций к содержимому статистической ному виду. Типичной является ситуация, когда при информации, так и изменения представления о проведении очередного большого статистического содержании исследования на основании уже про- исследования приходится создавать для обработ БИЗНЕС-ИНФОРМАТИКА №4(10)Ц2009 г.

АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ ки его результатов отдельную информационную ние, решающее и эту задачу. Приложение работа систему. Наиболее характерный способ хранения ло с объемным, порядка 180000 записей, террито справочников в компаниях со слабой автоматиза- риальным справочником, имеющим древовидную цией бизнес-процессов - электронные таблицы. структуру. Оно обеспечивало обработку множе Как правило, это файлы Excel или легко приво- ственных локальных БД, содержащих часть этого димые к ним форматы. Конечно, можно вручную справочника в виде плоских таблиц, и заполняло переносить справочники, однако объемы спра- централизованный справочник с обеспечением вочной информации могут быть невероятно боль- всех нужных ссылок для формирования древовид шими. Например, представьте себе всероссийский ного справочника.

справочник, сопоставляющий городские кварталы После загрузки данных необходимо решить за и сельские населенные пункты их индексам. Даже дачу об организации их хранения, обновления и если проделать всю эту работу вручную, количе- распространения. В этом вопросе существуют три ство допущенных в ней ошибок может обесценить возможных подхода [1]:

справочник. Таким образом, возникает вопрос о Централизованный, характеризующийся цен необходимости автоматического преобразования трализованным хранением эталонов мастер-данных данных. Децентрализованный, характеризующийся Для решения этой проблемы в рамках проекта по созданием распределенного виртуального храни техническому обеспечению Всероссийской пере- лища НСИ писи населения 2010 года была решена задача авто- Смешанный, представляющий собой попытку матического преобразования множества взаимос- объединить наилучшие качества предыдущих двух вязанных свободно редактируемых справочников, подходов.

сохраненных в формате Excel в инструкции на язы- Первый поход обладает целым рядом преиму ке T-SQL для СУБД Microcoft SQL Server по запол- ществ, таких, как простота разработки и автома нению таблиц БД содержащимися в справочниках тическое решение проблемы поддержания целост мастер-данными. Поскольку таблицы Word и мно- ности данных при условии замены всех копий на гих других офисных приложений легко преобразу- эталоны.

ются в таблицы Exel путем прямого копирования С другой стороны, представим себе систему, узлы данных, это решение фактически позволяет решить которой расположены по всей России, каковым проблему первичного заполнения БД, входящей в свойством обладает система, обеспечивающая ра СУ НСИ на основании эталонных справочников, боту любого всероссийского статистического ис хранящихся в виде электронных документов. следования. Необходимость при каждой операции Приложение использует при работе метаданные о обращаться к некоторому центральному хранили структуре справочников в формате XML и с помо- щу, допустим, расположенному в Москве, не толь щью компонента Aspose Cells производит обработ- ко приведет к катастрофическому падению ско ку документов Excel. Оно поддерживает сложные рости работы системы в узлах, расположенных в представления данных, такие, как древовидные восточной Сибири, но и в ряде случаев просто сде справочники или связь записей различных спра- лает работу системы невозможной из-за отсутствия вочников на основании их геометрического распо- каналов связи с центральной системой.

ложения на листе Excel. При загрузке производится Однако и традиционный распределенный под контроль целостности данных, то есть загруженные ход в случае с всероссийским исследованием также мастер-данные гарантированно имеют корректную не годится. Традиционным методом обновления структуру. справочников и поддержания целостности систе Вторым по популярности после электронных до- мы является ночная нормализация данных, когда кументов способом хранения справочников в ор- никакие пользовательские операции не произво ганизациях являются малые СУБД, такие, как, дятся. Однако что будет делать такая система, если например, Microsoft Access. Причем зачастую БД, в в одном ее узле полночь, а в другом скоро полдень?

которых хранится НСИ, спроектирована неудачно Таким образом, необходимо разработать некото и не обеспечивает должного качества НСИ. Кроме рый гибридный механизм работы с распределенны того, необходимо обеспечение связи между спра- ми данными, позволяющий обеспечить максимум вочниками, загружаемыми из различных, до того преимуществ централизованного подхода, но при не связанных источников. этом способный справиться со специфическими В рамках того же проекта было создано приложе- трудностями при работе на обширной территории.

БИЗНЕС-ИНФОРМАТИКА №4(10)Ц2009 г.

АНАЛИЗ ДАННЫХ И ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫ Для решения этой проблемы предлагается с помо- рые должны учитываться при разработке. Постав щью методов теории графов оптимальным с точки лены основные задачи, которые должны решаться системой. Продемонстрирована возможность эф зрения затрат сетевого трафика и времени образом разделить сеть на подсети, управляемые централи- фективного решения одной из поставленных за дач - выполнения первичной загрузки данных из зованным способом. Каждая такая подсеть должна имеющейся у клиентской организации слабострук быть связана с другими подсетями с помощью спе турированной информации - путем создания мо циального набора программных инструментов, по дулей, выполняющих загрузку данных из электрон зволяющего незаметно для подсети обеспечивать ных документов и слабо структурированных БД в доставку в нее обновлений из центрального узла и систему таблиц НСИ заданной структуры. Предло передачу результатов работы. Важно отметить, что жен способ решения задачи организации хранения, для обеспечения максимальной эффективности распространения и обновления данных с помощью должны поддерживаться самые различные способы двухуровневой схемы хранения, сочетающей свой связи, начиная от защищенной передачи через Ин ства централизованной и децентрализованной мо тернет и заканчивая транспортировкой данных на делей хранения данных.

физических носителях.

В настоящее время производится исследование В связи с последним требованием приходиться возможностей по практической реализации пред признать, что информационная система, скорее ложенной в статье схемы хранения, обновления всего, сможет гарантировать актуальность данных и распространения данных. Кроме этого ведется только в центральном узле, в подсетях же будет разработка механизма взаимодействия СУ НСИ с поддерживаться только локальная целостность и бизнес-приложениями, который предоставлял бы информация, необходимая для связывания данных возможности максимально гибкого ввода и вывода с, возможно, изменившимися данными централь данных в различных представлениях, сохраняя при ного узла в тот момент, когда это будет возможно.

этом идентифицируемость и уникальность всех за Таким образом, будет обеспечена, с одной сторо писей, управляемых системой.

ны, централизация управления НСИ в каждой от дельной подсети, с другой стороны, ценой необхо Литература димости поддержания репликации данных лишь на 1. Ярослав Помазков, Системы НСИ: мировой небольшом числе узлов будет достигнута гибкость и опыт и тенденции развития, журнал PC Week, масштабируемость распределенной системы.

№522, Москва, 2006 г.

На данном этапе в ходе работы над СУ НСИ для 2. Дмитрий Гулько, Мастер-данные: найден крат статистических исследований удалось выделить чайший путь к СОА, CNews, Москва, 2006 г.

свойственные таким системам особенности, кото БИЗНЕС-ИНФОРМАТИКА №4(10)Ц2009 г.

   Книги, научные публикации