Курносов Ю. В., Конотопов П. Ю
Вид материала | Документы |
Содержание9 Средства автоматизации иар 9.1 Средства сбора информации 9.2 Средства хранения данных Реляционные базы данных |
- Курносов Ю. В., Конотопов, 1160.74kb.
- Договор № на оказание услуг, 160.36kb.
- Курносов Владимир Анатольевич Волжск 2007 Оглавление Введение 3-5 Глава I. Юродство, 355.39kb.
- Литература по курсу «История экономики и экономических учений» Основная История мировой, 54.21kb.
- Теория и история финансовых кризисов в России 08. 00. 01 экономическая теория (экономическая, 450.88kb.
9 СРЕДСТВА АВТОМАТИЗАЦИИ ИАР
В самом начале первого раздела этой главы нами была приведена классификация средств автоматизации информационной работы. В соответствии с этой классификацией средства автоматизации делились на средства сбора, доставки, хранения и обработки данных, средства формирования и согласования тезауруса, средства интеграции и анализа данных, средства моделирования, средства интерпретации результатов, средства прогнозирования, средства синтеза целей управления, средства отображения данных, средства поддержки принятия решений и доведения управляющих воздействий.
Совершенствованию этих средств уделяется большое внимание: сегодня конкуренция в области создания средств поддержки ИАР превратилась из привычного соревнования фирм-разработчиков в гонку информационных технологий на государственном уровне. Безусловно, гонка вооружений также подстегивает развитие информационных технологий, однако практика показывает, что по поражающей мощи вооружений и точности средств доставки боевых зарядов государства, стремящиеся к мировому лидерству, пребывают примерно на одинаковом уровне. Сейчас дорога к лидерству не может быть расчищена исключительно боевым потенциалом вооруженных сил государства — этого недостаточно, да и слишком велика цена такого лидерства. Собственно, войны никогда не выигрывались исключительно оружием — это всегда было суровое испытание, в котором экономика, идеология, система управления государства доказывали свою жизнеспособность. Оружие массового поражения ненадолго поколебало уверенность в том, что это так, но когда оно перешло в категорию средств сдерживания нападения, все вернулось на круги своя. Теперь информационные технологии как инструмент повышения эффективности и оперативности процессов управления стали одним из основных элементов системы обеспечения экономической (и военной) безопасности государства, его граждан и субъектов экономической деятельности.
Говоря о средствах автоматизации и информатизации ИАР, следует выделять следующие классы:
- средства обеспечения ИАР, непосредственно не предназначенные для обработки и анализа информации (телекоммуникационное обеспечение ИАР, средства сбора, накопления и хранения данных, средства отображения информации);
- средства ведения ИАР, непосредственно предназначенные для обработки и анализа информации (различного рода пакеты статистической обработки данных, автоматизированные системы поддержки процессов моделирования сложных систем и анализа данных, лингвистические инструменты и т. д.).
В этой книге мы не будем рассматривать аппаратные и программные средства поддержки ИАР с такой степенью детализации, с какой они обычно рассматриваются в специальной литературе. Здесь нас интересуют не столько тонкости технической реализации, сколько идеи, заложенные в основу их функционирования, а также те положительные и отрицательные черты, которые эти средства способны привнести в ИАР.
Наиболее обширным и разнообразным по составу является класс средств обеспечения ИАР. Средства ведения ИАР отстают в своем развитии — оно и понятно: сложность аналитических процессов крайне высока...
9.1 СРЕДСТВА СБОРА ИНФОРМАЦИИ
Едва ли стоит перечислять все то многообразие средств сбора информации, которое имеется в распоряжении профессионального аналитика, тем более, что в зависимости от класса систем, в отношении которых ведется ИАР, и бюджета субъекта ИАР комплектация существенно варьируется. Многое из арсенала средств сбора информации лишь дублирует возможности органов чувств человека, обеспечивая лишь «эффект присутствия» — это разнообразные системы теленаблюдения и иные инструментальные средства, позволяющие осуществлять дистанционный сбор информации, которая могла бы быть воспринята и без инструментария сбора данных, будь аналитик непосредственным участником неких событий. Другая группа средств сбора данных существенно расширяет и дополняет «ощущения», за счет придания свойств наблюдаемости тем феноменам, которые принципиально не могут наблюдаться посредством органов чувств человека: это расширение частотных/временных и энергетических диапазонов чувствительности человека (инфра- до ультра- звукового диапазона механических колебаний, от радиочастотного диапазона до ультрафиолетового диапазона электромагнитных колебаний, от микрообъектов до макрообъектов и т. д.). Арсенал этих средств чрезвычайно богат92.
Остановимся на средствах сбора наиболее очевидных и наименее достоверных данных — данных языковых коммуникаций и знаковых данных. В последние годы в этой отрасли развитие средств сбора происходит доселе невиданными темпами. Созданы средства распознавания и преобразования к символьному виду речевых сигналов, средства распознавания графических начертаний символов (оптические распознающие системы — сканеры), средства считывания картографических данных и т. п. графической информации. Создание этих средств дало мощный толчок развитию систем компьютерной обработки знаковых данных: сегодня, благодаря их использованию, аналитики получили доступ к неисчерпаемым ресурсам научно-технической, политической, экономической и иной информации. Пока лишь малая толика того, что хранится в глобальной телекоммуникационной сети (ГСТК) Интернет, набрана вручную — преимущественно эти ресурсы получены методом сканирования самых разнообразных печатных источников, хотя, наиболее вероятно, что постепенно ситуация будет меняться в пользу ресурсов, полученных методом голосового ввода.
В последние годы силами энтузиастов в ГСТК размещены электронные копии уникальных изданий. Мощные массивы англоязычных электронных документов сосредоточены в рамках некоммерческого проекта электронной библиотеки Project Gutenberg (berg.net/). Российские ресурсы электронных копий научных, учебных и художественных изданий и также весьма обширны: здесь и Библиотека Мошкова ( и Big Information System Project (.ru/), и Открытая Русская Электронная Библиотека (ru/), и Домашняя электронная библиотека (irevo.net/), и многие другие ресурсы. Однако в силу стремления к личной известности начинателей бесплатных электронных библиотек (следует отдать им должное — это достойные люди), в российском сегменте Интернет, получившем название «Рунет», отсутствует единый каталог, а система каталогизации далека от совершенства. За рубежом интенсивно развиваются проекты, направленные на стандартизацию поисковых интерфейсов и формата представления электронных документов. Так, например, в библиотечном деле широко внедряется стандарт представления текстовых данных для организации поисковых интерфейсов Z39.50 и его международная версия ISO 23950, развивается проект TEI — Text Encoding Initiative, выпустивший уже четвертую спецификацию стандарта — в России же этот процесс существенно запаздывает. Такое отставание снижает ценность информационных ресурсов, поскольку отсутствие четких правил формализации приводит к снижению эффективности поисковых процедур.
Интересный класс электронных информационных ресурсов оперативного плана — это электронные СМИ, размещающие и распространяющие свою информационную продукцию с применением инфраструктуры глобальных и национальных телекоммуникационных сетей. В ГСТК Интернет функционируют СМИ и информационные агентства, предоставляющие оперативную информацию, используя on-line (интерфейсы функционирующие в режиме непосредственного доступа) и off-line (интерфейсы функционирующие в режиме неоперативного доступа, например, рассылка новостей за некоторый интервал времени посредством электронной почты). В настоящее время в ГСТК представлены ведущие мировые информационные агентства (Associated Press, CNN, France Press, Интерфакс, АПН «Новости», ИТАР-ТАСС и многие другие) и газеты (New York Times, Washington Post, Газета.RU и иные). Чрезвычайно информативны ленты новостей, предоставляемые информационными агентствами в режиме on-line с периодичностью обновления порядка единиц минут, биржевые рейтинги, публикуемые крупнейшими финансовыми и фондовыми биржами и крупными брокерскими объединениями.
Инструментарий сбора информации из подобных источников информации представляет собой преимущественно программно-аппаратные комплексы, обеспечивающие подключение к ресурсам телекоммуникационных сетей в соответствии с действующими протоколами обмена данными (как правило, это протоколы TCP/IP, PPP, SLIP, ISDN) и востребование данных с применением как профессионального, так и непрофессионального специализированного и общего программного обеспечения. Этот класс программного обеспечения весьма многообразен и включает в себя: интеллектуальные поисковые программы, неинтеллектуальные интерфейсы просмотра данных, программы, осуществляющие периодическое сканирование наиболее информативных источников, программы потокового ввода и иные. Финансовые механизмы обеспечения оплаты информационных услуг могут существенно разниться от условно-бесплатного предоставления информации (подача в сопровождении рекламы) до заключения договоров на информационное обслуживание.
Говоря об ГСТК Интернет, следует упомянуть о важнейшей особенности этого источника информации. Эта особенность — принцип предоставления информации по требованию — не позволяет рассматривать ГСТК Интернет, как явление того же прядка, что и иные источники информации. Принцип предоставления информации по требованию настолько специфичен, что способен в корне преобразовать человеческую личность. Обычно информация поступает к человеку по многим каналам информационного взаимодействия в режиме, который можно было бы назвать принудительным — информация (самая разная!) всегда «врывалась» в потребителя вне зависимости от его потребностей. Это спасительное для человека свойство информационного взаимодействия человека со средой обитания с появлением феномена СМИ (тем более, электронных СМИ) перестало быть непременным атрибутом интерьера информационного взаимодействия — человек (в который уже раз) создал альтернативную реальность. С каждым технологическим достижением она становится все более плотной (по ощущениям) и способна предоставить «материальные свидетельства» своего существования. По существу, ГСТК легко может претендовать на «место жительства Бога» и стать предметом спекуляций различного рода лжепророков. «Ищущий, да обрящет...» — человек, использующий схему взаимодействия запрос-ответ, легко может быть помещен в специфический информационный интерьер (а еще чаще добровольно и собственноручно помещает себя в него).
В США, например, рядом специалистов в области прикладной информатики (это не какие-нибудь мрачные персонажи типа Доктора Зло, а благонамеренные ученые93) на уровне интересной гипотезы рассматривается возможность создания виртуальной реальности для целых народов, в которой они будут ощущать себя максимально комфортно (чем не решение проблемы стран-изгоев?). Представьте себе: вы живете в единственном в мире социалистическом государстве, пребывая в полной уверенности, что на планете давно уже победил социализм, а в отдельных странах уж и коммунизм почти отстроили. Также тихо и мирно в соседних домах спят, посапывая, христиане и нехристи, сатанисты и католики — идиллия, да и только. Нет, действительно, потрясающий сюжет...
«Так то в Греции, — там тепло...» — скажете вы словами Василия Алибабаевича из «Джентльменов удачи» — «У нас такого и быть-то не может». Но ряд интересных закономерностей развития сетевых СМИ можно проследить и на примере российского сегмента ГСТК Интернет. В настоящее время целый ряд сетевых СМИ (и не каких-нибудь, а наиболее цитируемых в различных средствах массовой информации) создан и функционирует при поддержке и непосредственном участии Фонда Эффективной Политики (ФЭП), созданного известным российским политтехнологом Г. Павловским. Оно бы и ничего, «был бы человек хороший», да, вот ведь, в чем беда — качество человека здесь несущественно! Обращаясь к средствам массовой информации, носящим разные наименования, мы ожидаем разнообразия мнений, случайной структуры потока информации, полагаем, что многообразие наименований отражает многообразие точек зрения... и обманываемся.
Именно поэтому использование исключительно пассивных методов сбора информации в современных условиях нельзя считать приемлемыми. При работе с вторичными источниками информации, к которым могут быть отнесены все без исключения средства массовой информации, допустимо использование только активных методов сбора информации либо при анализе данных должны быть учтены все специфические акценты, которые обусловлены ценностной ориентацией источника информации.
Так, в настоящее время в интересах использования ресурсов ГСТК Интернет для решения задач информационного обеспечения деятельности военно-политического руководства американским агентством перспективных исследований МО США рассматриваются проекты систем, реализующих активный мониторинг ресурсов сети с применением аппарата семантических сетей. Предполагается, что за счет этого система сбора информации по качеству совокупности добываемых данных сможет приблизиться к системам непосредственного перехвата информации из каналов внутрисистемных коммуникаций.
Интересный класс средств сбора информации из телекоммуникационных сетей представляют собой, так называемые, «троянские кони», «сетевые черви» и иные программы, предназначенные для осуществления несанкционированного доступа к защищаемым личным и корпоративным ресурсам, хранящимся на компьютерах, подключенных к сети. Эти программы, несмотря на множество различий в стратегии проникновения к данным, имеют много общего и могут использоваться для сбора информации, пересылая критическую информацию внешнему потребителю. Низкий профессионализм среднестатистического пользователя персонального компьютера, как правило, не позволяет обнаружить факт утечки данных, а в случае корпоративного пользователя, где служба защиты данных поставлена должным образом, чаще используются иные методы несанкционированного доступа к данным (сетевые анализаторы, системы перехвата внешнего трафика сообщений и иные).
В этом подразделе мы выделили и рассмотрели особенности достаточно узкого класса средств сбора информации, исходя из тех соображений, что прочие средства сбора информации взаимодействуют преимущественно с физическими процессами, данные о характеристиках которых можно считать высоконадежными (почти не подверженными модификации, хотя существуют и эффективные средства маскировки, взять, хотя бы те же «стелс»-технологии и т. п. ухищрения). Однако, будем уповать на то, что реальность можно будет хоть как-то отличить от декораций — в противном случае тезис «Практика — критерий истины» придется заменить чем-то иным.
9.2 СРЕДСТВА ХРАНЕНИЯ ДАННЫХ
На самом деле, рассматривая Интернет, мы уже затронули вопрос, связанный со средствами хранения данных... В противном случае, что же такое Интернет, если не система распределенного хранения данных? Средства хранения данных представляют собой обязательный компонент любой технологии, связанной с анализом информации.
В природе очень мало (если не отсутствуют вообще) систем, для которых несущественна предыстория их существования — можно говорить о физических аналогах памяти, например, любая запасенная (потенциальная) энергия — это тоже своеобразная память. В этом смысле, камень, лежащий на вершине горы, и тот обладает памятью о той силе, которой он некогда был вознесен на нее. Поэтому, любая система, предназначенная для анализа информации, должна располагать подсистемой хранения данных. И, если даже нам неизвестно, сколько тысячелетий камень лежит на вершине горы, мы, все равно, располагаем памятью в виде физической модели поведения подобных объектов и можем вычислить ту потенциальную энергию, которая запасена в нем.
То есть, для того, чтобы предсказать поведение системы, надо либо знать ее предысторию (помнить ее), либо быть в состоянии восстановить ее (помнить предысторию поведения других систем). Именно этим продиктована необходимость включения в системы анализа подсистемы хранения данных. Однако, этим сходство большинства систем анализа и ограничивается. Да, все они должны располагать блоком памяти, но способ организации хранения данных, способ их представления существенно варьируется. О группе различий, определяемых способом представления моделей, мы говорили ранее, но это лишь часть тех отличий, которые действительно значимы при рассмотрении системы анализа и предельных показателей качества ее функционирования.
Безусловно, многое определяется выбором технологической базы для реализации подсистемы хранения. Здесь следует выделять следующие классы подсистем хранения данных:
- подсистемы хранения данных на носителях с последовательным доступом к данным;
- подсистемы хранения данных на базе технологий, обеспечивающих параллельный доступ к данным.
И те, и другие методы организации хранения данных могут быть реализованы с помощью ЭВМ и сетей ЭВМ, однако при хранении данных на традиционных носителях (бумага, магнитная лента и т. д.) параллельный доступ реализовать не удается. Многое указывает на то, что для человека более естественен именно параллельный способ организации доступа к данным, что обусловлено в том числе и спецификой носителя данных, представляющего собой сложно организованную пространственную структуру, обладающую свойствами, сходными с голограммой (каждый элемент памяти одновременно хранит информацию не об одном, а о множестве реакций/событий). Лишь по мере совершенствования технологий хранения и считывания данных, системы, создаваемые человеком, постепенно приобретают такие свойства — для этого создаются многоканальные устройства регистрации с произвольным доступом, распределенные системы хранения данных на базе сетей компьютеров, вводится иерархическая организация данных, системы параллельных вычислений, нейросетевые компьютеры и так далее. Постепенно совершенствуя технологии, человечество приближается к моменту, когда можно будет говорить о создании эффективных самоорганизующихся структур хранения данных, на базе которых могут быть созданы действительно интеллектуальные системы анализа данных.
Идеи голографической организации структур данных уже не единожды высказывались специалистами, но проблемы, связанные с их реализацией и организацией эффективного поиска данных в подобных системах, на практике остаются нерешенными (насколько это известно авторам). Вероятно, здесь может оказаться полезным раздел математики, связанный с фрактальными структурами94 (в частности фрактальная геометрия).
Многое также зависит и от того, что, собственно, подлежит хранению в подсистеме хранения данных. Здесь следует рассматривать два аспекта: аспект, связанный с уровнем детализации и завершенностью этапа их анализа (фактографические данные или модели), и аспект, связанный со способом представления (неформализованные или формализованные данные).
Современные подсистемы хранения данных чаще всего строятся по принципу, либо исключающему возможность их анализа без привлечения информации, внешней по отношению к данным, либо препятствующему их параллельному считыванию и обработке. В одном случае данные организуются в структуры, конфигурация и семантика связей которых находится вне подсистемы хранения (в подсистеме интерпретации), а в другом случае данные организуются таким образом, чтобы по мере поэтапного вхождения в контекст хранения система считывания накапливала знания, необходимые для интерпретации данных. В одном случае система считывания заранее должна располагать моделью интерпретации, а в другом — формулирует модель в ходе обработки.
РЕЛЯЦИОННЫЕ БАЗЫ ДАННЫХ
Наиболее широкое распространение на сегодня (если не считать архивы на традиционных носителях) получили подсистемы хранения данных, использующие реляционную технологию. Идеология и логические основания теории реляционных баз данных разработаны американским ученым Е.Ф. Коддом (Codd E.F.) Подобные системы хранения относятся к классу систем, которым для работы с данными требуются внешние модели интерпретации — даже при наличии непосредственного доступа к носителю данных семантика связей может быть восстановлена лишь в редких случаях. Любое изменение структур таблиц, используемых для хранения экземпляров данных, должно сопровождаться внесением изменений в модель интерпретации, зафиксированную в приложении, обеспечивающем считывание и связывание данных. При изменении структуры объектов учета и атрибутов, используемых для их описания, организация сталкивается с необходимостью доработки программного обеспечения, используемого пользователями, что не всегда возможно (меняются языки программирования, высока кадровая динамика и т. д.).
С другой же стороны, реляционная технология (лучше даже — парадигма) баз данных (БД) обладает множеством положительных свойств. Первое и важнейшее из них — это то, что все отношения между экземплярами данных могут быть заданы извне — ни один из методов связывания по заданным пользователем логическим условиям не будет воспринят как недопустимый. Любой запрос считается допустимым и может вернуть непустое множество записей базы данных: были бы соблюдены формальные правила именования объектов базы данных (таблиц и полей — колонок) и синтаксис языка запросов — остальное находится в компетенции пользователя. Это свойство превращает реляционные базы данных в мощный инструмент исследований, добывания нового знания из существующего набора данных. Более того, введение стандарта языка управления базами данных SQL'92 позволило сделать прозрачным (независимым от особенностей реализации) процесс обращения к различным системам управления базами данных (СУБД) и уже через их интерфейсы к БД, функционирующим под их управлением.
Однако следует заметить, что сколь бы мощные возможности ни были доступны пользователю реляционных БД, всем им свойственен основной недостаток: отсутствие системности в подходе к организации данных и потеря их связности. Несмотря на то, что данные в реляционных БД достаточно высоко формализованы, а декомпозиция свойств доведена до уровня атомарности, возможности их организации в связные описания объектов и систем ограничены — знания о правилах их объединения вынесены за пределы компетенции СУБД.
Для преодоления этого недостатка используются, так называемые, вторая и третья нормальные формы, представляющие собой совокупность правил связывания и организации данных за счет внесения отношений ссылочной целостности (иерархизации представления данных). Хоть это, в принципе, противоречит основному принципу построения реляционных БД, но зато приближает реализуемые в таких БД отношения между данными к естественному способу хранения данных и знаний. Если воспользоваться метафорой, то в классическом виде отношения между данными, реализуемые в реляционных БД, можно сравнить с «кашей в голове» у нерадивого студента, когда из-за отсутствия закрепленных связей между фрагментами знаний, полученных в результате авральной зубрежки, в своих ответах на экзаменационные вопросы он может с легкостью сочетать несочетаемое.
Здраво было бы ограничить сферу применимости реляционных баз данных этапом макетирования информационных систем, предназначенных для функционирования в системах с низкой структурной и функциональной динамикой. После того, как период адаптации и установления ссылочных отношений окончен, в принципе, можно перейти к менее гибкой, но более быстродействующей навигационной парадигме (хоть она и старше реляционной). Но в силу универсальности и гибкости реляционной модели обычно она продолжает использоваться и по окончании периода адаптации, что обусловлено желанием заказчика обеспечить сохранение «потенциала роста» и максимальную гибкость БД, как инструмента исследования.
Выше мы вскользь упомянули о навигационной парадигме баз данных... Базы данных, реализованные в соответствии с навигационной парадигмой, по способу организации данных коренным образом отличаются от реляционных. Навигационная парадигма полностью соответствует принципу иерархической классификации. Связи между экземплярами данных в навигационных БД жестко заданы моделью, отражающей свойства моделируемой (описываемой) системы. Такое представление более гармонично вписывается в системный подход и напоминает уже не голову одуревшего от зубрежки студента, но голову педантичного старосты группы, знания которого хорошо уложены и приведены в порядок. Однако, если продолжить сравнение, то знания эти все еще разобщены, не полны и не позволяют создать нового знания, поскольку они бесконфликтны, а отношения между ними пока лишены должной пластичности.