Информационные технологии в экономике и управлении

Вид материала

Содержание

3. Системы управления знаниями
3.2.Базы данных
3.3. Хранилища данных
Предметная ориентированность
Поддержка хронологии
3.3.1. Структура хранения информации в Хранилище
Типы запросов к базе
3.3.2. Загрузка данных в Хранилище
3.4. Системы поддержки принятия решений
3.4.1. Аналитическая обработка данных в реальном времени
3.4.2. Средства управления эффективностью бизнеса ВРМ
3.4.3. Интеллектуальный анализ данных (Data Mining)
Выявление последовательностей
Выявление ассоциаций

Подобный материал:

1 2 3 4 5 6 7 8 9 10

3. Системы управления знаниями

3.1. Общее описание

Функционирующие на предприятии приложения реализуют заданные бизнес -правила с постоянно меняющимися параметрами. Для анализа деятельности предприятия необходимо сохранять агрегированные результаты²⁰ бизнес - процессов. Для возможно полного анализа деятельности предприятия и принятия стратегических решений необходимо изучать зависимость изменения основных показателей деятельности предприятия от множества влияющих на них факторов. Эти задачи позволяют решать Системы поддержки принятия решений. Они представляют собой различные типы приложений для анализа корпоративной информации. Такие приложения используют агрегированную и выверенную информацию о результатах деятельности корпорации за несколько лет. Специальные аппаратно-программные комплексы позволяют накапливать и структурировать информацию о бизнес -процессах. Все эти средства в совокупности и составляют систему управления корпоративными знаниями. На рисунке 17 представлена общая схема, отображающая все этапы накопления, обработки и использования корпоративных знаний для построения отчетов Системами поддержки принятия решений [66, 67, 68].

В процессе деятельности предприятия, данные из приложений, реализующих планирование производства, заказ материалов (ERP), реализующих взаимодействие с клиентами (CRM), управление поставками материалов и комплектующих (SCM) поступают в базы данных оперативной информации (рис. 18). В рамках предприятия может существовать большое количество баз данных, реализованных средствами разных СУБД. Они позволяют хранить информацию в структурированном виде, так, что к ней легко можно реализовывать запросы и строить отчеты. Однако такие отчеты отображают ситуацию "с одной стороны", так как строятся на основе информации одной базы, в них невозможно использование информации из внешних источников, например, аналитических обзоров. Информация в базе может содержать ошибки, так как подвергается модификации и добавлению с рабочих мест операторов. Поэтому такие "сырые" данные не могут быть использованы для построения аналитических отчетов. Они должны быть предварительно обработаны. С этой целью информация извлекается из различных баз данных, выверяется, приводится к единому формату представления, агрегируется и помещается в Информационное хранилище. Именно информация Хранилищ данных может быть использована для построения аналитических отчетов. Набор алгоритмов обработки информации и описание структур ее хранения в Хранилище представляет собой метаданные. Эти метаданные хранятся в отдельной области, называемой репозиторий. Хранилище на логическом уровне централизованно представляет всю информацию предприятия²¹. Однако различные подразделения предприятий для построения отчетов используют разную информацию и анализируют ее на основе разных критериев. Витрины данных позволяют отображать информацию Хранилища в соответствии со специфическими требованиями подразделений и настраивать способ ее отображения. Они содержат специфические для каждого подразделения подмножества всей информации, расположенной в Хранилище. Информация выверена и агрегирована. Поэтому, в конечном счете, именно на базе Витрин данных строятся отчеты с помощью приложений Системы поддержки принятия решений. Эти отчеты позволяют выполнять многомерный анализ данных (зависимость объемов продаж от региона, времени года, размера скидок), прогнозировать изменения основных показателей, выявлять ненадежных клиентов и так далее. Если данных в Витрине недостаточно для построения отчета, пользователь может обратиться непосредственно к Хранилищу данных. Такая архитектура средств хранения информации называется трехуровневой. Она позволяет упростить процедуру разграничения доступа пользователей к информации и увеличить скорость работы Системы поддержки принятия решений.

Далее мы рассмотрим более подробно основные составляющие, представленной на рисунке 18 структуры.

²⁰Агрегированные результаты представляют собой укрупненные показатели, рассчитанные на основе детальных, например, объем продаж за месяц. Эта процедура позволяет заменить большое количество детальных записей в Хранилище на небольшое количество записей с итоговыми показателями.

²¹На физическом уровне (аппаратном) хранилище может быть реализовано как распределенное, то есть включать в себя данные, расположенные в узлах разных локальных сетей.

3.2.Базы данных

Базы данных представляют собой информационное отображение предметной области (подразделений) предприятия. Они хранят характеристики объектов, функционирующих в подразделениях, результаты выполнения бизнес - процессов, отображают связи между объектами. Любой набор единообразно структурированных записей можно рассматривать как базу данных. Например, записи в телефонном справочнике составляют базу данных. Таблица простой структуры, построенная в Excel, также является базой данных. В каждый момент времени база данных должна быть актуальна, то есть отображать реальное состояние предметной области. На основе базы данных строятся оперативные отчеты, например, объемы товаров, отгруженные различным клиентам за последний месяц. Или отчеты о клиентах, не выполнивших условия оплаты. Как видим, оба отчета содержат информацию о клиентах, но решают разные информационные задачи. Однако, в целях отсутствия дублирования, мы должны хранить информацию о клиентах (и других объектах предметной области) в одном экземпляре. В результате, между хранимыми данными и программой, формирующей конечный отчет, должен находится промежуточный слой Система управления базой данных (СУБД). СУБД "знает" структуру хранения информации об объекте, взаимосвязи между объектами, позволяет управлять данными, хранящимися в базе. СУБД представляет собой комплекс программных средств и встроенного языка программирования. Таким образом, любая СУБД должна выполнять следующие основные функции.

Создание информационных структур для хранения информации.
Реализация запросов на выборку информации в соответствии с заданным критерием выборки.
Создание отчетов с частичным анализом информации (вычислением промежуточных и итоговых сумм, группировкой записей и так далее). Отчеты строятся на базе одной или нескольких информационных структур и предназначены для вывода на печать.
Разработка электронных аналогов документов, используемых на предприятии (заказы, платежные поручения) и их автоматическое заполнение информацией из базы данных. Такие документы называются формами. Они предназначены для отображения в электронном виде.
Содержать средства создания интерфейса пользователя. Эти средства позволяют создавать автоматизированное рабочее место служащего, например, панель инструментов, которые соответствуют производственным функциям, выполняемым служащим ежедневно. При нажатии кнопок инструментов могут автоматически создаваться отчеты, запросы, формы.
Защита файлов базы данных с помощью паролей.
Реализация многопользовательского доступа к информации базы данных.

В настоящее время существует большое количество СУБД. Из наиболее распространенных можно назвать Oracle, Informix, MS SQL server, Access. Из перечисленных выше функций следует, что в основу каждой СУБД должны быть положены строгие правила структуризации информации на этапе ее хранения, правила доступа к этой информации и обработки информационных массивов, правила организации взаимосвязи между этими массивами. Совокупность этих правил составляет модель данных. Существуют иерархические, объектно-ориентированные, реляционные модели. Последнюю модель реализует настольная СУБД Access, предназначенная для создания персональной информационной системы. При реляционном подходе вся совокупность данных об объектах предметной области рассматривается как множество. Существует раздел математики, где определены операции над такими множествами, также как в обычной алгебре определены операции умножения, сложения и так далее. Этот раздел математики называется реляционной алгеброй. Поэтому и модель данных, в которой определены операции реляционной алгебры, называется реляционной. Данные об объектах в этом случае отображаются в виде таблиц. Проиллюстрируем возможности такого подхода на примере. Пусть нашей предметной областью является студенческая библиотека. В ней функционируют объекты: студенты, книги, дисциплины. Каждый из этих объектов характеризуется своими атрибутами (рис. 19, 20, 21). Для заполнения представленных на рисунках таблиц используются вводные формы, например, как на рисунке 22. они являются аналогами обычных бумажных документов (например, регистрационной карточки книги). Пример запроса, который позволяет выбрать записи о студентах, не сдавших книги, приведен на рисунке 23. Это, так называемый, "запрос по образцу". Он представляет собой реализацию операций реляционной алгебры для работы с множествами. В верхней части рисунка показаны таблицы, из которых выбирается информация, и их взаимосвязь. Дальше образец заполнения бланка выборки. Изначально бланк для заполнения пустой. Вам остается только отметить, какую информацию исходных таблиц вы хотите видеть в результатах и наложить логические условия выборки (в данном случае "Is Null"). Связь между таблицами при реляционном подходе реализуется с помощью ключевых полей (в данном случае, индексов), которые однозначно определяют каждую запись. Пример схемы связей всей базы приведен на рисунке 24. Ключевые поля здесь выделены жирным шрифтом. Из рисунка видно, что в базе присутствуют не только объектные таблицы (характеризующие объекты), но и связные, отражающие связь между объектами, соответствующую бизнес - процессам предметной области (сдача экзаменов, выдача/прием книг, соответствие книг определенным дисциплинам). В результате, именно связные таблицы, организующие связь по ключам, позволяют избежать дублирования информации при решении разных информационных задач в данной предметной области. Наличие связей позволяет создавать документы, в которых присутствует информация из нескольких таблиц. На рисунке 25 изображен читательский формуляр студента, в котором присутствует информация из таблиц "Студент", "Книга" и связной таблицы, характеризующей процесс выдачи/приема книг. И, наконец, на рисунке 26 представлен образец отчета с перечнем студентов - должников. Он строится на базе описанного выше запроса и содержит перечень студентов с группировкой по специальностям.

Для создания удобного рабочего места библиотекаря все электронные формы и отчеты должны вызываться с помощью специально созданной системы меню, то есть должен быть реализован интерфейс пользователя. На рисунке 27 показан интерфейс пользователя. Здесь цифрой 1 обозначено меню верхнего уровня, цифрой 2 - меню второго уровня. В результате, мы имеем приложение "Абонементный зал студенческой библиотеки", которое позволяет автоматизировать бизнес - процессы библиотеки.

3.3. Хранилища данных

За последние годы предприятия накопили огромное количество информации с помощью приложений, которые заносят информацию о параметрах бизнес - процессов в базы данных и в корпоративных архивах документов. Если эту информацию никак не систематизировать, не представить в едином формате, ее невозможно использовать для анализа деятельности предприятия с целью принятия стратегических решений. Однако именно такие задачи возникают перед руководителями предприятий. Поэтому в начале 90-х годов Билл Инмон предложил концепцию Хранилищ данных. Он предложил разделить всю информацию корпорации на две категории:

оперативно меняющаяся информация, сосредоточенная в оперативных базах данных и ориентированная на бизнес - процессы;
выверенная, неизменяемая информация, интегрированная из различных источников, предназначенная для анализа информации.

Сам Билл Инмон дал такое определение Информационным хранилищам: "Предметно-ориентированный, интегрированный,неизменяемый, поддерживающий хронологию набор данных, организованный для целей поддержки принятия решений". Из этого определения следуют основные свойства, которыми должно обладать Информационное хранилище.

Предметная ориентированность

Модель данных Хранилища ориентирована на предметную область. Все направления деятельности компании разбиваются на предметные области, которые подлежат анализу. В результате, информация из различных источников, связанная с определенной предметной областью, собирается в одном месте. При этом данные согласовываются, очищаются, агрегируются. Такая их предварительная обработка упрощает задачу анализа информации и позволяет использовать большое количество данных. Например, предметными областями ВУЗа могут быть: библиотека, учебная часть, научно-исследовательский сектор, которые автоматизированы разными приложениями на основе разных оперативных баз данных. Анализ деятельности научно-исследовательского сектора предполагает учет количества заказанных через библиотеку публикаций. В результате, в предметную область Хранилища, соответствующую научно-исследовательскому сектору должна поступать также информация из базы данных библиотеки.

Интегрированность

Данные поступают в хранилище из различных файловых систем и оперативных баз данных, которые используют разные форматы хранения информации. Одни и те же характеристики объекта в разных базах могут иметь разное наименование. Интеграция объектов позволяет при помещении данных в хранилище использовать единый формат хранения информации, одинаковые наименования характеристик, одинаковые единицы измерения.

Неизменчивость

Предварительно обработанные и помещенные в Хранилище данные могут использоваться только для чтения. Внесение в них изменений запрещено. Администратор хранилища по расписанию (ежедневно, еженедельно, ежемесячно) добавляет новые данные в Хранилище, но ранее добавленные остаются неизменными. При этом, точно известны источники их получения. Это приводит к повышению достоверности данных.

Поддержка хронологии

Важнейшее свойство, которое позволяет не только выполнять хронологический анализ данных, но и прогнозировать развитие бизнеса. Здесь важно хранение в хронологическом порядке именно агрегированных показателей (например, объемов продаж за квартал). Как же реализуется поддержки хронологии? В Хранилище помещаются "снимки" состояния предметной области на какой-то момент времени. Процедура повторяется в соответствии с расписанием добавления информации в Хранилище. В результате, менеджеры соответствующих направлений могут видеть хронологию изменения интересующих их параметров.

3.3.1. Структура хранения информации в Хранилище

Далее рассмотрим структуру хранения информации в Хранилище. Мы помним, что Хранилище создается для целей поддержки принятия решений. Наше мышление многомерно. Принимая решение о целесообразности расширения торгового предприятия в каком-то регионе, мы, например, анализируем объемы продаж в зависимости от многих факторов: численности населения региона, его среднего достатка, наличия конкурирующих организаций и так далее. Очевидно, чтобы быстро получить отчет с результатами такого анализа, необходимо, чтобы база данных Хранилища также была многомерной [69]. В таких базах информация располагается как бы в многомерном кубе. Результаты бизнес -процессов являются фактами, которые характеризуются параметрами -мерами. Например, факт продажи характеризуется мерами: полученная от продажи сумма, объем проданного товара. Факты зависят от измерений: квартала, артикула товара, города (рис. 28). Расположение информации в такой структуре напоминает расположение в электронной таблице (например, Excel), если сделать, например, такие таблицы для каждого города (рис. 28) и собрать их вместе. Тогда каждая такая таблица будет показывать динамику продаж в отдельно взятом городе в зависимости от квартала и артикула товара. Можно сделать "срезы" куба по кварталам или артикулам товара. Измерения могут быть организованы в иерархическую структуру (рис. 29). Это позволяет реализовывать более сложные запросы к базе. Информация об иерархии измерений хранится в области метаданных (рис. 18) [70].

Типы запросов к базе

Средства реализации запросов для многомерных баз данных позволяют делать "срезы" информации для менеджеров разных направлений. Можно выбрать "срез" только для одного города, для одного артикула товара, для одного квартала. Возможен и одновременный показ трех и более размерностей, но этот вариант мы проиллюстрируем позже (см. технологии OLAP).
Наличие иерархии измерений (рис. 29) позволяет реализовывать запрос, указывая только страну или только год. При этом данные, соответствующие разным городам одной страны или разным кварталам одного года, агрегируются.

Запросы из нескольких кубов, имеющих одинаковые измерения.

При увеличении объемов хранимой информации время реализации запроса становится недопустимо большим. Для устранения этого недостатка используются так называемые "предвычисления". Поскольку чаще всего в отчетах используются агрегированные данные, заранее создается куб таких данных. При дополнении куба детальных данных новой информацией, куб агрегированных показателей автоматически пересчитывается. Для нашего примера может быть создан куб, где объемы продаж суммируются для каждого года и каждой страны. К нему и будут обращены наиболее частые запросы.

Как видим, многомерная модель хранения информации позволяет быстро реализовывать запросы, однако большие трудности вызывает изменение параметров куба. Поэтому часто для организации хранения информации в Хранилище используется реляционный подход.

В этом случае информация о фактах и измерениях хранится в отдельных плоских таблицах, связанных с помощью ключевых полей. Простейшая схема организации связей называется "звезда" (рис. 30). Эта же схема часто используется для хранения информации в витринах данных. Схема проектируется с учетом построения будущих аналитических запросов. На рисунке 30 изображена такая схема, которая реализует связи между фактическими данными о сумме сделки и ее объеме с информацией о заказчике, характеристикой проданного товара, временными параметрами сделки. Используя эту схему, можно выяснить, например, какие заказчики приобретают за одну сделку товара более, чем на заданную сумму. Или какие сделки заключались в течение заданного периода времени с определенным заказчиком. Однако при использовании такой схемы часть информации в таблицах описанной в схеме структуры дублируется. Например, разные компании могут находиться в одном регионе, городе, стране. Эта информация не является уникальной для каждого заказчика. Для избежания дублирования информации и увеличения скорости реализации запросов используется иерархия размерностей, например, так, как показано на рисунке 31. При использовании такой иерархии, мы приходим к схеме типа "снежинка" (рис. 32), которая и помогает избежать дублирования информации. Характеристики повторяющихся данных хранятся в отдельных таблицах (например, регион) и связаны ключами с верхними уровнями иерархии размерностей.

В заключение отметим, что часто в Хранилищах используются все описанные выше технологии хранения информации. Схемы типа "звезда" и "снежинка" применяются для хранения детализированных данных, а многомерные базы применяются для хранения агрегированных данных (например, объемов продаж за месяц, реализованных в определенном регионе или стране).

3.3.2. Загрузка данных в Хранилище

В процессе загрузки данных в Хранилище выполняется сбор данных, их преобразование (очистка, интегрирование), агрегирование. В Хранилище также хранится информация об источниках данных. Понятие и назначение агрегирования были описаны выше (см. п. 3.1), поэтому здесь мы подробнее рассмотрим первые три понятия.

Для выполнения функций сбора, преобразования и загрузки данных в Хранилище применяются специальные ETL - комплексы программ (Extraction, Transformation, Loading). Эти комплексы извлекают информацию из оперативных баз данных различных типов, преобразуют ее в формат, поддерживаемый Хранилищем и загружают в Хранилище [71].

В процессе извлечения данных выполняется их чтение из баз данных оперативно меняющейся информации. Перед помещением данных в Хранилище, они должны быть очищены. Это один из этапов трансформации данных. Основная задача очистки - отсев неточных данных. Что такое "грязные" данные? Например, при заполнении Базы данных Отдела кадров необходимо указывать Индивидуальный номер налогоплательщика. Не все работники имеют такой номер, однако поле формы является обязательным для заполнения. Поэтому оператор пишет фиктивные данные. Другим примером может служить указание устаревшего адреса сотрудника в базе. Хранящиеся в базе данные могут выходить за пределы установленных в Хранилище для таких атрибутов значений. Например, год приема на работу сотрудника предприятия не может быть меньше года создания предприятия. Данные, помещаемые в Хранилище, должны быть абсолютно точными, поэтому они очищаются средствами специальных программ, составляющих метаданные, от ложной и устаревшей информации. Объединение данных из различных баз представляет собой процедуру интегрирования. При этом надо привести к единому формату, например, структуру телефонных номеров, способ представления даты (дд/мм/гггг или мм/гг). В разных базах может быть использована разная аббревиатура для обозначения одного и того же клиента или разные значения ключевых полей. Как и в предыдущем случае, специальные программные комплексы, составляющие часть метаданных, автоматически преобразуют и объединяют данные из различных баз. В процессе преобразования данных перед загрузкой их в хранилище также могут создаваться новые поля, например, это поле для подсчета прибыли по сделке, если все необходимые данные находятся в полях оперативных баз данных, из которых извлекается информация. Для выполнения вычислений могут быть использованы арифметические выражения со встроенными функциями, логические операции. В процессе выполнения преобразований, данные хранятся в специальной промежуточной базе. После преобразования данных выполняется их загрузка в Хранилище из этой промежуточной базы.

Из всего сказанного выше следует, что аккуратно определенные метаданные являются основой заполнения и функционирования Информационного хранилища. Метаданные хранятся в репозитарии, который представляет собой отдельную базу данных, содержащую информацию о самом Хранилище. В репозитарии хранится информация о том, какие оперативные базы данных являются источниками информации, описана структура хранения информации в этих базах, хранятся программы преобразования данных и даже программы построения аналитических отчетов. Репозитарии может сохранять историю преобразования данных. В результате, возможно не только определение источника данных Хранилища, но и восстановление выполненных над данными операций. Метаданные, хранящиеся в репозитарии, позволяют создавать информационно - справочные сервисы, показывающие изменения, происходящие в Хранилище.

Для примера, рассмотрим возможности службы репозитария, входящей в состав СУБД SQL Server фирмы Microsoft. Служба предоставляет следующие возможности: средства для описания метаданных; процессор репозитария, который позволяет выполнять поиск метаданных, ведет историю изменения метаданных (например, вы можете определить, когда была изменена структура таблиц для хранения информации в Хранилище или структура аналитического отчета). В репозитарии также могут храниться: схемы данных²² оперативных баз -источников информации; схемы данных Хранилища; данные для многомерного анализа информации (реализации OLAP анализа - см. п. 3.4.1), программы извлечения, преобразования и загрузки данных в Хранилище. Программы эти специфичны для каждого Хранилища и создаются с помощью службы DTS (Data Transformation Service ). DTS позволяет создавать такие программы с помощью специального редактора, указывая в диалоговом режиме таблицы - источники и таблицы назначения в Хранилище. Необходимые преобразования описываются на специальном встроенном языке программирования [72].

²²Схема данных Базы иллюстрирует взаимосвязь объектов предметной области. Учитывая эти связи, можно строить отчеты, содержащие информацию о разных объектах, каждый из которых описывается отдельной таблицей. Например, для Базы данных студенческой библиотеки, которая была описана в п. 3.2, схема данных изображена на рис.24.

3.4. Системы поддержки принятия решений

Основная задача Систем поддержки принятия решений -предоставить менеджерам средства анализа данных. Именно средства анализа позволяют превратить накопленную в корпорации информацию, даже очень хорошо структурированную и выверенную, в знания. Они позволяют выявлять тенденции развития бизнеса, находить ответы о причинах тех или иных неудач, увеличить прибыльность предприятия, снижая риски принятия неправильных управленческих решений. Существует несколько категорий систем анализа. Ниже мы рассмотрим возможности наиболее распространенных технологий.

3.4.1. Аналитическая обработка данных в реальном времени

Аналитическая обработка данных в реальном времени (On-Line Analytical Processing - OLAP) сегодня является одной из самых широко используемых технологий анализа информации. Моделируя много мерность мышления человека, она позволяет исследовать зависимость той или иной характеристики бизнес-процесса от многих влияющих на нее факторов [73, 74, 75]. Технология рассчитана не на профессионального программиста, а на менеджера, отвечающего за определенный тип бизнес - процессов (менеджера по качеству, менеджера по продажам и так далее) и предоставляет ему возможность самостоятельно строить отчеты для анализа интересующих его зависимостей без привлечения специалистов по информационным технологиям. Для анализа информации важно не только иметь Хранилище с выверенной, хорошо структурированной информацией, но и иметь средства визуализации этой информации. Такие средства должны позволять аналитику строить отчеты с меняющейся структурой, которые позволяют просматривать данные Хранилища "с разных точек зрения". Отчеты должны строиться быстро (отклик на запрос не должен превышать 5 с), средства построения отчетов должны иметь интуитивно понятный интерфейс пользователя и позволять пользователю определять структуру отчета в диалоговом режиме. Должен быть также реализован многопользовательский доступ к данным Хранилища с разграничением прав доступа. Всеми этими возможностями обладают OLAP - технологии и программные продукты их реализующие. По сути, они выполняют многомерный анализ информации, выбирая ее из многомерной базы Хранилища. В разделе 3.3.1 мы рассматривали две структуры организации информации в Хранилище: собственно многомерная база (рис. 28) и реляционный подход, позволяющий хранить информацию в виде плоских взаимосвязанных таблиц (рис. 30). В соответствии с этими двумя подходами, существуют два вида OLAP: MOLAP, когда для построения отчета запрос адресуется непосредственно к многомерной базе; ROLAP, когда для построения отчета запрос адресуется к реляционному представлению информации (набору таблиц, связанных по схемам "снежинка" или "звезда"). Результатом работы OLAP - системы является отчет, который показывает, как меры (см. п. 3.3.1) зависят от различных измерений. Пользователь в режиме диалога может изменить набор измерений так, что информация о бизнес - фактах будет показана с другой "точки зрения", можно "свернуть" отчет так, что будут видны только агрегированные показатели, а исходные детализированные данные будут скрыты (например, как это делается с помощью команды "Итоги" электронной таблицы Excel). Информация отображается и в виде таблиц и в виде диаграмм. При построении отчета могут быть также использованы наиболее распространенные типы статистического анализа. Например, прогнозирование динамики продаж на основе трендовых моделей. Изучение структуры спроса на основе кластерного анализа. Технология позволяет выполнять анализ типа "что если" (например, как изменились бы объемы продаж в Новосибирске, если бы в 2002 году цена на товар артикула А24 была уменьшена на 5%) и прогнозировать изменение бизнес - показателей. Таким образом, к основным задачам, которые решаются с помощью OLAP на предприятии, мы можем отнести:

анализ продаж, который позволяет определить сезонные колебания, выявить предпочтения покупателей разных регионов, влияние рекламных компаний, ценовой политики и так далее;
анализ закупок для поиска наиболее выгодных поставщиков на основе выбранных критериев (наличие скидок, оперативность поставок и так далее);
анализ движения денежных средств;

анализ структуры доходов и расходов по определенным статьям и подразделениям, анализ себестоимости и прибыли;
анализ товаров на складах материалов и готовой продукции в зависимости от сроков хранения, необходимых минимальных запасов, категории товара или материала и так далее;
маркетинговый анализ, который может позволить выявить на какой тип покупателя может быть ориентирован товар и как должна быть организована рекламная компания.

Понятно, что хотя анализ является многомерным, отобразить отчет можно только на плоскости. Поэтому на экране монитора и на бумаге аналитик видит двумерную таблицу сложной структуры с иерархией заголовков. Например, при наличии иерархии размерностей, соответствующей рисунку 29, мы можем получить отчет, который покажет объемы продаж товаров разных артикулов в разных странах в зависимости от года (рис. 33 а). Здесь показатели продаж агрегированы по кварталам и по городам. В другом случае, мы хотим проанализировать общие объемы продаж по кварталам в разных городах (рис. 33 б). При необходимости, в отчет могут быть вставлены промежуточные итоги, например, по городам, а при просмотре детальные данные "свернуты" так, чтобы были видны только промежуточные итоги.

Рассмотрим возможности реального программного продукта Oracle Express фирмы ORACLE [76]. Он включает в себя сервер для построения многомерных баз данных и выполнения на их основе аналитических вычислений, средства разработки специализированных приложений для анализа информации и готовые аналитические программы для анализа продаж, финансового анализа, бюджетного планирования, маркетинговых исследований. С помощью этого продукта можно анализировать как данные, расположенные в Хранилище, так и данные, расположенные в оперативных базах данных. Причем, структура данных в Хранилище может быть как многомерной, так и реляционной.

Oracle Financial Analyzer - средство для формирования финансовой отчетности, построения бюджета и его контроля, прогнозирование финансового состояния. Специальные настройки позволяют учесть в процессе бюджетного планирования особенности конкретной организации. Ввод данных в систему может выполняться через Excel, Web - браузер, из ERP - систем, реляционных баз данных.
Oracle Sales Analyzer - средство для анализа рынка и продаж. Система может быть использована для анализа жизненного цикла товаров, разработки стратегии продвижения товаров на рынке, прогнозирования эффективности рекламных компаний. В систему встроены шаблоны для построения наиболее часто создаваемых отчетов: "Выполнение плана", "Сравнение", "Темпы роста" и так далее.

Oracle Express Analyzer является универсальным средством создания аналитических отчетов не привязанным к определенному типу бизнес - процессов. Программа позволяет менеджеру создавать отчеты, которые могут быть опубликованы на Web - сервере, отправлены по электронной почте. Построенный отчет представляет собой книгу, содержащую таблицы, графики, поясняющий текст, иллюстрации.

Встроенные в систему возможности Web - сервиса позволяет сотруднику компании, не имеющему на своей рабочей станции OLAP -системы, запрашивать построение со своей рабочей станции аналитического отчета средствами OLAP Web - сервера. Все, что нужно иметь на рабочей станции - это Web - браузер.

В программный продукт Oracle Express входит также модуль Oracle Express Object, который является средством профессионального разработчика и позволяет разрабатывать специфичные OLAP -приложения с возможностями, необходимыми именно для данного предприятия. Построенные таким образом приложения могут исполняться (строить отчеты) в среде Oracle Express Analyzer. Если вы привыкли работать в среде Excel, эту электронную таблицу также можно использовать для отображения отчетов.

3.4.2. Средства управления эффективностью бизнеса ВРМ

Эффективная аналитика является основой успешного управления компанией. OLAP - системы позволяют анализировать эффективность функционирования отдельных подразделений компании и рассчитаны на построение аналитического отчета одним пользователем. Для менеджеров верхнего звена необходимы приложения, которые бы позволяли выполнять анализ состояния всей компании в целом, учитывая взаимозависимость бизнес - процессов различных подразделений. Такие приложения должны быть ориентированы на пользователей - аналитиков так, чтобы анализ мог выполняться без привлечения специалистов в области информационных технологий. Эти приложения развивают возможности OLAP - систем, устраняя их недостатки и реализуют технологию ВРМ (Business Performance Management). Наибольшее влияние на эффективное функционирование компании оказывают процессы финансового планирования и анализа, построение и контроль исполнения бюджета предприятия. Поэтому именно для этих областей в настоящее время и реализованы ВРМ - системы. В решении этих задач одновременно задействовано большое количество сотрудников компании. Например, при построении бюджета руководство компании может опубликовать его укрупненную первоначальную версию, которую затем детализируют руководители среднего звена на основе планов поставок материалов и комплектующих, модернизации оборудования и так далее. При этом они могут ориентироваться не только на анализ работы и плановые показатели собственного подразделения, но и на отчетность и планы других подразделений. Их цифры агрегируются и на их основе формируется следующий вариант бюджета предприятия. Процедура может повторяться несколько раз до получения бюджета, соответствующего стратегическим целям предприятия. Может быть построено несколько вариантов бюджета, соответствующих "оптимистическим" и "пессимистическим" прогнозам (в соответствии с планируемыми договорами поставок материалов, планируемым ростом сбыта продукции и так далее). Как видно, ВРМ - технология позволяет реализовывать функции стратегического управления предприятием и увязывать процедуры стратегического, тактического и оперативного управления предприятием. ВРМ - приложения, в отличие от OLAP -систем ориентированы на работу их средствами многих пользователей одновременно с возможностью совместного редактирования документов- отчетов. В этом случае возникает проблема управления множеством задач, решаемых несколькими служащими, их маршрутизации, контроля исполнения и обмен данными между результатами выполнения задач. Как мы помним, такие проблемы решает технология Workflow (см. п. 2.3.3.2). В результате, ВРМ объединяет развитые технологии анализа информации и технологии совместного доступа к информации и организации работ [77] [78].

Одной из самых используемых в настоящее время реализций технологии ВРМ является группа продуктов компании Hyperion Solution Corp. В состав группы входят продукты:

Hyperion Business Modeling - позволяет создавать модели, описывающие бизнес - процессы предприятия. Модели могут использоваться при тестировании бизнес - планов. Система позволяет создавать сценарии, которые показывают менеджеру влияние таких факторов, как изменение спроса, ввод новых мощностей и так далее на показатели деятельности предприятия.
Модели разных предприятий могут быть связаны между собой, что позволяет проводить прогностический анализ деятельности больших корпораций. Результаты анализа могут быть представлены в разной форме, в том числе, на листах Microsoft Excel (ion.ru/modeling.php).

Hyperion Enterprise - средство для консолидации финансовой отчетности дочерних предприятий, филиалов, отделений (ion.ru/knsld.php).
Hyperion Planning - система бюджетирования, планирования и прогнозирования (ion.ru/planning.php).
Hyperion Perfomance Scorecard - реализует функции стратегического управления на основе методологии Balanced Scorecard²³. Эта система является ключевой среди перечисленных выше продуктов.

Она позволяет организовать взаимосвязь оперативных показателей деятельности предприятия со стратегическими целями. При этом, высшие руководители компании могут анализировать как финансовые показатели, так и такие "нематериальные" активы, как уровень подготовки персонала, взаимоотношения с клиентами. Система позволяет преобразовать стратегические цели предприятия в показатели уровня оперативного управления и поставить перед сотрудниками задачи достижения этих показателей (ion.ru/scorecard.php).

²³В книге Р.Каплан и Д. Нортон "The Balanced Scorecard: Translating Strategy into Action" дано такое определение технологии: "Balanced Scorecard оценивает работу компании на основе четырех сбалансированных параметров: финансы, взаимоотношения с клиентами, внутренние бизнес - процессы, обучение и повышение квалификации персонала. С помощью Balanced Scorecard можно не только анализировать финансовые результаты, но одновременно участвовать в создании новых возможностей и регулировать приобретение нематериальных активов для дальнейшего роста."

3.4.3. Интеллектуальный анализ данных (Data Mining)

Дословно термин Data Mining означает "добыча, раскопка знаний" [79, 80]. Какие же новые возможности предоставляет эта технология анализа по сравнению с OLAP - технологией? Строя аналитические отчеты описанными выше методами, вы заранее предполагаете, от каких размерностей зависит изменение значений фактов, а отчет показывает, какова эта зависимость. Например, вы получаете отчет, который показывает, как зависит регулярность выплат по кредитам частных лиц от сезона, количества членов семьи и так далее. Однако в задачах прогнозирования, при подготовке выпуска новой продукции или создании новой услуги часто необходимо решать задачи такого рода: "Каковы характерные особенности клиентов, которые, скорее всего, воспользуются этой услугой или приобретут этот товар?" или "Каковы характеристики сделок с недвижимостью, которые заканчиваются невыплатами?". То есть вы должны находить новые знания на базе уже накопленной фактической информации. Именно такие задачи помогает решать технолоия Data Mining. В основе этой технологии лежит концепция построения шаблона. Например, анализируя большое количество сделок с недвижимостью, мы ищем характерные особенности тех, что закончились невыплатами. Эти особенности и будут составлять шаблон. Если какая-то потенциальная сделка обладает этими особенностями, стоит отказаться от нее под благовидным предлогом. Таким образом, Интеллектуальный анализ данных представляет собой поиск закономерностей (шаблонов) на основе анализа большого количества данных. На основе найденных закономерностей, могут быть решены задачи прогнозирования будущих событий и трактовки данных, не соответствующих найденным закономерностям. Найденные шаблоны представляют собой новые знания, так как отражаемые ими закономерности бывают часто совершенно неожиданными для аналитиков. Поэтому технология Data Mining в настоящее время является самым совершенным инструментом анализа.

Интеллектуальный анализ данных включает пять типов исследований, для которых применяются разные математические методы.

Классификация - наиболее часто используемый метод. В этом случае заранее известно, на какие группы разбиты объекты исследования и известны характеристики этих групп. Задача состоит в том, чтобы на основе имеющихся характеристик объекта отнести его к той или иной группе. Такой метод исследования может быть использован в медицине при диагностике заболеваний по результатам анализов, которые позволят отнести заболевание к тому или иному типу. Для классификации применяется математический аппарат "Деревья решений". Деревья решений позволяют представить правила приписывания объектов к тому или иному классу в виде иерархической структуры. Например, чтобы знать, каков потенциальный рынок клиентов, приобретающих обувь нашей фирмы, мы можем, зная результаты демографических исследований в заданном регионе (пол, возраст, доход), разбить клиентов на классы и подсчитать, каково количество потенциальных клиентов в данном классе. В соответствии с тремя характеристиками (пол, возраст, ценовой диапазон) разбиваем клиентов на восемь групп, как показано на рисунке 34. Дерево решений позволяет отнести клиентов к той или иной группе. В результате, мы знаем, какое количество обуви определенной модели, соответствующей возрастной группе, полу и ценовому диапазону планировать к выпуску.

Кластеризация предполагает использование более сложных алгоритмов, когда заранее не известны ни типы классов, ни их характеристики. Для реализации таких исследований применяются технологии нейронных сетей. Изначально нейронные сети разрабатывались для моделирования способности мозга распознавать образы. В целом, они представляют собой алгоритмы, моделирующие самообучающуюся систему, которая может извлекать скрытые закономерности из больших массивов данных.
Выявление последовательностей позволяет обнаруживать связь между разнесенными по времени событиями. Такой анализ помогает, например, регулировать запасы товаров на складе и определять их ассортимент. Например, если клиент покупает видеотехнику, компьютерную технику, можно определить, через какое время он станет приобретать расходные материалы к ней (видеокассеты, пленки, картриджи).
Выявление ассоциаций позволяет обнаруживать закономерности, которые выявляют связь различных фактов одного и того же события (факты не разнесены по времени). Например, для анализа покупательской корзины необходимо знать, какие товары покупатели обычно приобретают одновременно. Такие товары в торговом зале можно расположить на соседних витринах и иметь одинаковые запасы этих товаров на складе.
Прогнозирование является самым сложным элементом анализа. Оно позволяет прогнозировать изменение какого-либо показателя (например, объема продаж) на основе анализа исторических данных. Для построения прогноза часто применяют системы "рассуждений на основе аналогичных случаев". Эти системы выбирают аналогичные ситуации, существовавшие в прошлом, и выбирают те значения показателей, которые были верными для этих ситуаций. Нейронные сети также применяются для прогнозирования.

В целом, можно сказать, что технология Data Mining может быть использована: в розничной торговле, банковском деле (например, для выявления мошенничества с кредитными карточками), телекоммуникациях (для внедрения привлекательных для клиентов услуг), страховом деле (анализ страховых выплат и установка страховых премий), медицине (установка диагноза и определение технологии лечения), производстве (анализ факторов, приводящих к возникновению брака).

Аналитические программные комплексы, реализующие технологию Data Mining, в основном являются предметно - ориентированными. То есть они ориентированы на определенный сектор бизнеса и учитывают его специфику. Например, программные продукты корпорации Oracle позволяют предвидеть запросы клиентов, анализировать результаты продаж, то есть они являются частью средств создания систем взаимодействия с клиентами (CRM - см. п. 2.1) [81]. Основным продуктом является Oracle Data Mining Suite. С помощью этого продукта можно разбить всех клиентов компании на категории, предсказывать изменения объемов продаж в зависимости от тех или иных условий. Продукт может извлекать данные из баз данных Oracle и других производителей, позволяет реализовывать параллельные вычисления, увеличивая скорость обработки терабайтов данных. Построенные с помощью Oracle Data Mining Suite модели предвидения (то есть новые знания) могут быть использованы в приложении Oracle CRM 11i, чтобы показать, например, списки клиентов, которые с наибольшей вероятностью ответят на определенные маркетинговые предложения. Для упрощения работы пользователя, в Oracle Data Mining Suite встроены специальные утилиты - мастера: мастер построения моделей; мастер поиска параметров, которые максимально влияют на решение конкретного вопроса; мастер экспорта и импорта данных. Для построения моделей могут быть использованы нейронные сети, "рассуждения на основе аналогичных случаев", деревья классификации.