Нство компании стало пользоваться средствами обработки цифровой информации, появился и побочный продукт этой активности большие массивы разнородной информации
Вид материала | Реферат |
Операционная фаза |
- Тема «Введение в Data Mining», 138.28kb.
- Программы для просмотра Web-страниц, работы с электронной почтой, скачивания информации,, 25.58kb.
- Аналитическая обработка разнородной текстовой информации, 165.44kb.
- Реферат, 73.18kb.
- Рабочая программа По дисциплине «Цифровые методы обработки аудио визуальной информации», 267.73kb.
- И. А. Защита информации в субд. Лекция, 137.23kb.
- «Обработка изображений» Общая трудоемкость изучения дисциплины составляет, 15.75kb.
- Реферат по дисциплине «Поиск и обработка экономической информации» на тему: «Автоматизированных, 153.2kb.
- Рабочая программа По дисциплине «Основы обработки визуальной информации» По специальности, 230.56kb.
- Устройства хранения информации, 57.74kb.
Бизнес-фаза
Эта первая фаза представляет собой более детальный вариант общего процесса сбора требований для системы data mining. Важно выявить список возможностей, которые могут оказать существенное влияние на бизнес, и проранжировать их. Бизнес-возможности и задачи понимания данных на диаграмме соединяются: чтобы выявить возможности, их надо соотнести с реалиями мира данных. Кроме того, данные сами по себе могут дать информацию о бизнес-возможностях.
Как обычно, самый важный шаг в успешном внедрении DM связан не с технологией, а с пониманием бизнеса. Необходимо узнать о потенциальных возможностях и соответствующих отношениях и связях внутри данных. Целью этого должно стать выявление и тщательное изучение нескольких важных возможностей.
В первую очередь, надо описать бизнес-цели так, чтобы можно было дать их количественную оценку. Далее нужно обдумать, какие факторы влияют на цели. Обсуждая эти факторы, нужно постараться преобразовать их в специальные атрибуты и свойства, представимые в доступной и удобной форме.
Проведя несколько процессов по идентификации и классификации возможностей, следует выбрать самую приоритетную из них, сделать соответствующий список потенциальных переменных. Не стоит жалеть времени на исследование наборов данных, которые могут быть связаны с обсуждаемыми возможностями. На этом этапе цель состоит в проверке того, что данные, необходимые для поддержки бизнес-возможности, доступны и не содержат ошибок, а, следовательно, их можно использовать.
Выявив четкую и реальную возможность, нужно документально зафиксировать следующие аспекты:
- описание бизнес-возможности;
- ожидаемые проблемы данных;
- описание процесса моделирования;
- план внедрения;
- план поддержки.
Наконец, нужно обсудить бизнес-возможность и документацию с бизнес-пользователями и убедиться, что их потребности понятны и они четко знают, как будут решаться их задачи.
Стадия Data mining
Теперь необходимо построить несколько моделей data mining. Три основные задачи этой стадии включают:
- подготовку данных;
- разработку альтернативных моделей и сравнение их точности;
- оценку конечной модели.
На диаграмме проиллюстрирован этот итеративный процесс
Рис.1. Процесс data mining
Первая задача на этом этапе состоит в построении ситуативных выборок (data mining case sets). Процесс построения ситуативных выборок обычно включает запросы и преобразования, которые генерируют структуру данных, состоящую из отдельных наблюдений, или ситуаций (cases), часто с повторяющимися вложенными структурами, которые затем передаются в приложение data mining.
Существует несколько видов выборок:
Обучающая - используется в качестве входных данных алгоритма для разработки исходной модели.
Оценочная - используется для того, чтобы убедиться, что алгоритм создал модель, которая имеет широкое применение, а не привязана к обучающей выборке. Применяется только в определенных обстоятельствах.
Тестовая - данные, не включенные в обучающую выборку. Часто их называют скрытыми. Применяются для проверки точности и эффективности модели.
После разработки наборов данных начинается процесс создания моделей. Нужно стараться, насколько позволяет время, разработать как можно больше различных моделей и версий. Необходимо использовать различные алгоритмы, параметры и переменные, выясняя, что оказывает максимальное влияние или дает лучшую точность. Кроме того, можно вернуться к задаче подготовки данных, добавляя новые переменные или переопределяя существующие преобразования. Чем больше вариантов будет протестировано, тем лучше окажется конечная модель.
Создание лучшей модели data mining – это процесс триангуляции. Необходимо применять к данным несколько алгоритмов: деревья решений, нейронные сети и выводы путем сопоставления (memory-based reasoning). Если несколько моделей приводят к одинаковым результатам, значит, найден наилучший сценарий. Это особенно полезно, когда инструмент выдает ответ, но не предлагает интуитивного объяснения (наиболее часто встречающаяся проблема нейронных сетей). Триангуляция дает всем пользователям (особенно бизнес-пользователям и менеджерам) уверенность в том, что за прогнозами реально что-то стоит.
В data mining существует два типа оценки моделей. Технический подход состоит в сравнении главных моделей, которое показывает, какая из них наиболее эффективная в плане прогнозирования целевых переменных. Инструмент DM должен обеспечивать средства для сравнения эффективности определенных типов моделей.
Необходимо задокументировать содержимое "лучшей" модели, а также провести оценку ее осмысленности и эффективности. Выбор модели – это всегда бизнес-решение. Следующий шаг состоит в том, чтобы использовать модель в реальной жизни.
Операционная фаза
Операционная фаза – это этап, когда сделаны все приготовления и можно приступать к практическому использованию найденной лучшей модели (с учетом временных, технологических и информационных ограничений).
Операционная фаза включает три основные задачи: внедрение, оценку результатов работы и поддержку.
Модель профилирования клиентов, которая запускается раз в квартал, требует участия только специалиста по исследованию данных и ETL-разработчика. С другой стороны, для выполнения оперативных рекомендаций необходимо привлечь разработчиков приложений и сотрудников производственной сферы, что потребует немалых усилий. Если ведется работа над крупным проектом, то этих людей надо пригласить как можно раньше, лучше всего – на бизнес-стадии. Тогда они смогут определить соответствующие временные рамки и ресурсы. Целесообразно разбить внедрение модели data mining на фазы, начиная с тестовой версии. Это гарантирует, что сервер data mining не будет влиять на процесс выполнения транзакций.
Оценка влияния модели data mining может стать сложной задачей. В некоторых областях, например, в почтовой рассылке, процесс настройки и тестирования маркетинговых предложений, списков целевых и второстепенных потенциальных покупателей – серьезная работа для большой команды сотрудников. Обычно такая группа проводит тестирование на небольших подмножествах, прежде чем проводить массовые рассылки. Даже при выполнении маркетинговых кампаний процесс, как правило, выполняется в несколько этапов с различными версиями и контрольными подмножествами. Результаты каждого этапа используются для оптимального проведения последующих. Необходимо максимально следовать именно такому подходу тщательной оценки.
Важно помнить, что по мере изменения ситуации во внешнем мире поведения и связи, отражаемые в модели, устаревают. Почти все модели data mining необходимо переобучать или полностью перепроектировать на каком-то этапе. Например, механизм рекомендаций, который не включает последних продуктов, окажется абсолютно бесполезен.
Метаданные
Конечная модель data mining должна быть детально задокументирована. Специалист по data mining обязан точно знать, как была создана модель, чтобы объяснить ее ценность, избежать повторения ошибок и при необходимости воссоздать ее.
Современное программное обеспечение для data mining настолько прозрачно в использовании, что часто на документирование каждой итерации уходит больше времени, чем на ее выполнение. Тем не менее, важно отслеживать то, что происходит, и откуда что берется. Необходимо хранить базовый набор метаданных, чтобы проверять содержимое и источник всех преобразованных наборов данных, а также результирующие модели. В идеале, инструмент data mining обеспечивает средства проверки этих изменений. В самом простом случае можно использовать электронные таблицы.
Для каждой модели data mining необходимо хранить электронную таблицу, в которой содержатся следующие параметры:
название модели;
версия и дата создания;
обучающие и тестовые выборки;
алгоритмы;
настройки параметров;
входные и прогнозируемые переменные;
результаты.
Электронная таблица должна содержать определения входящих наборов данных, указания на источники данных и названия ETL-модулей, применявшихся для создания входящих наборов.
Такой подход позволит успешно интегрировать data mining с системой ХД/BI. Важно помнить, что самый простой путь к успеху начинается с понимания бизнес-требований и заканчивается получением бизнес-результатов.
Краткое обобщение
Оптимальные методы ХД/BI в Kimball University**
Data mining становится более эффективным, доступным и менее дорогим средством. Нижеследующий бизнес-подход, состоящий из трех фаз, позволит успешно внедрить data mining в среду ХД/BI.