Задачи dm : классификация; кластеризация; поиск ассоциаций и корреляций; выявление типовых образцов на заданном множестве
Вид материала | Лекция |
СодержаниеСхема процесса ИАД на основе технологии DM Darwin, Loyalty Stream |
- Лекция Понятия множества и элементы множества. Способы задания множеств, 353.91kb.
- Контрольная работа по учебной дисциплине «Методы оптимизации», 37.39kb.
- Программа > Результаты решения уравнения Обработка данных для получения статистических, 263.62kb.
- Цель и задачи Олимпиады Целью Олимпиады является поиск и выявление музыкально и интеллектуально, 54.37kb.
- Практическое задание №1. Классификация информационно-поискового пространства Интернет., 122.87kb.
- В. А. Анализ генетических и фенотипических корреляций в связи с некоторыми проблемами, 195.51kb.
- Задачи: Обзор теоретических и эмпирических работ, посвященным моделям привлечения благотворительных, 62.99kb.
- Задачи изучения дисциплины, 26.06kb.
- Темы курсовых работ по дисциплине «Безопасность и управление доступом в ис» Модель, 15.44kb.
- Adobe Photo Shop для решения сформулированных задач на множестве практических примеров., 624.92kb.
Лекция №14
Глубинный анализ данных
Технология DM предназначена для анализа структурированных данных с помощью математических моделей, основанных на статистических, вероятностных и оптимизационных методах, с целью выявления в них заранее неизвестных закономерностей, зависимостей и извлечения непредвиденной информации.
Основные задачи DM:
- классификация;
- кластеризация;
- поиск ассоциаций и корреляций;
- выявление типовых образцов на заданном множестве;
- обнаружение объектов данных, не соответствующих установленным характеристикам и поведению;
- исследование тенденций во временных рядах и др.
В рамках DM для сегментирования данных применяются ИНС и методы кластерного анализа,
для индуктивного вывода — деревья принятия решений, для выявления в информационных массивах часто встречающихся пар объектов — статистические и ассоциативные методы.
Процесс ИАД включает четыре основных этапа:
- На первом этапе аналитик формулирует постановку задачи в терминах целевых переменных;
- На втором этапе осуществляется подготовка данных для анализа;
- На третьем этапе проводится анализ данных с помощью методов DM;
- На четвертого этапе осуществляется верификация и интерпретация полученных результатов (извлеченных знаний). При верификации применяется тестовый набор записей, выделенных из исходных данных и не подвергавшихся анализу.
Схема процесса ИАД на основе технологии DM
Пример некоторых зарубежных продуктов DM:
- Intelligent Miner (разработчик — фирма IBM). Используются ИНС, методы предсказывающего моделирования, обнаружения ассоциаций, сегментации БД и др.;
- Decision Series (разработчик — Neo Vista Software). Используются ИНС, деревья и кластеры решений, ассоциативные правила;
- Darwin, Loyalty Stream (разработчик — Thinking Machines). Используются ИНС и деревья решений.
В качестве примера российского продукта DM отметим систему Poly-analyst фирмы Megaputer (ссылка скрыта).
Она позволяет выявлять многофакторные зависимости, которые представляются в виде функциональных выражений, а также формировать структурные и классификационные правила.
В Polyanalyst используются:
- метод группировки и поиска ближайшего соседа;
- генетические алгоритмы;
- ИНС;
- статистические и ассоциативные методы;
- деревья решений;
- регрессионные модели;
- методы кластерного анализа;
- методы эволюционного программирования.
Унификация и стандартизация технологий DM являются целями проекта CRISP-DM — Cross Industry Standard Process for Data Mining (ссылка скрыта.).
Его результаты реализуются в рамках CASE-системы для разработки средств DM.
Примеры практических приложений DM в экономике
Задачи, решаемые методами DM в экономике:
- торговля,
- логистика,
- банковское кредитование,
- страхование,
- анализ анкет и многие другие.
Объединение концепции хранилищ данных, OLAP и DM позволяет решить в торговле ряд ключевых задач, которые обеспечивают комплексное информационно-аналитическое обеспечение организации для принятия стратегических решений:
- консолидация данных.
- регулярная отчетность.
- обработка нерегламентированных запросов.
- прогнозирование продаж.
- Сегментация:
- Сегментация клиентской базы.
- Сегментация сети торговых отделов.
- Сегментация товарной продукции.
Все задачи, решаемые методами DM, можно условно разбить на пять классов:
- Классификация.
- Кластеризация.
- Регрессия.
- Ассоциация.
- Последовательные шаблоны.
Для решения вышеперечисленных задач используются различные методы и алгоритмы DM.
На сегодня наибольшее распространение получили самообучающиеся методы и машинное обучение.
Наиболее известные алгоритмы и методы, применяемые для решения задач DM:
- Деревья решений (классификации, решающих правил)
- Искусственные нейронные сети (ИНС)
- Линейная регрессия
- Кластерный анализ
- Самоорганизующиеся карты
- Ассоциативные правила
- Последовательные шаблоны