Задачи dm : классификация; класте­ризация; поиск ассоциаций и корреляций; выявление типовых образцов на заданном множестве

Вид материалаЛекция

Содержание


Схема процесса ИАД на основе технологии DM
Darwin, Loyalty Stream
Подобный материал:
Лекция №14


Глубинный анализ данных


Технология DM предназначена для анализа структурированных данных с помощью математических моделей, основанных на статистических, вероятностных и оптимизационных методах, с целью выявления в них заранее неизвестных закономерностей, зависимостей и извлечения непредви­денной информации.


Основные задачи DM:
  • классификация;
  • класте­ризация;
  • поиск ассоциаций и корреляций;
  • выявление типовых образцов на заданном множестве;
  • обнаружение объектов данных, не соответствующих установленным характеристикам и поведению;
  • исследование тенденций во временных рядах и др.


В рамках DM для сегментирования данных применяются ИНС и методы кластерного анализа,
для индуктивного выводадеревья при­нятия решений,
для выявления в информационных массивах часто встречающихся пар объектовстатистические и ассоциативные методы.


Процесс ИАД включает четыре основных этапа:
  1. На первом этапе аналитик формулирует постановку задачи в терминах целевых переменных;
  2. На втором этапе осуществляется подготовка данных для анализа;
  3. На третьем этапе проводится анализ данных с помощью методов DM;
  4. На четвертого этапе осуществляется верификация и интерпретация полученных результатов (извлеченных знаний). При верификации применяется тестовый набор записей, выделенных из исходных данных и не подвергавшихся анализу.

Схема процесса ИАД на основе технологии DM





Пример некоторых зарубежных продуктов DM:

  1. Intelligent Miner (разработчик — фирма IBM). Используются ИНС, методы предсказывающего моделирования, обнаружения ассоциаций, сегментации БД и др.;
  2. Decision Series (разработчик — Neo Vista Software). Используются ИНС, деревья и кластеры решений, ассоциативные правила;
  3. Darwin, Loyalty Stream (разработчик — Thinking Machines). Используются ИНС и деревья решений.


В качестве примера российского продукта DM отметим систему Poly-analyst фирмы Megaputer (ссылка скрыта).


Она позволяет выявлять многофакторные зависимости, которые представляются в виде функциональных выражений, а также формировать структурные и классификационные правила.


В Polyanalyst используются:
  • метод группировки и поиска ближайшего соседа;
  • генети­ческие алгоритмы;
  • ИНС;
  • статистические и ассоциативные методы;
  • деревья решений;
  • регрессионные модели;
  • методы кластерного анализа;
  • методы эволюци­онного программирования.


Унификация и стандартизация технологий DM являются целями проекта CRISP-DM — Cross Industry Standard Process for Data Mining (ссылка скрыта.).


Его результаты реализуются в рамках CASE-системы для разработки средств DM.


Примеры практических приложений DM в экономике


Задачи, решаемые методами DM в экономике:


  • торговля,
  • логистика,
  • банковское кредитование,
  • страхование,
  • анализ анкет и многие другие.


Объединение концепции хранилищ данных, OLAP и DM позволяет решить в торговле ряд ключевых задач, которые обеспечивают комплексное информационно-аналитическое обеспечение организации для принятия стратегических решений:

  • консолидация данных.
  • регулярная отчетность.
  • обработка нерегламентированных запросов.
  • прогнозирование продаж.
  • Сегментация:
  • Сегментация клиентской базы.
  • Сегментация сети торговых отделов.
  • Сегментация товарной продукции.



Все задачи, решаемые методами DM, можно условно разбить на пять классов:

  1. Классификация.
  2. Кластеризация.
  3. Регрессия.
  4. Ассоциация.
  5. Последовательные шаблоны.


Для решения вышеперечисленных задач используются различные методы и алгоритмы DM.

На сегодня наибольшее распространение получили самообучающиеся методы и машинное обучение.


Наиболее известные алгоритмы и методы, применяемые для решения задач DM:

  • Деревья решений (классификации, решающих правил)
  • Искусственные нейронные сети (ИНС)
  • Линейная регрессия
  • Кластерный анализ
  • Самоорганизующиеся карты
  • Ассоциативные правила
  • Последовательные шаблоны