Нство компании стало пользоваться средствами обработки цифровой информации, появился и побочный продукт этой активности большие массивы разнородной информации

Вид материалаРеферат
Описательный анализ
Модели прогноза
Сегментации клиентов по ценности
Анализ жизненного цикла отношений с клиентами
Ранжирование клиентов
Подобный материал:
1   2   3

Описательный анализ

Сегментация и кластеризация широко используются для группировки клиентов со сходными характеристиками, чтобы выявить шаблоны, которые можно использовать при формировании маркетинговых инициатив.

Базовая сегментация часто используется для группировки клиентов по легко различаемым и независимым признакам, таким как демографические данные, возраст, пол, доход и т.д. Сегментация должна формировать группировку, ведущую к лучшему пониманию структуры клиентской базы и, соответственно, характеру маркетинговых инициатив.

Кластеризация часто используется для описания независимых подсегментов на основании набора предварительно выбранных характеристик, к которым относятся ключевые индикаторы потребительского поведения. Большие компании часто используют географические, демографические, социальные, экономические характеристики, наложенные на потребительские показатели для продвижения брэнда. Некоторые компании используют понятие «ценность кластера» при построении маркетинговой деятельности на основании текущей или потенциальной ценности соответствующей группы клиентов.

Пересекающиеся сегменты требуют более сложных аналитических методов и предполагают учет особенностей характера поведения клиентов. Например, какой-либо клиент может тратить много средств на какую-либо услугу, но не тратить ничего на сопутствующие услуги и товары. Эти закономерности потребления должны служить факторами дальнейшего разделения клиентов на различные группы.

Другим примером описательного анализа может служить так называемый анализ рыночных корзин, который связывает вместе продукты на основании их совместного покупательского потребления.

Анализ последовательностей действий — также пример описательного анализа. В этом случае выявляются паттерны во временной последовательности выполняемых клиентом действий, будь то заказы или клики на сайте.


Модели прогноза


Прогнозирование — мощное аналитическое средство, использующее статистические методы для предсказания поведения клиентов на основании большого количества различных факторов. Модели прогноза определяют факторы, в наибольшей степени влияющие на какой-либо целевой показатель, определяют степень и характер такого влияния. Результатом моделирования является количественное описание зависимости, на основании которого можно построить прогноз значения целевого показателя в зависимости от значений входных факторов.


Существуют множество методов прогнозирования. Большое распространение получили методы, оценивающие силу влияния тех или иных факторов на изменчивость целевого показателя.

Модели CHAID или CART создают деревья решений по наиболее информативным атрибутам. Деревья решений популярны из-за высокой точности прогноза на большинстве видов бизнес-данных, а также благодаря легкости понимания результата, формулируемого в виде последовательностей условий и результата прогноза.

Считается, что нейронные сети имитируют в определенной степени работу человеческого мозга в части интуитивного обучения на опыте. В процессе обучения определяются характеристики связей между нейронами сети для минимизации ошибок классификации обучающих данных. Достоинствами нейронной сети является высокая точность прогнозирования, а недостатками —

сложная настройка, длительное обучение, а также невозможность вербальной интерпретации полученных результатов, поскольку система функционирует как «черный ящик».

Для прогнозирования, кроме деревьев решений и нейронных сетей, используются также байесовские сети, логистическая и линейная регрессия, дискриминантный анализ, метод опорных векторов, генетические алгоритмы и др.

Модели прогнозирования могут использоваться для предсказания реакции на целевое направленное предложение. Для индивидуальных клиентов или предприятий можно оценить вероятности отклика на то или иное предложение. Эти оценки далее будут использоваться для реализации сценариев «что — если» при выработке маркетинговых программ.

Модели оценки рисков могут использоваться для определения вероятности отказа от обязательств, неуплаты. Эти модели чаще всего основываются на данных кредитного отдела. Для статистически обоснованных выводов требуются большие объемы данных и длительный исторический период. В последнее время распространение получил анализ характеристик поведения представителей клиента, являющихся индикатором серьезных проблем в бизнесе. Эти модели призваны своевременно выявить риск разорения или ликвидации клиента.


Рассмотрим применение методов Data Mining в управлении взаимоотношениями с клиентами.


Сегментации клиентов по ценности


Сегментация клиентов по ценности может предоставить данные для эффективного построения описательных и предсказательных моделей. Компания может сформировать описание своих клиентов в виде матрицы 2x2 и поместить их в соответствующий квадрант на основании их текущей и потенциальной ценности. Инициативы по управлению взаимоотношениями с клиентами могут быть начаты в каждом из четырех квадрантов.


Квадрант 1: «Высокая текущая ценность/высокая потенциальная ценность». Основа политики взаимоотношений — удержание. В зависимости от вида коммерческой деятельности 10% наиболее прибыльных клиентов могут представлять от 50 до 80% прибыли компании, таким образом потеря клиента из этого квадранта может быть очень чувствительна для бизнеса в целом. Следовательно, компания должна выполнять действия по удержанию клиентов из первого квадранта.


Квадрант 2: «Низкая текущая ценность/высокая потенциальная ценность». Основа политики — улучшение взаимоотношений. Ценность этих клиентов для компании может быть увеличена посредством прямой работы с ними, а также за счет кросс-продаж. Возможно, эти клиенты не получили интересных предложений в прошлом или столкнулись с неадекватным сервисом со стороны менеджеров. Должны быть предприняты попытки по расширению и углублению коммерческих взаимоотношений с клиентами второго квадранта.


Квадрант 3: «Высокая текущая ценность/низкая потенциальная ценность». Основа политики — изучение ситуации. Необходимо изучение таких клиентов, чтобы определить тех, с которыми можно найти больше точек соприкосновения в будущем, а также выявить рыночные сегменты, в которых будущее сотрудничество наиболее вероятно.


Квадрант 4: «Низкая текущая ценность/низкая потенциальная ценность». Основа политики — завершение контактов. Предполагается не предпринимать активных действий с клиентами четвертого квадранта и сконцентрироваться на работе с клиентами других квадрантов.


Комбинация системы сбора информации о клиентах, системы построения аналитической отчетности и системы выявления закономерностей в данных позволит компаниям лучше понять свою клиентскую базу и построить более эффективные и результативные взаимоотношения со своими клиентами. Как только компания начинает полноценно использовать информацию о своих клиентах, улучшаются финансовые показатели, а также уменьшаются критические риски отказа от обязательств, отказа от услуг и потери важных клиентов. Все большее число компаний приходят к выводу о том, что необходимо автоматизировать добычу знаний о клиентах и доводить эти знания до отделов продаж, маркетинга, кредитного отдела и топ-менеджеров.


Анализ жизненного цикла отношений с клиентами


Под жизненным циклом отношений с клиентами понимается процесс прохождения различных стадий взаимоотношений между ними и бизнесом.

Основными стадиями жизненного цикла отношений с клиентами являются:

возможные клиенты — люди или компании, которые не являются еще клиентами бизнеса, но входят в целевую рыночную группу.

респонденты — возможные клиенты, проявляющие интерес к продуктам или услугам компании.

активные клиенты — люди или компании, в данный момент использующие продукты или услуги.

бывшие клиенты — клиенты, с которыми сотрудничество закончилось по тем или иным причинам.

Ценность клиента, помимо прочего, зависит от стадии жизненного цикла его взаимоотношений с бизнесом, а также от возможности его перемещения на другую стадию. Эту информацию можно использовать для выработки оптимальной стратегии по обслуживанию различных групп клиентов (например, формируя специальные предложения, предлагая скидки).

Действия отдела маркетинга по работе с клиентами на различных стадиях должны заключаться в привлечении клиента, увеличении ценности клиента, удержании хорошего клиента. Чтобы успешно пройти эти стадии, следует выработать маркетинговые программы. Необходимо в первую очередь правильно выбирать целевую аудиторию кампании.

Стоимость получения нового клиента, по оценкам некоторых компаний, в пять-десять раз превышает стоимость удержания уже существующего клиента. Методы Data Mining позволяют выделить именно тех потенциальных клиентов, на которых нужно сконцентрировать свои усилия, чтобы сделать их активными клиентами, то есть перевести отношения с ними на другой этап жизненного цикла.

Представляют также большой интерес те клиенты, которые вероятно откажутся от услуг компании. Стоимость действий по возврату ушедшего клиента, по оценкам экспертов, в сотни раз превышает стоимость действий по удержанию. Поэтому предотвратить уход хорошего клиента — одна из важнейших задач любого успешного бизнеса. Data Mining позволит своевременно определить намеревающихся уходить прибыльных клиентов.


Обычно одной из задач Data Mining на первой стадии внедрения является построение профилей клиентов. Профиль — это некие общие характеристики, присущие определенной группе клиентов. Например, при помощи технологии Data Mining можно построить профиль высокодоходных клиентов, то есть узнать их общие характеристики и особенности потребительского поведения. Затем эти знания можно использовать для проведения кампаний, ориентированных на высокодоходных клиентов.

Существуют две технологии проведения маркетинговых кампаний, направленных на повышение прибыли от существующих клиентов — up-sell и cross-sell.


Up-sell — продажа дополнительных товаров или услуг. Существующим клиентам предлагаются товары и услуги, находящиеся в более высокой ценовой категории и обладающие улучшенными характеристиками по сравнению с обычными покупками того же клиента. Предложение up-sell чаще всего представляет собой улучшенную версию уже потребляемой клиентом услуги или товара, более персонифицированный подход к его обслуживанию и т.д.


Cross-sell — продажа сопутствующих товаров и услуг. Существующим клиентам предлагаются товары и услуги, дополняющие те товары и услуги, которые он обычно потребляет. Для формирования подобных предложений служат модели ассоциативных правил (рыночные корзины). Подобные модели выявляют частые совместно приобретаемые наборы товаров и услуг, а также правила, прогнозирующие приобретение сопутствующих товаров или услуг.


Методы Data Mining могут помочь оценить текущую стадию жизненного цикла отношения с клиентом и прогнозировать его перемещение на другую стадию на основании анализа сопутствующих событий. С этой целью необходимо построить классификационные и прогнозирующие модели, решающие следующие задачи:

классификация характеристик клиентов, находящихся в каждом из состояний;

выявление клиентов, находящихся на тех же стадиях жизненного цикла и определение клиентов с похожими особенностями поведения;

характеристика событий, ведущих к переходу на другие стадии жизненного цикла взаимоотношений с клиентами;

выявление клиентов, для которых вероятен переход в другое состояние; прогнозирование такого перехода для различных клиентов.

Таким образом, для анализа и оптимизации жизненного цикла взаимоотношений с клиентами было бы недостаточно внедрить CRM-систему, так как она сама по себе не может дать знаний о клиентах и не предоставляет возможность лучше их понять. Но именно знание и понимание текущей ситуации в бизнесе своих клиентов, а также появляющихся тенденций в нем является необходимым фактором увеличения прибыльности своего бизнеса в высококонкурентной среде.


Ранжирование клиентов


Ранжирование клиентов происходит в зависимости от вероятности продемонстрировать определенное поведение на заданном горизонте прогнозирования. Таким поведением может быть заинтересованность и последующая покупка сопутствующих товаров или услуг, переход на другой вид поставки или оплаты и т.д.

Ранжирование осуществляется посредством построения классификационной модели, учитывающей характеристики клиента и его покупательского поведения в качестве входных параметров и наличия той или иной особенности поведения в качестве выходного (предсказываемого) показателя. Обучение модели производится на основании исторических данных. Методы и алгоритмы обучения, а также их эффективность могут быть различными и зависят от качества, полноты и объема данных. Часто применяются алгоритмы нейронных сетей, деревья решений, сети Байеса и т.д. В процессе обучения исходные данные часто разделяются на две группы — обучающая и тестовая выборка. Обучающие данные используются для автоматического подбора параметров алгоритма, а тестовые — для проверки адекватности полученных параметров в процессе прогнозирования результатов, не участвующих в построении модели. Затем, на основании обученной модели для каждого клиента, поведение которого нужно спрогнозировать, вычисляется вероятность проявления в ближайшем будущем всех интересующих особенностей поведения.

Ранжирование клиентов используется для выделения в качестве объектов тех из них, которые в ходе маркетинговой компании с наибольшей вероятностью на нее откликнутся.


Data Mining представляет собой логическое дополнение CRM-систем, позволяющее управлять построением эффективных взаимоотношений с клиентами и, как следствие, повысить прибыльность бизнеса. А именно это и является основной целью при внедрении CRM-систем. Дополнение CRM-системы технологиями интеллектуального анализа данных способно дать синергетический эффект и на порядок увеличить рентабельность системы управления взаимоотношениями с клиентами.


1.3. Развитие технологии Data-Mining (Или скорее «История развития методов интеллектуального анализа данных»)

В различных областях человеческой деятельности (экономике, финансах, медицине, бизнесе, геологии, химии, и др.) повседневно возникает необходимость решения задач анализа, прогноза и диагностики, выявления скрытых зависимостей и поддержки принятия оптимальных решений. Вследствие бурного роста объема информации, развития технологий ее сбора, хранения и организации в базах и хранилищах данных (в том числе интернет-технологий), точные методы анализа информации и моделирования исследуемых объектов зачастую отстают от потребностей реальной жизни. Здесь требуются универсальные и надежные подходы, пригодные для обработки информации из различных областей, в том числе для решения проблем, которые могут возникнуть в ближайшем будущем. В качестве подобного базиса могут быть использованы технологии и подходы математической теории распознавания и классификации.


Данные подходы в качестве исходной информации используют лишь наборы описаний-наблюдений объектов, предметов, ситуаций или процессов (выборки прецедентов), при этом каждое отдельное наблюдение-прецедент записывается в виде вектора значений отдельных его свойств-признаков. Выборки признаковых описаний являются простейшими стандартизованными представлениями первичных исходных данных, которые возникают в различных предметных областях в процессе сбора однотипной информации, и которые могут быть использованы для решения следующих задач:

- распознавание (классификация, диагностика) ситуаций, явлений, объектов или процессов с обоснованием решений;

- прогнозирование ситуаций, явлений, процессов или состояний по выборкам динамических данных;

- кластерный анализ и исследование структуры данных;

- выявление существенных признаков и нахождение простейших описаний;

- нахождение эмпирических закономерностей различного вида;

- построение аналитических описаний множеств (классов) объектов;

- нахождение нестандартных или критических случаев;

- формирование эталонных описаний образов.


Первые работы в области теории распознавания и классификации по прецедентам появились в 30-х годах прошлого столетия и были связаны с байесовской теорией принятия решений (работы Неймана, Пирсона), применением разделяющих функций к задаче классификации (Фишер), решением вопросов проверки гипотез (Вальд). В 50-х годах появились первые нейросетевые модели распознавания (перцептрон Розенблата), связанные с успехами в моделировании головного мозга. К концу 60-х годов уже были разработаны и детально исследованы различные подходы для решения задач распознавания в рамках статистических, перцептронных моделей, и моделей с разделяющими функциями. Итоги данных и последующих исследований были представлены в ряде монографий. Большой вклад в развитие теории распознавания и классификации внесли советские и, в последующем, российские ученые: Айзерман, Браверман, Розоноэр (метод потенциальных функций), Вапник, Червоненкис (статистическая теория распознавания, метод «обобщенный портрет»), Мазуров (метод комитетов), Ивахненко (метод группового учета аргументов), Загоруйко (алгоритмы таксономии и анализа знаний), Лбов (логические методы распознавания и поиска зависимостей). Интенсивные исследования проводились с конца 60-х годов в ВЦ АН СССР (в настоящее время ВЦ РАН). Еще в начале 60-х академиком РАН Журавлевым был предложен тестовый алгоритм распознавания – логический метод эффективного решения задач распознавания при малом числе обучающих прецедентов. Данный алгоритм получил широкое обобщение в виде класса алгоритмов вычисления оценок и, в последующем, алгебраической теории распознавания. К настоящему времени в данном направлении теории распознавания проводят исследования чл. корр. РАН Рудаков (общая теория проблемно-ориентированного алгебраического синтеза корректных алгоритмов, чл. корр. РАН Матросов (статистическое обоснование алгебраического подхода), Рязанов (оптимизация моделей классификации, коллективные решения задач кластерного анализа), Дюкова (асимптотически-оптимальные логические алгоритмы), Сенько (алгоритмы взвешенного статистического распознавания), Асланян (логические алгоритмы распознавания) и многие другие исследователи России, СНГ и дальнего зарубежья.


Разработки программных систем анализа данных и прогноза по прецедентам также активно ведутся в России и ведущих зарубежных странах. Прежде всего, это статистические пакеты обработки данных и визуализации (SPSS, STADIA, STATGRAPHICS, STATISTICA, SYSTAT, Олимп: СтатЭксперт Prof., Forecast Expert, и другие), в основе которых лежат методы различных разделов математической статистики – проверка статистических гипотез, регрессионный анализ, дисперсионный анализ, анализ временных рядов, и др. Использование статистических программных продуктов стало стандартным и эффективным инструментом анализа данных, и, прежде всего, начального этапа исследований, когда находятся значения различных усредненных показателей, проверяется статистическая достоверность различных гипотез, находятся регрессионные зависимости. Вместе с тем статистические подходы имеют и существенные недостатки. Они позволяют оценить (при выполнении некоторых условий) статистическую достоверность значения прогнозируемого параметра, гипотезы или зависимости, однако сами методы вычисления прогнозируемых величин, выдвижения гипотез или нахождения зависимостей имеют очевидные ограничения. Прежде всего, находятся усредненные по выборке величины, что может быть достаточно грубым представлением об анализируемых или прогнозируемых параметрах. Любая статистическая модель использует понятия «случайных событий», «функций распределения случайных величин» и т.п., в то время как взаимосвязи между различными параметрами исследуемых объектов, ситуаций или явлений являются детерминированными. Само применение статистических методов подразумевает наличие определенного числа наблюдений для обоснованности конечного результата, в то время как данное число может быть существенно больше имеющегося или возможного. Т.е. в ситуациях анализа в принципе непредставительных данных, или на этапах начала накопления данных, статистические подходы становятся неэффективными как средство анализа и прогноза.


В последние годы появились узкоспециализированные пакеты интеллектуального анализа данных. Для данных пакетов часто характерна ориентация на узкий круг практических задач, а их алгоритмической основой является какая-либо одна из альтернативных моделей, использующая нейронную сеть, решающие деревья, ограниченный перебор, и т.п. Подобные разработки существенно ограничены при практическом использовании. Во-первых, заложенные в них подходы не является универсальными относительно размерностей задач, типа, сложности и структурированности данных, величины шума, противоречивости данных, и т.п. Во-вторых, созданные и «настроенные» на решение определенных задач, они могут оказаться совершенно бесполезными для других. Наконец, множество задач, представляющих интерес практическому пользователю, обычно шире возможностей отдельного подхода. Например, пользователю может быть важно иметь численную характеристику надежности некоторого прогноза, но «решающее дерево» ее не вычисляет. «Нейронная сеть» выступает в роли «черного ящика», предлагающего некоторый прогноз без его обоснования. Логические методы распознавания позволяют выявлять логические закономерности в данных и использовать их при прогнозировании, но при наличии линейных зависимостей между признаками и прогнозируемой величиной точность прогноза, сделанного «линейной машиной», может быть заметно выше.


Таким образом, на настоящем уровне развития методов решения задач анализа данных и распознавания, представляется предпочтительным путь создания программных средств, включающих основные существующие разнообразные подходы. В данном случае повышаются шансы подбора из имеющихся алгоритмов такого алгоритма, который обеспечит наиболее точное решение интересующих пользователя задач на новых данных. Другим важным атрибутом систем анализа и классификации должно быть наличие средств автоматического решения задач распознавания и классификации коллективами алгоритмов. Действительно, стандартной ситуацией является наличие нескольких альтернативных алгоритмов или решений, равнозначных для пользователя. Для выбора из них одного наиболее предпочтительного не хватает информации. Тогда естественной альтернативой выбору является создание на базе имеющихся алгоритмов или решений новых, более предпочтительных.


Теоретические основы практической реализации идеи решения задач анализа данных коллективами алгоритмов были разработаны в ВЦ РАН в рамках алгебраического подхода для решения задач распознавания (логическая и алгебраическая коррекция алгоритмов) в 1976-1980 и комитетного синтеза классификаций для задач кластерного анализа (автоматической классификации) в 1981-1982 годах. Позднее появились исследования в данной области и в других странах.


В алгебраическом подходе новые алгоритмы распознавания строятся в виде полиномов над исходными алгоритмами (применение алгебраических корректоров) или в виде специальных булевских функций (логических корректоров). Теоретическим базисом является теорема о существовании для произвольного алгоритма распознавания ему эквивалентного стандартного алгоритма, представимого в виде произведения распознающего оператора и решающего правила. Это позволяет описать основные результаты вычислений произвольных алгоритмов распознавания в стандартном виде с помощью числовых матриц оценок («мер принадлежности» объектов к классам) и информационных матриц окончательных ответов (классификаций). Матрицы оценок различных распознающих алгоритмов являются «исходным материалом» для синтеза в виде полиномов новых матриц оценок, которые задают основу нового скорректированного решения задачи распознавания. Алгебраический подход позволяет строить алгоритмы, безошибочные на «обучающем» материале или совершающие меньшее число ошибок, чем каждый из исходных алгоритмов.

В настоящее время существует множество разнообразных подходов и конкретных эвристических алгоритмов для решения задач кластерного анализа (таксономии, или классификации без учителя), когда требуется найти естественные группировки похожих объектов (кластеры) по заданной выборке их векторных признаковых описаний. Решения, найденные различными алгоритмами, могут существенно отличаться друг от друга и даже фактически не соответствовать заложенной в данных действительности. Поиск наилучшего решения затруднен отсутствием общепризнанных универсальных критериев качества решений. Методы построения оптимальных коллективных решений в задачах кластерного анализа позволяют находить такие группировки объектов, которые являются эквивалентными с позиций сразу нескольких исходных алгоритмов. Оптимальные кластеризации находятся в результате решения специальных дискретных оптимизационных задач на перестановках.


Для успешного внедрения data mining компании необходимо осуществить 3 фазы:

Фаза 1– Бизнес-фаза. Выделяются бизнес-возможности и проводится их оценка с учетом доступных данных.

Фаза 2– Фаза data mining. Подготовка данных для data mining, построение моделей, сравнение моделей для оценки прогнозов и выбор лучшей модели.

Фаза 3– Операционная фаза. Запуск модели data mining в действие, оценка ее влияния на бизнес и поддержка.


Процесс data mining должен начинаться с выявления бизнес-возможностей. На диаграмме показаны три фазы процесса DM, а также основные задачи этих фаз и их пересечения.


(диаграмма)