Тема классификационный анализ лекция №9

Вид материалаЛекция

Содержание


Номинальные переменные
Порядковые переменные
2. Деревья классификации
3. Дискриминантный анализ (классификация с обучением)
4. Кластерный анализ (классификация без обучения)
5. Канонические корреляции
Подобный материал:
Тема 7. КЛАССИФИКАЦИОННЫЙ АНАЛИЗ

Лекция № 9

1. Разведочный анализ данных. Шкалы измерений

2. Деревья классификации

3. Дискриминантный анализ (классификация с обучением)

4. Кластерный анализ (классификация без обучения)

5. Канонические корреляции


1. Разведочный анализ данных. Шкалы измерений

При наличии большого количества переменных и отсутствии информации о связях и закономерностях одним из первых этапов анализа имеющихся данных является так называемый разведочный анализ данных. Как правило, при разведочном анализе учитывается и сравнивается большое число переменных, а для поиска осуществляется классификация и шкалирование переменных. Переменные различаются тем, насколько хорошо они могут быть измерены, или, другими словами, как много измеряемой информации обеспечивает шкала их измерений. Другим фактором, определяющим количество информации, является тип шкалы, в которой проведено измерение. Обычно используют следующие типы шкал измерений: номинальная, порядковая, интервальная и относительная.

Номинальные переменные используются только для качественной классификации. Это значит, что данные переменные могут быть измерены только в терминах принадлежности к некоторым существенно различным классам. Типичным примером номинальных переменных являются фирма-производитель, тип товара, признак его годности и т.д. Часто номинальные переменные называют категориальными.

Порядковые переменные позволяют ранжировать объекты, если указано, какие из них в большей или меньшей степени облают качеством, выраженным данной переменной. Однако они не позволяют судить насколько больше или насколько меньше данного качества содержится в переменной. Типичный пример – сортовка товара: высший, первый, второй, третий. Один и тот же товар различается качественно, однако сказать, что разница между ними 25% нельзя. Категориальные и порядковые переменные особенно часто возникают при анкетировании, например изме и сравнивать различия между ними. Пример – температура, измеренная в градусах, образует интервальную шкалу, так как можно оценить различие переменных уже в численной форме (40 градусов больше 30 на 10). Интервальную шкалу можно легко перевести в порядковую, если принять некоторые значения переменных как границы разных классов (пример, тепло или жарко на улице в течении месяца, принимая границу между классами «тепло» и «жарко» в значении переменной но их особенностью является наличие определенной точки абсолютного нуля. Как правило, это непрерывные переменные.

2. Деревья классификации

Деревья классификации - это метод, позволяющий предсказывать принадлежность наблюдений или объектов к тому или иному классу категориальной зависимой переменной в зависимости от соответствующих значений одной или нескольких предикторных переменных. Построение деревьев классификации - один из иерархического устройства сортировки монет. Заставим монеты катиться по узкому желобу, в котором прорезана щель размером с однокопеечную монету. Если монета провалилась в щель, то это 1 копейка; в противном случае она продолжает катиться дальше по желобу и натыкается на щель для двухкопеечной монеты; если она туда провалится, то это 2 копейки, если нет (значит это 3 или 5 копеек) - покатится дальше, и так далее. Таким образом, мы построили дерево классификации. Решающее правило, реализованное в этом дереве классификации , позволяет эффективно рассортировать горсть монет, а в общем случае применимо к широкому спектру задач классификации.

Деревья классификации идеально приспособлены для графического представления, и поэтому сделанные на их основе выводы гораздо легче интерпретировать, чем, если бы они были представлены только в числовой форме. Иерархическое строение дерева классификации - одно из

Процесс построения дерева классификации состоит из четырех основных шагов:
  1. Выбор критерия точности прогноза
  2. Выбор типа ветвления
  3. Определение момента прекращения ветвлений
  4. Определение "подходящих" размеров дерева

 В конечном счете, цель анализа с помощью деревьев классификации состоит в том, чтобы получить максимально точный прогноз. Самый классификаций.


3. Дискриминантный анализ (классификация с обучением)

Дискриминантный анализ используется для принятия решения о том, к какому классу (группе) отнести тот или иной объект (процесс) на основе изучения его параметров или характеристик.) товара и задача состоит в том, чтобы установить, какие из параметров вносят свой вклад в различие (дискриминацию) между отдельно группируемыми совокупностями (сортами) товаров, образующих генеральную совокупность. После этого принимается решение о принадлежности этого товара к определенной группе. Следовательно, этот вид статистического анализа является многомерным и основная идея дискриминантного анализа заключается в том, чтобы определить, отличаются ли совокупности по среднему какого-либо параметра (переменной), и затем использовать эту переменную, чтобы предсказать для новых членов их бластей. Каждая из областей отличается от другой величиной определенного параметра (а вернее значением его среднего) или совокупностей параметров, принятых за классификационный признак. Правило дискриминации выбирается в соответствии с определенным принципом оптимальности, например, минимум вероятности ложной классификации.

В практических расчетах различения переходят от вектора признаков к линейной функции (дискриминантная функция), которая для двух групп (классов) имеет вид линейного уравнения множественной регрессии, в котором в качестве зависимых переменных выступают кодированные признаки различения на группы. Если имеется более двух групп, то можно составить более, чем одну дискриминантную функцию. Например, когда имеются три совокупности, то можно оценить: (1) - функцию для дискриминации смысле очень похож на многомерный дисперсионный анализ. Когда получены дискриминантные функции, возникает вопрос о том, как хорошо они могут предсказывать, к какой совокупности принадлежит конкретный образец? Для этого определяют показатели классификации или классификационные функции и очередное наблюдение или конкретный образец относят к той группе, для которой классификационная группа имеет наибольшее значение.


4. Кластерный анализ (классификация без обучения)

Кластерный анализ представляет собой статистический метод, включающий набор различных алгоритмов, для распределения объектов по кластерам ( claster – гроздь, скопление). Разбиение объектов Н на целое число кластеров К, так чтобы каждый объект принадлежал одному и только одному подмножеству разбиения. При этом объекты, принадлежащие одному и тому же кластеру, должны быть сходными, а объекты, принадлежащие разным кластерам – разнородными.

Решением задачи кластерного анализа являются разбиения, удовлетворяющие критерию оптимальности. Этот критерий называют целевой функцией, в качестве которой, может быть, например, минимум суммы квадратов отклонений признаков объектов группы от среднего значения


min Σ(xi – xср)2


Сходство и разнородность объектов в группах буде характеризоваться некоторой величиной, которая получила названия – функция расстояния. Чем больше функция расстояния между объектами, тем более они разнородны. Понятно, что если эта функция превышает некий установленный предел, то объекты следует соотносить к разным группам (кластерам). В зависимости от используемого алгоритма кластеризации различают следующие функции расстояния:

- евклидова метрика (Σxi – xj)2)1/2;

- манхэттенское расстояние Σ|xi – xj|;

- расстояние Чебышева max|xi – xj|,

и др. рассматриваются как отдельные кластеры. В дальнейшем на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, и, с учетом принятой функции расстояния, по формуле пересчитываются все расстояния. При достижении целевой функции итерации прекращаются.


5. Канонические корреляции

Классический корреляционный анализ позволяет найти статистические зависимости между двумя переменными, так называемые ду двумя множествами переменных используют методы канонического анализа. Канонический анализ являясь обобщением множественной корреляции как меры связи между одной случайной величиной и множеством других случайных величин, рассматривает связи между множествами случайных величин. При этом ограничивается рассмотрением небольшого числа наиболее коррелированных линейных комбинаций из каждого множества.

В основе анализа канонической корреляции лежит использование канонических корней или канонических переменных, которые рассматриваются как «скрытые» переменные, характеризующие наблюдаемые явления. Число канонических корней равно числу переменных в меньшем множестве.

Практически при определении канонической корреляции строится отдельная матрица корреляций, представляющая собой произведение стандартных корреляционных матриц, характеризующих зависимости между двумя отдельными переменными. Затем вычисляется столько собственных значений полученной матрицы, сколько имеется канонических корней. Если извлечь квадратный корень из полученных собственных значений , получим набор чисел, который можно проинтерпретировать как коэффициенты корреляции. Поскольку они относятся к каноническим переменным, их также называют каноническими корреляциями.

Работу дискриминантного, кластерного и канонического анализа целесообразно оценивать с помощью специальных статистических пакетов, реализующих эти алгоритмы на ЭВМ.