Многомерные статистические методы и их применение в экономике

Курсовой проект - Компьютеры, программирование

Другие курсовые по предмету Компьютеры, программирование

±людениям го класса.

Качество разбиения характеризуют и другим видом обобщенной дисперсии, в которой операция суммирования заменена операцией умножения

 

 

Oтметим, что функционалы и обычно используют при решении вопроса: не сосредоточены ли наблюдения, разбитые на классы, в пространстве размерности, меньшей, чем k.

 

1.1.4 Иерархические кластер - процедуры

Иерархические (деревообразные) процедуры являются наиболее распространенными алгоритмами кластерного анализа по их реализации на ЭВМ. Они бывают двух типов: агломеративные и дивизимные. В агломративных процедурах начальным является разбиение, состоящее из n одноэлементных классов, а конечным из одного класса; в дивизимных наоборот.

Принцип работы иерархических агломеративных (дивизимных) процедур состоит в последовательном объединении (разделении) групп элементов сначала самых близких (далеких), а затем все более отдаленных (близких) друг от друга. Большинство этих алгоритмов исходит из матрицы расстояний (сходства).

К недостаткам иерархических процедур следует отнести гpомоздкость их вычислительной реализации. Алгоритмы требуют на каждом шаге матрицы вычисления расстояний, а следовательно, емкой машинной памяти и большого количества времени. В этой связи реализация таких алгоритмов при числе наблюдений, большем нескольких сотен, нецелесообразна, а в ряде случаев и невозможна.

Приведем пример агломеративного иерархического алгоритма. На первом шаге каждое наблюдение (i=1,2,..,n) рассматривается как отдельный кластер. В дальнейшем на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, и, с учетом принятого расстояния, по формуле пересчитывается матрица расстояний, размерность которой, очевидно, снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединены в один класс. Большинство пpoгpaмм, реализующих алгоритм иерархической классификации, предусматривают графическое представление классификации в виде дeндpoгpaммы.

Пример 1

Провести классификацию n=6 объектов, каждый их которых характеризуется двумя признаками:

 

Номер объекта i123456

5

 

 

 

 

 

7

Расположение объектов в виде точек на плоскости показано на рисунке 1.

 

Рисунок 1 - Классификация объектов

 

Решение

Воспользуемся агломеративным иерархическим алгоритмом классификации. В качестве расстояния между объектами возьмем обычное евклидово расстояние. Тогда согласно формуле (2) расстояние между первым и вторым объектами

а между первым и третьим объектами

Очевидно, что

Аналогично находим расстояния между шестью объектами и строим матрицу расстояний

 

 

Из матрицы расстояний следует, что четвертый и пятый объекты наиболее близки и поэтому объединяются в один кластер.

После объединения объектов имеем пять кластеров:

 

Номер кластера12345Состав кластера(1)(2)(3)(4,5)(6)

Расстояние между кластерами определим по принципу "ближайшего соседа", воспользовавшись формулой пересчета (11). Так расстояние между объектом и кластером

 

 

Таким образом, расстояние равно расстоянию от объекта 1 до ближайшего к нему объекта, входящего в кластер т.е. . Toгдa матрица расстояний

 

 

Объединим второй и третий объекты, имеющие наименьшее расстояние . После объединения объектов имеем четыре кластера:

Вновь найдем матрицу расстояний. Для тoгo чтобы рассчитать pacстояние до кластера воспользуемся матрицей расстояний. Haпример, расстояние между кластерами и равно

 

Рисунок 2 - Дендрограмма

 

Проведя аналогичные расчеты, получим

 

Объединим кластеры и расстояние между которыми, согласно матрице наименьшее . В результате получим три кластера и

Матрица расстояний будет иметь вид:

 

 

Объединим теперь кластеры и , расстояние между которыми . В результате получим два кластера: и расстояние между которыми, найденное по принципу "ближайшего соседа".

Результаты иерархической классификации объектов представлены на рисунке 2 в виде дендрогpаммы.

На рисунке 2 приводятся расстояния между объединяемыми на данном этапе кластерами (объектами). В нашем примере предпочтение следует отдать предпоследнему этапу классификации, когда все объекты объединены в два кластера и

 

1.2 Дискриминантный анализ

 

.2.1 Методы классификации с обучением

Однородность изучаемых объектов определяется с помощью как дискриминантного, так и кластерного анализа. При этом к дискриминантому анализу обращаются тогда, когда методами кластерного анализа задача не решается, либо для её решения отсутствуют необходимые исходные данные. Методы дискриминантного анализа предполагают построение функции и нахождение на основе этой функции значения искомых параметров и и далее значение самой функции .

Приступая к изучению алгоритмов дискриминантного анализа, нужно помнить об их связи с предыдущими и прежде всего с алгоритмами кластерного анализа, как родственными.

В центре внимания дискриминантного анализа - выявление, идентификация и сравнение однородности групп по общности наблюдаемых объектов, определяемой по эмпирическим данным с их однородностью, устанавливаемой на основе обучающих (эталонных) оценок или выборок.

Вот почему акцент в этой рабо?/p>