Книги по разным темам Pages:     | 1 |   ...   | 7 | 8 | 9 | 10 | 11 |   ...   | 55 |

Отличительной чертой состояния российскойэкономики в период рыночных реформ является крайне высокий уровеньмежрегиональной дифференциации в уровне жизни населения68. Напротяжении 1995–1997годов разрыв в уровне среднедушевых доходов населения между наиболее богатыми инаиболее бедными регионами достигал нескольких раз. Несмотря на то что впоследнее время глубина неравенства несколько снизилась, дифференциация уровняжизни населения между отдельными регионами РФ остается крайне высокой по меркамразвитых стран, а также стран с переходной экономикой. К сожалению, анализситуации в этой области чрезвычайно затруднен из-за ограниченности официальнойстатистики о различных аспектах уровня жизни населения. Результаты опросов иобследований позволяют изучить проблему глубже, однако, эти данные не всегдарегулярны и не дают непрерывныхе серийи наблюдений. В рамках классификациирегионов РФ по характеристикам межрегиональной дифференциации уровня жизнинаселения мы намерены выделить классы регионов с относительно однороднымипоказателями уровня жизни. Результаты решения данной задачи в отдельности такжемогут быть использованы при дальнейшем изучении региональных проблемэкономического и социального развития России и выработке рекомендаций в областисоциальной политики и поддержки населения.

Как было сказано во введении, мыпредполагаем, что межрегиональная дифференциация уровня жизни населения можетбыть охарактеризована тремя показателями:

  1. Долей населения с доходами нижепрожиточного минимума, %
  2. Отношением среднедушевых доходов кпрожиточному минимуму, %
  3. Отношением среднедушевых расходов кпрожиточному минимуму, %.

Проведем кластеризацию регионов России (77регионов) в соответствующем трехмерном пространстве по этим трем показателям поданным за 1995–1999годы семью методами кластерного анализа с использованием семи различныхрасстояний.

Анализ всей совокупности регионов за всегоды всеми методами по всем расстояниям позволит выбрать метод и расстояние,дающие наиболее равномерное распределение исследуемых объектов по кластерам. ВПриложении 2 представлены результаты кластеризации регионов выбранным(формально лучшим) методом с полученным расстоянием по каждому году вотдельности.

Для выбора формально наилучшего методаклассификации определим величину энтропии, получаемую при классификации каждымметодом при различных расстояниях. Лучшей, как указывалось в 2.2.2, будетклассификация с максимальной неопределенностью.

Исходные данные.На рисунке 3.1.1 приведены графики изменения расстояния (в процентах отмаксимального расстояния) между объединяемыми кластерами в зависимости отномера итерации метода по всем рассматриваемым методам ирасстояниям.

Как видно из рисунка 3.1.1, в среднем повсем методам и расстояниям вплоть до 364-й итерации расстояние междуобъединяемыми кластерами не превышает 10% максимального, а до 340-й– 5%. Если нерассматривать явно выделяющиеся результаты методаAverage Linkage (Within Groups) с расстояниями Euclidean Distance, ChebychevDistance, City Block Distance и Minkowski Distance, то в среднем расстояниемежду объединяемыми кластерами не превышает 5% максимального вплоть до 367-йитерации, а 10% - до375-й.

Рисунок 3.1.1.Графики изменения расстояния между объединяемыми кластерами (расстояние напоследнем (382-м) шаге принимается за 100%)

Остановка методов кластеризации после 367-гошага позволяет разбить регионы России за рассматриваемые 5 лет на 16 кластеров.Результаты кластеризации для разбиения всей совокупности объектов (регионовРоссии за 5 лет) на 16 кластеров по всем рассматриваемым методам и расстояниямприведены в Приложении 2. В том же приложении приведеноы количества числорегионов, попавших в каждый из кластеров по всем методам и расстояниям, а такжеэнтропияи соответствующих классификаций (максимально возможная энтропия равнаlog216 = 4 бит). Как видноиз этих таблиц, разбиения регионов на кластеры при использовании различныхметодов и расстояний существенно отличаются друг от друга. Отметим, чтоклассификации, построенные с помощью метода SingleLinkage, при всех расстояниях обладают минимальнойнеопределенностью (от 0,473 до 0,827 бит). При этом большая часть израссматриваемых объектов попадает в один кластер, а в остальные 15 кластеровпопадают по 1 - 5 объектов(в одном случае 10). Это означает, что в ситуациях, когда нужно рассматриватьвсю совокупность объектов по исследуемому свойству, следует исключать израссмотрения объекты не входящие в самый большой кластер, поскольку онисущественно отличаются по этому свойству от входящих в негообъектов.

Максимальная энтропия (3,243 бит) отвечаетклассификации, построенной с помощью WardLinkage с использованием Squared Euclidean Distance.Следовательно, этот метод кластеризации приводит к наиболее равномернораспределенной классификации регионов. Данная классификация с координатамицентров кластеров, а а также движение регионов по различным кластерам в разныегоды приведены в Приложении 2. В таблице 3.1.1 количество регионов в кластеровпо годам.

Таблица 3.1.1.Количество регионов в кластерах в разные годы при кластеризации в соответствиис Ward Linkage по данным1995 –1999гг.

Кластер

1995

1996

1997

1998

1999

1

25

20

14

14

16

2

14

11

9

18

8

3

9

13

9

10

4

4

1

1

2

1

1

5

8

6

4

8

20

6

6

11

22

11

3

7

1

0

0

1

0

8

3

1

0

2

8

9

2

4

4

3

3

10

2

3

2

4

8

11

2

1

1

2

4

12

3

1

5

1

1

13

0

1

1

0

0

14

0

2

3

1

0

15

0

1

1

1

0

16

0

0

0

0

1

Всего

76

76

77

77

77

Сравнение результатов данной классификации,относящихся к 1995 г., с классификацией, построенной по данным 1995 г.,показывает (см. Приложение 2.), что 92,8% неопределенности второй классификацииопределяется знанием первой классификации, т.е. при переходе к кластеризациирегионов по данным за все года наблюдений, ошибка распределения регионов поданным, относящимся к 1995 году, возникающая за счет влияния данных за1996–1999 годы,составляет около 7%. По данным 1996 г. это соотношение составляет 93,8%, 1997г. - 81,2%, 1998 г.- 82,5%, 1999 г.- 93,7%. Следовательно,общая классификация, построенная по данным за все годы, в значительной мереобъясняет (в среднем 88,8%) частные классификации, построенные по данным заотдельные годы.

Нормированные данные. Использованные для кластеризации показатели, характеризующиемежрегиональную дифференциацию уровня жизни населения, неоднородны. Поэтомупроизведем нормировку показателей путем линейного преобразования так, чтобы всепеременные принимали значения на отрезке на отрезке [0, 100] (0 – минимальное значение, 100– максимальноезначение переменной) и построим классификацию в соответствии с нормированнымипоказателями. Для этого для каждого показателя, принимающего значенияxi,t (i - номер региона, t - год) введем значения yi,t следующим образом:

На рисунке 3.1.2 приведены графикизависимости расстояния от номера итерации между объединяемыми кластерами всоответствующем трехмерном пространстве.

Рисунок 3.1.2.Графики изменения расстояния между объединяемыми кластерами (расстояние напоследнем (382-м) шаге принимается за 100%) по нормированнымпоказателям.

Из рисунка 3.1.2 видно, что в этом случаерасстояния между объединяемыми кластерами растут более равномерно. 5% отмаксимального расстояния в среднем отвечает разбиение на 69 кластеров.При 10% в среднем производится 355 итераций объединения кластеров, чтосоответствует 28 кластерам. Если (аналогично предыдущему случаю) нерассматривать явно выделяющиеся результаты, полученные явно выделяющихсяметодамиов (Average Linkage (Within Groups) срасстояниями Euclidean Distance, Chebychev Distance, City Block Distance,Minkowski Distance и Single Linkage с расстоянием Cosine of Vectors ofValues), то 5% от максимального расстояния в среднемотвечает разбиение на 30 кластеров, а 10% - на 10 кластеров. Для сопоставимостирезультатов проведем разбиение всей совокупности объектов на 16 кластеров, чтоотвечает объединению кластеров с расстоянием между ними не превышающем 7,5% отмаксимального (в среднем). Результаты кластеризации по всем рассматриваемымметодам и расстояниям приведены в Приложении 2. Там же приведеноы количествачисло регионов, попавших в каждый из кластеров по всем методам и расстояниям, атакже энтропии соответствующих классификаций. Максимальная энтропия (3,667 бит)отвечает классификации, построенной с помощью Complete Linkage с использованиемрасстояния Cosine of Vectors of Values. Следовательно, этот метод кластеризации приводит к наиболееравномерному распределенню количества регионов по кластерам. Даннаяклассификация с координатами центров кластеров приведена, движение регионов поразличным кластерам в разные годы и количество регионов в кластерахов по годампривеедены в Приложении 2. Чуть менее равномерная классификация (энтропия- 3,643 бит) получается спомощью Ward Linkage с расстоянием Squared EuclideanDistance. Соответствующие результаты приведены также в Приложении 2 и таблице3.1.2.

Таблица 3.1.2.Количество регионов в кластерах в разные годы при кластеризации в соответствиис Ward Linkage понормированным данным 1995 –1999 годы.

Pages:     | 1 |   ...   | 7 | 8 | 9 | 10 | 11 |   ...   | 55 |    Книги по разным темам