Пусть имеется N объектов X(1),Е,X(N), описываемыхn показателями x1,Е,xn, характеризующими некоторое свойство R. Это означает, что исследуемоемножество объектов описывается N точками в n-мерном пространстве:. Естественно, чтовыбор показателей x1,Е, xn существеннымобразом определяет результат. Мы предполагаем, что все n характеристик значимы (с содержательнойточки зрения) для измерения свойства R. Кроме того, предполагаем apriori, что при определении свойства R каждый из n показателей имеет равный вес, т.е. приопределении свойства R мы неотдаем явного предпочтения какому-либо конкретному показателю. Таким образом,свойство R задает вn-мерном пространственекоторую структуру данных. Другими словами, значения характеристик,описывающих исследуемые объекты, не могут быть произвольными, а обладаютнекоторой структурой, определяемой свойством R. При достаточно общих предположенияхэту структуру можно выявить. Опишем один из возможных подходов позволяющихопределить заданную в неявном виде структуру данных.
Предположим, что исследуемые объектыупорядочены в соответствии со свойством R, т.е. чем больше номер объекта, тем он лучше в смысле свойстваR. Если это так, то свойствоR задает на множествеисследуемых объектов отношение предпочтения. Это, в свою очередь, означает, чтосуществует некоторая функция f, которую мы назовем индикатор предпочтения R, обладающая следующимсвойством:
.
Поскольку мы предположили, что объектыXiупорядочены в порядке возрастания номеров, то индикатор является монотоннойфункцией от номера объекта. В силу того, что индикатор предпочтения задается сточностью до монотонного преобразования можно утверждать64, что средимножества индикаторов предпочтения R существует линейная функция (индикатор предпочтений):
.
Построим линейную регрессию n показателей характеризующих свойствоR на значения индикатораf*:
.
Если статистические характеристики (вособенности, объясняющие) построенной регрессии являются хорошими, то функция может рассматриваться в качествеиндекса, характеризующего зависимость свойства R от показателей x1,Е,xn. Для удобства функцию целесообразнонормировать, чтобы она принимала значения в промежутке от 0 до 100. Поэтомуокончательный вид индекса, измеряющего зависимость свойства R от показателей x1,Е,xnследующий:
где, а соответственно.
Таким образом, если известно упорядочениеобъектов в соответствии с некоторым свойством, то задача построения индекса,отражающего это свойство в зависимости от набора параметров, не представляетпринципиальных трудностей. Однако возникает вопрос: как построитьсоответствующее упорядочение Этот вопрос тем более актуален в связи с тем, чтовозможное количество упорядочений N объектов равно N! = 1 × 2× 3 ×Е× N.
2.3.2. Алгоритм построенияупорядочения
Разобьем множество объектов на два подмножества так, что объекты,входящие в одно и то же подмножество, ближе друг к другу (в некотором, заранеезаданном смысле), чем объекты, входящие в разные подмножества. Наилучшееразбиение в смысле статистической однородности объектов, входящих в один класс,получается при применении Ward’s method кластеризации с квадратичным эвклидовым расстоянием. Будемсчитать объекты, входящие в один и тот же кластер, (подмножество)эквивалентными между собой в смысле свойства R, характеризуемого показателямиx1,Е, xn.
Определим, какой из двух кластеров являетсяллучшим в смысле свойства R, т.е. для которого значения заданного набора показателей,характеризующие свойство R,являются лучшими по сравнению с соответствующими значениями показателей длядругого кластера.65 Зададим на множествекластеров функцию и введемновую переменную y(1), принимающую для каждого объектаXjзначение, равное значению функции f2 на кластере, к которому принадлежитэтот объект, т.е.. Введем, также, переменную y(2),принимающую для каждого объекта Xj значение, равное значению функцииf2на кластере, к которому не принадлежит этот объект, т.е..Построим две регрессии: регрессию показателей x1,Е,xnна переменную y(1) и регрессию тех же показателей наy(2). Эти две регрессии будут иметь одинаковые статистическиехарактеристики. Отличаться они будут лишь знаком коэффициентов при регрессорахи значением свободного члена. В качестве упорядочения кластеров, выбираем тоупорядочение, которое соответствует тому, что большим значениям характеристиксвойства R отвечает кластерс лучшим значением этого свойства.
На следующем шаге строим разбиение множестваобъектов на три кластера. Это означает (так устроеныалгоритмы кластеризации), что один из двух кластеров, построенных на предыдущемшаге, разобьется на два кластера. Рассмотрим два упорядочения кластеров: в томслучае, если разбился на два кластера, то и, а если разбился,то и. Задаем намножестве кластеров функции и. Вводим переменные и. Строим две регрессии: регрессиюпоказателей x1,Е, xn на переменную y(1) ирегрессию тех же показателей на y(2). В качестве упорядочения трехкластеров, выбираем то упорядочение, которому соответствуют лучшиестатистические характеристики регрессии.
На (r – 1)-м шаге строим разбиениемножества объектов на rкластеров. Рассмотрим два упорядочения кластеров,если на два кластера разбился
кластер : и
Задаем на множестве кластеров две функции и.Вводим две переменные и. Строимдве регрессии: регрессию показателей x1,Е, xn напеременную y(1) и регрессию тех же показателей на y(2). Вкачестве упорядочения трех кластеров, выбираем то упорядочение, которомусоответствуют лучшие статистические характеристики регрессии.
После проведения K шагов описанного алгоритма получаем2K функций и, отвечающих разному количеству кластеров(от 2 до K + 1) и разным ихперестановкам. Каждой из этих функций соответствует некоторая регрессия. Та из функций,статистические характеристики которой являются наилучшими, можетрассматриваться в качестве приближения индикатора, характеризующего зависимостьсвойства R от показателейx1,Е, xn.
Для удобства, как отмечалось выше,построенную функцию целесообразно нормировать так, чтобы она принимала значенияв промежутке от 0 до 100. Поэтому окончательный вид индекса, измеряющегозависимость свойства R отпоказателей x1,Е, xn принимает вид:
Заметим, что для существования линейногоиндикатора отношения предпочтения, характеризуемого набором показателейx1,Е, xn в силу теоремы о замещении66, необходимои достаточно, чтобы изменение значения одного из показателей компенсировалосьнекоторой линейной комбинацией изменений остальных показателей.
2.4. Схема формальногоанализа
Приведем схему, в соответствии с которой мыбудем проводить в дальнейшем классификацию регионов России по всемрассматриваемым наборам показателей.
1 этап. Проводитсякластеризация регионов России в соответствующем многомерном пространстве повсем имеющимся данным семью методами кластерного анализа:
- Average Linkage (Between Groups) (AL(BG));
- Average Linkage (Within Groups) (AL(WG));
- Single Linkage (SL);
- Complete Linkage (CmL);
- Centroid Linkage (CnL);
- Median Linkage (ML);
- Ward Linkage (WL)
с использованием семи различныхрасстояний67:
- Squared Euclidean Distance (SED);
- Euclidean Distance (ED);
- Cosine of Vectors of Values (CVV);
- Correlation between Vectors of Values (CBVV);
- Chebychev Distance (ChD);
- City Block Distance (CBD);
- Minkowski Distance (MD).
Графический анализ изменения расстояния (впроцентах от максимального расстояния) между объединяемыми кластерами взависимости от номера итерации метода по всем рассматриваемым методам ирасстояниям позволяет определить момент остановки работы методов кластеризации.Как правило, процесс кластеризации целесообразно производить до тех пор, покарасстояние между объединяемыми кластерами в среднем по всем методам ирасстояниям не превышает 5-10%. Однако окончательное решение об остановке методов и, темсамым, о количестве кластеров, на которое разбивается вся совокупностьобъектов, остается за содержательным анализом.
Каждая построенная классификацияхарактеризуется степенью равномерности распределения количества регионов покластерам. Чем более равномерно регионы распределены по кластерам, тем вышеэнтропия (неопределенность) построенной классификации. При разбиении регионов,например, на 10 кластеров максимально возможная неопределенность классификацииравна log210 ≈ 3,32 бит. С формальной точкизрения, наилучшей классификацией можно считать ту, которая наиболее равномернораспределяет исследуемые объекты между классами, т.е. имеет максимальнуюэнтропию.
Анализ всей совокупности регионов за всегоды всеми методами по всем расстояниям позволит выбрать метод и расстояние,дающие наиболее равномерное распределение исследуемых объектов покластерам.
2 этап. На данномэтапе проводится содержательный анализ полученных по лучшему (с формальнойточки зрения) методу кластеров. Методология исследования заключается вэкспертной оценке однородности (с экономической точки зрения) полученныхкластеров.
Выделение экономически однородных группкластеров, т.е. сокращение числа групп регионов с однородным уровнемрассматриваемых показателей, упрощает задачу динамической классификациирегионов России с точки зрения исследуемой характеристики регионов напротяжении всего анализируемого периода.
3 этап. Этот этапзаключается в проведении кластеризации регионов России в соответствующеммногомерном пространстве по лучшему (с формальной точки зрения) методукластерного анализа отдельно по каждому году анализируемого периода. Сравнениепостроенных на этом этапе классификаций с частью общей классификации,построенной на первом этапе, относящейся к соответствующему году, позволяетоценить устойчивость получаемых результатов. Содержательный анализ годовыхклассификаций дает возможность уточнить группы кластеров, выделенные на второмэтапе (в данном исследовании мы опускаем данный этап, поскольку нас большеинтересует перемещение регионов между кластерами от года к году, о чем будеибудет сказано ниже).
4 этап. На этомэтапе строится индикатор исследуемой экономической характеристики регионовРоссии, измеряемой выбранным набором показателей. После этого производитсясравнение результатов, полученных кластеризацией, с результатами разбиения наклассы по построенным индикаторам. При этом рассматриваются три способаклассификации регионов в соответствии с построенными индикаторами:
- Поскольку индикатор принимает значения наотрезке [0, 100], разобьем множество объектов на М классов следующим образом
где М - количествообъектов, N - количество кластеров.
- Разобьем множество объектов таким образом,чтобы все М классовсодержали одинаковое количество объектов (точнее, классов по объектов, а остальные по ).
- Разобьем множество объектов на М классов в соответствии с лучшимметодом, выбранным на первом этапе, используя индикатор φ в качестве характеристикиобъектов.
Сравнение построенных разбиений позволяетвыбрать наилучший способ использования индикатора в качестве дискриминирующейфункции.
Построенные в работе индикаторы,характеризующие различные свойства исследуемых объектов (регионов России),могут использоваться аналогично дискриминирующим функциям. При получениидополнительной информации (например, по регионам, по которым ее не было, или закакой-либо другой год) нет необходимости заново проводить кластеризациюрегионов. Достаточно рассчитать значения индикатора по полученным данным длякаждого нового объекта и в соответствии с этим значением отнести объект к томуили иному классу. Кроме того, в отличие от традиционных дискриминирующихфункций, индикаторы достаточно хорошо содержательно интерпретируемы (в случаевыполнения условий теоремы о замещении для показателей, характеризующихисследуемое свойство).
5 этап. Этот этапаналогичен второму этапу. Однако в этом случае содержательному анализу (наоснове экспертных оценок) подвергаются результаты разбиения регионов повыделенным на третьем этапе классам. Таким образом, тип региона определяетсякак нахождение региона в группе, характеризуемой принадлежностью копределенному классу по каждой из трех рассмотренных вышеклассификаций.
Глава 3. Многомерная классификациярегионов Российской Федерации
Как уже было сказано выше, на первом этапемы будем рассматривать многомерные (трехмерные) классификации регионов РФ потрем, наиболее характерным с экономической точки зрения, видам показателей:уровень жизни населения, инвестиционная активность и экономический потенциал.Мы понимаем ограниченность данного набора показателей, который не можетохватить многие важные аспекты развития экономик субъектов РФ, особенно сучетом глубины процессов, проходящих во всех сферах жизни при переходе отсоциалистической к рыночной экономики. В частностиИменно поэтому, в Приложениях3 и 4 приведены типологии регионов РФ по степени институциональныхпреобразований (глубины приватизации) и социально-демографическимхарактеристикам. Наиболее подробно применяемая процедура выбора методакластерного анализа и расстояния между кластерами будет показана на примерепервой их указанных классификаций ‑ классификации регионов по уровню жизни населения, тогда как длядвух других классификаций мы ограничимся результатами, полученными наилучшимметодом.
В данной работе мы отдаем предпочтениеанализу совокупности данных по регионам за несколько лет перед анализом годовыхраспределений, что позволяет выявить более общие типы экономического поведениярегионов в 1995–1999годах, включая динамику рассматриваемых характеристик от года к году. Анализрезультатов кластерного анализа за отдельные годы может играть при этомвспомогательную роль и быть использован при объяснении принадлежности того илииного региона к определенному классу (типу) субъектов РФ.
3.1. Классификация регионов по уровнюжизни населения
Pages: | 1 | ... | 6 | 7 | 8 | 9 | 10 | ... | 55 | Книги по разным темам