7 Типология российскихрегионов Б. Бутс, С. Дробышевский, О. Кочеткова, Г.Мальгинов, В. Петров,Г. Федоров, А. Хехт, А.Шеховцов, А. Юдин Москва2002В публикации представлена

Книги по разным темам Pages: | 1 | ... | 5 | 6 | 7 | 8 | 9 | ... | 55 |

Методы кластеризации довольно разнообразны.Отдельные методы кластерного анализа различаются тем, что в них по-разномувыбирается способ определения близости между кластерами (и между объектами), атакже используются различные алгоритмы вычислений. Результаты классификации,получаемые при использовании разных методов кластеризации, могут существенноотличаться друг от друга. Поэтому результаты вычислительной кластеризации могутбыть дискуссионны и часто служат лишь базой для содержательного анализа.Заметим, что зависимость результатов от выбранного метода тем сильнее, чемменее явно изучаемая совокупность разделяется на схожие группы объектов. Всвязи с этим целесообразно проводить классификацию по нескольким методам. Еслипри этом результаты, получаемые по разным методам, оказываются близки, тосовокупность исследуемых объектов действительно можно классифицировать. Впротивном случае любая классификация не является объективной.

Второй этап построения типологии заключаетсяв проверке качества полученных на первом этапе классификаций. Необходимостьэтого этапа определяется тем, что методы кластерного анализа не даюткакого-либо способа проверки статистической гипотезы об адекватности полученныхклассификаций. Результаты кластеризации можно обосновать с помощью построенияособых экономических индикаторов.

В результате проведения кластеризации напервом этапе построения типологии мы получаем для каждого набора показателейсовокупность объектов, разбитую на несколько групп (т.е. для каждого объекта мыможем сказать, к какой группе он относится). При этом каждый объектхарактеризуется значениями нескольких количественных характеристик. Проблемазаключается в определении способа, с помощью которогоым на основании значенийэтих характеристик можно узнать группу, к которой принадлежит объект. Этопозволит, в частности, при изменении значений показателей для некоторогообъекта предсказать класс, в который он перейдет.

Для решения этой задачи применяются методыдискриминантного анализа.Они позволяют строить функции, зависящие от измеряемых характеристик, значениякоторых и объясняют разбиение объектов на классы. Желательно, чтобы этихфункций (дискриминирующих признаков) было немного - в этом случае результаты анализа легчесодержательно истолковать. Особую роль, благодаря своей простоте, играетлинейный дискриминантный анализ, в котором функции, объясняющие разбиение объектов на классы,строятся как линейные функции от первичных показателей.

Третий этап типологии заключается вустановлении соответствия между построенными классификациями. Для этого нужноопределить как соотносится между собой принадлежность объекта к некоторомуклассу по одному набору показателей с принадлежностью этого же объекта кразличным классам по другим наборам показателей. Построенные на первых двухэтапах классификации задают типологию, если для всех классов классификации поодним признакам, объекты, принадлежащие к одному классу, с высокой вероятностьюпринадлежат одному и тому же классу в классификации по другимпоказателям.

2.2.2. Характеристикаметодов кластерного анализа

Методы кластерного анализапозволяют55:

строить дерево классификации (дендограмму) n объектов посредствомих иерархического объединения в группы (кластеры) все более высокой общности наоснове критерия минимума расстояния в пространстве m переменных, описывающихэти объекты;
находить разбиение некоторого множества объектов на заданное числооднородных в некотором смысле кластеров.

Для проведения численной классификациирегионов России по различным наборам показателей мы используем стандартныйпакет статистических методов SPSS. Этот пакет предлагает семь методовиерархического кластерного анализа56: Between-groups linkage,Within-groups linkage, Nearest neighbor, Furthest neighbor, Centroidclustering, Median clustering, Ward’s method. Кроме того, припроведении кластеризации могут быть использованы восемь разныхрасстояний57: Euclidean distance, Squared Euclidean distance, Cosin, Pearsoncorrelation, Chebychev, Block, Minkowski, Customized. Поэтому встает задачавыбора метода, по которому будет производиться классификация, и расстояния,определяющего меру близости между объектами.

Главное различие между методами заключаетсяв том, как они определяют расстояние между кластерами, т.е. в стратегиипроцесса объединения объектов в кластеры:

стратегия ближайшего соседа очень сильно сжимает пространство исходных переменных ирекомендуется для получения минимального дерева взамен групповойклассификации;
стратегия дальнего соседа сильно растягивает пространство исходных переменных;
стратегия группового соседа сохраняет метрику признаковогопространства;
гибкая стратегия универсальна и зависитот значения бета-коэффициента, запрашиваемого при выборе этойстратегии:
при β = 0метрика не меняется,
при 0 < β < 1 пространство сжимается,
при -1 < β < 0 пространстворастягивается;
стратегия Ward’s methodминимизирует внутрикластерный разброс объектов и дендограмма получается сглубоко, гипертрофировано разделенными кластерами.

Нам представляется, что для наших целейклассификации и построения типологии регионов с последующим статистическиманализом исследуемых показателей внутри каждого класса из семи методов,представленных в пакете SPSS и отвечающих пяти перечисленным стратегиям (точнеечетырем, поскольку гибкая стратегия в пакете отсутствует), в наибольшей степениотвечают методы: Between-groups linkage, Centroid clustering, иWard’s method. Этообуславливается тем, что эти методы позволяют получать наиболее однородные встатистическом смысле кластеры. В то же время для окончательного выбора методанеобходимо содержательное истолкование кластеров, полученных в результатеприменения разных методов кластеров. Лучшим является тот метод, который даетнаиболее интерпретируемые результаты. При этом, если результаты кластеризации,полученные с использованием различных методов, не слишком сильно отличаютсядруг от друга, то изучаемая совокупность действительно является объединениемобъектов, принадлежащих различным группам в смысле исследуемыхпоказателей.

Для формального выбора наилучшего методаклассификации воспользуемся следующими соображениями. Для наших целей наилучшейклассификацией является та, для которой объекты между классами распределеныболее или менее равномерно. Это означает, что все (или, по крайней мере,большинство) классы являются заполненными. В противном случае, когдазаполненными являются один-два кластера, а остальные содержат по 1-2 объекта,происходит не разбиение всей совокупности объектов на классы, содержащиеотносительно похожие объекты, а выявление объектов, нарушающих однородность.Такая задача имеет смысл для выделения объектов, которые необходимо удалить извсей совокупности объектов для улучшения результатов статистического анализаисследуемой совокупности объектов в целом. С формальной точки зрения, исходя изинформационной теории Шеннона58, получаем, что наилучшимметодом классификации будет метод, который приводит к наибольшей энтропии(неопределенности) получаемой этим методом классификации. Энтропияклассификации N объектов,разбиваемых на n классов,определяется как

где Ni - количество объектов, попавших в i-ый класс.

Данный вывод согласуется с известнымкибернетическим законом, сформулированным У.Р.Эшби59, - законом необходимого разнообразия. Этотзакон в рассматриваемой ситуации можно сформулировать следующим образом.Разнообразие (неопределенность) классификации совокупности объектов должна бытьне ниже разнообразия всей совокупности объектов.

2.2.3. Характеристикаметодов дискриминантного анализа

Ставя задачу проверки классификации,построенной с помощью кластерного анализа, необходимо понять, чем разные классыотличаются друг от друга со статистической точки зрения. Методологии и методамдискриминантного анализа, позволяющего решать эту задачу, посвящена обширнаялитература60.

Будем понимать под классом генеральнуюсовокупность, описываемую функцией плотности распределения вероятностейf(X). Тогда решение об отнесении объекта кнекоторому классу принимается в пользу этого класса потому, что в рамкахданного класса появление этого наблюдения выглядит более правдоподобными.Именно этот принцип и положен в основу вероятностных методов классификации:наблюдение будет относиться к тому классу, в рамках которого его реализациявыглядит более правдоподобнойым. Правда, во-первых, этот принцип можеткорректироваться с учетом удельных весов классов и специфики так называемойлфункции потерь c(j|i), которая определяет стоимость потерьот отнесения объекта i-гокласса к классу с номером j.И, во-вторых, для того чтобы этот принцип практически реализовать, мы должнырасполагать полным описанием гипотетических классов, т.е. знанием функцийплотности распределений вероятностей fi(X), задающих закон распределения вероятностей соответственно дляi-го (i = 1,Е, k) класса. Последнее затруднение обходятс помощью обучающих выборок в случае классификации с обучением и с помощьюмодели смеси распределений в случае классификации без обучения.

Очевидно, желательно строить классификации,которые минимизируют потери от неправильной классификации объектов. Пустьc(j|i) - величинапотерь от отнесения одного объекта i-го класса к классу j (при i =j, очевидно, cij = 0). Такимобразом, если неправильно классифицированы m(j|i) объектов, топотери, связанные с отнесением объектов i-го класса к классу j составят m(j|i)c(j|i), а общие потери Cn при такойпроцедуре равны. Переходя к удельной характеристикепотерь, получаем в пределе при n → ∞:

Здесь частот и ;P(j|i) - вероятностиотнести объект класса i кклассу j, и πi- априорные вероятностипринадлежности объекта классу i. Другими словами, предполагается, что частоты попадания объектов вте или иные классы сходятся к соответствующим вероятностям.

Величина определяетсредние потери от неправильной классификации объектов i-го класса, так что средние удельныепотери от неправильной классификации всех анализируемых объектов будут равны

В достаточно широком классе ситуацийполагают, что потери c(j|i) одинаковы для любой пары i и j, т.е. c(j|i) =c0= const при j ≠ i; i, j = 1, 2,Е, k. В этом случае стремление к минимизациисредних удельных потерь Cбудет эквивалентно стремлению максимизации вероятности правильной классификацииобъектов, равной. Поэтому часто говорят не о потерях, а овероятностях неправильной классификации.

Сформулируем постановку задачи построенияоптимальной процедуры классификации p-мерных наблюдений X1,X2,Е, Xnпри наличии обучающих выборок. Классифицируемыенаблюдения интерпретируются в данной задаче как выборка из генеральнойсовокупности, описываемой так называемой смесью k классов с плотностью вероятности где πj- априорная вероятностьпоявления в этой выборке элемента из класса j с плотностью fj(x).

Введем понятие дискриминантной функцииδ(X). Функция δ(X) может принимать только натуральныезначения, причем те X, прикоторых она принимает значение, равное j, будем относить к классу j, т.е. Sj = {X: δ(X) = j}, j = 1, 2,Е, k. Sj - это p-мерные области в пространствеΠ(X) возможных значений анализируемогомногомерного признака X,причем функция δ(X) строитсятаким образом, чтобы их сумма (теоретико-множественная) S1+ S2 +Е+ Sk заполняла все пространство Π(X) и чтобы они попарно не пересекались.Таким образом, решающее правило δ(X) может бытьзадано разбиением S = =(S1, S2,Е,Sk) всего пространстваΠ(X) на k непересекающихся областей.Дискриминантная функция) δ(X) (илиS) называется оптимальной(байесовской), если она сопровождается минимальными потерями среди всех другихпроцедур классификации.

Оказывается61, что процедура классификацииS* = (S1*,S2*,Е, Sk*), прикоторой потери будут минимальными, определяется следующим образом62:

Другими словами, наблюдение Xν(ν = 1, 2,Е, n) будет отнесено к классу j тогда, когда средние удельные потери отего отнесения именно в этот класс окажутся минимальными по сравнению саналогичными потерями, связанными с отнесением этого наблюдения в любой другойкласс. Однако данное соотношение задает лишь теоретическое оптимальное правилоклассификации: для того чтобы его реально построить, необходимо знаниеаприорных вероятностей πi и плотностейраспределения вероятностей fi(X), i = 1,Е,k.

Априорные вероятности πj(j = 1, 2,Е, k) оцениваются просто, если ряднаблюдений, составленный из всех обучающих выборок, может быть классифицированкак случайная выборка объема n = n1 + n2 +Е+nkиз генеральной совокупности. Тогда оценки где nj - объем j-й обучающей выборки.

Что касается задачи оценки законовраспределения вероятностей f1(X),Е, fk(X), то ее удобно разбить на два случая:

1-й случай(параметрический дискриминантный анализ) характеризуется известным общим видомфункций fj(X), т.е. всеклассы описываются законами распределения вероятностей одного и того жепараметрического семейства {f(X; Θ)}: класс i отличается от класса j только значением параметра Θ, т.е. fj(X) = f(X; Θj), j = 1, 2,Е, k. Тогда в качестве оценок неизвестных функций fj(X) используются функции, где -статистическая оценка неизвестного значения параметра Θj,полученная по наблюдениям j-й обучающей выборки.

2-й случай(непараметрический дискриминантный анализ) не предусматривает знания общеговида функций fj(X)(j = 1, 2,Е, k). В этом случае приходится строить такназываемые непараметрические оценки для функцийfj(X), например,гистограммного или ядерного типа, либо пользоваться некоторыми специальнымиприемами63.

2.3. Методика построения экономическихиндикаторов

2.3.1. Постановказадачи

Одной из важных проблем экономическогоанализа является построение индикаторов, отражающих некоторое свойствоэкономических агентов, которое не может быть измерено непосредственно. Частобывают ситуации, когда анализируемое свойство характеризуется наборомпоказателей (в общем случае не обязательно количественными), отражающими в тойили иной степени различные стороны этого свойства. Как правило, в такихситуациях предпринимаются попытки построения индексов, представляющих собойвзвешенную сумму измеряемых количественно показателей.

Однако возникает проблема определения весов.Чаще всего эта проблема решается экспертным образом. В настоящей работепредлагается подход к построению индексов, основанный на построении индикаторовлинейных отношений предпочтения.

Рассмотрим следующую задачу.

Pages: | 1 | ... | 5 | 6 | 7 | 8 | 9 | ... | 55 |

Книги по разным темам

Blog