
ХАРАКТЕРИСТИКА МЕТОДОВ АНАЛИЗА I. Множественный корреляционно-регрессионный анализ.
Множественный корреляционно-регрессионный анализ Парная корреляция и Множественная регрессия парная регрессия Исследование Исследование Исследование зависимости частной мультикоплирегрессии неарности y=f(xj)+ Xj;Xj+Соотношение между количеством точек и Проверка на количеством достоверность переменных (6:1) 1) Парная корреляция 2) Частная корреляция 3) Регрессионная зависимость и её выбор Уравнение в натуральном масштабе =XB xi j - x j Уравнение в стандартизованном виде zi j = j 4) Частные и множественные коэффициенты детерминации Пример моделей приведён в табл.1.
Таблица Наиболее распространенные нелинейные модели Нелинейная модель Преобразование исходных данных Описываемые для перехода к линейному виду процессы 1. Полиномиальная Процессы, x11x122Е x1mm меняющие =a0+a1x1+a2x22+Е+amxmm y*=y; x*= направление x12x222Е x2mm 2. Линейно-логарифмическая y*=lg(y); x*=||ajlgxij|| =ax1a1.x2a2Еxmam 3. Экспоненциальная y*=ln(y); x*=x =e a0+a1x1+Е+amxm 4. Сложная экспоненциальная y*=ln(y-1-e); x*=x =1/(1+e a0+a1x1+Е+amxm) 5. Обратная y*=y-1; x*=x =1/(a0+a1x1+a2x22+Е+amxmm) 5) Оценка достоверности полученной модели и её параметрических характеристик.
А. Статистические оценки надежности регрессионной модели в целом:
- коэффициент множественной детерминации и корреляции;
- средний квадрат модельной ошибки;
- коэффициент аппроксимации;
- F-критерий Фишера.
В. Статистическая оценка надежности коэффициентов регрессии:
- t - критерий Стьюдента С. Статистические оценки достоверности коэффициентов корреляции:
- t - критерий Стьюдента для частных и парных коэффициентов корреляции;
- F-критерий Снедекора для коэффициентов множественной детерминации.
Анализ проводить по принципу: от простого к более сложному:
а) рассматривать простейший случай линейной зависимости двух переменных Y и X, где Y - зависимая переменная, Х - факторная переменная;
b) произвести статистическое оценивание неизвестных параметров регрессионного уравнения b0 и b1 (Y= b0 + b1Х+U) и дисперсионной ошибки 2;
с) оценить качество регрессионной модели и параметрические значения: b0, b1, 2;
d) перейти к случаю с любым числом факторных переменных Х;
е) перейти на нелинейные регрессионные модели.
Исходные данные регрессионного анализа могут быть центрированы:
xi = X - X ;Yi = Yi - Y i где X,Y - средние значения.
Два особых случая регрессионной модели:
1) регрессионная модель не содержит параметра b0;
2) регрессионная модель содержит один коэффициент регрессии:
Первый случай: Yi= b1Хi+Ui, Ui N(0, 2);
Второй случай: Yi= b0 + Ui, Ui N(0, 2);
Авторегрессионая модель y=Xb+U yi= bХi+Ui Ui= Ui-1 +i Авторегрессионая модель представляет случай коррелированности наблюдений, например, во времени (последующее событие часто зависит от совершения предыдущего).
II. Факторный анализ Факторный анализ - совокупность методов, позволяющих выявить скрытые (латентные) характеристики на основе существующих признаков.
Скрытые (латентные) - это неявные характеристики, раскрываемые при помощи методов Ф.А.
Исследуются объекты с набором признаков Xj.
Коррелировать могут не только признаки Xj, но и сами наблюдаемые объекты Ni.
Пример. Исследуем n стран, оцениваемых в двухмерном признаковом пространстве с осями: X1 - ВВП, X2 - стоимость потребительской корзины (рис.1).
Х2 ХF2 FЕЕЕ........
.................
................ Е.... Е.........
.......
.....
.....
а) Х1 b) ХРис. 1. Страны в двухмерном пространстве a) Пространство показателей b) Пространство введённых факторов Можно ввести новые оси F1 и F2, которые проходят через плотные скопления точек и коррелируют с X1 и X2.
Допустим, что F1 = a1x1+a2xF2 = a1x1+a2xИнтерпретируем оси FN : F1 - уровень жизни; F2 - ВВП на душу населения.
В результате анализа можно выявить классификационные признаки.
Рассмотрим координатное пространство двух стран и признаки x1, x2, x3, x4, x5.(рис.2) n F2 F. Х. Х. Х1. Х. ХnРис. 2. Координатное пространство объектов Рассматривают Корреляционные связи Корреляционные связи элементарных признаков наблюдаемых объектов Применяют R-техники Применяют Q-техники Результаты Результаты F=f(ni) Fr=f(Xj) См. книги следующих авторов:
. Гуттман, Г. Хотеллинг, Л. Тэрстоун, К. Хользингер, С. Рао, С. Барт, Г.
Томсон, Д. Лаули, А. Максвелл, а также Г. Харман Современный факторный анализЕЕЕЕЕЕЕ.
Методы факторного анализа Метод главных Методы факторного анализа компонент (в строгом смысле не является Аппроксимирующие методы Упрощенные методом ФА).
- Однофакторная - Метод главных факторов модель Ч.
(Г.Томсон) Спирмена - Групповой метод (Л.Гуттман, П. Хорст) - Бифакторная - Метод максимального модель Г.
правдоподобия (Д.Лоули) Хользингера - Минимальных остатков (Г.Харман) - Центроидный - -факторный анализ (Г.
метод Кайзер, И. Кэффри) Л. Тэрстоуна - Канонический факторный анализ (К. Рао) - Метод распознавания образов - Оптимизирующие методы Задача: Известна информация по n объектам с m признаками по объекту.
Необходимо перейти от матрицы (nm) к матрице (nr) или (mr), r Поиск названий для главных компонент. Задачу распознавания главных компонент, определения для них названий решают субъективно на основе весовых коэффициентов ajr матрицы А Дано: xij xij - x j Преобразована: Zij = j R = Z Z n R = AFF A ; R = ACA n Результат поиска главных компонент изложен в табл.2. Таблица Пример гипотетических данных. Исходные признаки Главные компоненты Хj F1 Fx1 - ВВП на душу населения a11=0.8 a12=0.x2 - уровень фондоотдачи в a21=0.3 a22=0.промышленности x3 - численность занятых в a31=0.9 a32=0.промышленности x4 - среднегодовая рентабельность a41=0.7 a42=0.промышл. x5 - индекс промышленного роста a51=0.2 a52=0.цен x6 -уровень энерговооруженности в a61=0.1 a62=0.промышленности Заключение. Метод главных компонент и методы факторного анализа базируются на идее, что связи признаков x1, x2, Е xm - это результат воздействия сравнительно небольшого числа неявных (латентных, скрытых) факторов F1,F2, Е FN), (r Основная задача ФА - переход от данных (nm) к (mr) и значений общих факторов (nr). III. Многомерное шкалирование. Теория многомерного шкалирования предполагает возможность развертывания наблюдаемых объектов в некотором теоретическом пространстве. Поиск координатного пространства в МШ осуществляется не по значениям признаков, характеризующих объекты, а по данным представляющим различия или сходство этих объектов. Основным источником данных являются эксперты. Многомерное шкалирование Метрическое Неметрическое Использование количественных Обработка неколичественных, признаковых характеристик ранговых (или порядковых) данных объектов Р. Шепард, Дж. Краскалу У. Торгерсон Непосредственно о самом объекте даже по значениям некоторого набора признаков нельзя судить достаточно надежно или полно. Но эксперты ещё до проведения аналитических расчетов видят, интуитивно чувствуют различия изучаемых объектов. Основным источником данных являются эксперты. Исходная информация представлена в виде трёх матриц. I. Матрица условных вероятностей или матрица идентификации (табл. 3) Таблица 3. Условные вероятности x1 x2 x3 xxxxxСтолбцы - это объекты, распознанные экспертами. Строки - это перечень объектов, предъявляемых для оценки. II. Матрица аналитических признаков (табл.4) Таблица Характеристика объектов Признак Оборот Прибыль, млн. Кол-во работОбъект капитала, млн. ников, чел. Биржа (Чикаго) Биржа (Индия) Биржа (СПб) III. Матрица временных интервалов (табл.5) Таблица Производительность труда в промышленности стран мира 1980 1985 1990 1995 РФ Германия США Франция Корея КНР Приемы получения исходных ранговых данных (неметрическое шкалирование) следующие: 1) Метод последовательной рандомизации 2) Метод исходной (якорной) точки 3) Метод рейтинговой оценки IV. Кластерный анализ Целью кластерного анализа является образование групп схожих между собой объектов - кластеров. Различие комбинационных группировок и кластерного анализа. Метод комбинационной группировки. Наблюдаемый объект характеризуется тремя признаками x1, x2, x3. 1. Совокупность наблюдаемых объектов разбивается на группы по x1, а затем внутри каждой выделенной подгруппы по x2, затем по x3. 2. Образованные группы имеют границы по каждому группировочному признаку. Кластерный анализ. 1. Все группировочные признаки одновременно участвуют в группировке, т.е. они одновременно учитываются при отнесении объекта в ту или иную группу. Методы кластерного анализа Агломеративные (объединяющие) Дивизитные (разделяющие) - Иерархический Интерактивные агломеративный анализ - Метод ближайшего и дальнего соседа - Метод k-средних - Метод одиночной связи - Методы поиска - Метод полных связей сгущений - Поиск пересека- Метод средней связи ющихся кластеров - Метод Уорда - Метод медианной связи Критерии качества классификации. 1. Сумма квадратов расстояний до центров классов: F1 =, X ), l d (X i l i где l - номер кластера; X - центр l-го кластера; Xi - вектор значений переменных для i-го объекта в l-ом кластере; d(X, X ) - расстояние между i-ом объектом и центром l-го кластера. l i 2. Сумма внутриклассовых расстояний между объектами: F2 = ij d l ij 3. Суммарная внутриклассовая дисперсия: F3 =, lj где - дисперсия j-ой переменной в кластере Sl lj ППП: CLUSTAN V. Дискриминантный анализ Дискриминация - различение (расчленение) объектов анализа по определенным признакам. Процедуры дискриминантного анализа Интерпретация различия Классификация между существующими новых объектов классами Дискриминантные переменные - признаки, используемые для того, чтобы отличить один класс (подмножество) от другого. Переменные измеряются либо по интервальной шкале, либо по шкале отношений. Книги по разным темам