Элементы корреляционного анализа
Вид материала | Лекции |
- Пример стратегического корреляционного swot-анализа компании, занимающейся розничной, 74.65kb.
- Имитация «взлома» шифратора с помощью корреляционного анализа, 36.18kb.
- Моделирование корреляционного метода измерения расхода теплоносителя проводится с использованием, 445.49kb.
- Рабочая учебная программа дисциплины «анализ и диагностика финансово-хозяйственной, 241.19kb.
- Пример сопоставления факторов внутренней среды с факторами внешнего окружения компании,, 142.27kb.
- Научные и технические библиотеки 2000, 161.16kb.
- Классификация элементов вычислительных средств, 641.33kb.
- Магнитные элементы электронных устройств, 24.25kb.
- Задачи по созданию наиболее, 177.71kb.
- Программа курса «Сравнительное правоведение», 104.55kb.
ТМ к лекции № 14
Элементы корреляционного анализа
14.1. Приближенное уравнение линейной регрессии
Зависимость между величинами может быть двух видов: функциональная и стохастическая. Если каждому значению одной величины соответствует единственное значение другой, то такая зависимость называется функциональной. Однако возможна такая зависимость, когда в ответ на появление значения одной величины, другая принимает некоторое случайное значение. Но вид закона распределения второй величины изменяется в зависимости от значения первой. Такая зависимость называется стохастической.
Проведем n наблюдений над случайными величинами X и Y. В результате получим выборку объема n, состоящую из трех строк. В первой номер наблюдения, во второй и третьей соответствующие значения случайных величин, полученных в данном наблюдении.
-
i
1
2
. . .
n
Xi
x1
x2
. . .
xn
Yi
y1
y2
. . .
yn
Попытаемся по результатам наблюдений найти приближенную зависимость между величинами X и Y. Указать точную зависимость очень сложно. Поэтому естественно выдвинуть некоторое предположение о виде этой зависимости, включающему в себя некоторые параметры с тем, чтобы за счет варьирования этих параметров, подобрать уравнение зависимости лучшего вида. Ответ на вопрос о том, какую зависимость считать наилучшей сильно зависит от того в каком классе функций ищется решение и по какому критерию оценивается отклонение от оптимального вида зависимости. Такое уравнение называется приближенным уравнением регрессии. Чаще всего ищется зависимость вида Y=X+, т. е. линейное уравнение. Предположим, что имеется зависимость такого вида. Тогда отклонение для каждой пары значений найдем по формуле i=Yi-Xi-. Выберем в качестве общей меры отклонения для всей выборки в целом сумму квадратов отклонений. Обозначим ее
![](images/78926-nomer-m7c784196.gif)
Для исследования более удобно выбрать в качестве меры величину
![](images/78926-nomer-m32900959.gif)
Подберем и так, чтобы величина была минимальной.
![](images/78926-nomer-m2b15e946.gif)
Этот метод называется методом наименьших квадратов. Необходимым условием существования экстремума являются условия
![](images/78926-nomer-m71711c43.gif)
Запишем условия (3)
![](images/78926-nomer-5b9e75f2.gif)
![](images/78926-nomer-724270e5.gif)
Из уравнения (5) находим
=MY-MX
Из уравнения (4) получим
M(XY)-MX2-( MY-MX)MX=0.
Или
M(XY)- MY MX-(M(X2)-( MX)2)=0.
Откуда находим
Cov(X,Y)- DX=0.
Следовательно
rXYXY- X2=0.
Получаем
![](images/78926-nomer-d45ca2f.gif)
И приближенное линейное уравнение регрессии Y на X
![](images/78926-nomer-m591f3f1b.gif)
Или
![](images/78926-nomer-57bccb76.gif)
Аналогично, приближенное линейное уравнение регрессии X на Y
![](images/78926-nomer-m7de5eafb.gif)
Замечание. Уравнение (7) не равносильно уравнению (6). Они задают разные линии.
При практических исследованиях для построения уравнения (6) используют статистические числовые характеристики.
![](images/78926-nomer-m1a9e83c7.gif)
Причем в качестве статистической числовой оценки для ковариации используем
![](images/78926-nomer-14255515.gif)
Коэффициент корреляции показывает меру линейной зависимости между случайными величинами X и Y.
14.2. Множественная регрессия
Пусть дана система случайных величин X1,X2,...,Xk,Y. Попытаемся отыскать зависимость вида
![](images/78926-nomer-68913f57.gif)
Найдем математическое ожидание от обеих частей уравнения (9)
![](images/78926-nomer-38bf95cb.gif)
Вычтем
![](images/78926-nomer-61fd442d.gif)
Введем меру отклонения
![](images/78926-nomer-15a34412.gif)
Предположим, что знак математического ожидания и дифференцирования можно менять местами. После дифференцирования получим систему
![](images/78926-nomer-73652e5a.gif)
![](images/78926-nomer-m760f3247.gif)
![](images/78926-nomer-m504cb6f2.gif)
Мы получили систему из k уравнений с k неизвестными. Матрица коэффициентов системы называется ковариционной матрицей. Если каждый коэффициент матрицы разделить на произведение соответствующих среднеквадратичных отклонений, то получим корреляционную матрицу. Решим систему (13) и найдем коффициенты при неизвестных равенства (9). Подставим найденные значения в (10) и найдем . А затем построим зависимость (9). Уравнение (9) называется уравнением множественной регрессии, Для статистического исследования системы случайных величин X1,X2,...,Xk,Y. Проведем n наблюдений над случайными величинами. В результате получим выборку объема n, которую удобно представить в виде таблицы
-
i
X1
X2
. . .
Xk
Y
1
X11
X12
. . .
X1k
Y1
2
X21
X22
. . .
X2k
Y2
. . .
. . .
. . .
. . .
. . .
. . .
n
Xn1
Xn2
. . .
Xnk
Yn
Построим по этой таблице ковариации величин системы (13) и найдем уравнение множественной регрессии.
14.3. Приближенное полиномиальное уравнение регрессии
Часто требуется зависимость зависимости между случайными величинами X и Y в виде некоторого полинома (многочлена) вида
Y=a0+a1X+a2X2+... + anXn.
Этот случай сводится к рассмотренной схеме множественной регрессии с помощью следующего приема. Вводится система величин
X0 =X0, X1 =X1, X2 =X2,..., Xn =Xn.
После этого проводим корреляционный анализ по схеме множественной регрессии и находим коэффициенты многочлена.