Изучение характера связи между признаками двух случайных величин
Дипломная работа - Математика и статистика
Другие дипломы по предмету Математика и статистика
?иент линейной регрессии . .
Можно применить это для вычисления коэффициента корреляции r:
плоскость координата график квадратичный
Как видно, это значение практически совпадает с тем, что мы вычислили ранее.
Нахождение коэффициентов и построение графика квадратичного приближения
Для нахождения формулы y = pxІ + qx + r построим функцию среднеквадратичного отклонения F (p, q, r) = .
Найдём точку минимума функции трёх переменных F (p, q, r), которая находится среди стационарных точек этой функции (по необходимому условию минимума). Система для нахождения стационарных точек:
Произведём замену:
Перейдём к системе вида:
Эта система линейна относительно неизвестных p, q, r. Решив её методом Гаусса, найдём стационарную точку функции ().
Теперь, используя достаточное условие, покажем, что функция F (p, q, r) имеет в этой точке минимум. Для этого выписываем второй дифференциал функции F (p, q, r).
++
Найдём значения вторых частных производных в точке ():
Теперь необходимо доказать, что полученная квадратичная форма положительно определена:
++
Воспользуемся для этого критерием Сильвестра. Его суть заключается в том, что для того, чтобы квадратичная форма была положительно определённой, необходимо и достаточно, чтобы все главные миноры матрицы этой формы были положительны.
Так как
++
>0.
Следовательно, уравнение квадратичной регрессии имеет вид
Y=
Построим график квадратичной регрессии
Графическое сопоставление линейной и квадратичной зависимостей
Построим на одном графике заданные точки, графики линейного и квадратичного приближений.
Нахождение статистик и их анализ
Используя следующие формулы, вычисляем статистики :
, , ,
Где , N - объём выборки,
.
Сравним статистики:
Показатели (1) и (2) характеризуют процент уменьшения статистик и относительно статистики , которую можно назвать базовой, а показатель (3) - процент уменьшения статистики относительно .
Можно сделать следующие выводы:
)Гипотеза о том, что зависимость между и близка к линейной, подтвердилась, так как .
)Гипотеза о том, что зависимость между и близка к квадратичной, также подтвердилась, так как .
)Однако, сравнив статистики, получаем, что . Отсюда следует, что параболическое приближение - наиболее точное.
)Коэффициент корреляции, равный -0,783, показывает, что связь между величинами Х и Y довольно тесная, как это и было видно на диаграмме рассеивания: за исключением отдельных точек, при улучшении состояния окружающей среды (увеличении Х) наблюдается тенденция уменьшения оттока населения из некоторых регионов в другие (уменьшение Y). Те самые отдельные точки - регионы, в которых объём эмиграционных потоков не столь явно связан с экологией.