Изучение характера связи между признаками двух случайных величин
Дипломная работа - Математика и статистика
Другие дипломы по предмету Математика и статистика
Курсовая работа
на тему:
"Изучение характера зависимости между признаками двух случайных величин"
Постановка задачи
Даны 100 пар чисел: , i=1…N, N=100.
Значения Х показывают, насколько экологическая обстановка в некоторых регионах благоприятна для постоянного проживания там людей. (Предполагается, что каждое значение - некоторый коэффициент, полученный при анализе данных экологической обстановки).
Величина Х отражает интенсивность миграции населения некоторых регионов: объём оттока населения из них.
Задачей данной курсовой работы является изучение характера зависимости от . Для этого необходимо:
.В виде точечной диаграммы (в программе Excel) изобразить на плоскости точки .
.С помощью метода наименьших квадратов определить числа a, b такие, что прямая наименее отклоняется от точек в среднем квадратичном.
.Методом наименьших квадратов определить значения p, q, r такие, что парабола Y=pXІ + qX + r наименее отклоняется от точек в среднем квадратичном.
.Сравнить результаты, полученные в пунктах 2 и 3.
.При помощи сравнения статистик
, , ,
где , N - объём выборки,
Ответить на следующие вопросы:
1)Подтвердилась ли гипотеза о том, что зависимость между и близка к линейной?
)Подтвердилась ли гипотеза о том, что зависимость между и близка к квадратичной?
)Какая из двух кривых - прямая или парабола - меньше отклоняется от точек выборки?
Построение диаграммы рассеивания
Диаграмма рассеивания - это точки на плоскости, координаты которых соответствуют значениям случайных величин X и Y. Дана выборка i=1…100.
XYXYXYXY87,308214,71493,664219,29666,085245,92271,267238,54155,861249,93850,755250,66772,935226,81254,46239,42879,724235,46269,653240,74552,28230,86860,271251,58665,084268,64970,174247,60571,364239,14880,536221,78666,354244,69982,958236,01286,156198,22652,285265,59778,156235,02984,218219,78359,303250,31983,583231,81668,521219,40564,936256,19761,438258,21999,62204,69486,856220,4668,881253,86862,737220,32783,541221,68278,778244,13974,841239,00379,079249,41975,672244,18465,656239,85661,796240,11357,464244,05775,866244,72857,046239,33985,365226,33687,739232,59775,324231,95774,529228,69180,538229,37756,03253,70381,578238,90687,452222,01953,787238,31573,897257,94199,948214,45498,764201,34263,673256,13786,835216,25757,721255,1799,022192,85273,369234,79179,34222,48298,89191,07893,88202,63856,711247,00695,336195,44473,809250,01292,188223,56482,378238,90975,849235,01760,436229,24661,017233,44859,134242,4586,343230,15684,78231,59155,648250,08586,193219,39297,716208,28490,164208,86585,429214,4288,102214,76651,609242,30676,519226,32752,177262,11563,116244,49951,657254,05977,641231,86184,003252,60196,407206,27369,235236,43989,475228,70481,373228,09876,614241,40950,317247,92882,73216,5253,469254,7191,662211,78673,496235,47499,642212,53597,208212,9496,449214,48182,442229,41981,985237,391
Чтобы построить диаграмму рассеивания нужно отформатировать шкалу делений по оси абсцисс и ординат. Для нахождения соответствующего масштаба найдём
50,317, 99,948
191,078, 268,649
Размах выборки по X и Y определяется
|max X - min X | = 49,631
|max Y - min Y| = 77,412
Построим диаграмму рассеивания X и Y.
Диаграмма рассеивания наглядно демонстрирует, что (по большей части) чем лучше состояние окружающей среды того или иного региона, тем меньше отток населения из него.
Теперь вычислим выборочные параметры: выборочные средние , выборочные дисперсии средние квадратические отклонения и найдём выборочный коэффициент корреляции по формуле
Выборочные средние значения:
Выборочные дисперсии:
Средние квадратические отклонения:
Рассчитываем коэффициент корреляции:
Так как ближе к 1, чем к 0, можно сделать вывод о том, что зависимость между X и Y достаточно тесная.
Нахождение коэффициентов и построение графика линейного приближения
Величины X и Y могут быть функционально зависимы, но по результатам измерений значений этих величин сложно установить вид фактической зависимости. Метод наименьших квадратов - один из важнейших способов оценки неизвестных величин по результатам измерений, содержащим случайные ошибки и нахождения зависимости между X и Y. Суть метода в том, что условием оценки является минимизация суммы квадратов отклонений выборочных данных от определяемой оценки.
Вычислим сумму квадратов отклонений точек прямой от выборочных значений Y:
Необходимо взять такие A и B, чтобы F (A, B) достигала своего минимума как функция переменных А и В.
Минимум функции двух переменных должен удовлетворять необходимому и достаточному условию существования минимума. Необходимое условие экстремума функции нескольких переменных - равенство нулю частных производных первого порядка. Получаем систему уравнений:
Раскроем скобки и получим следующее:
Введём замену:
, , , = d, N=100. Получим:
Из этой линейной системы уравнений найдём А и В методом Гаусса, выполнив некоторые преобразования: А = -0,9337; В = 303,2533. Получим стационарную точку (-0,9337; 303,2533) для F (A; B).
Следующий шаг - проверка того, что в найденной точке выполняется достаточное условие минимума: второй дифференциал функции F (A; B) в точке (-0,9337; 303,2533) должен представлять собой строго положительную квадратичную форму. Для этого достаточно, чтобы существовали вторые частные производные функции F (A; B) по всем переменным, и величины в точке (-0,9337; 303,2533).
Найдём вторые частные производные функции F (A; B) и .
.
Так как то в точке (-0,9337; 303,2533) минимум функции F (A; B). Поэтому уравнение прямой принимает вид: Y=-0,9337X+303,2533.
Построим график линейной регрессии.
Теперь определим коэффи?/p>