Изучение характера связи между признаками двух случайных величин

Дипломная работа - Математика и статистика

Другие дипломы по предмету Математика и статистика

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Курсовая работа

на тему:

"Изучение характера зависимости между признаками двух случайных величин"

 

Постановка задачи

 

Даны 100 пар чисел: , i=1…N, N=100.

Значения Х показывают, насколько экологическая обстановка в некоторых регионах благоприятна для постоянного проживания там людей. (Предполагается, что каждое значение - некоторый коэффициент, полученный при анализе данных экологической обстановки).

Величина Х отражает интенсивность миграции населения некоторых регионов: объём оттока населения из них.

Задачей данной курсовой работы является изучение характера зависимости от . Для этого необходимо:

.В виде точечной диаграммы (в программе Excel) изобразить на плоскости точки .

.С помощью метода наименьших квадратов определить числа a, b такие, что прямая наименее отклоняется от точек в среднем квадратичном.

.Методом наименьших квадратов определить значения p, q, r такие, что парабола Y=pXІ + qX + r наименее отклоняется от точек в среднем квадратичном.

.Сравнить результаты, полученные в пунктах 2 и 3.

.При помощи сравнения статистик

 

, , ,

 

где , N - объём выборки,

Ответить на следующие вопросы:

1)Подтвердилась ли гипотеза о том, что зависимость между и близка к линейной?

)Подтвердилась ли гипотеза о том, что зависимость между и близка к квадратичной?

)Какая из двух кривых - прямая или парабола - меньше отклоняется от точек выборки?

 

Построение диаграммы рассеивания

 

Диаграмма рассеивания - это точки на плоскости, координаты которых соответствуют значениям случайных величин X и Y. Дана выборка i=1…100.

XYXYXYXY87,308214,71493,664219,29666,085245,92271,267238,54155,861249,93850,755250,66772,935226,81254,46239,42879,724235,46269,653240,74552,28230,86860,271251,58665,084268,64970,174247,60571,364239,14880,536221,78666,354244,69982,958236,01286,156198,22652,285265,59778,156235,02984,218219,78359,303250,31983,583231,81668,521219,40564,936256,19761,438258,21999,62204,69486,856220,4668,881253,86862,737220,32783,541221,68278,778244,13974,841239,00379,079249,41975,672244,18465,656239,85661,796240,11357,464244,05775,866244,72857,046239,33985,365226,33687,739232,59775,324231,95774,529228,69180,538229,37756,03253,70381,578238,90687,452222,01953,787238,31573,897257,94199,948214,45498,764201,34263,673256,13786,835216,25757,721255,1799,022192,85273,369234,79179,34222,48298,89191,07893,88202,63856,711247,00695,336195,44473,809250,01292,188223,56482,378238,90975,849235,01760,436229,24661,017233,44859,134242,4586,343230,15684,78231,59155,648250,08586,193219,39297,716208,28490,164208,86585,429214,4288,102214,76651,609242,30676,519226,32752,177262,11563,116244,49951,657254,05977,641231,86184,003252,60196,407206,27369,235236,43989,475228,70481,373228,09876,614241,40950,317247,92882,73216,5253,469254,7191,662211,78673,496235,47499,642212,53597,208212,9496,449214,48182,442229,41981,985237,391

Чтобы построить диаграмму рассеивания нужно отформатировать шкалу делений по оси абсцисс и ординат. Для нахождения соответствующего масштаба найдём

50,317, 99,948

191,078, 268,649

Размах выборки по X и Y определяется

|max X - min X | = 49,631

|max Y - min Y| = 77,412

Построим диаграмму рассеивания X и Y.

 

 

Диаграмма рассеивания наглядно демонстрирует, что (по большей части) чем лучше состояние окружающей среды того или иного региона, тем меньше отток населения из него.

Теперь вычислим выборочные параметры: выборочные средние , выборочные дисперсии средние квадратические отклонения и найдём выборочный коэффициент корреляции по формуле

 

Выборочные средние значения:

 

 

Выборочные дисперсии:

 

 

 

Средние квадратические отклонения:

 

 

Рассчитываем коэффициент корреляции:

 

 

Так как ближе к 1, чем к 0, можно сделать вывод о том, что зависимость между X и Y достаточно тесная.

 

Нахождение коэффициентов и построение графика линейного приближения

 

Величины X и Y могут быть функционально зависимы, но по результатам измерений значений этих величин сложно установить вид фактической зависимости. Метод наименьших квадратов - один из важнейших способов оценки неизвестных величин по результатам измерений, содержащим случайные ошибки и нахождения зависимости между X и Y. Суть метода в том, что условием оценки является минимизация суммы квадратов отклонений выборочных данных от определяемой оценки.

Вычислим сумму квадратов отклонений точек прямой от выборочных значений Y:

 

 

Необходимо взять такие A и B, чтобы F (A, B) достигала своего минимума как функция переменных А и В.

Минимум функции двух переменных должен удовлетворять необходимому и достаточному условию существования минимума. Необходимое условие экстремума функции нескольких переменных - равенство нулю частных производных первого порядка. Получаем систему уравнений:

 

 

Раскроем скобки и получим следующее:

 

 

Введём замену:

, , , = d, N=100. Получим:

 

Из этой линейной системы уравнений найдём А и В методом Гаусса, выполнив некоторые преобразования: А = -0,9337; В = 303,2533. Получим стационарную точку (-0,9337; 303,2533) для F (A; B).

Следующий шаг - проверка того, что в найденной точке выполняется достаточное условие минимума: второй дифференциал функции F (A; B) в точке (-0,9337; 303,2533) должен представлять собой строго положительную квадратичную форму. Для этого достаточно, чтобы существовали вторые частные производные функции F (A; B) по всем переменным, и величины в точке (-0,9337; 303,2533).

Найдём вторые частные производные функции F (A; B) и .

 

.

 

Так как то в точке (-0,9337; 303,2533) минимум функции F (A; B). Поэтому уравнение прямой принимает вид: Y=-0,9337X+303,2533.

Построим график линейной регрессии.

Теперь определим коэффи?/p>