Исследование статистической зависимости количества эритроцитов в крови от возраста человека

Дипломная работа - Математика и статистика

Другие дипломы по предмету Математика и статистика

ъём выборки.

 

Теперь же A = 120716,9; B =3063,31; C =37157,64; D = 919,47; N = 100.

Найдём c и d из этой линейной. Получим стационарную точку для где ; .

Следовательно, уравнение примет вид:

 

 

Рис. 11 Линейная регрессия x=f(y)

 

Теперь для наглядности изобразим обе линии линейной регрессии на диаграмме рассеивания.

 

Рис. 12 Линейные регрессии y=f(x) и x=f(y)

 

Видно, что они практически совпадают и пересекаются в районе математических ожиданий признаков и . Зелёная линия показывает регрессию , а красная - .

 

Метод наименьших квадратов для определения p, q, r

 

Найдем по данным наблюдений выборочное уравнение кривой линии среднеквадратичной (параболической в нашем случае) регрессии.

Ограничимся представлением величины Y в виде параболической функции величины X:

 

 

где p, q, и r - параметры, подлежащие определению. Это можно сделать с помощью метода наименьших квадратов.

Подберем параметры p, q и r так, чтобы сумма квадратов отклонений была минимальной. Так как каждое отклонение зависит от отыскиваемых параметров, то и сумма квадратов отклонений есть функция F этих параметров:

 

 

Для отыскания минимума приравняем к нулю соответствующие частные производные:

 

 

Находим p, q и r. Выполнив элементарные преобразования, получим систему трех линейных уравнений относительно p, q и r:

 

 

Решая эту систему методом обратной матрицы, получим: ; ; . Следовательно, уравнение параболической регрессии примет вид:

 

y= - 0,004x2+3,055x +2,99.

Построим график параболической регрессии. Для удобства наблюдения график регрессии будет на фоне диаграммы рассеивания (см. рисунок 13).

 

Рис. 13 Параболическая регрессия y=f(x)

 

Теперь изобразим линии линейной регрессии и параболической регрессии на одной диаграмме, для наглядного сравнения (см. рисунок 14).

 

Рис. 14 Параболическая и линейная регрессии

 

Линейная регрессия изображена красным цветом, а параболическая - синим. По диаграмме видно, что отличие в данном случае больше, чем при сравнении двух линий линейных регрессий. Требуется дальнейшее исследование, какая же регрессия лучше выражает зависимость между x и y, т. е. какой тип зависимости между x и y.

Проверка гипотез статистиками

 

Для начала рассмотрим статистику , которая показывает отклонение значений от

 

 

Теперь обратимся к проверке гипотез и Заметим сразу, что значения, вычисленным с использованием соответствующих статистик и должна быть меньше значения . Статистика используется для проверки гипотезы о линейной зависимости, и показывает, насколько величины отклоняются от линии регрессии . Вычисляем

 

.

 

Аналогично для гипотезы используем статистику , которая, соответственно, показывает отклонение от квадратной регрессии

 

Видим

 

.

Следовательно и меньше , что и требовалось доказать.

 

 

Метод доверительных интервалов

 

Рассмотренные ранее , , , , , , , являются точечными оценками, но наряду с ними при изучении выборки используются интервальные оценки, так как полезно не только построить оценку, но и охарактеризовать величину возможной при её использовании ошибки.

Интервальной называют оценку, которая определяется двумя числами - концами интервала. Интервальные оценки позволяют установить точность и надежность оценок.

Величина характеризует точность оценки, если выполняется неравенство

 

,

 

где - оценка некоторого параметра генеральной совокупности. Надежностью (доверительной вероятностью) оценки по называют вероятность , c которой осуществляется неравенство

 

 

Наиболее часто задают надежность, равную 0,95; 0,9; 0,999.

Доверительным называют интервал , , который покрывает известный параметр с заданной надежностью .

Рассмотрим доверительный интервал для математического ожидания генеральной совокупности. Известен объем выборки n = 100;

 

= 9,1947,

= 30,6331,

 

исправленное выборочное среднеквадратичное отклонение

 

, .

 

Найдем доверительный интервал для оценки неизвестного математического ожидания по X и Y с надежностями = 0,95; 0,99; 0,999.

Если наблюдаемая случайная величина имеет нормальное распределение, но ее среднеквадратичное отклонение нам неизвестно, то мы можем построить доверительный интервал по распределению Стьюдента с степенями свободы, то есть должно быть справедливо неравенство:

 

;

 

где определим по заданным и . Это соотношение выражает доверительный интервал для , определяемый с помощью распределения Стьюдента.

Найдем доверительные интервалы для математического ожидания X.

 

При ; : 8,1 < < 10,3.

При ; 7,8 < < 10,6.

При ; 7,3 < < 11,1.

 

Найдем доверительные интервалы для дисперсии X.

 

При ; : 29,1 < < 31,3.

При ; 28,8 < < 31,6.

При ; 28,3 < < 32,1.

 

 

Заключение

 

В данной работе при помощи статистических методов были прослежены закономерности и связи между двумя дискретными случайными величинами: X - количество эритроцитов в крови (десятков тысяч) и Y - возраст человека (лет).

Для этих величин были посчитаны числовые характеристики дискретных случайных величин, построены полигоны и гистограммы распределения частот, приведены д?/p>