Исследование статистической зависимости количества эритроцитов в крови от возраста человека
Дипломная работа - Математика и статистика
Другие дипломы по предмету Математика и статистика
ъём выборки.
Теперь же A = 120716,9; B =3063,31; C =37157,64; D = 919,47; N = 100.
Найдём c и d из этой линейной. Получим стационарную точку для где ; .
Следовательно, уравнение примет вид:
Рис. 11 Линейная регрессия x=f(y)
Теперь для наглядности изобразим обе линии линейной регрессии на диаграмме рассеивания.
Рис. 12 Линейные регрессии y=f(x) и x=f(y)
Видно, что они практически совпадают и пересекаются в районе математических ожиданий признаков и . Зелёная линия показывает регрессию , а красная - .
Метод наименьших квадратов для определения p, q, r
Найдем по данным наблюдений выборочное уравнение кривой линии среднеквадратичной (параболической в нашем случае) регрессии.
Ограничимся представлением величины Y в виде параболической функции величины X:
где p, q, и r - параметры, подлежащие определению. Это можно сделать с помощью метода наименьших квадратов.
Подберем параметры p, q и r так, чтобы сумма квадратов отклонений была минимальной. Так как каждое отклонение зависит от отыскиваемых параметров, то и сумма квадратов отклонений есть функция F этих параметров:
Для отыскания минимума приравняем к нулю соответствующие частные производные:
Находим p, q и r. Выполнив элементарные преобразования, получим систему трех линейных уравнений относительно p, q и r:
Решая эту систему методом обратной матрицы, получим: ; ; . Следовательно, уравнение параболической регрессии примет вид:
y= - 0,004x2+3,055x +2,99.
Построим график параболической регрессии. Для удобства наблюдения график регрессии будет на фоне диаграммы рассеивания (см. рисунок 13).
Рис. 13 Параболическая регрессия y=f(x)
Теперь изобразим линии линейной регрессии и параболической регрессии на одной диаграмме, для наглядного сравнения (см. рисунок 14).
Рис. 14 Параболическая и линейная регрессии
Линейная регрессия изображена красным цветом, а параболическая - синим. По диаграмме видно, что отличие в данном случае больше, чем при сравнении двух линий линейных регрессий. Требуется дальнейшее исследование, какая же регрессия лучше выражает зависимость между x и y, т. е. какой тип зависимости между x и y.
Проверка гипотез статистиками
Для начала рассмотрим статистику , которая показывает отклонение значений от
Теперь обратимся к проверке гипотез и Заметим сразу, что значения, вычисленным с использованием соответствующих статистик и должна быть меньше значения . Статистика используется для проверки гипотезы о линейной зависимости, и показывает, насколько величины отклоняются от линии регрессии . Вычисляем
.
Аналогично для гипотезы используем статистику , которая, соответственно, показывает отклонение от квадратной регрессии
Видим
.
Следовательно и меньше , что и требовалось доказать.
Метод доверительных интервалов
Рассмотренные ранее , , , , , , , являются точечными оценками, но наряду с ними при изучении выборки используются интервальные оценки, так как полезно не только построить оценку, но и охарактеризовать величину возможной при её использовании ошибки.
Интервальной называют оценку, которая определяется двумя числами - концами интервала. Интервальные оценки позволяют установить точность и надежность оценок.
Величина характеризует точность оценки, если выполняется неравенство
,
где - оценка некоторого параметра генеральной совокупности. Надежностью (доверительной вероятностью) оценки по называют вероятность , c которой осуществляется неравенство
Наиболее часто задают надежность, равную 0,95; 0,9; 0,999.
Доверительным называют интервал , , который покрывает известный параметр с заданной надежностью .
Рассмотрим доверительный интервал для математического ожидания генеральной совокупности. Известен объем выборки n = 100;
= 9,1947,
= 30,6331,
исправленное выборочное среднеквадратичное отклонение
, .
Найдем доверительный интервал для оценки неизвестного математического ожидания по X и Y с надежностями = 0,95; 0,99; 0,999.
Если наблюдаемая случайная величина имеет нормальное распределение, но ее среднеквадратичное отклонение нам неизвестно, то мы можем построить доверительный интервал по распределению Стьюдента с степенями свободы, то есть должно быть справедливо неравенство:
;
где определим по заданным и . Это соотношение выражает доверительный интервал для , определяемый с помощью распределения Стьюдента.
Найдем доверительные интервалы для математического ожидания X.
При ; : 8,1 < < 10,3.
При ; 7,8 < < 10,6.
При ; 7,3 < < 11,1.
Найдем доверительные интервалы для дисперсии X.
При ; : 29,1 < < 31,3.
При ; 28,8 < < 31,6.
При ; 28,3 < < 32,1.
Заключение
В данной работе при помощи статистических методов были прослежены закономерности и связи между двумя дискретными случайными величинами: X - количество эритроцитов в крови (десятков тысяч) и Y - возраст человека (лет).
Для этих величин были посчитаны числовые характеристики дискретных случайных величин, построены полигоны и гистограммы распределения частот, приведены д?/p>