Исследование статистической зависимости количества эритроцитов в крови от возраста человека

Дипломная работа - Математика и статистика

Другие дипломы по предмету Математика и статистика

- корреляционной таблице мало отличаются от величин, вычисленных по всей выборке. В случае ручной обработки данных использования корреляционной таблицы достаточно оправдано, ощутимо снижая сложность вычислений.

Теперь можно построить гистограмму для признаков X и Y.

эритроцит возраст статистический вероятность

 

Гистограммы для признаков X и Y

 

Рис. 2 Гистограмма для признаков X

 

Рис. 3 Гистограмма для признаков Y

 

Полигоны для признаков X и Y

 

Рис. 4 Полигон для признаков X

Рис. 5 Полигон для признаков Y

 

Рис. 6 Полигон отсноительных частот по X

 

Рис. 7 Полигон отсноительных частот по Y

 

 

Эмпирические функции для признаков X и Y

 

Рис. 8 Эмпирическая функция по X

 

Рис. 9 Эмпирическая функция по Y

 

Регрессия

 

Регрессия - зависимость среднего значения величины Y от другой величины X. Понятие регрессии в некотором смысле обобщает понятие функциональной зависимости y=f(x). Только в случае регрессии одному и тому же значению x в различных случаях соответствуют различные значения у.

Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов).

По форме зависимости различают:

  1. линейную регрессию, которая выражается уравнением прямой (линейной функцией)

 

 

  1. нелинейную (параболическую)

 

 

  1. другие виды.

В теории вероятностей при исследовании вероятности величины Y по величине X предполагают, что при любом фиксированном значении X величина Y является случайной величиной с определенным (зависящим от значения X) условным распределением вероятностей, по которому вычисляют условное математическое ожидание:

 

 

и дисперсию

 

.

 

Целью регрессионного анализа является оценка функциональной зависимости условного среднего значения результативного признака y от факторных (x1, x2,…, xn). Основная предпосылка: только y подчиняется нормальному закону распределения, а факторные признаки (x1, x2,…, xn) могут иметь произвольный закон распределения.

Метод наименьших квадратов

 

Метод наименьших квадратов (МНК) - метод, применяемый в теории ошибок для отыскания одного или нескольких неизвестных по результатам измерений, содержащим случайные ошибки. МНК используется также для приближенного представления заданной функции другими (более простыми) функциями и часто оказывается полезным для обработки наблюдений.

В простейшем случае, когда нет систематических ошибок, а есть случайные оценки неизвестных величин, полученные с помощью МНК, то они являются линейными функциями от наблюдаемых значений - статистические оценки.

Если статистические оценки наблюдений независимы и подчиняются нормальному распределению, то МНК дает оценки неизвестных с наименьшей средней квадратичной ошибкой. В этом смысле МНК является самым лучшим среди других способов, позволяющих находить линейные несмещенные оценки.

Если мы рассматриваем слабо формализованные системы, которые трудно поддаются однозначным и точным описаниям, связь между величинами X и Y изначально корреляционная. Это связано, в частности, с тем, что Y зависит не только от X, но и от других параметров, причем такая связь часто носит случайный характер.

В этом случае, имея экспериментальные точки, задача состоит в том, чтобы приближённо свести корреляционную связь к функциональной с помощью подбора такой функции, которая максимально возможным способом близка экспериментальным точкам. Такая функция называется функцией регрессии.

Обычно вид самой функции угадывается, но она зависит от некоторых параметров. Задача статистического и корреляционного анализа состоит в нахождении этих параметров. Для этого и используется метод наименьших квадратов.

Рассмотрим случайную двумерную величину (X, Y), где - зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением величины в виде линейной функции величины X:

 

 

где - параметры, подлежащие определению. Это можно сделать различными способами: наиболее употребительный из них - МНК. Функцию g(x) называют среднеквадратической регрессией Y на X.

 

 

где F - суммарное квадратичное отклонение.

Подберем a и b так, чтобы сумма квадратов отклонений была минимальной. Для того, чтобы найти коэффициенты a и b, при которых F достигает минимального значения, приравняем частные производные к нулю:

 

 

Находим a и b. Выполнив элементарные преобразования, получим систему двух линейных уравнений относительно a и b:

 

,

Где

 

- объём выборки.

 

В нашем случае

 

A = 3277; B =495; C =7188; D = 1117;N = 100.

 

Найдём a и b из этой линейной. Получим стационарную точку для где 2,98; 3,26.

Следовательно, уравнение примет вид:

 

Y = 2,98x+3,26

 

Рис. 10 Линейная регрессия y=f(x)

 

Построим график линейной регрессии. Для удобства наблюдения график регрессии будет на фоне диаграммы рассеивания.

Теперь построим регрессию

 

 

Аналогично

 

,

 

Где

 

- об