Исследование статистической зависимости количества эритроцитов в крови от возраста человека

Дипломная работа - Математика и статистика

Другие дипломы по предмету Математика и статистика

- корреляционной таблице мало отличаются от величин, вычисленных по всей выборке. В случае ручной обработки данных использования корреляционной таблицы достаточно оправдано, ощутимо снижая сложность вычислений.

Теперь можно построить гистограмму для признаков X и Y.

эритроцит возраст статистический вероятность

Гистограммы для признаков X и Y

Рис. 2 Гистограмма для признаков X

Рис. 3 Гистограмма для признаков Y

Полигоны для признаков X и Y

Рис. 4 Полигон для признаков X

Рис. 5 Полигон для признаков Y

Рис. 6 Полигон отсноительных частот по X

Рис. 7 Полигон отсноительных частот по Y

Эмпирические функции для признаков X и Y

Рис. 8 Эмпирическая функция по X

Рис. 9 Эмпирическая функция по Y

Регрессия

Регрессия - зависимость среднего значения величины Y от другой величины X. Понятие регрессии в некотором смысле обобщает понятие функциональной зависимости y=f(x). Только в случае регрессии одному и тому же значению x в различных случаях соответствуют различные значения у.

Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов).

По форме зависимости различают:

линейную регрессию, которая выражается уравнением прямой (линейной функцией)

нелинейную (параболическую)

другие виды.

В теории вероятностей при исследовании вероятности величины Y по величине X предполагают, что при любом фиксированном значении X величина Y является случайной величиной с определенным (зависящим от значения X) условным распределением вероятностей, по которому вычисляют условное математическое ожидание:

и дисперсию

Целью регрессионного анализа является оценка функциональной зависимости условного среднего значения результативного признака y от факторных (x1, x2,…, xn). Основная предпосылка: только y подчиняется нормальному закону распределения, а факторные признаки (x1, x2,…, xn) могут иметь произвольный закон распределения.

Метод наименьших квадратов

Метод наименьших квадратов (МНК) - метод, применяемый в теории ошибок для отыскания одного или нескольких неизвестных по результатам измерений, содержащим случайные ошибки. МНК используется также для приближенного представления заданной функции другими (более простыми) функциями и часто оказывается полезным для обработки наблюдений.

В простейшем случае, когда нет систематических ошибок, а есть случайные оценки неизвестных величин, полученные с помощью МНК, то они являются линейными функциями от наблюдаемых значений - статистические оценки.

Если статистические оценки наблюдений независимы и подчиняются нормальному распределению, то МНК дает оценки неизвестных с наименьшей средней квадратичной ошибкой. В этом смысле МНК является самым лучшим среди других способов, позволяющих находить линейные несмещенные оценки.

Если мы рассматриваем слабо формализованные системы, которые трудно поддаются однозначным и точным описаниям, связь между величинами X и Y изначально корреляционная. Это связано, в частности, с тем, что Y зависит не только от X, но и от других параметров, причем такая связь часто носит случайный характер.

В этом случае, имея экспериментальные точки, задача состоит в том, чтобы приближённо свести корреляционную связь к функциональной с помощью подбора такой функции, которая максимально возможным способом близка экспериментальным точкам. Такая функция называется функцией регрессии.

Обычно вид самой функции угадывается, но она зависит от некоторых параметров. Задача статистического и корреляционного анализа состоит в нахождении этих параметров. Для этого и используется метод наименьших квадратов.

Рассмотрим случайную двумерную величину (X, Y), где - зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением величины в виде линейной функции величины X:

где - параметры, подлежащие определению. Это можно сделать различными способами: наиболее употребительный из них - МНК. Функцию g(x) называют среднеквадратической регрессией Y на X.

где F - суммарное квадратичное отклонение.

Подберем a и b так, чтобы сумма квадратов отклонений была минимальной. Для того, чтобы найти коэффициенты a и b, при которых F достигает минимального значения, приравняем частные производные к нулю:

Находим a и b. Выполнив элементарные преобразования, получим систему двух линейных уравнений относительно a и b:

Где

- объём выборки.

В нашем случае

A = 3277; B =495; C =7188; D = 1117;N = 100.

Найдём a и b из этой линейной. Получим стационарную точку для где 2,98; 3,26.

Следовательно, уравнение примет вид:

Y = 2,98x+3,26

Рис. 10 Линейная регрессия y=f(x)

Построим график линейной регрессии. Для удобства наблюдения график регрессии будет на фоне диаграммы рассеивания.

Теперь построим регрессию

Аналогично

Где

- об