Исследование статистической зависимости количества эритроцитов в крови от возраста человека
Дипломная работа - Математика и статистика
Другие дипломы по предмету Математика и статистика
- корреляционной таблице мало отличаются от величин, вычисленных по всей выборке. В случае ручной обработки данных использования корреляционной таблицы достаточно оправдано, ощутимо снижая сложность вычислений.
Теперь можно построить гистограмму для признаков X и Y.
эритроцит возраст статистический вероятность
Гистограммы для признаков X и Y
Рис. 2 Гистограмма для признаков X
Рис. 3 Гистограмма для признаков Y
Полигоны для признаков X и Y
Рис. 4 Полигон для признаков X
Рис. 5 Полигон для признаков Y
Рис. 6 Полигон отсноительных частот по X
Рис. 7 Полигон отсноительных частот по Y
Эмпирические функции для признаков X и Y
Рис. 8 Эмпирическая функция по X
Рис. 9 Эмпирическая функция по Y
Регрессия
Регрессия - зависимость среднего значения величины Y от другой величины X. Понятие регрессии в некотором смысле обобщает понятие функциональной зависимости y=f(x). Только в случае регрессии одному и тому же значению x в различных случаях соответствуют различные значения у.
Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов).
По форме зависимости различают:
- линейную регрессию, которая выражается уравнением прямой (линейной функцией)
- нелинейную (параболическую)
- другие виды.
В теории вероятностей при исследовании вероятности величины Y по величине X предполагают, что при любом фиксированном значении X величина Y является случайной величиной с определенным (зависящим от значения X) условным распределением вероятностей, по которому вычисляют условное математическое ожидание:
и дисперсию
.
Целью регрессионного анализа является оценка функциональной зависимости условного среднего значения результативного признака y от факторных (x1, x2,…, xn). Основная предпосылка: только y подчиняется нормальному закону распределения, а факторные признаки (x1, x2,…, xn) могут иметь произвольный закон распределения.
Метод наименьших квадратов
Метод наименьших квадратов (МНК) - метод, применяемый в теории ошибок для отыскания одного или нескольких неизвестных по результатам измерений, содержащим случайные ошибки. МНК используется также для приближенного представления заданной функции другими (более простыми) функциями и часто оказывается полезным для обработки наблюдений.
В простейшем случае, когда нет систематических ошибок, а есть случайные оценки неизвестных величин, полученные с помощью МНК, то они являются линейными функциями от наблюдаемых значений - статистические оценки.
Если статистические оценки наблюдений независимы и подчиняются нормальному распределению, то МНК дает оценки неизвестных с наименьшей средней квадратичной ошибкой. В этом смысле МНК является самым лучшим среди других способов, позволяющих находить линейные несмещенные оценки.
Если мы рассматриваем слабо формализованные системы, которые трудно поддаются однозначным и точным описаниям, связь между величинами X и Y изначально корреляционная. Это связано, в частности, с тем, что Y зависит не только от X, но и от других параметров, причем такая связь часто носит случайный характер.
В этом случае, имея экспериментальные точки, задача состоит в том, чтобы приближённо свести корреляционную связь к функциональной с помощью подбора такой функции, которая максимально возможным способом близка экспериментальным точкам. Такая функция называется функцией регрессии.
Обычно вид самой функции угадывается, но она зависит от некоторых параметров. Задача статистического и корреляционного анализа состоит в нахождении этих параметров. Для этого и используется метод наименьших квадратов.
Рассмотрим случайную двумерную величину (X, Y), где - зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением величины в виде линейной функции величины X:
где - параметры, подлежащие определению. Это можно сделать различными способами: наиболее употребительный из них - МНК. Функцию g(x) называют среднеквадратической регрессией Y на X.
где F - суммарное квадратичное отклонение.
Подберем a и b так, чтобы сумма квадратов отклонений была минимальной. Для того, чтобы найти коэффициенты a и b, при которых F достигает минимального значения, приравняем частные производные к нулю:
Находим a и b. Выполнив элементарные преобразования, получим систему двух линейных уравнений относительно a и b:
,
Где
- объём выборки.
В нашем случае
A = 3277; B =495; C =7188; D = 1117;N = 100.
Найдём a и b из этой линейной. Получим стационарную точку для где 2,98; 3,26.
Следовательно, уравнение примет вид:
Y = 2,98x+3,26
Рис. 10 Линейная регрессия y=f(x)
Построим график линейной регрессии. Для удобства наблюдения график регрессии будет на фоне диаграммы рассеивания.
Теперь построим регрессию
Аналогично
,
Где
- об