Критерий согласия для распределения Парето
Дипломная работа - Компьютеры, программирование
Другие дипломы по предмету Компьютеры, программирование
Введение
В математической статистике значимость исследования выборки очень существенна. Выборка подвергается обработке и выдвигается предположение о распределении, которому подчиняется выборка.
Так как все предположения о характере того или иного распределения - это гипотезы, то они должны быть подвергнуты статистической проверке с помощью критериев согласия, которые дают возможность установить, когда расхождения между теоретическими и эмпирическими частотами следует признать несущественными, т.е. случайными, а когда - существенными (неслучайными). Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.
1. Теоретическая часть
1.1 Распределение Парето
Распределение Парето - это двухпараметрическое семейство абсолютно непрерывных распределений.
Функция распределения F(x) имеет вид (1.1).
, (1.1)
где ?, x0 - параметры распределения, x > x0 > 0, ? > 0.
Функция плотности распределения f(x) имеет вид (1.2).
(1.2)
График функции распределения приведен на рисунке 1. График функции плотности распределения приведен на рисунке 2.
Рисунок 1 - График функции распределения
Рисунок 1 - График функции плотности распределения
1.2 Критерий согласия ?2
Предположим, что по виду гистограммы или полигона частот или из каких-либо других соображений удается выдвинуть гипотезу о множестве функций определенного вида (нормальных, показательных, биномиальных и т.п.), к которому может принадлежать функция распределения исследуемой случайной величины X. Критерий ?2 Пирсона (критерий согласия ?2) позволяет производить проверку согласия эмпирической функции распределения F*(x) с гипотетической функцией распределения F(x).
Для этого придерживаются следующей последовательности действий:
) Диапазон изменения экспериментальных данных разбивается на k интервалов;
) На основании гипотетической функции F(x) вычисляют вероятность попадания с.в. X в частичные интервалы [xi-1, xi] по формуле (1.3);
pi = P(xi-1 ? X ? xi), i=1,2., k (1.3)
3) Умножая полученные вероятности pi на объем выборки n, получают теоретические частоты npi частичных интервалов [xi-1, xi], т.е. частоты, которые следует ожидать, если гипотеза справедлива;
) Вычисляю выборочную статистику (критерий) ?2 по формуле (1.4).
, (1.4)
где mi - количество значений с.в., попавших в i-й интервал;
n - объём выборки.
Если гипотеза верна, то при n>? распределение выборочной статистики, независимо от вида функции F(x), стремится к распределению ?2 с v= k-r-1 степенями свободы (k - число частичных интервалов, r - число параметров гипотетической функции F(x), оцениваемых по данной выборке).
Критерий ?2 сконструирован таким образом, что чем ближе к нулю наблюдаемое значение критерия ?2, тем вероятнее, что гипотеза справедлива. Поэтому для проведения гипотезы применяется критерий ?2 с правосторонней критической областью. Необходимо найти по таблице квантилей ?2-распределения по заданному уровню значимости ? и числу степеней свободы v критическое значение ?2?,v, удовлетворяющее условию p(?2 ? ?2?,v) = ?.
Если ?2набл. ? ?2?,v, то считается, что гипотетическая функция F(x) не согласуется с результатами эксперимента. Если ?2набл. ? ?2?,v, то считается, что гипотетическая функция F(x) согласуется с результатами эксперимента.
1.3 Алгоритм обработки выборки
) Сортируем выборку по возрастанию (преобразуем в вариационный ряд)
) Находим минимальный xmin и максимальный xmax элемент выборки
) Находим длину интервалов группировки h по формуле (1.5)
, (1.5)
где k - число интервалов группировки.
) Находим левые xl и правые xr границы интервалов группировки по формулам (1.6)
(1.6)
) Находим центры xk* интервалов группировки по формуле (1.7)
(1.7)
) Для каждого интервала группировки (xk-1, xk) находим число nk* (абсолютная частота) элементов выборки, попавших в этот интервал. Важно чтобы каждый элемент выборки был отнесен к одному и только к одному интервалу, а если значение элемента попадает на границу интервала, то его относят к интервалу с младшим номером. Минимальный элемент всегда относится к первому интервалу, максимальный к последнему.
) Вычисляем относительные частоты Otnk* по формуле (1.8) как отношение абсолютной частоты к объему выборки. Убеждаемся, что сумма всех относительных частот равна единице (допускается небольшое отличие от единицы в рамках погрешности вычислений).
(1.8)
8) Строим гистограмму относительных частот - фигуру, состоящую из k прямоугольников, опирающихся на интервалы группировки. Площадь k-го прямоугольника полагают равной относительной частоте данного интервала. Высота k-го прямоугольника Hk рассчитывается по формуле (1.9).
(1.9)
Убеждаемся, что сумма всех высот Hk, умноженная на h, равна единице (допускается небольшое отличие от единицы в рамках погрешности вычислений). На оси абсцисс выбираем начальную точку чуть левее точки xmin, и такой масштаб, чтобы на оси поместился интервал