Критерий согласия для распределения Парето

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование

Введение

 

В математической статистике значимость исследования выборки очень существенна. Выборка подвергается обработке и выдвигается предположение о распределении, которому подчиняется выборка.

Так как все предположения о характере того или иного распределения - это гипотезы, то они должны быть подвергнуты статистической проверке с помощью критериев согласия, которые дают возможность установить, когда расхождения между теоретическими и эмпирическими частотами следует признать несущественными, т.е. случайными, а когда - существенными (неслучайными). Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.

 

 

1. Теоретическая часть

 

1.1 Распределение Парето

 

Распределение Парето - это двухпараметрическое семейство абсолютно непрерывных распределений.

Функция распределения F(x) имеет вид (1.1).

 

, (1.1)

 

где ?, x0 - параметры распределения, x > x0 > 0, ? > 0.

Функция плотности распределения f(x) имеет вид (1.2).

 

(1.2)

 

График функции распределения приведен на рисунке 1. График функции плотности распределения приведен на рисунке 2.

 

Рисунок 1 - График функции распределения

Рисунок 1 - График функции плотности распределения

 

1.2 Критерий согласия ?2

 

Предположим, что по виду гистограммы или полигона частот или из каких-либо других соображений удается выдвинуть гипотезу о множестве функций определенного вида (нормальных, показательных, биномиальных и т.п.), к которому может принадлежать функция распределения исследуемой случайной величины X. Критерий ?2 Пирсона (критерий согласия ?2) позволяет производить проверку согласия эмпирической функции распределения F*(x) с гипотетической функцией распределения F(x).

Для этого придерживаются следующей последовательности действий:

) Диапазон изменения экспериментальных данных разбивается на k интервалов;

) На основании гипотетической функции F(x) вычисляют вероятность попадания с.в. X в частичные интервалы [xi-1, xi] по формуле (1.3);

 

pi = P(xi-1 ? X ? xi), i=1,2., k (1.3)

3) Умножая полученные вероятности pi на объем выборки n, получают теоретические частоты npi частичных интервалов [xi-1, xi], т.е. частоты, которые следует ожидать, если гипотеза справедлива;

) Вычисляю выборочную статистику (критерий) ?2 по формуле (1.4).

 

, (1.4)

 

где mi - количество значений с.в., попавших в i-й интервал;

n - объём выборки.

Если гипотеза верна, то при n>? распределение выборочной статистики, независимо от вида функции F(x), стремится к распределению ?2 с v= k-r-1 степенями свободы (k - число частичных интервалов, r - число параметров гипотетической функции F(x), оцениваемых по данной выборке).

Критерий ?2 сконструирован таким образом, что чем ближе к нулю наблюдаемое значение критерия ?2, тем вероятнее, что гипотеза справедлива. Поэтому для проведения гипотезы применяется критерий ?2 с правосторонней критической областью. Необходимо найти по таблице квантилей ?2-распределения по заданному уровню значимости ? и числу степеней свободы v критическое значение ?2?,v, удовлетворяющее условию p(?2 ? ?2?,v) = ?.

Если ?2набл. ? ?2?,v, то считается, что гипотетическая функция F(x) не согласуется с результатами эксперимента. Если ?2набл. ? ?2?,v, то считается, что гипотетическая функция F(x) согласуется с результатами эксперимента.

 

1.3 Алгоритм обработки выборки

 

) Сортируем выборку по возрастанию (преобразуем в вариационный ряд)

) Находим минимальный xmin и максимальный xmax элемент выборки

) Находим длину интервалов группировки h по формуле (1.5)

 

, (1.5)

 

где k - число интервалов группировки.

) Находим левые xl и правые xr границы интервалов группировки по формулам (1.6)

 

(1.6)

 

) Находим центры xk* интервалов группировки по формуле (1.7)

 

(1.7)

 

) Для каждого интервала группировки (xk-1, xk) находим число nk* (абсолютная частота) элементов выборки, попавших в этот интервал. Важно чтобы каждый элемент выборки был отнесен к одному и только к одному интервалу, а если значение элемента попадает на границу интервала, то его относят к интервалу с младшим номером. Минимальный элемент всегда относится к первому интервалу, максимальный к последнему.

) Вычисляем относительные частоты Otnk* по формуле (1.8) как отношение абсолютной частоты к объему выборки. Убеждаемся, что сумма всех относительных частот равна единице (допускается небольшое отличие от единицы в рамках погрешности вычислений).

 

(1.8)

8) Строим гистограмму относительных частот - фигуру, состоящую из k прямоугольников, опирающихся на интервалы группировки. Площадь k-го прямоугольника полагают равной относительной частоте данного интервала. Высота k-го прямоугольника Hk рассчитывается по формуле (1.9).

 

(1.9)

 

Убеждаемся, что сумма всех высот Hk, умноженная на h, равна единице (допускается небольшое отличие от единицы в рамках погрешности вычислений). На оси абсцисс выбираем начальную точку чуть левее точки xmin, и такой масштаб, чтобы на оси поместился интервал