Исследование и прогноз величин, распределенных по закону Парето

Дипломная работа - Менеджмент

Другие дипломы по предмету Менеджмент

?о стихийными бедствиями, среднегодовое число жертв за 1962 - 1992 годы от тех же катастроф составило 36000. Уменьшение среднегодового числа жертв, по сравнению с периодом 1947-1960 гг., почти в два раза было бы большим успехом, если бы оно не носило случайного характера.

Случайность уменьшения числа жертв продемонстрируем на примере землетрясений - наиболее изученного вида катастроф. Согласно подборке данных проф. Н.В. Шебалина (Институт физики Земли РАН) в 1947-1970 гг. от землетрясений погибло 151 тыс. чел., что дает среднегодовое число жертв 6300. В то же время, по данным за 1962-1992 гг. число жертв от землетрясений составило 577 600 чел., т.е., несмотря на успехи сейсмостойкого строительства, среднегодовое число погибших увеличилось до 18600 чел. Таким образом, среднегодовые показатели разнятся втрое, причем оба показателя много меньше максимальных потерь от единичного события (при землетрясении 28.07.1976 в Китае погибло, по меньшей мере, 240 тыс. чел.). Из приведенных примеров безо всякого специального анализа видно, что среднегодовые значения весьма неустойчивы и потому неинформативны.

 

1.5 Методы обработки данных, имеющих распределения с тяжелыми хвостами, предложенные Малинецким Г.Г.

 

Один из общих подходов к обработке положительных величин, имеющих распределения с тяжелым хвостом, состоит в переходе от наблюдаемых величин xi к их логарифмам yi = ln xi. В случае степенного убывания хвостов с любым показателем степени величины yi уже будут иметь все статистические моменты и, таким образом, к ним можно применять стандартные методы статистической обработки. Следует отметить важный недостаток этого подхода. Если нас интересует суммарный эффект Sn, то переход к логарифмам не поможет, ибо связать поведение Sn и ln x1 + ln x2 +… + ln xn в общем случае очень трудно. Остановимся подробнее на важном частном случае, когда можно считать априори известным, что хвост распределения удовлетворительно описывается степенной зависимостью при x, превышающем некоторый также известный порог x0 (отметим, что для каждого типа природных и техногенных катастроф этот вопрос должен рассматриваться отдельно на основе известной статистики или результатов математического моделирования). При этом не обязательно, чтобы это приближение выполнялось для всего диапазона наблюдаемых значений, достаточно, чтобы оно выполнялось для хвоста распределения, т.е. при x > x0. Действительно, для распределений с тяжелыми хвостами основной вклад в суммарный эффект Sn вносят наибольшие наблюдения. Поэтому указанное пороговое ограничение не скажется заметно на оценке вероятностных характеристик сумм Sn при достаточно больших значениях n. После перенормировки на известное значение порога можно считать, что нормированные величины x/x0 имеют распределение Парето. Нужно только выбирать порог x0 так, чтобы осталось достаточное для оценки параметра число наблюдений выше этого порога. Практика показывает, что следует оставлять не менее 25-30 наибольших наблюдений. Оценка максимального правдоподобия для параметра имеет вид:

 

(1.22)

 

В качестве разброса этой оценки можно взять стандартное отклонение :

 

. (1.23)

 

Если для медианы максимального члена med mn использовать выражение (1.12) то в качестве оценки характерного значения суммы можно взять значение

 

, (1.24) где . (1.25)

 

Для распределения Парето математическое ожидание (1.25) можно вычислить точно:

 

, (1.26)

 

где через обозначена бета-функция. В табл.1.2 приведены величины Rn для некоторых значений и n.

Таблица 1.2 - Средние значения отношений Sn/mmax

Параметр Объем выборки, n1020501002000500010000,72,232,522,782,923,033,133,183,330,92,663,214,324,745,255,606,6010,01,02,973,624,515, 195,886,797,491,55,847,369,9812,5815,8521,5127,10

Неизвестный параметр в (1.25), (1.26) необходимо заменить на его оценку . При этом погрешность такой замены можно проконтролировать, подставив в (1.25) и (1.26) значения . Оценку по формуле (1.24) можно использовать для предсказания будущих характерных значений суммарного эффекта Sn. Как было отмечено ранее эта оценка растет нелинейно с увеличением n. Поскольку величина n обычно пропорциональна интервалу времени наблюдения, то можно сказать, что суммарный эффект растет нелинейно со временем. Необходимо отметить, что, хотя среднее значение отношения Sn/mmax согласно (1.21) при n стремится к константе 1/ (1 - ) в случае < 1, дисперсия этого отношения не уменьшается до нуля; она также стремится к некоторой константе. Характерные значения сумм Sn растут согласно уравнению (1.24). Однако случайные отклонения весьма велики. Поэтому во многих прогноз суммарного эффекта целесообразней делать не в виде точечной оценки, а в виде доверительного интервала такого, что:

 

, (1.27)

 

где - задаваемое исследователем малое число, характеризующее уровень доверия. Можно дать следующую приближенную оценку для верхней доверительной границы:

 

. (1.28)

 

Оценка для нижней доверительной границы - соответственно:

 

. (1.29)

 

Таким образом в данном подразделе была рассмотрена методика расчета и прогноза теоретических значений суммы накопленных эффектов в зависимости от количества событий n при распределении таких эффектов по закону Парето с .

2. Практическая часть

 

2.1 Программная реализация

 

Дл