Теоретические распределения данных
Курсовой проект - Компьютеры, программирование
Другие курсовые по предмету Компьютеры, программирование
КУРСОВАЯ РАБОТА
по дисциплине:
Эконометрическое моделирование
Теоретические распределения данных
Введение
В данной курсовой работе раскрывается тема Теоретическое распределение данных: демонстрируется зависимость функций плотности вероятности, кумулятивного и обратного кумулятивного распределений от их параметров. Представлены примеры вычисления вероятностей и доверительных интервалов. Рассмотрены нормальное и логнормальное распределения, распределения Пуассона и бинарное распределение.
Целью работы является изучить различные распределения данных, а также ознакомиться с программой MATLAB.
вероятность распределение доверительный интервал
1. Теоретические распределения данных
Для численного и графического представления теоретических распределений данных в MATLAB имеются 3 типа файл-функций, включающих в свое имя аббревиатуры pdf, cdf или inv, расшифровка и перевод которых даны в следующей таблице:
Полное название >Использованные в книге терминыpdfprobability density functionфункция плотности вероятностиcdfcumulative distribution functionфункция кумулятивного распределенияinvinverse cumulative distribution functionфункция обратного кумулятивного распределения
Файл-функции с указанными аббревиатурами оперируют числовыми переменными среды MATLAB и потому эквивалентны в представлении как непрерывных, так и дискретных распределений. Для дискретных распределений файл-функции pdfs (Probability density functions) вычисляют вероятности значений случайной переменной, для непрерывных - плотность вероятности значений случайной переменной. Еще заметим, в Help MATLAB при повторных или безальтернативных ссылках на файл-функции pdf, cdf и inv чаще используется одно слово distribution, т.е. распределение.
1.1 Непрерывные распределения
.1.1 Общие положения
Если задана функция плотности вероятности f (x| а, b,…), где х - случайная переменная, принимающая непрерывный ряд значений, а, b,… - параметры распределения, то функция кумулятивного распределения
F (x|a, b,…)=
определяет вероятность того, что случайная переменная принимает значение, меньшее х.
Аналогично определяются вероятности того, что случайная переменная принимает значение, большее x, и значение, находящееся в интервале [x1, x2]. В краткой форме все три вероятности записывают так:
P (yx) = l-F(x), P(x1?y<x2) = F(x2) - F(x1).
Дифференцирование функции кумулятивного распределения приводит к функции плотности вероятности
f (x|a, b,…)=F (x|a, b,…).
Вероятность попадания случайной переменной в интервал [x1, x2] определяется интегралом от функции плотности вероятности:
Р(x1?у<x2) = x|a, b.) dx.
Нормировка плотности вероятности:
В Help MATLAB принята символическая форма записи функции обратного кумулятивного распределения
x = F-1(p|a, b,…), где p = F (x|a, b,…).
Обратное кумулятивное распределение используется для оценок такого значения xq случайной переменной, при котором функция кумулятивного распределения принимает значение, равное q, т.е.
F(xq,|a, b.)=(x|a, b,…) dx=q.
Из этого уравнения следует, что величина уровня q = P (x?xq) определяет вероятность того, что случайная переменная примет значение, меньшее или равное xq. Величина xq имеет называние quantile. По-русски слово квантиль женского рода с ударением на втором слоге.
Для вычисления квантилей решают интегральное уравнение
xq=F-1(q|a, b,…).
Квантиль x0,5 называется медианой (median), квантили x0,25 и x0,75 - соответственно нижняя квартиль и верхняя квартиль (quartile). Например, медиана вычисляется решением интегрального уравнения
.
Наряду с квантилями используют процентили (percentiles)
xp=xq*100%.
Процентиль х50% также называется медианой, процентили х25% и х75% -соответственно нижняя и верхняя квартиль.
Модой хm случайной величины называют ее значение, при котором функция распределения достигает максимума. Вычисляют моду решением уравнения
.
Еще раз обратим внимание, слова квантиль, квартиль, процентиль, медиана, мода женского рода.
Среднее значение (центр) распределения случайной переменной:
=.
Дисперсия (мера рассеяния) случайной переменной определяется как среднее значение квадрата отклонения значений случайной переменной от ее среднего значения,
D?.
Величину ? = = называют стандартным отклонением. При интерпретации статистических результатов предпочтительнее обращаться именно к ?, а не к ?2, в связи с тем, что величина стандартного отклонения ? имеет размерность исследуемой случайной переменной и потому легче воспринимается в качестве количественной характеристики.
Третий центральный момент
M3=
определяет величину
A=
коэффициента асимметрии распределения относительно его среднего. Для значений А0 - справа. Для распределений, симметричных относительно среднего, например, нормального, А = 0.
Четвертый центральный момент
M4=
определяет величину
E=-3
коэффициента эксцесса (меру островершинности) распределения.
1.1.2 Нормальное (га?/p>