Конспект лекций по курсу "Теория вероятностей и математическая статистика"
Вид материала | Конспект |
12. Статистическая проверка гипотез |
- Рабочая учебная программа дисциплины (модуля) Теория вероятностей и математическая, 217.23kb.
- Примерная программа наименование дисциплины «теория вероятностей и математическая статистика», 165.37kb.
- Рабочая программа дисциплины "теория вероятностей и математическая статистика", 112.61kb.
- Рабочая программа учебной дисциплины теория вероятностей и математическая статистика, 830.1kb.
- Рабочая программа учебной дисциплины «Теория вероятностей и математическая статистика», 165.42kb.
- Программа курса лекций "Теория вероятностей и математическая статистика", 18.69kb.
- Примерная рабочая программа по дисциплине: «теория вероятностей, математическая статистика, 83.07kb.
- Программа по дисциплине «Теория вероятностей и математическая статистика» для студентов, 206.05kb.
- А. С. Гринберг О. Б. Плющ Б. В. Новыш Теория вероятностей и математическая статистика, 1813.61kb.
- Программа-минимум кандидатского экзамена по специальности, 37.75kb.
При этом необходимо иметь в виду, что если производится выравнивание гистограмм, то соответствующая функция должна обладать основными свойствами плотности:

Сущность метода наименьших квадратов заключается в следующем. Пусть зависимость у от х выражается формулой

где

В результате n независимых опытов были получены следующие данные, оформленные в виде статистической таблицы:
Номер опыта | 1 | 2 | ... | k | ... | n |
xi | x1 | x2 | ... | xk | ... | xn |
yi | y1 | y2 | ... | yk | ... | yn |
Согласно методу наименьших квадратов, наивероятнейшие значения параметров


Если



Если в качестве аппроксимирующей функции взят многочлен, т.е.

то оценка его коэффициентов


Если значения хi известны без ошибок, а значения yi независимы и равноточны, то оценка дисперсии величины yi определяется формулой

где

При гауссовом законе распределения величин yi изложенный метод дает минимальную ошибку.
Пример 1. Найти оценки параметров линейной функции

Решение. Для определения коэффициентов



Решая систему получаем

где

Пример 2. С помощью прибора измеряется какой-то параметр


Разряды | -4 ![]() | -3 ![]() | -2 ![]() | -1 ![]() | 0 ![]() | 1 ![]() | 2 ![]() | 3 ![]() |
Частоты ![]() | 0,012 | 0,05 | 0,144 | 0,266 | 0,240 | 0,176 | 0,092 | 0,20 |
Число попаданий в i-й разряд ![]() | 6 | 25 | 72 | 133 | 120 | 88 | 46 | 10 |
Определить аналитический вид плотности распределения f(x).
Решение. Вначале построим гистограмму распределения случайной величины Х.

Как видно из гистограммы, подходящей для аппроксимации является гауссова функция:

Таким образом, необходимо определить лишь два параметра, математическое ожидание





Тогда


Среднее квадратическое отклонение

Таким образом оценку для плотности распределения случайной величины Х можно записать в виде

Для решения задач обоснованного прогноза, т.е. для определения пределов, в которых с наперед заданной надежностью будет содержаться интересующая нас величина, если другие связанные с ней величины получат определенные значения, необходимо определить их функциональную зависимость. Функция представляющая собой статистическую зависимость одной случайной величины от другой называется регрессией.
Для гауссового распределения системы случайных величин (X, Y) связь между ними выражается уравнениями линейной регрессии:

где


Коэффициенты линейной регрессии выражаются через характеристики системы (X,Y) следующим образом:

или, учитывая, что коэффициент корреляции


Перемножив левые и правые части этих равенств, после извлечения корня получаем

т. е. коэффициент корреляции есть среднее геометрическое коэффициентов линейной регрессии. Он характеризует насколько близко связь между случайными величинами Х и Y к линейной зависимости.
Выборочные уравнения прямых регрессий имеют вид:

В тех случаях, когда линейное приближение является явно недостаточным, можно рассматривать в качестве приближенных уравнений регрессий более сложные функции, неизвестные параметры которой определяются методом наименьших квадратов.
Пример. Определить выборочное уравнение линейной регрессии Х по Y, если по результатам опытов получены следующие оценки:

Решение. Выборочный коэффициент корреляции

Тогда x-410=0,1*(64,3/62)*(y-170), или x=0,104y+392,32.
Выводы
1. Одной из часто встречающихся задач, встающих перед аналитиками различных специальностей, является задача нахождения зависимости между некоторыми наборами данных эксперимента. В общей постановке задача описания эмпирической зависимости с помощью параметрической регрессии предполагает, что задается функция, определенная с точностью до нескольких параметров, которые подбирают таким образом, чтобы получающаяся функция с максимальной точностью соответствовала данным эксперимента. Наиболее просто определяются параметры для случая линейной регрессии.
2. При выравнивании (сглаживании) эмпирических зависимостей наиболее часто исходят из того, что наилучшим приближением в данном классе функций является то, для которого сумма квадратов отклонений обращается в минимум. Вопрос о том, в каком классе функций следует искать наилучшее приближение, решается уже не математически, а исходя из характера эмпирической кривой. Аналогично обстоит дело и с задачей выравнивания статистических распределений. Принципиальный вид выравнивающей плавной кривой

3. Одним из основных методов определения статистических оценок параметров, входящих в выравнивающую функцию, является метод наименьших квадратов.
12. Статистическая проверка гипотез
При решении многих задач приходится делать предположение о виде законов распределения рассматриваемых случайных величин или соотношении между их числовыми характеристиками. Такие предположения принято называть гипотезами. Приняв ту или иную гипотезу, из нее выводят определенное следствие и рассматривают, насколько оно оправдывается на опыте, т. е. проверяют согласие принятой гипотезы с опытом.
Процедура обоснованного сопоставления высказанной гипотезы с имеющимися выборочными данными осуществляется с помощью того или иного статистического критерия и называется статистической проверкой гипотез.
Результат подобного сопоставления может быть либо отрицательными (данные наблюдения противоречат высказанной гипотезе, а потому от этой гипотезы следует отказаться), либо неотрицательными (данные наблюдения не противоречат высказанной гипотезе, а потому ее можно принять в качестве одного из естественных и допустимых решений). При этом неотрицательный результат статистической проверки гипотезы не означает, что высказанное нами предположительное утверждение является наилучшим, единственно подходящим: просто оно не противоречит имеющимся у нас выборочным данным, однако таким же свойством могут наряду с данной гипотезой обладать и другие гипотезы.
По своему прикладному содержанию высказываемые в ходе статистической обработки данных гипотезы можно подразделить на несколько основных типов:
1. Гипотезы о типе законов распределения исследуемой величины.
2. Гипотезы об однородности двух или нескольких обрабатываемых выборок или некоторых характеристиках анализируемых совокупностей.
3. Гипотезы о числовых значениях параметров исследуемой генеральной совокупности.
4. Гипотезы о типе зависимости между компонентами исследуемого многомерного признака.
5. Гипотезы независимости и стационарности обрабатываемого ряда наблюдений.
Для проверки гипотезы о виде закона распределения случайной величины часто применяется критерий согласия

Пусть проведено n независимых опытов, в каждом из которых случайная величина Х приняла определенное значение. Результаты опытов сведены в m разрядов и в виде группированного статистического ряда:
i | ![]() | ![]() | ... | ![]() |
![]() | ![]() | ![]() | ... | ![]() |
![]() | ![]() | ![]() | ... | ![]() |
Мы выводим гипотезу Н, состоящую в том, что случайная величина Х имеет ряд распределения с вероятностями pi, i=1,2,...,m, а отклонения частот

Чтобы проверить правдоподобность этой гипотезы, надо выбрать какую-то меру расхождения статистического распределения с гипотетическим.
В качестве меры расхождения R между гипотетическим распределением и статистическим при использовании критерия




Коэффициенты ci вводятся потому, что отклонения, относящиеся к разным значениям pi, нельзя считать равноправными по значимости: одно и то же по абсолютной величине отклонение


то при большом числе опытов n закон распределения величины R обладает весьма простыми свойствами: он практически не зависит от закона распределения случайной величины Х и мало зависит от числа опытов n, а зависит только от числа m значений случайной величины и при увеличении числа n приближается к распределению



Распределение




если мы требуем только того, чтобы сумма частот была равна единице (это требование накладывается во всех случаях); или же

если мы требуем, чтобы совпадало статистическое среднее с гипотетическим, или же

если мы требуем, кроме того, еще и совпадения дисперсий и т. д.
Для распределения



Вопрос о том, какую вероятность p считать очень малой, чтобы отбросить или пересмотреть гипотезу, не может быть решен из математических соображений.
Обычно вероятности, не превосходящие 0,01, считают уже достаточно малыми (в других случаях считают малыми вероятности, не превосходящие 0,05). Вероятность р называют уровнем значимости критерия, а отвергающую ей область больших отклонений - критической областью.
Критерий согласия



ПРИМЕР. Произведено n = 800 наблюдений над случайной величиной Х, возможные значения которой



Xi | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
ni | 25 | 81 | 124 | 146 | 175 | 106 | 80 | 35 | 16 | 6 | 6 |
Pi* | 0,031 | 0,101 | 0,155 | 0,186 | 0,21 | 0,132 | 0,1 | 0,044 | 0,02 | 0,008 | 0,008 |
Требуется оценить правдоподобие гипотезы Н, состоящей в том, что Х распределена по закону Пуассона






Решение. Найдем статистическое среднее mx*

Вычислим вероятность




И так далее:


Находим значение


Число степеней свободы r в данном случае равно числу значений случайной величины (m=11) минус единица (первое условие





Общая схема применения критерия Колмогорова может быть сформулирована следующим образом.
1. По результатам n независимых опытов определяют статистическую (опытную) функцию распределения

2. Определяют величину D критерия Колмогорова:

и вычисляют


3. Принимают тот или иной уровень значимости

4. Зная







ПРИМЕР. В ОТК были измерены диаметры 60 валиков из партии, изготовленной на одном станке-автомате. Результаты измерения приведены в виде статистической совокупности:
Li | 13,94 ![]() 14,04 | 14,04 ![]() 14,14 | 14,14 ![]() 14,24 | 14,24 ![]() 14,34 | 14,34 ![]() 14,44 | 14,44 ![]() 14,54 | 14,54 ![]() 14,64 | 14,64 ![]() 14,74 |
mi | 1 | 1 | 4 | ![]() | ![]() | ![]() | ![]() | 6 |
Pi | ![]() | ![]() | ![]() | ![]() | ![]() | ![]() | ![]() | ![]() |
Проверить с помощью критерия Колмогорова гипотезу о том, что выборка извлечена из генеральной совокупности, равномерно распределенной в интервале (13,94; 14,74), при уровне значимости

РЕШЕНИЕ. Функция распределения равномерно распределенной случайной величины Х в интервале (13,94; 14,74) имеет следующий вид:


Пользуясь данными статистической совокупности, найдем значения статистической функции распределения


i | хi | F ![]() | F(х) | di |
1 2 3 4 5 6 7 8 9 | 13,94 14,04 14,14 14,24 14,34 14,44 14,54 14,64 14,74 | 0 0,017 0,033 0,1 0,275 0,517 0,741 0,9 1 | 0 0,125 0,25 0,375 0,5 0,625 0,75 0,875 1 | 0 0,108 0,217 0,275 0,225 0,108 0,009 0,025 0 |
Сравнивая абсолютные величины разностей


и вычисляем:


Зная



Рассмотрим применение к задаче проверки гипотез метода минимума риска. Общая постановка задачи такова.
Имеются две противоположные гипотезы



Требуется произвести проверку гипотезы


Для решения поставленной задачи необходимо определить решающее правило разбиение множества











Чтобы применить метод минимума риска к поставленной задаче, необходимо располагать следующими данными:





Оптимальное решающее правило, приводящее к наименьшему возможному риску в данной задаче, заключается в следующем: для полученного в результате опыта значения х вычисляется отношение

незываемое отношением правдоподобия, и сравнивается с числом

где


Если отношение




ПРИМЕР. На складе готовой продукции с двух заводов поступают партиями однотипные изделия. Качество продукции завода характеризуется вероятностью того, что наугад выбранное изделие является бракованным. Для одного завода р=0,16, для другого р=0,08. Потребитель наугад выбирает одну партию изделий. На основании результатов контроля решить, на каком заводе изготовлена выбранная партия изделий, если известно, что на складе храниться 8 партий изделий, из которых 5 изготовлено на втором заводе (р = 0,08).
Решение. Пусть Н


Отберем из партии наугад n изделий, среди которых оказалось m бракованных. Число бракованных есть случайная величина Х, подчиняющаяся биномиальному распределению. Поэтому при условии верности гипотезы Н


при условии верности гипотезы Н


Отношение правдоподобия

Доопытная вероятность того, что гипотеза Н


Имеем

Составляем неравенство:

Откуда


Определяя m из этого неравенства, имеем

Итак, если число m бракованных изделий среди наугад выбранных изделий удовлетворяет этому неравенству, то принимается решение о плохом качестве полученной партии (верность гипотезы Н

По своему назначению и характеру решаемых задач статистические критерии проверки гипотез чрезвычайно разнообразны. Однако их объединяет общность логической схемы, по которой они строятся. Коротко эту схему можно описать так.
1. Выдвигается гипотеза Н

2. Задаются величиной уровня значимости критерия

Дело в том, что всякое статистическое решение, т.е. решение принятое на основании ограниченной выборки, неизбежно сопровождается, хотя может и очень малой, вероятностью ошибочного заключения. Выбор




3. Задаются некоторой функцией от результатов наблюдений (критической статистикой)




4. Из таблиц распределения










Рис. 7-ст.
В тех случаях, когда основную опасность для нашего утверждения представляют только односторонние отклонения, т. е. только "слишком малые" и только "слишком большие" значения критической статистики







5. Наконец, в функцию









Выводы
1. Процедура обоснованного сопоставления высказанного исследователем предположительного утверждения (гипотезы) относительно природы или величины неизвестных параметров рассматриваемой случайной величины с имеющимися в его распоряжении результатами наблюдения осуществляется с помощью того или иного статистического критерия и называется статистической проверкой гипотезы.
2. По своему содержанию высказываемые в ходе статистической обработки данных гипотезы подразделяются на следующие типы:
- об общем виде закона распределения исследуемой случайной величины;
- об однородности двух или нескольких обрабатываемых выборок;
- о числовых значениях параметров исследуемой генеральной совокупности;
- об общем виде зависимости, существующей между компонентами исследуемого многомерного признака;
- о независимости и стационарности ряда наблюдений.
3. Все статистические критерии строятся по общей логической схеме. Построить статистический критерий - это значит:
а) определить тип проверяемой гипотезы;
б) предложить и обосновать конкретный вид функции от результатов наблюдений (критической статистики

в) указать такой способ выделения из области возможных значений критической статистики области отклонения проверяемой гипотезы Н



(с) Киевский институт инвестиционного менеджмента, 2000 год
Журнал "Наша справа" №12э, 2000 г.