Конспект лекций по курсу "Теория вероятностей и математическая статистика"
Вид материала | Конспект |
12. Статистическая проверка гипотез |
- Рабочая учебная программа дисциплины (модуля) Теория вероятностей и математическая, 217.23kb.
- Примерная программа наименование дисциплины «теория вероятностей и математическая статистика», 165.37kb.
- Рабочая программа дисциплины "теория вероятностей и математическая статистика", 112.61kb.
- Рабочая программа учебной дисциплины теория вероятностей и математическая статистика, 830.1kb.
- Рабочая программа учебной дисциплины «Теория вероятностей и математическая статистика», 165.42kb.
- Программа курса лекций "Теория вероятностей и математическая статистика", 18.69kb.
- Примерная рабочая программа по дисциплине: «теория вероятностей, математическая статистика, 83.07kb.
- Программа по дисциплине «Теория вероятностей и математическая статистика» для студентов, 206.05kb.
- А. С. Гринберг О. Б. Плющ Б. В. Новыш Теория вероятностей и математическая статистика, 1813.61kb.
- Программа-минимум кандидатского экзамена по специальности, 37.75kb.
При этом необходимо иметь в виду, что если производится выравнивание гистограмм, то соответствующая функция должна обладать основными свойствами плотности:
Сущность метода наименьших квадратов заключается в следующем. Пусть зависимость у от х выражается формулой
где - подлежащие определению параметры.
В результате n независимых опытов были получены следующие данные, оформленные в виде статистической таблицы:
Номер опыта | 1 | 2 | ... | k | ... | n |
xi | x1 | x2 | ... | xk | ... | xn |
yi | y1 | y2 | ... | yk | ... | yn |
Согласно методу наименьших квадратов, наивероятнейшие значения параметров дают минимум функции
Если имеет непрерывные частные производные по всем неизвестным параметрам то необходимое условие минимума функции S представляет систему уравнений с m+1 неизвестными:
Если в качестве аппроксимирующей функции взят многочлен, т.е.
то оценка его коэффициентов определяются из системы m+1 линейных уравнений:
Если значения хi известны без ошибок, а значения yi независимы и равноточны, то оценка дисперсии величины yi определяется формулой
где - значение, вычисленное в предположении, что коэффициенты поли....... заменены их полученными оценками.
При гауссовом законе распределения величин yi изложенный метод дает минимальную ошибку.
Пример 1. Найти оценки параметров линейной функции
Решение. Для определения коэффициентов и методом наименьших квадратов составляем систему
Решая систему получаем
где
Пример 2. С помощью прибора измеряется какой-то параметр . Случайная величина Х - ошибка измерения параметра . С целью исследования точности прибора произведено n=500 измерений этой ошибки. Результаты измерений сведены в группированный статистический ряд:
Разряды | -4-3 | -3-2 | -2-1 | -10 | 01 | 12 | 23 | 34 |
Частоты | 0,012 | 0,05 | 0,144 | 0,266 | 0,240 | 0,176 | 0,092 | 0,20 |
Число попаданий в i-й разряд | 6 | 25 | 72 | 133 | 120 | 88 | 46 | 10 |
Определить аналитический вид плотности распределения f(x).
Решение. Вначале построим гистограмму распределения случайной величины Х.
Как видно из гистограммы, подходящей для аппроксимации является гауссова функция:
Таким образом, необходимо определить лишь два параметра, математическое ожидание и дисперсию . Поскольку мы не располагаем всеми наблюденными n=500 значениями случайной величины, оценим и по группированному статистическому ряду. Делается это так: выбирается в качестве "представителя" i-го разряда его середина и этому значению хi приписывается частота .
Тогда
=-3,5*0,012-2,5*0,05-1,5*0,144-0,5*0,266+0,5*0,240+1,5*0,176+2,5*0,092+3,5*0,02=0,162.
Среднее квадратическое отклонение
Таким образом оценку для плотности распределения случайной величины Х можно записать в виде
.
Для решения задач обоснованного прогноза, т.е. для определения пределов, в которых с наперед заданной надежностью будет содержаться интересующая нас величина, если другие связанные с ней величины получат определенные значения, необходимо определить их функциональную зависимость. Функция представляющая собой статистическую зависимость одной случайной величины от другой называется регрессией.
Для гауссового распределения системы случайных величин (X, Y) связь между ними выражается уравнениями линейной регрессии:
где и - коэффициенты линейной регрессии y на х и х на y, соответственно.
Коэффициенты линейной регрессии выражаются через характеристики системы (X,Y) следующим образом:
или, учитывая, что коэффициент корреляции имеем:
Перемножив левые и правые части этих равенств, после извлечения корня получаем
т. е. коэффициент корреляции есть среднее геометрическое коэффициентов линейной регрессии. Он характеризует насколько близко связь между случайными величинами Х и Y к линейной зависимости.
Выборочные уравнения прямых регрессий имеют вид:
В тех случаях, когда линейное приближение является явно недостаточным, можно рассматривать в качестве приближенных уравнений регрессий более сложные функции, неизвестные параметры которой определяются методом наименьших квадратов.
Пример. Определить выборочное уравнение линейной регрессии Х по Y, если по результатам опытов получены следующие оценки:
Решение. Выборочный коэффициент корреляции
Тогда x-410=0,1*(64,3/62)*(y-170), или x=0,104y+392,32.
Выводы
1. Одной из часто встречающихся задач, встающих перед аналитиками различных специальностей, является задача нахождения зависимости между некоторыми наборами данных эксперимента. В общей постановке задача описания эмпирической зависимости с помощью параметрической регрессии предполагает, что задается функция, определенная с точностью до нескольких параметров, которые подбирают таким образом, чтобы получающаяся функция с максимальной точностью соответствовала данным эксперимента. Наиболее просто определяются параметры для случая линейной регрессии.
2. При выравнивании (сглаживании) эмпирических зависимостей наиболее часто исходят из того, что наилучшим приближением в данном классе функций является то, для которого сумма квадратов отклонений обращается в минимум. Вопрос о том, в каком классе функций следует искать наилучшее приближение, решается уже не математически, а исходя из характера эмпирической кривой. Аналогично обстоит дело и с задачей выравнивания статистических распределений. Принципиальный вид выравнивающей плавной кривой выбирается заранее, исходя из условий возникновения случайной величины Х или просто из соображений, связанных с внешним видом гистограммы.
3. Одним из основных методов определения статистических оценок параметров, входящих в выравнивающую функцию, является метод наименьших квадратов.
12. Статистическая проверка гипотез
При решении многих задач приходится делать предположение о виде законов распределения рассматриваемых случайных величин или соотношении между их числовыми характеристиками. Такие предположения принято называть гипотезами. Приняв ту или иную гипотезу, из нее выводят определенное следствие и рассматривают, насколько оно оправдывается на опыте, т. е. проверяют согласие принятой гипотезы с опытом.
Процедура обоснованного сопоставления высказанной гипотезы с имеющимися выборочными данными осуществляется с помощью того или иного статистического критерия и называется статистической проверкой гипотез.
Результат подобного сопоставления может быть либо отрицательными (данные наблюдения противоречат высказанной гипотезе, а потому от этой гипотезы следует отказаться), либо неотрицательными (данные наблюдения не противоречат высказанной гипотезе, а потому ее можно принять в качестве одного из естественных и допустимых решений). При этом неотрицательный результат статистической проверки гипотезы не означает, что высказанное нами предположительное утверждение является наилучшим, единственно подходящим: просто оно не противоречит имеющимся у нас выборочным данным, однако таким же свойством могут наряду с данной гипотезой обладать и другие гипотезы.
По своему прикладному содержанию высказываемые в ходе статистической обработки данных гипотезы можно подразделить на несколько основных типов:
1. Гипотезы о типе законов распределения исследуемой величины.
2. Гипотезы об однородности двух или нескольких обрабатываемых выборок или некоторых характеристиках анализируемых совокупностей.
3. Гипотезы о числовых значениях параметров исследуемой генеральной совокупности.
4. Гипотезы о типе зависимости между компонентами исследуемого многомерного признака.
5. Гипотезы независимости и стационарности обрабатываемого ряда наблюдений.
Для проверки гипотезы о виде закона распределения случайной величины часто применяется критерий согласия (критерий Пирсона). Он позволяет производить проверку гипотезы соответствия опытного закона распределения теоретическому (предполагаемому) не только в случаях, когда последний известен полностью, но и тогда, когда параметры предполагаемого закона распределения определяются на основании опытных данных.
Пусть проведено n независимых опытов, в каждом из которых случайная величина Х приняла определенное значение. Результаты опытов сведены в m разрядов и в виде группированного статистического ряда:
i | | | ... | |
| | | ... | |
| | | ... | |
Мы выводим гипотезу Н, состоящую в том, что случайная величина Х имеет ряд распределения с вероятностями pi, i=1,2,...,m, а отклонения частот от вероятностей pi объясняются случайными причинами.
Чтобы проверить правдоподобность этой гипотезы, надо выбрать какую-то меру расхождения статистического распределения с гипотетическим.
В качестве меры расхождения R между гипотетическим распределением и статистическим при использовании критерия берется сумма квадратов отклонений с некоторыми весами :
Коэффициенты ci вводятся потому, что отклонения, относящиеся к разным значениям pi, нельзя считать равноправными по значимости: одно и то же по абсолютной величине отклонение может быть малозначительным, если сама вероятность pi велика, и очень заметным, если она мала. Пирсон доказал, что если взять
то при большом числе опытов n закон распределения величины R обладает весьма простыми свойствами: он практически не зависит от закона распределения случайной величины Х и мало зависит от числа опытов n, а зависит только от числа m значений случайной величины и при увеличении числа n приближается к распределению . При таком выборе коэффициентов сi, мера расхождения R обычно обозначается :
Распределение , как известно, зависит от параметра r , называемого "числом степеней свободы". При пользовании критерием число степеней свободы полагается равным числу разрядов m минус число независимых условий ("связей"), наложенных на частоты . Примерами таких условий могут быть:
если мы требуем только того, чтобы сумма частот была равна единице (это требование накладывается во всех случаях); или же
если мы требуем, чтобы совпадало статистическое среднее с гипотетическим, или же
если мы требуем, кроме того, еще и совпадения дисперсий и т. д.
Для распределения составлены таблицы. Пользуясь ими, можно для каждого значения и число степеней свободы r найти вероятность p того, что величина, распределенная по закону , превзойдет это значение. Если эта вероятность весьма мала, гипотеза отбрасывается как неправдоподобная. Если эта вероятность относительно велика, гипотезу можно признать не противоречащей опытным данным.
Вопрос о том, какую вероятность p считать очень малой, чтобы отбросить или пересмотреть гипотезу, не может быть решен из математических соображений.
Обычно вероятности, не превосходящие 0,01, считают уже достаточно малыми (в других случаях считают малыми вероятности, не превосходящие 0,05). Вероятность р называют уровнем значимости критерия, а отвергающую ей область больших отклонений - критической областью.
Критерий согласия можно применять и для непрерывных случайных величин, если, приближенно заменить непрерывную случайную величину Х дискретной с возможными значениями xi*, равными середине i-го разряда, и частотами pi*, равными частоте попадания случайной величины Х в i-й разряд. Вероятности pi вычисляются по формуле
,
.
ПРИМЕР. Произведено n = 800 наблюдений над случайной величиной Х, возможные значения которой ,. Результаты 800 опытов представлены в виде таблицы:
Xi | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
ni | 25 | 81 | 124 | 146 | 175 | 106 | 80 | 35 | 16 | 6 | 6 |
Pi* | 0,031 | 0,101 | 0,155 | 0,186 | 0,21 | 0,132 | 0,1 | 0,044 | 0,02 | 0,008 | 0,008 |
Требуется оценить правдоподобие гипотезы Н, состоящей в том, что Х распределена по закону Пуассона ( где =m) с параметром , равным статистическому среднему наблюденных значений случайной величины Х. В качестве уровня значимости принять
Решение. Найдем статистическое среднее mx*
Вычислим вероятность , соответствующие закону Пуассона:
И так далее:
Находим значение :
Число степеней свободы r в данном случае равно числу значений случайной величины (m=11) минус единица (первое условие ) и минус еще единица - совпадение гипотетического математического ожидания со статистическим: r=11-1-1=9. По таблице для распределения при r=9 и =15 находим р=0,1. таким образом, в данном примере гипотеза Н о пуассоновском распределении случайной величины Х противоречит опытным данным и ее надо отбросить, так как р=0,1<. Простым критерием проверки гипотезы о виде закона распределения является критерий Колмогорова. Однако этот критерий можно применять только в том случае, когда гипотетическое распределение закона распределения полностью известно заранее из каких-либо теоретических соображений, т.е. когда известен не только вид закона распределения, но и все входящие в нее параметры.
Общая схема применения критерия Колмогорова может быть сформулирована следующим образом.
1. По результатам n независимых опытов определяют статистическую (опытную) функцию распределения .
2. Определяют величину D критерия Колмогорова:
и вычисляют
опыт=.
3. Принимают тот или иной уровень значимости критерия Колмогорова.
4. Зная находят по таблице функции Колмогорова соответствующее значение . Если опыт< гипотеза принимается. Если же опыт>, гипотеза бракуется.
ПРИМЕР. В ОТК были измерены диаметры 60 валиков из партии, изготовленной на одном станке-автомате. Результаты измерения приведены в виде статистической совокупности:
Li | 13,94 14,04 | 14,04 14,14 | 14,14 14,24 | 14,24 14,34 | 14,34 14,44 | 14,44 14,54 | 14,54 14,64 | 14,64 14,74 |
mi | 1 | 1 | 4 | | | | | 6 |
Pi | | | | | | | | |
Проверить с помощью критерия Колмогорова гипотезу о том, что выборка извлечена из генеральной совокупности, равномерно распределенной в интервале (13,94; 14,74), при уровне значимости .
РЕШЕНИЕ. Функция распределения равномерно распределенной случайной величины Х в интервале (13,94; 14,74) имеет следующий вид:
при
Пользуясь данными статистической совокупности, найдем значения статистической функции распределения . Определим также значения теоретической функции распределения F(x) и абсолютные значения разности . Результаты вычисления представлены в таблице:
i | хi | F(хi) | F(х) | di |
1 2 3 4 5 6 7 8 9 | 13,94 14,04 14,14 14,24 14,34 14,44 14,54 14,64 14,74 | 0 0,017 0,033 0,1 0,275 0,517 0,741 0,9 1 | 0 0,125 0,25 0,375 0,5 0,625 0,75 0,875 1 | 0 0,108 0,217 0,275 0,225 0,108 0,009 0,025 0 |
Сравнивая абсолютные величины разностей , определим
,
и вычисляем:
опыт=.
Зная находим по таблице соответствующее =1,355. Так как опыт=2,12>1,355, то выборка не согласуется с гипотезой.
Рассмотрим применение к задаче проверки гипотез метода минимума риска. Общая постановка задачи такова.
Имеются две противоположные гипотезы и и некоторая связанная с ними случайная величина Х. Пусть х - числовое значение случайной величины Х, полученное в результате испытания; - множество всех возможных значений случайной величины Х.
Требуется произвести проверку гипотезы относительно конкурирующей гипотезы на основании испытания, т.е. на основании полученного значения х случайной величины Х.
Для решения поставленной задачи необходимо определить решающее правило разбиение множества возможных значений случайной величины Х на две части и с условием принятия гипотезы при попадании полученного значения х в результате опыта в и гипотезы Н при попадании х в . Очевидно, что при этом всегда возможно допустить ошибку двоякого рода: ошибка первого рода - верна гипотеза Н, а принято решение об истинности гипотезы Н; ошибка второго рода - верна гипотеза Н, а принято решение об истинности гипотезы Н.
Чтобы применить метод минимума риска к поставленной задаче, необходимо располагать следующими данными: - распределение случайной величины Х при условии, что верна гипотеза Н; - распределение случайной величины Х при условии, что верна гипотеза Н; р - доопытная вероятность того, что гипотеза Н имеет место.
Оптимальное решающее правило, приводящее к наименьшему возможному риску в данной задаче, заключается в следующем: для полученного в результате опыта значения х вычисляется отношение
незываемое отношением правдоподобия, и сравнивается с числом
где - потери, связанные с ошибкой первого рода;
- потери, связанные с ошибкой второго рода.
Если отношение меньше , применяется гипотеза Н, в противном случае - Н.
ПРИМЕР. На складе готовой продукции с двух заводов поступают партиями однотипные изделия. Качество продукции завода характеризуется вероятностью того, что наугад выбранное изделие является бракованным. Для одного завода р=0,16, для другого р=0,08. Потребитель наугад выбирает одну партию изделий. На основании результатов контроля решить, на каком заводе изготовлена выбранная партия изделий, если известно, что на складе храниться 8 партий изделий, из которых 5 изготовлено на втором заводе (р = 0,08).
Решение. Пусть Н - гипотеза, состоящая в том, что выбранная партия изделий плохого качества (р=0,16); Н - противоположная гипотеза (р = 0,08).
Отберем из партии наугад n изделий, среди которых оказалось m бракованных. Число бракованных есть случайная величина Х, подчиняющаяся биномиальному распределению. Поэтому при условии верности гипотезы Н
при условии верности гипотезы Н
Отношение правдоподобия
Доопытная вероятность того, что гипотеза Н имеет место, равна .
Имеем
.
Составляем неравенство:
Откуда
Определяя m из этого неравенства, имеем
Итак, если число m бракованных изделий среди наугад выбранных изделий удовлетворяет этому неравенству, то принимается решение о плохом качестве полученной партии (верность гипотезы Н), в противном случае - решение о верности гипотезы H1.
По своему назначению и характеру решаемых задач статистические критерии проверки гипотез чрезвычайно разнообразны. Однако их объединяет общность логической схемы, по которой они строятся. Коротко эту схему можно описать так.
1. Выдвигается гипотеза Н.
2. Задаются величиной уровня значимости критерия .
Дело в том, что всякое статистическое решение, т.е. решение принятое на основании ограниченной выборки, неизбежно сопровождается, хотя может и очень малой, вероятностью ошибочного заключения. Выбор зависит от сопоставления потерь, которые мы понесем в случае ошибочных заключений в ту или иную сторону: чем весомее для нас потери от ошибочного отвержения гипотезы Н, тем меньшей выбирается величина . На практике пользуются стандартными значениями уровня значимости: 0,1; 0,05; 0,025; 0,01; 0,005; 0,001. Особенно распространенной является величина уровня значимости Оно означает, что в среднем в пяти случаях из 100 мы будем ошибочно отвергать высказанную гипотезу при пользовании данным статистическим критерием.
3. Задаются некоторой функцией от результатов наблюдений (критической статистикой) . Эта критическая статистика , как и всякая функция от результатов наблюдения, сама является случайной величиной и в предложении справедливости гипотезы Н подчинена некоторому хорошо изученному (затабулированному) закону распределения с плотностью .
4. Из таблиц распределения находятся %-ная точка и %-ная точка , распределяющие всю область возможных значений величины на три области: область неправдоподобно малых (1), неправдоподобных больших (3) и правдоподобных (в условиях справедливости гипотезы Н) (2) значений (рис.7).
Рис. 7-ст.
В тех случаях, когда основную опасность для нашего утверждения представляют только односторонние отклонения, т. е. только "слишком малые" и только "слишком большие" значения критической статистики , находят лишь одну процентную точку: либо %-ную точку min, которая разделяет весь диапазон на две части: область неправдоподобно малых и область правдоподобных значений; либо 100 %-ную точку ; она будет разделять весь диапазон значений на область неправдоподобно больших и область правдоподобных значений.
5. Наконец, в функцию подставляют имеющиеся конкретные выборочные значения случайной величины Х и подсчитывают численную величину . Если окажется, что вычисленное значение принадлежит области правдоподобных значений , то гипотеза Н считается непротиворечащей выборочным данным. В противном случае, т.е. если слишком мала или слишком велика, делается вывод, что не подчиняется закону (этот вывод , как видно из рис.7, сопровождается ошибкой ), и это несоответствие мы вынуждены объяснить ошибочностью высказанного нами предположения Н и, следовательно, отказаться от него.
Выводы
1. Процедура обоснованного сопоставления высказанного исследователем предположительного утверждения (гипотезы) относительно природы или величины неизвестных параметров рассматриваемой случайной величины с имеющимися в его распоряжении результатами наблюдения осуществляется с помощью того или иного статистического критерия и называется статистической проверкой гипотезы.
2. По своему содержанию высказываемые в ходе статистической обработки данных гипотезы подразделяются на следующие типы:
- об общем виде закона распределения исследуемой случайной величины;
- об однородности двух или нескольких обрабатываемых выборок;
- о числовых значениях параметров исследуемой генеральной совокупности;
- об общем виде зависимости, существующей между компонентами исследуемого многомерного признака;
- о независимости и стационарности ряда наблюдений.
3. Все статистические критерии строятся по общей логической схеме. Построить статистический критерий - это значит:
а) определить тип проверяемой гипотезы;
б) предложить и обосновать конкретный вид функции от результатов наблюдений (критической статистики ), на основании значений которой принимается окончательное решение;
в) указать такой способ выделения из области возможных значений критической статистики области отклонения проверяемой гипотезы Н, чтобы было соблюдено требование к величине ошибочного отклонения гипотезы Н (т.е. к уровню значимости критерия ).
(с) Киевский институт инвестиционного менеджмента, 2000 год
Журнал "Наша справа" №12э, 2000 г.