А. С. Гринберг О. Б. Плющ Б. В. Новыш Теория вероятностей и математическая статистика Курс лекций
Вид материала | Курс лекций |
- Рабочая программа дисциплины "теория вероятностей и математическая статистика", 112.61kb.
- Конспект лекций по курсу "Теория вероятностей и математическая статистика", 1417.24kb.
- Рабочая учебная программа дисциплины (модуля) Теория вероятностей и математическая, 217.23kb.
- Примерная программа наименование дисциплины «теория вероятностей и математическая статистика», 165.37kb.
- Рабочая программа учебной дисциплины теория вероятностей и математическая статистика, 830.1kb.
- Рабочая программа учебной дисциплины «Теория вероятностей и математическая статистика», 165.42kb.
- Программа курса лекций "Теория вероятностей и математическая статистика", 18.69kb.
- Примерная рабочая программа по дисциплине: «теория вероятностей, математическая статистика, 83.07kb.
- Программа по дисциплине «Теория вероятностей и математическая статистика» для студентов, 206.05kb.
- Программа дисциплины «теория вероятностей и математическая статистика» Для направления, 198.58kb.
Проверка статистических гипотез
Закон распределения определяет количественные характеристики генеральной совокупности.
Если закон распределения неизвестен, но есть основания предположить, что он имеет определенный вид (например, А), то выдвигают гипотезу: генеральная совокупность распределена по закону А. В этой гипотезе речь идет о виде предполагаемого распределения.
Часто закон распределения известен, но неизвестны его параметры. Если есть основания предположить, что неизвестный параметр



Возможны и другие гипотезы: о равенстве параметров двух или нескольких распределений, о независимости выборок и т.д.
Статистической называют гипотезу о виде неизвестного распределения или о параметрах известных распределений. Примеры статистических гипотез: генеральная совокупность распределена по закону Пуассона; дисперсии двух нормальных распределений равны между собой.
Наряду с выдвинутой гипотезой рассматривают и противоречащую ей гипотезу. Если выдвинутая гипотеза будет отвергнута, то имеет место противоречащая гипотеза.
Нулевой (основной) называют выдвинутую гипотезу

Альтернативной (конкурирующей) называют гипотезу



Простой называют гипотезу, содержащую только одно предположение. Например, если





Выдвинутая гипотеза может быть правильной или неправильной, поэтому возникает необходимость ее проверки. Так как проверку производят статистическими методами, то ее называют статистической. В итоге статистической проверки гипотезы в двух случаях может быть принято неправильное решение, т.е. могут быть допущены ошибки двух родов.
Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза. Ошибка второго рода состоит в том, что будет принята неправильная гипотеза. Следует отметить, что последствия ошибок могут оказаться различными. Если отвергнуто правильное решение «продолжать строительство жилого дома», то эта ошибка первого рода повлечет материальный ущерб; если же принято неправильное решение «продолжать строительство» несмотря на опасность обвала дома, то эта ошибка второго рода может привести к многочисленным жертвам. Иногда, наоборот, ошибка первого рода влечет более тяжелые последствия.
Правильное решение может быть принято также в двух случаях, когда принимается правильная гипотеза или отвергается неверная гипотеза.
Вероятность совершить ошибку первого рода принято обозначать через

Статистический критерий
Для проверки нулевой гипотезы используют специально подобранную случайную величину, точное или приближенное распределение которой известно. Эту величину обозначают через U или Z, если она распределена нормально, через F – если она распределена по закону Фишера – Снедекора, через T – по закону Стьюдента,

Статистическим критерием (или просто критерием) называют случайную величину (обозначим ее через K), которая служит для проверки нулевой гипотезы. Например, если проверяют гипотезу о равенстве дисперсий двух нормальных генеральных совокупностей, то в качестве критерия K принимают отношение исправленных выборочных дисперсий

Очевидно, что эта величина случайная, т.к. в различных опытах дисперсии принимают различные, заранее неизвестные значения.
Наблюдаемым значением критерия Kнабл называют значение критерия, вычисленное по выборкам. Например, если в вышеприведенном случае

Критическая область. Область принятия гипотезы. Критические точки
После выбора определенного критерия множество всех его возможных значений разбивают на два непересекающихся подмножества, одно из которых содержит значения критерия, при которых нулевая гипотеза отвергается, а другое – при которых она принимается.
Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают.
Областью принятия гипотезы (областью допустимых значений) называют совокупность значений критерия, при которых гипотезу принимают.
Основной принцип проверки статистических гипотез можно сформулировать так: если наблюдаемое значение критерия принадлежит критической области – гипотезу отвергают, если области принятия гипотезы – гипотезу принимают.
Так как критерий K – одномерная случайная величина, то все ее возможные значения принадлежат некоторому интервалу и, соответственно, должны существовать точки, разделяющие критическую область и область принятия гипотезы. Такие точки называются критическими точками.
Различают одностороннюю (правостороннюю и левостороннюю) и двустороннюю критические области.
Правосторонней называют критическую область, определяемую неравенством


Левосторонней называют критическую область, определяемую неравенством


Двусторонней называют критическую область, определяемую неравенствами





Рис. 1. Различные варианты критических областей a) правосторонняя, b) левосторонняя, с) двусторонняя
Резюмируя, сформулируем этапы проверки статистической гипотезы:
- Формулируется нулевая гипотеза
;
- Определяется критерий K, по значениям которого можно будет принять или отвергнуть
и выбирается уровень значимости
;
- По уровню значимости определяется критическая область;
- По выборке вычисляется значение критерия K, определяется, принадлежит ли оно критической области и на основании этого принимается
или
.
Критерий согласия Пирсона о виде распределения
До сих пор мы предполагали, что закон распределения генеральной совокупности известен. Если закон распределения неизвестен, но есть основания предполагать, что он имеет определенный вид (назовем его А), то проверяют нулевую гипотезу: генеральная совокупность распределена по закону А. Проверка этой гипотезы производится при помощи специально подобранной случайной величины – критерия согласия.
Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения.
Имеется несколько критериев согласия, наиболее часто используемым является критерий согласия К.Пирсона («хи квадрат»). Ограничимся применением критерия Пирсона к проверке гипотезы о нормальном распределении генеральной совокупности.
Пусть по выборке объема n получено эмпирическое распределение:
Варианты……………………

Эмпирические частоты…….

Допустим, что в предположении нормального распределения генеральной совокупности вычислены теоретические частоты


В качестве критерия проверки нулевой гипотезы примем случайную величину:

Естественно, чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия, и, следовательно, он характеризует близость эмпирического и теоретического распределений.
Доказано, что при n закон распределения случайной величины (А) стремится к закону распределения



Число степеней свободы определяется из равенства

r – число параметров предполагаемого распределения. В частности, если предполагаемое распределение – нормальное, то оценивают два параметра (математическое ожидание и среднее квадратическое отклонение), поэтому число степеней свободы

Построим правостороннюю критическую область, исходя из требования, чтобы вероятность попадания критерия в эту область в предположении справедливости нулевой гипотезы была равна принятому уровню значимости


Таким образом, правосторонняя критическая область определяется неравенством



Для того, чтобы при заданном уровне значимости проверить нулевую гипотезу H0: генеральная совокупность распределена нормально, необходимо сначала вычислить теоретические частоты, а затем наблюдаемое значение критерия




Отметим два обстоятельства.
Объем выборки должен быть достаточно велик
(не менее 50). Каждая группа должна содержать не менее 5–8 вариант, а малочисленные группы следует объединять в одну, суммируя частоты.
Поскольку возможны ошибки первого и второго рода, следует проявлять осторожность. Например, можно повторить опыт, увеличить число наблюдений, построить предварительно график распределения и т.п.
Пример. При уровне значимости 0,05 проверить гипотезу о нормальном распределении генеральной совокупности, если известны эмпирические и теоретические частоты:
Эмпирические частоты | 6 | 13 | 38 | 74 | 106 | 85 | 30 | 14 |
Теоретические частоты | 3 | 14 | 42 | 82 | 99 | 76 | 37 | 13 |
Рассчитаем




