Решение задач математической статистики по теме «Проверка статистических гипотез»
Вид материала | Решение |
- Лекция 13, 99.82kb.
- Темы, которые мы обсуждали на предыдущей лекции: Прообраз=(Тадж Махал)=Неизвестный, 97.53kb.
- Первый. Предмет и история юридической статистики 7 Глава, 5134.73kb.
- Проверка статистических гипотез, 59.38kb.
- «Исследование скорости сходимости распределений статистик критериев проверки статистических, 116.56kb.
- Проверка статистических гипотез о законах распределения, 59.19kb.
- Решение задач описательной статистики средствами ms excel содержание, 164.81kb.
- Лекции №10 Выборочные методы математической статистики, 60.62kb.
- Задачи (научить) изучить базовые разделы математической статистики; развить навыки, 49kb.
- Волгоградская Государственная Сельскохозяйственная Академия Описание проекта Название, 110.24kb.
Дружининская И.М.
Решение задач математической статистики
по теме
«Проверка статистических гипотез»
Учебное пособие для студентов факультета менеджмента
Москва - 2011
Аннотация:
В данном пособии показано как следует решать некоторые типы задач, связанных с проверкой статистических гипотез. Приведены подробные решения задач с целью помочь студентам более глубоко разобраться в этом разделе математической статистики, показать, как соответствующие теоретические положения математической статистики реализуются в решениях конкретных задач экономической и социологической направленности. Данное пособие будет полезным при подготовке студентов к написанию итоговых контрольных работ по разделу «Математическая статистика» (обычно в вариантах контрольных работ содержится несколько задач на данную тему). Можно также напомнить, что методы проверки различных статистических гипотез широко используются в настоящее время для получения обоснованных выводов при анализе практически значимых проблем. Теоретическое обоснование подходов к решению задач можно найти в лекциях Дружининской И.М. по курсу «Теория вероятностей и математическая статистика», а также, в более развернутом виде, в той литературе, которая указана в программах соответствующих курсов. В самом учебном пособии содержится лишь очень краткое теоретическое введение в тему и перед каждым рассмотренным типом задач дана компактная сводка используемых формул. В частности, в пособии не рассматриваются ошибки первого и второго рода с тем, чтобы основное внимание студентов сосредоточить на реализации основной идеи метода, без какой-либо более глубокой и усложняющей идею метода детализации. Некоторые задачи, приведенные в пособии, были предложены и решены студентами факультета менеджмента. Статистические таблицы, применяемые для решения задач, можно найти на странице Дружининской И.М. под рубрикой «Статистические таблицы».
Введение:
Статистической называют гипотезу о виде неизвестного распределения или о параметрах известного распределения.
Примеры статистических гипотез:
- Математическое ожидание изучаемого нормально распределенного признака в генеральной совокупности равно 100 кг.
- Вероятность данного события равна 0.6.
- Изучаемый признак в ГС имеет показательный закон распределения..
- Уровень производственного брака в данной партии товара ниже 0.05%.
Постановка задачи начинается с выдвижения основного утверждения (нулевой гипотезы Н0), причем наряду с выдвинутой гипотезой всегда рассматривают и противоречащую ей гипотезу, которую называют конкурирующей (альтернативной) гипотезой Н1.
Пример: 1) Н0: р=0.5 2) Н0: m=3
Н1: р≠0.5 Н1: m>3
Далее на основе экспериментальной информации конструируется специально подобранная из разумных соображений случайная величина, распределение которой известно при выполнении гипотезы Н0. Именно эта случайная величина К, которую называют статистическим критерием или просто критерием служит для проверки справедливости нулевой гипотезы Н0.
После выбора определенного критерия К множество всех его возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза принимается, а другое, при которых она отвергается.
Областью принятия гипотезы (областью допустимых значений критерия) называют совокупность значений критерия, при которых нулевую гипотезу принимают. Это такие значения критерия, которые характерны для известного при справедливости нулевой гипотезы распределения критерия К, т.е. возникающие с большой вероятностью.
Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают. Это такие значения критерия, которые не характерны для данного распределения, т.е. возникающие с малой вероятностью.
Критическими точками (границами упомянутых областей) Ккр называют точки, отделяющие критическую область от области принятия гипотезы.
Гипотеза называется параметрической, если речь идет об утверждении, связанном с каким-то конкретным параметром. В противном случае она называется непараметрической.
Гипотеза называется простой, если речь идет о том, что неизвестный параметр принимает какое-то конкретное значение. Если речь идет о многих значениях параметра, то она называется сложной (см. вышеприведенный пример: Н0: р=0.5 - это пример простой гипотезы; Н1: m>3 – это пример сложной гипотезы).
Процедура проверки простой параметрической гипотезы выглядит так:
- Формируют нулевую гипотезу Н0 и альтернативную гипотезу Н1 на основе выборочных данных.
- Конструируют, исходя из логики задачи, случайную величину на основе результатов выборки, которую в данном разделе называют критерием; распределение критерия в случае истинности гипотезы Н0 известно.
- Вся область возможных значений критерия разбивается на две подобласти (или два подмножества). Одно подмножество – это совокупность естественных (правдоподобных), т.е. наиболее вероятных для данного распределения значений. В это подмножество критерий попадает с высокой вероятностью g. Эта вероятность содержится в условиях задачи. Она носит название «доверительная вероятность» (иначе «уровень доверия»). Обычно для g задают следующие стандартные значения: g = 0.90; 0.95; 0.99).
Другое подмножество – это область редко возникающих для данного закона распределения значений (неправдоподобных значений). Вероятность попадания критерия К в эту область мала и равна a = 1-g; a носит название «уровень значимости» (a = 0.10;0.05;0.01). Критерий К принято обозначать через t.
4. Вычисляют значение критерия Кнабл на основе выборочных значений изучаемого признака. Если Кнабл попадает в область правдоподобных значений для данного закона распределения, то с вероятностью g утверждают, что гипотеза Н0 не противоречит экспериментальным данным, а поэтому принимают основную гипотезу. Если значения Кнабл попадает в область неправдоподобных для данного закона распределения значений, то гипотезу Н0 отвергают и принимают альтернативную гипотезу Н1 .
- Если при проверке гипотезы Н0 эта нулевая гипотеза принимается, то данный факт не означает, что высказанное в нулевой гипотезе утверждение является единственно верным. Просто оно не противоречит имеющимся выборочным данным. Возможно, что и другое утверждение также не будет противоречить выборочным данным.
- Не вдаваясь в более сложные и тонкие утверждения, связанные с принятием нулевой гипотезы или же альтернативной гипотезы, отметим лишь следующее. Если наблюдаемое значение критерия Кнабл попадает в область неестественных значений и мы, следовательно, отвергаем гипотезу Н0 и принимаем гипотезу Н1, то не можем ли мы при этом совершить ошибку - отвергнуть верную гипотезу Н0 и принять ложную гипотезу Н1? Да, можем, но вероятность этой ошибки мала. Уровень значимости a – это вероятность отклонить нулевую гипотезу, когда она верна ( иначе Р (Н1/ Н0) = a).
Вид альтернативной гипотезы
(для исходной простой параметрической гипотезы Н0 : q = q0) может быть таким:
- Н1: q ≠q0
g +a=1
- Н1: q 0
- Н1: q>q0
Конкретные ситуации и соответствующие формулы вычисления критерия, по наблюдаемым значениям которого отвергается или принимается нулевая гипотеза, разобраны в лекциях автора. Их также можно посмотреть в литературных источниках, рекомендованных для изучения данной дисциплины и приведенных программе дисциплины. В пособии дается лишь набор готовых формул без объяснения того, как они были получены.
Проверка гипотезы о числовом значении математического ожидания m (числовом значении генеральной средней ) нормально распределенной ГС
Постановка задачи:
Н0: m= m0
Н1: m≠ m0 ……………. (1); m< m0 или m> m0 …………..(2)
Вводим критерий
- Если объем выборки n≤30, то при справедливости нулевой гипотезы случайная величина t имеет распределение Стьюдента с k = n-1 степенями свободы. Находим tкр (по значениям k и a) на основе таблицы «Критические точки распределения Стьюдента», причем для альтернативной гипотезы вида (1) используем двустороннюю критическую область, а для альтернативной гипотезы вида (2) используем одностороннюю критическую область;
- Если n>30, то случайная величина t имеет стандартный нормальный з.р., поэтому находим tкр по таблице функции Лапласа на основе решения
- Для повышения точности вычислений переход от одного закона распределения (Стьюдента) к другому закону распределения (нормальному) следует делать не при n=30, а при n=120.
Пример:
Менеджер отдела сбыта гипермаркета АШАН отслеживает изменение покупательных возможностей посетителей АШАНА. С этой целью он контролирует сумму денег, которую тратит покупатель за последние полгода в данной торговой сети. Изучение ситуации полгода тому назад показало, что покупатель АШАНА в среднем за одно посещение гипермаркета осуществляет покупки на сумму 956 руб. В данный момент на основе случайной выборки 76 посетителей АШАНА было найдено, что в среднем покупатель при одном посещении магазина делает покупки на сумму 1021 руб., причем стандартное отклонение составляет 427 руб. Можно ли на основе этой информации сделать вывод о том, что за полгода среднее количество денег, которые тратит за одно посещение АШАНА покупатель, фактически не изменилось. Принять уровень значимости 5%. (Полагаем, что сумма покупок меняется по нормальному закону распределения).
Решение:
Постановка задачи:
Введем критерий
При справедливости нулевой гипотезы этот критерий будет иметь стандартный нормальный закон распределения. Вычислим наблюдаемое значение критерия на основе экспериментальных значений:
Далее следует определить границы двусторонней критической области на основе табличного решения уравнения. Здесь пользуемся тем, что выборка велика: n больше 30, тогда
Отсюда на основе таблицы функции Лапласа находим tкр=1.96.
Изобразим возникшую ситуацию графически:
Поскольку наблюдаемое значение критерия попала в область естественных значений критерия, т.е. тех значений критерия, при которых нулевая гипотеза принимается как не противоречащая экспериментальным данным, то в результате решения задачи следует сделать такой вывод: принимаем с уровнем доверия в 95% утверждение о том, что средняя сумма денег, которую оставляет в АШАНЕ покупатель за одно посещение гипермаркета, значимо не изменилась, т.е. следует принять как верное то утверждение, которое было сформулировано в нулевой гипотезе (принимаем нулевую гипотезу).
Покажем, как изменилось бы решение задачи, если бы мы альтернативную гипотезу поставили другую.
Иная постановка задачи
(более того, можно отметить, что именно такая постановка задачи представляется более естественной в данном случае, поскольку экспериментальные данные показали повышение величины средний суммы денег, оставляемых в магазине покупателем):
Изменение в решении задачи касаются вида критической области. В этом случае следует использовать правостороннюю критическую область, значение границы области также изменится.
Теперь границу критической области следует искать на основе табличного решения другого уравнения
По таблице функции Лапласа находим tкр ≈ 1.65
Поскольку по-прежнему наблюдаемое значение параметра попадает в область принятия нулевой гипотезы, то ранее полученный вывод не изменился, т.е. мы принимаем нулевую гипотезу об отсутствии значимых изменений в той сумме денег, которую в среднем тратит покупатель за одно посещение АШАНА.
Замечание: Следует отметить, что в тех случаях, когда наблюдаемое значение параметра оказывается вблизи границы критической области, вывод может быть изменен на противоположный в тех случаях, когда от двусторонней критической области переходим к односторонней критической области или же в том случае, когда задаем другой уровень значимости (другой уровень доверия).
Решим аналогичную задачу в ситуации, когда для получения выводов используется выборка малого объема (выборка не превосходит 30).
Сохраним те же исходные данные, т.е. пусть по случайной выборке, состоящей из 15 человек, было найдено, что в среднем покупатель при одном посещении магазина тратит 1021 руб.
Постановка задачи
Критерий t определяется той же самой формулой, но в случае выборок малого объема при справедливости нулевой гипотезы критерий t подчиняется распределению Стьюдента с числом степеней свободы k = n-1 . Поэтому при определении границ критической области следует пользоваться таблицей критических точек распределения Стьюдента для односторонней (при указанной постановке задачи) критической области по заданному уровню значимости a=0.05 (в данном случае нужно выбирать уровень значимости в нижней строке таблиц). Находим по k=14 и a=0.05 tкр =1.76.
Вычислим наблюдаемое значение критерия
О
f(x)
tнабл=0.59
тметим, что внешне график плотности закона распределения Стьюдента похож на график плотности стандартного нормального закона распределения, только линия плотности для него идет более полого по сравнению с графиком плотности стандартного нормального закона распределения:
На основе сравнения положения критического и наблюдаемого значения параметров делаем вывод о принятии нулевой гипотезы с уровнем доверия в 95%, т.е. в данном случае вывод по задаче не изменился.
Замечание: тот же самый первый вариант задачи можно было бы решить иначе, с привлечением понятия доверительного интервала. Смысл такого подхода к решению задачи основан на следующем утверждении:
Если заданное в условии задачи значение параметра m0 попадает в доверительный интервал, соответствующий заданному уровню значимости, то утверждение нулевой гипотезы принимается с тем же уровнем значимости. Если же заданное значение m0 оказывается вне доверительного интервала, то следует отвергнуть нулевую гипотезу в пользу альтернативной гипотезы. Обоснование данного подхода к решению задачи заключено в том факте, что при построении доверительного интервала и при выстраивании критической области выполняются аналогичные преобразования, которые приводят к одинаковым формулам.
Напомним формулу, по которой находится двусторонний доверительный интервал для истинного значения параметра нормально распределенной генеральной совокупности (генерального среднего):
Решим вариант данной задачи в первоначальной постановке на основе применения доверительного интервала.
Постановка задачи:
Было найдено критическое значение параметра tкр=1.96.
Вычислим доверительный интервал на основе исходных значений:
Поскольку значение m0 = 956 попало в найденный доверительный интервал, то утверждение, составляющее содержание нулевой гипотезы, следует принять с уровнем доверия в 95%. Естественно, что получен тот же вывод, который получили при первоначальном способе решения этой задачи.
Из данного способа решения также совершенно очевидным является и другой вывод:
Утверждение, составляющее содержание нулевой гипотезы, не является единственно верным. Можно было бы изменить содержание нулевой гипотезы и вместо ранее заданного значения m0 = 956 в нулевой гипотезе задать, например, значение m0 =1100. Это значение также попадает в доверительный интервал и, следовательно, не противоречит экспериментальным данным, поэтому и значение m0 =1100 также могло служить содержанием нулевой гипотезы, причем это значение мы также приняли бы с тем же уровнем доверия.
Проверка гипотезы о числовом назначении вероятности p биноминального закона распределения (о числовом значении генеральной доли WГ)
Рассматриваем генеральную долю признака Wг =K/N – это часть объектов генеральной совокупности, обладающих определенным признаком (N – объем генеральной совокупности; K – количество объектов генеральной совокупности, обладающих данным признаком). Эту величину можно также трактовать как вероятность р того, что случайно выбранный объект из генеральной совокупности будет обладать этим признаком, причем полагаем, что величина вероятности не меняется при переходе от одного объекта к другому объекту и имеет место независимость появления признака для каждого объекта генеральной совокупности, т.е. в рассматривается модель явления, присущая биномиальному закону распределения признака. Вывод: постановку задачи можно осуществлять как в терминах «генеральная доля признака», так и в терминах «вероятность биномиального закона распределения».
Выборочной долей признака является величина w = k/n – это точечная оценка генеральной доли и, одновременно, точечная оценка вероятности в биномиальной законе распределения (n – объем случайной выборки; k – количество объектов в выборке, обладающих данным признаком).
Здесь мы будем рассматривать только случай больших выборок, т.е. n>30.
Постановка задачи:
Для задач этого типа вводится критерий ,
который и будем использовать для проверки нулевой гипотезы. Показано, что в случае справедливости нулевой гипотезы этот критерий имеет стандартный нормальный закон распределения.
При альтернативной гипотезе типа (1) строим двустороннюю критическую область, при альтернативной гипотезе типа (2) строим одностороннюю критическую область (левую или правую).
Процедура проверки справедливости нулевой гипотезы полностью повторяет тот алгоритм, который был реализован в предыдущей задаче. Рассмотрим решение конкретного примера.
Пример:
Известно, что примерно 83% студентов факультета менеджмента защищают диплом на отличную оценку. На основе наблюдений этого года было выяснено, что из 100 случайно отобранных дипломников получили отличную оценку 91 студент. Можно ли с 98% уровнем доверия сказать, что наблюдения этого года не противоречат ранее сделанному статистическому выводу?
Решение:
Постановка задачи:
H0: WГ = 0,83; здесь р0=0.83
H1: WГ > 0,83
Экспериментальные данные: n = 100, k = 91; кроме того: γ = 0,98 → α = 0,02
Вычислим значение выборочной доли (или найдем точечную оценку вероятности биномиального закона распределения, т.е. вероятности того, что случайно выбранный студент этого факультета получит отличную оценку за диплом)
Найдем наблюдаемое значения критерия:
Так как n>30, мы находим tкрп,, где tкрп - граница правосторонней критической области, с помощью функции Лаплас, применяя соответствующую таблицу:
P (tкр п < t < + ) = 0,02→P (tкр п < t < + )= Ф0 (+) - Ф0 (tкр п)=
=0.5 - Ф0 (tкр п)=0.02→Ф0 (tкр п) = 0,48→ tкр п ≈2,04
Замечание: значение tкр п можно было бы находить из решения несколько иного уравнения: P ( < t < tкр п) = 0,98. Значение tкр п получается, разумеется, таким же.
Поскольку наблюдаемое значение критерия попадает в область критических значений этой случайной величины, то следует отвергнуть нулевую гипотезу как противоречащую экспериментальным данным и, следовательно, принять альтернативную гипотезу, т.е. утверждение, высказанное в нулевой гипотезе, не является верным, в действительности доля студентов, получивших отличную оценку за диплом, значимо превосходит ту долю, которая указана в нулевой гипотезе.
Давайте решим эту же самую задачу, сделав в ней единственное изменение: примем = 0.01 (ранее было задано значение α = 0,02).
Решение:
Постановка задачи:
H0: Wг = 0,83, здесь р0=0.83
H1: Wг > 0,83
Экспериментальные данные: n = 100, k = 91.
Наблюдаемое значение tнабл в этом случае не изменяется; изменяется лишь tкр п .
Найдем новое значение tкр п:
P (tкр п < t < + ) = 0,01→P (tкр п < t < + )= Ф0 (+) - Ф0 (tкр п)=
=0.5 - Ф0 (tкр п)=0.01→Ф0 (tкр п) = 0,49→ tкр п ≈2,32
В этом случае из-за изменения положения границы критической области наблюдаемое значение критерия попало в область принятия нулевой гипотезы, следовательно, вывод в результате решения примера мы должны сделать иной: принимаем нулевую гипотезу о том, что генеральная доля студентов, которые сдают диплом на отлично, можно считать равным 83%, поскольку значения выборочной доли отличников и заявленного значения генеральной доли отличников различаются незначимо, несущественно. В данном случае следует отметить одну особенность, о которой уже говорилось: когда наблюдаемое значение критерия находится недалеко от границы критической области, то при изменении уровня значимости вывод по задаче можно получить противоположный по своему смыслу (и этим данная ситуация неприятна).
Решим еще один пример на проверку такой же гипотезы.