Решение задач математической статистики по теме «Проверка статистических гипотез»
Вид материала | Решение |
СодержаниеПример (предложен студенткой Аленой Бут) Решить эту же задачу, применяя традиционную постановку задачи с введением основной и альтернативной гипотез. |
- Лекция 13, 99.82kb.
- Темы, которые мы обсуждали на предыдущей лекции: Прообраз=(Тадж Махал)=Неизвестный, 97.53kb.
- Первый. Предмет и история юридической статистики 7 Глава, 5134.73kb.
- Проверка статистических гипотез, 59.38kb.
- «Исследование скорости сходимости распределений статистик критериев проверки статистических, 116.56kb.
- Проверка статистических гипотез о законах распределения, 59.19kb.
- Решение задач описательной статистики средствами ms excel содержание, 164.81kb.
- Лекции №10 Выборочные методы математической статистики, 60.62kb.
- Задачи (научить) изучить базовые разделы математической статистики; развить навыки, 49kb.
- Волгоградская Государственная Сельскохозяйственная Академия Описание проекта Название, 110.24kb.
Пример (предложен студенткой Аленой Бут):
На основании предшествующих исследований было известно, что доля крупных западноевропейских бизнесменов, имеющих счета в швейцарских банках, составляет примерно 78%. Исследовательский центр Германии «Meinungsumfrage» отобрал 670 крупных бизнесменов Западной Европы и установил, что 510 из них хранят свои сбережения на счетах в швейцарских банках.
На основе применения доверительного интервала проверить справедливость утверждения, что и в настоящее время доля крупных бизнесменов, имеющих счета в швейцарских банках, составляет 78%.
Решить эту же задачу, применяя традиционную постановку задачи с введением основной и альтернативной гипотез.
Во обоих случаях принять уровень доверия равным 1%.
Решение:
Экспериментальные данные: n = 670, k = 510, α = 0,01
Поскольку выборка большая, то доверительный интервал находится по формуле
Вычислим доверительный интервал:
Данный доверительный интервал с вероятностью 99% накрывает генеральную долю западноевропейских бизнесменов, хранящих свои сбережения в швейцарских банках.
Поскольку значение генеральной доли 0.78, заданное условием задачи, попадает в этот доверительный интервал, то, следовательно, с уровнем доверия в 99% (или с уровнем значимости в 1%) можно принять нулевую гипотезу как не противоречащую опытным данным.
Решим этот же пример на основе традиционного алгоритма проверки статистических гипотез.
Постановка задачи:
H0: Wг = 0,78, здесь р0=0.78
H1: Wг < 0,78
Экспериментальные данные: n = 670, k =510; кроме того, α = 0,01.
Вычислим значение критерия, который при справедливости основной гипотезы имеет стандартное нормальное распределение:
Найдем границу левосторонней критической области:
P (tкр л < t < + ) = 0,99→P (tкр л < t < + )= Ф0 (+) - Ф0 (tкр л)=
=0.5 - Ф0 (tкр л)=0.99→Ф0 (tкр л) = - 0,49→Ф0 (-tкр л) = 0,49→ tкр л ≈-2,32
На основе данного графика, сравнивая взаимное расположение наблюдаемого значения критерия и границы левосторонней критической области, следует сделать вывод о принятии нулевой гипотезы как не противоречащей экспериментальным данным с уровнем доверия в 1%.
Замечание: получены одинаковые выводы независимо от способа решения на основе использования доверительного интервала и на основе традиционного алгоритма проверки статистической гипотезы.
Пример (предложена студентом):
Главный врач ветеринарной клиники утверждает, что не менее 70 % его пациентов после приёма новейших лекарств верно служат своим хозяевам не болея на протяжении трех лет. Можно ли считать это утверждение верным, если из 100 пациентов ветеринарной клиники 59 остаются здоровыми после приема таблеток ещё три года? Принять уровень значимости 5%.
Решение:
Постановка задачи:
H0: p = 0,70 (р0 = 0,70)
H1: p < 0,70 (альтернативная гипотеза поставлена на основе результатов выборки)
Вычислим наблюдаемое значение критерия:
Так как n>30, то находим tкр с помощью функции Лапласа:
P (tкр л < t < + ) = 0,95 →P (tкр л < t < + )=: Ф0 (+) - Ф0 (tкр л) =
=0,5 + Ф0(-tкр л) = 0,95 → Ф0 (-tкр л) = 0,45 → tкр л = -1,65
Поскольку наблюдаемое значение критерия попало в область критических значений критерия, то отвергаем нулевую гипотезу как противоречащую экспериментальным данным и принимаем альтернативную гипотезу H1 , т.е. можно сказать, что менее 70% пациентов после приёма лекарств верно прослужат своим хозяевам ещё три года (утверждение врача клиники чрезмерно оптимистично).
Проверка гипотезы о равенстве математических ожиданий (о равенстве генеральных средних) двух нормально распределенных генеральных совокупностей
Пусть имеются две нормально распределенные генеральные совокупности, причем в первой совокупности изучаемый признак X~N(m1;s1), во второй совокупности изучаемый признак Y~N(m2;s2).
Мы в дальнейшем будем рассматривать ситуации, относящиеся к случаям больших выборок из этих двух генеральных совокупностей: n1>30, n2>30. Случаи малых выборок анализируются в соответствующих разделах учебников, но такие ситуации здесь не рассматриваются.
Постановка задачи:
Решим конкретную задачу, в которой реализуется описанный выше подход.
Пример:
Проводится сравнение роста 20-летних юношей, проживающих в Москве и в Новосибирске. На основе двух случайных выборок, выполненных в двух городах, были получены следующие данные. В Москве отобрали 75 юношей, по величинам ростов которых были вычислены две характеристики: средний рост юношей, который оказался равным 179 см, и стандартное отклонение, которое оказалось равным 8 см; в Новосибирске были случайно отобраны 57 юношей, их средний рост оказался равным 176 см со стандартным отклонением 10 см. На основе этих экспериментальных данных следует проверить гипотезу о примерном равенстве ростов московских и новосибирских 20-летних юношей. Принять доверительную вероятность равной 90%. Предполагается, что рост юношей подчиняется нормальному закону распределения.
Иная постановка вопроса к тем же исходным данным может звучать так:
Следует выяснить, значимо или же незначимо отличаются друг от друга выборочные средние значения. Если будет показано, что выборочные средние отличаются незначимо, то отсюда можно будет сделать вывод о справедливости нулевой гипотезы о примерном равенстве ростов юношей, проживающих в различных городах. В противном случае будет сделать вывод о существенном различии ростов юношей из этих городов.
Решение:
Постановка задачи:
При такой постановке задачи следует строить двустороннюю критическую область.
Вычислим границы этой области на основе табличного решения уравнения:
Вычислим на основе экспериментальной информации наблюдаемое значение критерия:
Изобразим результаты графически:
Поскольку наблюдаемое значение критерия попало в критическую область значений параметра, то следует отвергнуть основную гипотезу в пользу альтернативной гипотезы и сказать, что средний рост московских и новосибирских 20-летних юношей отличается значимо.
Решим эту же задачу с теми же самыми исходными данными в случае иной, более естественной в данном случае альтернативной гипотезы. Ее естественность обусловлена конкретными экспериментальными значениями.
Постановка задачи:
Такая постановка задачи требует построения правосторонней критической области.
Найдем границу правосторонней критической области:
В данном случае наблюдаемое значение критерия не меняется.
График показывает, что наблюдаемое значение критерия попало в критическую область, поэтому следует сделать тот же вывод, который был получен ранее: средний рост московских и новосибирских юношей значимо отличается.
Проверка гипотезы о равенстве вероятностей биномиального закона распределения (о равенстве долей признака) двух генеральных совокупностей
Рассмотрим две генеральные совокупности.
Из первой генеральной совокупности делается случайная выборка объемом n1, и на основе этой выборки выясняется, сколько объектов выборки обладает изучаемым признаком – этих объектов k1.
Из второй генеральной совокупности делается случайная выборка объемом n2; количество объектов выборки, обладающих изучаемым признаком, - k2.
Выборочные доли признака равны соответственно
w1= k 1 / n1 ; w2= k 2 / n2
В данном пункте мы ограничимся лишь случаем, когда выборки достаточно большие: n1>30, n2>30.
Постановка задачи:
В этой ситуации в качестве критерия используется случайная величина вида
При справедливости гипотезы H0 данная случайная величина имеет стандартный нормальный закон распределения.
Рассмотрим пример, в котором реализуется рассмотренная выше ситуация.
Пример:
Перед экспертами поставлена задача оценить сравнительную активность электората Москвы и Санкт-Петербурга при избрании депутатов Государственной Думы. С этой целью была сделана случайная выборка в двух этих городах из состава населения, которое имеет право голоса. Было выяснено, какая часть выборки реально пришла на избирательный участок для участия в выборах. Данные оказались следующими: в Москве из 1500 потенциальных случайно выбранных избирателей реально в выборах приняли участие 480 человек, а в Санкт-Петербурге из 1630 потенциальных избирателей на избирательные участки пришли 490 человек. На уровне значимости α=10% проверить гипотезу о равенстве генеральных долей избирателей в двух этих городах, реально принявших участие в выборах.
Решение:
Постановка задачи:
Вычислим на основе экспериментальных данных выборочные доли:
Вычислим на основе экспериментальных данных наблюдаемое значение критерия:
Найдем границы двусторонней критической области, таблично (с помощью таблицы функции Лапласа) решив следующее уравнение:
Покажем все найденные значения на графике плотности стандартного нормального закона распределения, который описывает поведение случайной величины t при справедливости нулевой гипотезы.
Поскольку наблюдаемое значение критерия попало в область естественных для данного закона распределения значений (в данном случае стандартного нормального закона распределения), то гипотеза H0 принимается как не противоречащая экспериментальным данным с уровнем доверия 90%, т.е. генеральные доли электората, реально принявших участие в выборах в Москве и Санкт-Петербурге, значимо не отличаются, т.е. их можно считать одинаковыми.
Проверка гипотезы о значимости выборочного коэффициента корреляции Пирсона.
Рассматривается двумерная нормально распределенная генеральная совокупность (X,Y), т.е. случайные величины X и Y в ней распределены нормально Из этой совокупности извлечена выборка объемом n пар (xi , yi) и по ней вычислен выборочный коэффициент корреляции Пирсона, который оказался отличным от нуля. Возникает вопрос, объясняется ли это действительно существующей линейной связью между случайными величинами X и Y в генеральной совокупности или является следствием случайности отбора переменных в выборку. Можно ли при этом заключить, что и коэффициент корреляции r между случайными величинами X и Y во всей генеральной совокупности также отличен от нуля?
Напоминание:
Постановка задачи:
H0: ρ=0
H1: ρ≠0
Если нулевая гипотеза отвергается, то это означает, что коэффициент корреляции в генеральной совокупности значимо отличается от нуля (кратно говоря «значим»), и, следовательно, в генеральной совокупности признаки X и Y связаны линейной зависимостью. Если же принимается нулевая гипотеза, то генеральный коэффициент корреляции незначим, и, следовательно, признаки X и Y в генеральной совокупности не связаны линейной зависимостью.
В качестве критерия проверки нулевой гипотезы используется случайная величина
Показано, что эта случайная величина при справедливости нулевой гипотезы имеет распределение Стьюдента с k = n - 2 степенями свободы. Число степеней свободы на две единицы меньше объема выборки, поскольку в выражении для r задействованы две связи, заданные формулами для вычисления средних значений по выборке:
;
Ясно также, что при больших объемах выборки (n>30) можно вместо распределения Стьюдента использовать стандартный нормальный закон распределения.
Поскольку конкурирующая гипотеза имеет вид ρ≠0, то следует строить двустороннюю критическую область.
Определив, куда попадает вычисленное значение tнабл, делаем вывод о справедливости нулевой или же альтернативной гипотезы:
если | tнабл |
если | tнабл |³ tкр , то принимается гипотеза H1.
Пример:
По выборке объема n=7, извлеченной из нормальной двумерной генеральной совокупности, был вычислен коэффициент корреляции Пирсона r=0,57. При уровне значимости α=10% проверить гипотезу H0 о равенстве генерального коэффициента корреляции нулю при конкурирующей гипотезе ρ≠0.
Решение:
Постановка задачи:
H0: ρ=0
H1: ρ≠0
Найдем наблюдаемое значение критерия:
Определим значения границ двусторонней критической области из условия, что при малых объемах выборок критерий t распределен (при справедливости нулевой гипотезы) по закону распределения Стьюдента с числом степеней свободы k=7-2=5.
Привлечем таблицу «Критические точки распределения Стьюдента»; в таблице используем ту ее часть, которая относится к двусторонней критической области, задаем =0.10 и k=5→ tкр =2.01.
Полученные результаты покажем графически:
Поскольку наблюдаемое значение критерия попало в область принятия нулевой гипотезы, то следует принять нулевую гипотезу с уровнем значимости 10%. Это означает, что генеральный коэффициент корреляции равен нулю, т.е. в генеральной совокупности между случайными величинами X и Y линейная связь отсутствует. В этом случае не следует использовать уравнение линейной регрессии для прогнозирования значения одной случайной величины по значению другой случайной величины.
Рассмотрим аналогичный пример, но существенно увеличим в нем объем выборки.
Пример:
По выборке объема n=112, извлеченных их нормальной двумерной генеральной совокупности, был вычислен коэффициент корреляции Пирсона r=0,57. При уровне значимости α=10% проверить гипотезу H0 о равенстве генерального коэффициента корреляции нулю (ρ=0) при конкурирующей гипотезе ρ≠0.
Решение:
Постановка задачи:
H0: ρ=0
H1: ρ≠0
Найдем наблюдаемое значение критерия:
Определим значения границ двусторонней критической области из условия, что при больших объемах выборок критерий t распределен по стандартному нормальному закону распределения при справедливости нулевой гипотезы:
tкр : =1-=1-0.10=0.90→Ф0(tкр) = = =0,45 => tкр=1,65
a/2=0.05
a
a/2=0.05
a
Поскольку наблюдаемое значение критерия попало в критическую область, то следует отклонить нулевую гипотезу в пользу альтернативной гипотезы, т.е. принять, что коэффициент линейной корреляции в генеральной совокупности значим. Из этого утверждения следует, что между двумя случайными величинами X и Y в генеральной совокупности имеется линейная связь, которая позволяет использовать уравнение линейной регрессии для прогнозирования, т.е., задавая конкретное значение величины X, получать значение другой случайной величины Y.
Получился интересный результат, который надо иметь в виду. Он заключается в том, что при больших объемах выборок то же самое значение коэффициента корреляции является значимым, т.е. показывает наличие линейной связи между случайными величинами в генеральной совокупности. В то же время при малых объемах выборок это же значение коэффициента корреляции не является значимым и не позволяет сделать вывод о том, что между случайными величинами в генеральной совокупности имеется линейная связь, поскольку для получения такого вывода в случае малых выборок имеется недостаточное количество экспериментальных данных.
Проверка гипотезы о значимости выборочного коэффициента корреляции Спирмена
Постановка задачи
Напоминание:
Формулы для вычисления коэффициента Спирмена:
Пояснения к приведенным формулам можно посмотреть на странице Дружининской И.М.в файле « Очень краткое изложение курса лекций по теории вероятностей и математической статистике для факультета менеджмента».
При проверке значимости коэффициента корреляции Спирмена поступают совершенно аналогично тому, как мы поступали, работая с коэффициентом Пирсона. Формулы для вычислений используются те же самые с учетом небольших изменений:
Если объем выборки совсем маленький (n<9), то для выяснения значимости коэффициента корреляции нужны специальные таблицы, которые приводятся в специальных руководствах (этот случай мы рассматривать не будем).
Если объем выборки n ³ 9, то при справедливости гипотезы H0 критерий
имеет распределение Стьюдента с k = n - 2 степенями свободы;
tкр находим по таблице критических точек распределения Стьюдента по значениям a и k для двусторонней критической области. Вычисляем tнабл на основе приведенной выше формулы. Если | tнабл |
Если объем выборки n >30, то вместо закона Стьюдента используем стандартный нормальный закон распределения.