Решение задач математической статистики по теме «Проверка статистических гипотез»

Вид материалаРешение

Содержание


Если разность
W(n;k) проводят при малых выборках (n≤30
Изучение воздействия рекламы
Решение: Постановка
Подобный материал:
1   2   3

Пример:

Для 15 пар порядковых переменных (x, y) был вычислен коэффициент корреляции Спирмена, который оказался равным = 0.64. При уровне значимости α=5% проверить гипотезу H0 о равенстве генерального коэффициента ранговой корреляции нулю (= 0) при конкурирующей гипотезе ≠0.

Решение:

Постановка задачи:


Найдем наблюдаемое значение критерия:




Найдем значения границ двусторонней критической области из условия, что при малых объемах выборок критерий t распределен (при справедливости нулевой гипотезы) по закону распределения Стьюдента с числом степеней свободы k=15-2=13.


На основе таблицы «Критические точки распределения Стьюдента» найдем границы двусторонней критической области на основе =0.05 и k=13→ tкр =2.16.


Полученные результаты покажем графически:







Поскольку наблюдаемое значение критерия попало в критическую область, то следует отклонить нулевую гипотезу в пользу альтернативной гипотезы. Это означает, что коэффициент ранговой корреляции значим: между двумя порядковыми случайными величинами X и Y в генеральной совокупности имеется значимая связь, которая говорит о наличии связи этих двух случайных величин.


Замечания:

В этом случае уравнение линейной регрессии, описывающее связь между случайными величинами не используется.

Если бы в данном примере объем выборки был бы более 30, то находили бы границы двусторонней критической области на основе уравнения:

Ф0(tкр) =/2. В остальном вычисления выполняются по тем же формулам.


Критерий знаков


Критерий знаков не связан с заданием каких-то конкретных значений параметров распределения, и поэтому на основе этого критерия формулируются так называемые непараметрические статистические гипотезы.

Это самый простой критерий непараметрической статистики. Простота критерия объясняется двумя причинами:
  1. Не делается предположение о том, что генеральная совокупность имеет нормальное распределение или какое-то другое распределение. Единственное предположение – распределение должно быть непрерывным.
  2. Критерий знаков использует только знаки различий между двумя числами, а не их количественную меру. Поэтому иногда его называют «ранговый критерий проверки гипотез».

Пусть имеются две выборки одинакового объема n, и эти выборки ранжированы:

x12<…n и y12<…n

Введем разность ri= xi-yi. Будем исследовать величину разности ri. Если мы найдем, что большинство пар значений (xi;yi) мало отличаются друг от друга, т.е. значения ri окажутся достаточно малыми, то это позволит нам считать, что все xi и yi меняются примерно одинаковым образом, т.е. выборки извлечены из одной и той же генеральной совокупности (и в этом состоит суть утверждения, составляющего содержание нулевой гипотезы).

Конкретные формы задания нулевой гипотезы могут быть различными в зависимости от конкретной ситуации, рассматриваемой в задаче. Варианты нулевой гипотезы могут быть весьма многообразными. Здесь будет рассмотрено только два варианта задания нулевой гипотезы; о их содержании будет сказано далее.

Исследуем знаки разностей ri и найдем число положительных разностей (положительное значение разности назовем успехом), т.е. найдем число успехов, которое обозначим величиной k.

В случае справедливости нулевой гипотезы положительные и отрицательные разности ri будут появляться с одинаковой вероятностью. Следовательно, задание гипотезы H0 возможно в двух форматах, которые будут рассмотрены в этом разделе.

Первый вариант задания нулевой гипотезы: Р(x-y>0)=Р(x-y<0)= ½.




Второй вариант задания нулевой гипотезы:

В этом случае предполагается проверить, равны ли друг другу генеральные средние для двух генеральных совокупностей .Если генеральные средние равны, то число положительных разностей ri должно быть примерно равно числу отрицательных разностей.

Для второго варианта задания нулевой гипотезы постановка задачи выглядит следующим образом:

Постановка задачи:

H0: (соответствует варианту p=0.5)

H1: () (соответствует варианту p≠0.5 или р<0.5, р>0.5)


Алгоритм реализации критерия знаков таков:

  1. Рассматривают серию из n испытаний, ранжируют две выборки xi, yi; (i=1,2,…,n); анализируют разности ; подсчитывают число положительных разностей. Если разность ri окажется равной нулю, то ее исключают из рассмотрения. Выясняют число положительных разностей - это число успехов k.

Замечание: можно было бы совершенно аналогично рассматривать и отрицательные разности.


2. Для получения выводов используется критерий следующего вида:

,


который получен на основе биномиального закона распределения с вероятностью, равной 0.5 (именно это значение вероятности заложено в нулевой гипотезе). W(n,k) – это вероятность такого события: «Число успехов наблюдалось от 0 до k раз». При справедливости гипотезы H0 наблюдаемое значение критерия Wнабл(n; k) принимает естественные для этой случайной величины значения (не слишком большие и не слишком маленькие).


Отметим, что W(n,0)≈0 , а W(n,n)=1.


На основе свойств биномиальных коэффициентов для облегчения вычислений можно использовать равенство

W(n; k) = =1 – W(n; n-k-1).

Это равенство удобно использовать, когда k>n/2.


3. Критические области определяются видом альтернативной гипотезы H1.

Рассмотрим три возможных вида альтернативной гипотезы:


  1. H1:


В этом случае выстраивается двусторонняя критическая область. В критическую область значение критерия попадает тогда, когда положительных разностей либо слишком много, либо слишком мало:





б)

В этом случае выстраивается левосторонняя критическая область. В критическую область значение критерия попадает тогда, когда положительных разностей мало (мало успехов):





в)


В этом случае выстраивается правосторонняя критическая область. В критическую область значение критерия попадает тогда, когда положительных разностей положительных разностей много (много успехов):





  1. Вычисление критерия W(n;k) проводят при малых выборках (n≤30). При больших выборках (n>30) биномиальный закон распределения удобно заменить нормальным законом распределения (вычисления на основе критерия W(n;k) становятся очень громоздкими), поэтому при n>30 обычно вводят иной критерий, поскольку вычисления по нему существенно упрощаются.

Этот критерий, который при справедливости гипотезы H0 имеет стандартный нормальный закон распределения, определяется формулой:




В этой формуле p=0,5; w=k/n.

Рассмотрим пример на применение критерия знаков.


Пример:

Один хиромант утверждает, что он по линиям руки человека может безошибочно указать год его рождения, не имея об этом человеке никакой предварительной информации. С хиромантом было поставлено 11 экспериментов, и результаты оказались следующими: + + - - + - + - + + + ), где знак «+» ставился тогда, когда хиромант давал правильный ответ, и знак «-», когда хиромант ошибался (n=11, k=7). Проверить при помощи критерия знаков с уровнем значимости a=0.05 справедливость утверждения хироманта.


Решение:

Постановка задачи:

Н0: p = 0.5 (вероятность правильного ответа равна 0.5, т.е. хиромант в половине случаев дает правильный ответ, а в половине случаев ошибается, т.е. он не обладает способностью давать правильный ответ)

Н1: p> 0.5 (вероятность правильного ответа более 0.5, т.е. хиромант чаще дает правильный ответ, а ошибается реже, т.е. он обладает способностью давать правильный ответ)

Вычислим наблюдаемое значение критерия (воспользуется тем, что 7>11/2), тогда:


П


0.89
окажем полученный результат графически:




Поскольку наблюдаемое значение критерия попало в область естественных значений критерия, то нам следует принять справедливость нулевой гипотезы. Таким образом, несмотря на то, что хиромант дал достаточно много правильных ответов, но их оказалось недостаточно для того, чтобы признать справедливость его утверждения. Для того, чтобы утверждение хироманта можно было считать справедливым требуется большее количество правильных ответов. Мы должны с уровнем доверия в 95% принять, что утверждение хироманта необоснованно.


Решим аналогичную задачу в ситуации, когда n становится большой величиной.

Пример:

Один хиромант утверждает, что он по линиям руки человека может безошибочно указать год его рождения. С хиромантом было проведено 110 экспериментов, при этом им было дано 70 правильных ответов, остальные ответы оказались неверными. Проверить при помощи критерия знаков с уровнем значимости a=0.05 справедливость утверждения хироманта.


Решение:

Постановка задачи:

Н0: p = 0.5 0 = 0,50)

Н1: p> 0.5


 


Вычислим наблюдаемое значение критерия:



Так как n>30, то находим tкр с помощью функции Лапласа:

P (tкр п < t < + ) = 0,05 →P (tкр п < t < + )=: Ф0 (+) - Ф0 (tкр п) =

=0,5 - Ф0(tкр п) = 0,95 → Ф0 (tкр л) = 0,45 → tкр л =1,65



Поскольку наблюдаемое значение критерия попало в область критических значений случайной величины, то отвергаем нулевую гипотезу как противоречащую экспериментальным данным и принимаем альтернативную гипотезу H1, т.е. можно сказать, что хироманту действительно в основном удается правильно указывать возраст своих клиентов.

Обратите внимание на то, что в этом примере значения n и k были увеличены в 10 раз так, чтобы доля правильных ответов сохранилась, т.е. осталась той же самой, что и в первой задаче про хироманта. И если на основе малой выборки был получен отрицательный ответ на утверждение хироманта, то теперь, на основе большой выборки, получили положительный ответ на утверждение хироманта. При малых выборках нужно иметь очень сильное различие в правильных и ошибочных ответах хироманта для того, чтобы признать справедливой альтернативную гипотезу. В случае больших выборок относительное различие в правильных и ошибочных ответах хироманта может быть не столь существенным для такого признания.

Рассмотрим еще один пример на использование критерия знаков.


Пример (предложен студенткой Гибадуллиной А.):


Семья выбирает отель для отдыха на море. Друзья посоветовали им 2 отеля разных категорий (4* и 5*), однако они утверждают, что на самом деле между отелями нет существенной разницы. На уровне значимости α=5% проверьте справедливость утверждения, что между этими двумя отелями отсутствует существенная разница. В таблице приведены оценки отелей по различным категориям, выдвинутым для их сравнения:

N


Категория сравнения

Оценки

I отеля

Оценки

II отеля

Знак разности

ri=xi-yi

1

Ранг (звезды)

4

5

-

2

Комфортабельность

10

10

0

3

Стоимость проживания

7

6

-

4

Питание

10

10

0

5

Размер отеля

8

9

-

6

Расстояние до моря

8

10

-

7

Чистота

10

10

0

8

Общее расположение

9

10

-

9

Развлечения для детей

10

9

+

10

Анимация

10

9

+

11

Персонал

10

10

0

12

Территория отеля

9

8

+

13

Бассейны

9

7

+

Решение:

исходные данные, полученные на основе таблицы:

а) число рассматриваемых для сравнения параметров равно 13;

б) число нулевых разностей равно 4, тогда величина n=13-4=9;

в) число положительных разностей равно k=4.


Постановка задачи:

H0: (это означает, что усредненные оценки, поставленные первому и второму отелю, примерно одинаковые, т.е. значимо не отличаются)

H1: (усредненная оценка второго отеля несколько лучше, чем усредненная оценка первого отеля; альтернативная гипотеза введена на основе экспериментальных данных)


Поскольку выборка маленькая, то используем для решения задачи критерий



Вычислим на основе имеющихся данных наблюдаемое значение критерия:



Изобразим полученные результаты графически:



0

1

α=0,05









w

Wкр =0.05 Wнабл=0.5

Wнабл

Wнабл

Wнабл



Поскольку наблюдаемое значение критерия попало в область естественных для данного распределения значений, то следует с уровнем значимости 5% принять основную гипотезу H0 о том, что фактически нет существенных различий в оценках как первого, так и второго отелей.


Пример: Изучение воздействия рекламы


После воздействия рекламой на группу из 18 человек 5 человек не изменили своего мнения, 9 человек изменили мнение в лучшую сторону, остальные – в худшую. С помощью критерия знаков проверить нулевую гипотезу об отсутствии значимого эффекта воздействия рекламы на аудиторию против альтернативы - «мнение аудитории изменилось в лучшую сторону» - на 5% уровне значимости.


Решение:

Постановка задачи:

Н0: p = 0.5

Н1: p> 0.5

N=18→ n=18-5=13; k=9 (количество положительных разностей)


Используем критерий W(n;k) для малых выборок:






Так как наблюдаемое значение критерия попало в критическую область, то основную гипотезу отвергаем и принимаем конкурирующую гипотезу, т.е. у нас есть основания полагать, что реклама оказала значимое воздействие на аудиторию. Уровень доверия в данному выводу составляет 95%.


Решим аналогичную задачу о воздействии рекламы на аудиторию в случае большой выборки (больше 30).


Пример:

Рекламному воздействию подвергли группу из 77 человек, при этом 10 человек не изменили своего мнения, 42 человека изменили мнение в лучшую сторону, остальные – в худшую. С уровнем значимости в 5% проверить нулевую гипотезу об отсутствии значимого эффекта воздействия рекламы на аудиторию против альтернативы - «реклама позитивно подействовала на аудиторию».


Решение:

Постановка задачи:

Н0: p = 0.5 (р0 =0.5)

Н1: p> 0.5

N=77 → n=77-10=67; k=42 (количество положительных разностей) ; w=k/n.

Здесь используем другой критерий. При справедливости гипотезы Н0 критерий t имеет стандартный нормальный закон распределения:




Выполним вычисления:




Результаты вычислении й покажем графически:





Из сравнения значений границы критической области и наблюдаемого значения критерия следует перейти к альтернативной гипотезе, т.е. на основе экспериментальных значений можно сделать вывод о том, что реклама значимо в лучшую сторону изменила мнение аудитории.

На этот закончим рассмотрение примером методического пособия.