Глава 4. Сравнение средних, корреляции

4.3. Compare Means - простые параметрические методы сравнения средних.


Параметрические методы при формулировании нулевых гипотез о равенстве средних предполагают нормальность распределения анализируемых переменных или остатков в моделях дисперсионного анализа, сравнения групп и т.д. Это условие при анализе анкетной информации выполняется весьма редко. Вероятно, наиболее удобны для такого анализа переменные, полученные усреднением множества независимых случайных величин: по


центральной предельной теореме такие переменные должны иметь близкое к нормальному распределение.

На практике нередко для больших совокупностей эти методы все-же используются и для другого рода распределений, если распределение "не слишком сильно" отклоняется от нормального. "Не слишком сильно" - неопределенное понятие, обычно это определяется визуально при рассмотрении гистограммы распределения.

Взгляните, например, на распределение населения по душевому доходу - рис. 4.1. Распределение имеет длинный хвост в направлении больших доходов, нормальная кривая недостаточно хорошо огибает гистограмму. Если использовать вместо этой переменной логарифм доходов:

compute lnv14=ln(v14).

получаем более приемлемое распределение (см.рис. 4.2).

Основные формулы и идеи параметрических методов анализа средних и дисперсий рассматриваются в курсе математической статистики; и здесь, по ходу изложения материала, мы коротко напомним отдельные моменты этой теории.

Одновыборочный тест (One sample T-test).

Одновыборочный тест предназначен для проверки гипотезы о равенстве математического ожидания переменной заданной величине (в общепринятых обозначениях H0: m=m0). Напомним, что для проверки этой гипотезы используется статистика .

Команда для проверки гипотезы выдает также двусторонний доверительный интервал.

Примеры применения одновыборочного T-теста.

Пример 1. Для устранения влияния текущего уровня цен, инфляции на выводы об уровне жизни населения уровень доходов нормируют на средние значения или медиану. Целесообразно и нам использовать промедианный доход.

Почти одновременно с моментом сбора данных на аналогичной выборке очень большего объема была получена оценка медианы душевых доходов населения (200 руб.). Если допустить, что логарифм доходов имеет нормальное распределение, то среднее промедианных доходов должно незначимо отличаться от нуля (поскольку нормальное распределение симметрично относительно математического ожидания). Проверим это:

compute lnv14m=ln(v14/200).

Variable labels lnv14m "логарифм промедианного дохода".

T-TEST /TESTVAL=0 /VARIABLES=lnv14m /CRITERIA=CIN (.95) .


Таблица 4.1. Одновыборочный t-тест. Средний промедианный доход незначимо отличается от нуля.


T

Df

Sig. (2-tailed)

Mean Difference

95% Confidence Interval of the Difference


Lower

Upper

LNV14M

-0.831

672

0.406

-0.017

-0.058

0.023


В нашем примере m0=0 (TESTVAL=0), отклонение среднего равно -0.017, наблюдаемая значимость - 0.406 (почти в 40% случаев большее отклонение от ожидаемого значения может быть получено случайно), поэтому гипотеза о равенстве нулю матожидания логарифма промедианного дохода не отклоняется. Об этом же говорит и тот факт, что 95% доверительный интервал покрывает ожидаемое значение.

Пример. Есть предположение, что малообразованное население имеет средний логарифм доходов, существенно меньший среднего по совокупности объектов. В нашей анкете образование закодировано следующим образом:

1 Высшее;

2 незак/высш;

3 среднее спец;

4 ПТУ,ФЗУ;

5 10-11кл;

6 7-9 кл.;

7 4-6 кл.;

8 менее 4-х классов;

9 нет образования.

Проверим предположение, воспользовавшись временной выборкой данных о респондентах, имеющих образование не выше среднего.

compute f= (v10>3).

*формирование переменной фильтра.

filter f.

T-TEST /TESTVAL=0 / VARIABLES=lnv14 /CRITERIA=CIN (.95) .

filter off.

Таблица 4.2. Одновыборочный T-тест. Средний промедианный доход в группе с относительно низким образованием отличается от нуля при уровне значимости 5%.


T

Df

Sig. (2-tailed)

Mean Difference

95% Confidence Interval of the Difference


Lower

Upper

LNV14

-2.0316

162

0.0438

-0.0956

-0.1886

-0.0027


двухвыборочный t-тест (independent sample T-TEST)

Вариант команды для выполнения процедуры T-TEST для сравнения средних в двух выборках имеет следующий вид:

T-TEST/GROUPS V4(1,3)/VARIABLES = V9 lnV14m.

Подкоманда GROUPS указывает переменную группирования; в скобках задаются два значения этой переменной, определяющие группы. Например, приведенная команда будет выполняться только для групп объектов, у которых V4 принимает указанные значения 1 и 3. VARIABLES задает сравниваемые (зависимые) переменные для