Учебно-методическое пособие Екатеринбург 2006 утверждаю декан психологического факультета Глотова Г. А

Вид материалаУчебно-методическое пособие
Тема 2. математико-статистический метод
Y является причиной изменения нескольких переменных х
Математико-статистические идеи метода
Исходные данные, процедура и результаты
N и количества признаков Р
Следующее требование –
Прямой пошаговый метод
Основные результаты
Подобный материал:
1   2   3   4   5   6   7
ТЕМА 2. МАТЕМАТИКО-СТАТИСТИЧЕСКИЙ МЕТОД

ПРЕДСКАЗАНИЯ (ЭКСТРАПОЛЯЦИИ) В ПСИХОЛОГИИ:

МОДЕЛЬ МНОЖЕСТВЕННОГО РЕГРЕССИОННОГО АНАЛИЗА


Назначение

Множественный регрессионный анализ (МРА) предназначен для изучения взаимосвязи одной переменной (зависимой, результирующей) и нескольких других переменных (независимых, исходных). Исходные данные для МРА представляют собой таблицу (матрицу) размерностью N × Р следующего вида:



X1

X2



Xn

1

x11

X12



X1p

2

X21

X22



X2p











N

Xn1

Xn2



xnp

Строки этой таблицы соответствуют объектам (испытуемым), а столбцы – переменным. Все переменные при этом должны быть измерены в количественной (интервальной) шкале. Одна из переменных определяется исследователем как зависимая, а остальные (или часть их) – как независимые переменные. Допускается, что для некоторых объектов значения зависимой переменной неизвестны, и их определение (оценка) может составлять важный результат анализа.

МРА может применяться как для решения прикладных задач, так и в исследовательских целях. Обычно МРА применяется для изучения возможности предсказания некоторого результата (обучения, деятельности) по ряду предварительно измеренных характеристик. При этом предполагается, что связь между одной зависимой переменной (У) и несколькими независимыми переменными (X) можно выразить линейным уравнением множественной регрессии:

У = b + b1x1 + b2 х2 + ... +bР хР + е, (1)

где У– зависимая переменная; хи ...,хРнезависимые переменные; b, b1 ..., bpпараметры модели; е – ошибка предсказания.

Примеры

Психолога может заинтересовать предсказание успеваемости абитуриента по измеренным психологическим характеристикам (интеллекта, личности и пр.). В этом случае он использует уже имеющиеся данные о взаимосвязи успеваемости и предварительного психологического тестирования за прошлые годы. Успеваемость при этом он рассматривает как зависимую переменную, психологические показатели – как независимые переменные. Применяя МРА, он получает модель предсказания в виде уравнения множественной регрессии (1). Подставляя в эту модель данные абитуриента, психолог получает предсказание его успеваемости.

Сходным образом психолог может изучать удовлетворенность оплатой труда. Привлекая данные разных компаний, он может при помощи МРА определить зависимость оплаты труда (Y) сотрудника от степени ответственности, количества подчиненных и других показателей 1...,хР). Пользуясь этой моделью, можно определить сотрудников, которым недоплачивают, переплачивают или платят «справедливо» за их труд.

Р. Кеттелл при помощи МРА получил «профессиональные портреты» для некоторых специальностей:
  • психотерапевт = 0,72A + 0,29В + 0,29H+ 0,29N;
  • психодиагност = 0,31A + 0,78B + 0,47 N.

Коэффициенты регрессии перед сокращенными техническими обозначениями шкал-факторов опросника Р. Кеттелла указывают на их вклад в прогноз эффективности соответствующей деятельности. Так, для психотерапевта важнее всего общительность (А), а для психодиагноста – интеллект (В).

Помимо предсказания и определения степени его точности МРА позволяет определить и то, какие показатели («независимые переменные») наиболее существенны, важны для предсказания, а какими переменными можно пренебречь, исключив их из анализа. Например, психолога может интересовать вопрос о том, какие психологические характеристики в наибольшей степени влияют на проявление исследуемой формы поведения или какие индивидуальные особенности лучше предсказывают успешность деятельности и пр.

В основе множественного регрессионного анализа лежит линейная модель (1). МРА в этом смысле можно рассматривать как аналог многофакторного дисперсионного анализа для случая, когда независимые переменные представляют собой не градации факторов (номинативные переменные), а измерены в количественной шкале. Тогда, в соответствии с моделью 1, МРА выступает как инструмент исследования влияния факторов (независимых переменных) х1 ..., хp на зависимую переменную Y.

Часто зависимая переменная Y выступает в качестве градаций, которым соответствуют разные группы объектов, т. е. измерена в номинативной шкале. В этом случае модель множественной регрессии неприемлема, и вместо МРА может быть применен дискриминантный анализ, который решает те же задачи и позволяет получить сходные результаты.

МРА может применяться и в том случае, если переменная Y является причиной изменения нескольких переменных х1 …, хР. Так, зависимой переменной может быть скрытая причина, фактор, например личностное свойство, а независимыми переменными – пункты теста, измеряющие различные проявления этого свойства. Таким образом, понятия «зависимая» и «независимая» переменные в МРА являются условными, а определение направления причинно-следственной связи выходит за рамки применения самого метода.


Математико-статистические идеи метода

Исходным положением линейного МРА является возможность представления значений «зависимой» переменной К через значения «независимых» переменных х1, х2, ..., хР в виде линейного уравнения:

Y = b + b1x1 + b2 х2 + ... +bР хР + е, (1)

где b – свободный член (intercept), b1, ..., bРкоэффициенты регрессии (Unstandardizet Соеfficients), е – ошибка оценки {Residual). Коэффициенты регрессии вычисляются методом наименьших квадратов при решении системы из линейных уравнений, с минимизацией ошибки е.

После вычисления регрессионных коэффициентов по значениям независимых переменных для каждого из объектов могут быть вычислены оценки зависимой переменной Y (Predicted Values);

Ŷ = b + b1x1 + b2 х2 + ... +bР хР . (2)

Сопоставление значений зависимой переменной Yi с их оценками Ŷi по выборке испытуемых, для которых значения Yi известны, называется анализом остатков или ошибок (Residual analysis). Он позволяет оценить возможные погрешности предсказания. Значения оценок Ŷi могут быть вычислены и для испытуемых, истинные значения зависимой переменной для которых неизвестны.

Далее можно вычислить коэффициент корреляции Пирсона между известными значениями «зависимой» переменной и ее оценками. Это один из способов получения коэффициента множественной корреляции (КМК) между «зависимой» и «независимыми» переменными. Коэффициент множественной корреляции – это мера линейной связи одной переменной с множеством других переменных; принимает положительные значения от 0 (отсутствие связи) до 1 (строгая прямая связь). КМК наряду с разностями между исходными и оцененными значениями «зависимой» переменной (ошибки е) основные показатели качества модели множественной регрессии.

Если «зависимая» и «независимые» переменные представлены в z-значе-ниях, то уравнение регрессии принимает вид:

Yz = β 1x1 + β 2 х2 + ... + β Р хР + е, (3)

где βР стандартные коэффициенты регрессии, или β-коэффициенты (Standartized Соеfficients).

Стандартные коэффициенты регрессии связаны с исходными корреляциями следующим уравнением (в матричной форме):

В=R -1 А, (4)

где В – вектор-столбец стандартных коэффициентов регрессии, R -1 – матрица, обратная корреляционной матрице «независимых» переменных, А – вектор-столбец корреляций «независимых» переменных с «зависимой» переменной. На практике регрессионный анализ начинается именно с вычисления стандартных коэффициентов регрессии.

Напомним, что в случае двумерной регрессии – при наличии всего одной независимой переменной, уравнение 3 имеет вид:

ŷi = rxy ∙ xi,

то есть стандартный коэффициент регрессии равен коэффициенту корреляции зависимой и независимой переменных.

Знак β -коэффициента соответствует знаку корреляции данной независимой и зависимой переменной. При наличии двух и более независимых переменных абсолютная величина β -коэффициентa зависит не только от корреляции данной независимой и зависимой переменных, но и от величин и знаков корреляций этой независимой переменной с другими независимыми переменными. Если данная независимая переменная никак не связана с другими независимыми переменными, то β -коэффициент, как и в двумерном случае, равен ее корреляции с зависимой переменной. Чем больше β -коэффициент по абсолютной величине, тем выше относительное влияние данной независимой переменной (с учетом влияния других независимых переменных), то есть тем выше информативность (уникальность) данной переменной для предсказания зависимой переменной. Статистические программы МРА (например, SPSS) оценивают p-уровень значимости каждого β -коэффициента.

Следует отметить, что взаимовлияние (системный эффект) независимых переменных может как уменьшать, так и увеличивать абсолютную величину β -коэффициентов (и их уровень значимости).

Произведение коэффициента βi,- и коэффициента корреляции riy данной независимой и зависимой переменной – это вклад переменной i в дисперсию зависимой переменной.

Если зависимая переменная представлена в z-значениях (дисперсия равна 1), то эта единичная дисперсия «зависимой» переменной Dy может быть выражена формулой:

Dy =1=Σβi riy +De

где De, – часть дисперсии, обусловленная влиянием неучтенных факторов, или дисперсия ошибки предсказания.

Часть дисперсии «зависимой» переменной, обусловленная влиянием «независимых» переменных, – это коэффициент множественной детерминации (КМД), который равен коэффициенту множественной корреляции в квадрате или R2:

KДМ= R2= Σβi riy=1- De

Интерпретация КМД очевидна: это та часть дисперсии «зависимой» переменной, которая определяется «независимыми» переменными. Следовательно,

(1 - КМД) – это дисперсия ошибки оценки. Например, если КМК = 0,8, то КМД = (КМК)2 = 0,64. Это означает, что 64% дисперсии «зависимой» переменной определяется исходными переменными, а 36% ее дисперсии относится к ошибке оценки.

Основной показатель состоятельности МРА (модели множественной регрессии) – коэффициент множественной корреляции (R). Подобно корреляции Пирсона, он является мерой линейной взаимосвязи одной переменной с совокупностью других переменных, но в отличие от него, принимает только положительные значения (от О до 1). Статистическая значимость КМК определяется по критерию F-Фишера для соответствующих степеней свободы. Для полноценной интерпретации результатов МРА необходимо, чтобы статистически значимыми были КМК и все В-коэффициенты.

Таким образом, основными целями МРА являются:
  1. Определение того, в какой мере «зависимая» переменная связана с совокупностью «независимых» переменных, какова статистическая значимость этой взаимосвязи. Показатель – коэффициент множественной корреляции (КМК) и его статистическая значимость по критерию F-Фишера.
  2. Определение существенности вклада каждой «независимой» переменной в оценку «зависимой» переменной, отсев несущественных для предсказания «независимых» переменных. Показатели – регрессионные коэффициенты β, их статистическая значимость по критерию t-Стьюдента.
  3. Анализ точности предсказания и вероятных ошибок оценки «зависимой» переменной. Показатель – квадрат КМК, интерпретируемый как доля дисперсии «зависимой» переменной, объясняемая совокупностью «независимых» переменных. Вероятные ошибки предсказания анализируются по расхождению (разности) действительных значений «зависимой» переменной и оцененных при помощи модели МРА.
  4. Оценка (предсказание) неизвестных значений «зависимой» переменной по известным значениям «независимых» переменных. Осуществляется по вычисленным параметрам множественной регрессии.


Исходные данные, процедура и результаты

Исходными данными для МРА является набор переменных, измеренных для выборки объектов (испытуемых). Одна из переменных определяется как «зависимая», остальные – как «независимые» переменные.

Пример

Перед исследователем стоит задача предсказания успеваемости пяти абитуриентов поданным вступительных тестов (4 теста). Кроме того, его интересует, какие тесты обладают наибольшей предсказательной силой в отношении последующей успеваемости. В качестве исходных данных психолог имеет для каждого из 20 учащихся предыдущего набора средний балл отметок и 4 показателя тестирования. В его распоряжении имеются результаты применения тех же 4 тестов для пяти абитуриентов, и исследователь надеется предсказать для них средний балл успеваемости. Таким образом, исходными данными для МРА являются: средний балл отметок как «зависимая» переменная (Y) и 4 «независимых» переменных – результатов тестов (test 1, test 2, test 3, test 4) (табл..2.1).


Таблица 2.1

Пример исходных данных для МРА



test 1

Test 2

Test 3

Test 4

Y

?

1

86,00

110,00

110,00

101,00

3,88




2

80,00

97,00

99,00

100,00

3,64




3

93,00

107,00

103,00

103,00

4,11




4

87,00

117,00

93,00

88,00

3,54



















20

120,00

94,00

110,00

105,00

3,71




21

74,00

121,00

100,00

100,00







22

96,00

114,00

114,00

103,00







23

104,00

73,00

105,00

95,00







24

94,00

121,00

115,00

104,00







25

91,00

129,00

105,00

98,00







Первые 20 объектов – это учащиеся предыдущего набора, для которых известен средний балл успеваемости, последние 5 объектов – это абитуриенты, для которых известны только результаты тестирования. Последний столбец (Y) – это оценки «зависимой» переменной, которые исследователь надеется получить в результате применения МРА. Корреляции исходных переменных приведены в табл. 2.

Таблица 2.2

Корреляция исходных данных для МРА




test 1

test 2

test 3

test 4

Y

test 1

1

-0,015

0,263

0,402

0,639

test 2

-0,015

1

0,356

0,317

0,552

test

0,263

0,356

1

0,772

0,706

test 4

0,402

0,317

0,772

1

0,736

Y

0,639

0,552

0,706

0,736

1

Строгих указаний о соотношении количества объектов N и количества признаков Р нет, но чем больше объем выборки, тем выше шансы получить статистически достоверные результаты.

Главное требование к исходным данным – отсутствие линейных взаимосвязей между переменными, когда одна переменная является линейной производной другой переменной. Таким образом, нельзя пользоваться суммой переменных или их средним арифметическим наряду с самими переменными. Соответственно, недопустимы переменные, коэффициент корреляции которых с любой другой переменной равен 1. Следует избегать включения в анализ переменных, корреляция между которыми больше 0,8.

Следующее требование – переменные должны быть измерены в метрической шкале (интервалов или отношений) и иметь нормальное распределение. При нарушении этого требования, однако, результаты могут быть полезны, если, конечно, соблюдать известную осторожность.

Желательно отбирать для МРА «независимые» переменные, сильно коррелирующие с «зависимой» переменной и слабо – друг с другом. Если «независимых» переменных много и наблюдается множество связей между ними, то перед МРА целесообразно провести факторный анализ этих «независимых» переменных с вычислением значений факторов для объектов.

При анализе на компьютере (например, при помощи SPSS) можно выбрать метод МРА: исходный или стандартный (Enter), прямой пошаговый (Forward), обратный пошаговый (Backward) или комбинированный пошаговый (Stepwise). Пошаговые методы позволяют в автоматическом режиме подобрать оптимальную комбинацию независимых переменных, обеспечивающую наибольшую статистическую значимость как КМК, так и β -коэффициентов.

Стандартный метод учитывает в МРА все «зависимые» переменные. Пошаговый метод обычно выступает в нескольких модификациях, основными из которых являются прямой и обратный метод.

Прямой пошаговый метод поочередно включает в регрессионное уравнение каждую переменную, начиная с наиболее тесно коррелирующей с «зависимой» переменной, до тех пор, пока p-уровень значимости β -коэффициента последней из включенных переменных не превысит заданное значение (по умолчанию – 0,1). Обратный пошаговый метод поочередно исключает переменные из анализа, начиная с той, которая имеет наибольшее значение p-уровня значимости β -коэффициента, до тех пор, пока все оставшиеся переменные не будут иметь статистически значимые β -коэффициенты (по умолчанию р≤0,1). Таким образом, пошаговые методы позволяют отсеивать несущественные для предсказания «независимые» переменные – те, β-коэффициенты которых статистически не достоверны. Следует отметить, что разные варианты пошагового метода могут давать разные результаты, поэтому следует применить каждый из них и выбрать наиболее приемлемый конечный результат.

Основные результаты применения МРА:

R – коэффициент множественной корреляции;

F – критерий Фишера и p-уровень статистической значимости КМК;

R2квадрат КМК или КМД;

β (Beta) – стандартизированные коэффициенты регрессии и p-уровень их статистической значимости;

В – коэффициенты регрессии (регрессионного уравнения).

Дополнительно возможно вычисление оценок «зависимой» переменной (Predicted Values) и ошибок оценки (Residuals).