Принято считать, что математика это царица наук и «зрелость науки обычно определяется тем, в какой мере она использует математику» (С. С. Стивенс)

Вид материалаДокументы

Содержание


Тема 10 Кластерный анализ
Отбор объектов для кластеризации.
Определение множества переменных
Определение меры различия
Выбор и применение метода классификации
Проверка достоверности разбиения
На рисунках 1-2 представлены варианты дендрограмм, анализируя которые можно сделать следующие выводы
Тема 11 Факторный анализ
Факторный анализ
Раздел 4. задания для самоконтроля
Подобный материал:
1   2   3   4   5   6   7   8
Тема 9

Дисперсионный анализ


Дисперсионный анализ – это анализ изменчивости признака под влиянием какого-либо фактора (или совокупности факторов). Метод основан на разложении общей дисперсии (вариативности) на составляющие компоненты, сравнивая которые можно определить долю общей вариации изучаемого признака, обусловленную действием на него как регулируемых, так и неучтенных в опыте факторов.

В основе дисперсионного анализа лежит предположение, что одни переменные могут рассматриваться как причины, а другие как следствия. При этом в психологических исследованиях именно переменные, рассматриваемые как причины, считаются факторами (независимыми переменными), а вторые переменные, рассматриваемые как следствия, – результативными признаками (зависимыми переменными). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте психолог имеет возможность варьировать ими и анализировать получающийся результат.

Нулевая гипотеза сводится к предположению о равенстве межгрупповых средних и дисперсий (то есть считается, что никакого систематического действия факторов на результативный признак нет, наблюдаемые различия в групповых средних являются случайными).

Проведение дисперсионного анализа реализовано в программах Statistica (только однофакторный вариант), SPSS и последних версиях Excel. Вычисления по методу однофакторного дисперсионного анализа в ручную достаточно трудоемко и требует пристального внимания, во избежание возможных ошибок.


Тема 10

Кластерный анализ

Кластерный (таксономический) анализ используется для упо­рядочивания объектов и объединения их в однородные разряды на основе попарного сравнения этих объектов по предварительно определенным и измеренным критериям. В результате исходная выборка разделяется на группы схожих меж­ду собой объектов, называемых кластерами. Кластер — это группа объектов, характеризующихся повышенной плотностью (сгущен­ность внутри разряда) и дисперсией.

Однородность объектов опре­деляется по расстоянию p(x1, x2). Объекты считаются однородными, если p(x1, x2) < pпредельного. Расстояние р вычисляется по формуле:




Результаты процедуры представляют в виде дендрограммы — древовидного графика.


Пример. На рисунке представлена дендограмма.





А.Д.Наследов3 выделяет ряд задач, при решении которых кластерный анализ является более эффективным, чем другие многомерные методы.
  1. Разбиение совокупности испытуемых на группы по измеренным признакам с целью дальнейшей проверки причин межгрупповых различий по внешним критериям, например, проверка гипотез о том, проявляются ли типологические различия между испытуемыми по измеренным признакам.
  2. Применение кластерного анализа как значительно более простого и наглядного аналога факторного анализа, когда ставится только задача группировки признаков на основе их корреляции.
  3. Классификация объектов на основе непосредственных оценок различий между ними (например, исследование социальной структуры коллектива по данным социометрии – по выполненным межличностным предпочтениям).

Несмотря на различие целей проведения кластерного анализа, А.Д.Наследов выделяет общую последовательность в применении кластерного анализа, как ряд относительно самостоятельных шагов, играющих существенную роль в прикладном исследовании.
  1. Отбор объектов для кластеризации. Объектами могут быть, в зависимости от цели исследования: а) испытуемые; б) объекты, которые оцениваются испытуемыми; в) признаки, измеренные на выборке испытуемых.
  2. Определение множества переменных, по которым будут различаться объекты кластеризации. Для испытуемых – это набор измеренных признаков, для оцениваемых объектов – субъекты оценки, для признаков – испытуемые. Если в качестве исходных данных предполагается использовать результаты попарного сравнения объектов, необходимо четко определить критерии этого сравнения испытуемыми (экспертами).
  3. Определение меры различия между объектами кластеризации. Это первая проблема, которая является специфичной для методов анализа различий: многомерного шкалирования и кластерного анализа.
  4. Выбор и применение метода классификации для создания групп сходных объектов. Это вторая и центральная проблема кластерного анализа. Ее весомость связана с тем, что разные методы кластеризации порождают разные группировки для одних и тех же данных.
  5. Проверка достоверности разбиения на классы.

Последний этап не всегда необходим.


Пример. В данном примере описано изучение мотивационной сферы респондентов методом семантического дифференциала. Для анализа полученных результатов использован кластерный анализ. Исследование проведено во ВГИПУ, в нем приняли участие студенты психологи 3-4-5 курсов очной формы обучения.

Метод семантического дифференциала, разработанный Ч.Осгудом, предназначен для измерения количественных характеристик эмоционального отношения испытуемого к объектам, выраженным в форме понятий.

Для изучения особенностей мотивационной сферы респондентов и исходя из задач психологического исследования было обозначено двадцать пять понятий: мое будущее, мое увлечение, достижение успеха, мое прошлое, неприятности, неудача, мое настоящее, Я, моя работа, моя учеба, угроза, признание окружающих, общение с людьми, мое свободное время, материальное благополучие, моя профессия, выполнение обязанностей, моя карьера, моя зарплата, творчество, рефлексия (самоанализ), практический психолог, профессиональное становление, мои друзья, болезнь.

При подготовке стимульного материала в состав объектов были включены понятия, смысл которых отражает в сознании респондентов, их отношение к получаемой профессии «психолог» (понятия-маркеры). Это понятия: моя профессия, моя работа и практический психолог. Кроме того, выделены понятия, характеризующие временную перспективу: мое прошлое, мое настоящее и мое будущее. Все эти понятия выступают в роли ориентиров в семантическом пространстве, по отношению к которым респонденты определяли позиции остальных понятий.

Результаты, полученные в процессе изучения особенностей мотивационной сферы респондентов, позволили охарактеризовать семантическое пространство, измерить семантические расстояния между обозначенными понятиями стимульного материала, выделить и проанализировать объединения понятий (кластеры).

На рисунках 1-2 представлены варианты дендрограмм, анализируя которые можно сделать следующие выводы:
  • Рисунок 1. Понятие- маркер «практический психолог» входит в кластер «моя профессия – профессиональное становление».
  • Рисунок 2. Понятие- маркер «практический психолог» входит в кластер «моя карьера».

Анализ дендрограмм показал, какие понятия попали в один кластер с понятиями-маркерами, т.е. какие понятия испытуемые идентифицируют с ними. В таблице представлены сводные результаты кластерного анализа семантического пространства студентов-психологов. Обращает на себя внимание тот факт, что понятие «практический психолог» не идентифицируется в сознании респондентов с понятиями «мое будущее» и «Я». Только у 13,9% респондентов понятие «практический психолог» идентифицируется с понятиями «моя работа» и «моя профессия», а у 37,2% респондентов рассматриваемые понятия-маркеры не имеют никаких идентификационных связей.




Рисунок 1




Рисунок 2

Таблица

Сводные результаты кластерного анализа семантического пространства

студентов-психологов (в %)

(понятия-маркеры: моя работа, моя профессия, практический психолог)


№ п/п

Понятия

Моя работа

Моя профессия

Практический психолог

1

Мое будущее

2,3

4,6




2

Мое увлечение

2,3




6,98

3

Достижение успеха

6,98

4,6

4,6

4

Мое прошлое

11,6




2,3

5

Неприятности










6

Неудача

2,3

2,3




7

Мое настоящее

4,6

4,6

6,98

8

Я




2,3




9

Моя работа




6,98

6,98

10

Моя учеба

9,3

4,6

2,3

11

Угроза










12

Признание окружающих

4,6

9,3




13

Общение с людьми




4,6

6,98

14

Мое свободное время




6,98

2,3

15

Материальное благополучие

6,98

4,6

6,98

16

Моя профессия

11,6




9,3

17

Выполнение обязанностей

9,3

6,98

4,6

18

Моя карьера

4,6

4,6

2,3

19

Моя зарплата

4,6




11,6

20

Творчество

9,3

4,6

11,6

21

Рефлексия

2,3

4,6

4,6

22

Практический психолог

4,6

9,3




23

Профессиональное становление

6,98

9,3

18,6

24

Мои друзья

4,6

4,6




25

Болезнь













Связь не обнаружена

11,6

9,3

16,3


Понятие «практический психолог» идентифицируется с видом деятельности (моя работа, моя учеба, общение с людьми, мое свободное время, моя профессия, рефлексия) у 32,5% респондентов, с потребностями и ценностями (мое увлечение, достижение успеха, материальное благополучие, выполнение обязанностей, моя карьера, моя зарплата, творчество) у 48,7% респондентов и с этапами жизненного пути (мое прошлое, мое настоящее, профессиональное становление) у 27,8% респондентов.

Таким образом, изучение особенностей мотивационной сферы студентов-психологов методом семантического дифференциала (модификация И.Л.Соломина), а именно изучение скрытой мотивации, позволило нам установить тот факт, что у большинства студентов (86,1%), обучающихся по направлению «психология», понятие-маркер «практический психолог» не идентифицируется с понятиями «моя работа» или «моя профессия», 95,7% респондентов не соотносят данное понятие с прошлым или настоящим, и никто – с будущим.

Тема 11

Факторный анализ


Возникновение и развитие факторного анализа тесно связано с измерени­ями в психологии. Длительное время факторный анализ и воспринимался как математическая модель в психологической теории интеллекта. Лишь начи­ная с 50-х годов XX столетия, одновременно с разработкой математического обоснования факторного анализа, этот метод становится общенаучным. К на­стоящему времени факторный анализ является неотъемлемой частью любой серьезной статистической компьютерной программы и входит в основной инструментарий всех наук, имеющих дело с многопараметрическим описа­нием изучаемых объектов, таких, как социология, экономика, биология, ме­дицина и другие.

Факторный анализ — статистический метод, который используется при обработке больших массивов экспериментальных данных. Задачами факторного анализа являются: сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными, т.е. классификация перемен­ных, поэтому факторный анализ используется как метод сокра­щения данных или как метод структурной классификации.

Важное отличие факторного анализа от всех описанных выше методов заключается в том, что его нельзя применять для обработки первичных, или, как говорят, «сырых», экспериментальных данных, т.е. полученных непосредственно при обследовании испытуемых. Материалом для факторного анализа служат корреляционные связи, а точнее — коэффициенты корреляции Пирсона, которые вычисляются между переменными (т.е. психологи­ческими признаками), включенными в обследование. Иными словами, факторному анализу подвергают корреляционные матрицы, или, как их иначе называют, матрицы интеркорреляций. Наименования столбцов и строк в этих матрицах одинаковы, так как они представляют собой перечень переменных, включенных в анализ. По этой причине матрицы интеркорреляций всегда квадратные, т.е. число строк в них равно числу столбцов, и симметричные, т.е. на симметричных местах относительно главной диагонали стоят одни и те же коэффициенты корреляции.

Главное понятие факторного анализа — фактор. Это искусственный статистический показатель, возникающий в результате специальных преобразований таблицы коэффициентов корреляции между изучаемыми психологическими признаками, или матрицы интеркорреляций. Процедура извлечения факторов из матрицы интеркорреляций называется факторизацией матрицы, В результате факторизации из корреляционной матрицы может быть извлечено разное количество факторов вплоть до числа, равного количеству исходных переменных. Однако факторы, выделяемые в результате факторизации, как правило, неравноценны по своему значению. Формальным критерием качества проведения процедуры факторного анализа является процент объединенной дисперсии исходных признаков.

В истории психологии факторный анализ связан с решением ряда теоретических задач в области исследования интеллекта. Ф.Гальтон, сформулировавший основные идеи метода, пытался при помощи его доказать, что высокий уровень мыслительных способностей является полностью врожденным. Ч. Спирмен, разработавший математическое обоснование данного метода, на ос­нове анализа корреляций между результатами различных тестов выдвинул идею единого генерального фактора, лежащего в основе успешности выполнения любых тестов, связанных с измерением интеллектуальных свойств.

В настоящее время факторный анализ широко используется как для решения исследовательских задач, так и при конструиро­вании психодиагностических методик. Факторный анализ является важнейшим инструментом для математического моделирования. Математическое моделирование — это процедура описания различных процессов (экономических, биологических, социально-психологических) посредством математического аппарата. Указанная процедура включает в себя выделение всех факторов процесса, определение доли вклада каждого из факторов, выявление закономерностей их функционирования и вероятностное предсказание протекания всего процесса в дальнейшем.


РАЗДЕЛ 4. ЗАДАНИЯ ДЛЯ САМОКОНТРОЛЯ

  1. Тестовые задания для самоконтроля

Распределение тестовых заданий по разделам учебного курса




раздела

Наименование раздела

Количество заданий

Номера заданий

I

Теоретические основы измерения и количественного описания данных

15

1-15

II

Методы статистического вывода

10

16-25

III

Методы многомерного статистического анализа

5

26-30



Укажите правильный ответ

  1. Какие эффекты сбора информации для анализа не влияют на ее качество:
  1. генерализации;
  2. реактивности;
  3. лабильности.



  1. Операционализация понятия приводит к …
  1. его расширению;
  2. его сужению и упрощению;
  3. расчленению на составные части;
  4. соотнесению с другими понятиями.



  1. Для обеспечения адекватной генерализации полученных выводов обычно используют:
  1. стандартные психологические тесты;
  2. организацию репрезентативной выборки;
  3. экспертизу программы исследования;
  4. валидизацию методик исследования.



  1. В какой шкале представлено количество вопросов в анкете как мера трудоемкости опроса:
  1. номинативная:
  2. ранговая;
  3. шкала отношений;
  4. шкала интервалов.



  1. В какой шкале представлено упорядочивание испытуемых по времени решения тестовой задачи:
  1. Номинативная шкала:
  2. Ранговая шкала;
  3. шкала отношений;
  4. шкала интервалов.



  1. В какой шкале представлен академический статус (ассистент, доцент, профессор) как указание на принадлежность к соответствующей категории:
  1. номинативная шкала;
  2. Ранговая шкала;
  3. шкала отношений;
  4. шкала интервалов.



  1. В какой шкале представлен академический статус (ассистент, доцент, профессор) как мера продвижения по службе:
  1. номинативная шкала;
  2. ранговая шкала;
  3. шкала отношений;
  4. шкала интервалов.


  1. К мерам центральной тенденции не относится:
  1. мода;
  2. медиана;
  3. размах;
  4. среднее арифметическое.



  1. К мерам изменчивости относится:
  1. среднее арифметическое;
  2. дисперсия;
  3. мода;
  4. медиана.



  1. К мерам положения не относится:
  1. медиана;
  2. процентиль;
  3. квартиль;
  4. нет правильного ответа.



  1. Следующий показатель не предназначен для оценки среднего значения:
  1. математическое ожидание;
  2. мода;
  3. медиана;
  4. дисперсия.



  1. Для оценки среднего значения используется показатель:
  1. среднего квадратичного отклонения;
  2. моды;
  3. коэффициента вариации; дисперсии.



  1. Медиана предназначена для оценки:
  1. общего качества измерения;
  2. среднего значения измеряемого показателя;
  3. разброса значений показателя вокруг среднего значения;
  4. объема выборки.



  1. Оценка среднего значения интереса к работе (от очень сильного до отсутствия такового) производится с помощью показателя:
  1. математического ожидания;
  2. моды;
  3. медианы;
  4. квинтильного ранга.



  1. Разброс доходов участников исследования требует применения показателя:
  1. дисперсии;
  2. моды;
  3. медианы;
  4. математического ожидания.



  1. Принятие нулевой гипотезы при определении достоверности различий исследуемого признака свидетельствует:
  1. об отсутствии различий;
  2. о существовании различий;
  3. о существовании различий на уровне 5%;
  4. о неверно выбранном критерии.



  1. Принятие альтернативной гипотезы при определении достоверности различий исследуемого признака свидетельствует:
  1. об отсутствии различий;
  2. о существовании различий;
  3. о неверно выбранном критерии;
  4. нет верного ответа.



  1. Для анализа взаимосвязи пола (мужской, женский) и употребления алкоголя (да, нет) используется:
  1. коэффициент корреляции Пирсона;
  2. коэффициент корреляции Спирмена;
  3. критерий Хи – квадрат;
  4. критерий Стьюдента.



  1. Для изучения взаимосвязи возраста (число полных лет) и нейротизма (шкала Айзенка, в баллах) используют:
  1. коэффициент корреляции Пирсона;
  2. коэффициент корреляции Спирмена;
  3. критерий Хи – квадрат;
  4. критерий Стьюдента.



  1. Выявление статистически-значимых различий двух распределений признаков производится с помощью критерия
  1. Стьюдента;
  2. Фишера;
  3. Манна-Уитни;
  4. Хи-квадрат.



  1. К непараметрическим статистическим критериям не относится:
  1. критерий знаков G;
  2. парный критерий Т-Вилкоксона;
  3. критерий L-Пейджа;
  4. t-критерий Стьюдента.



  1. Выявление статистически-значимых различий в уровне исследуемого признака (2 выборки испытуемых) производится с помощью критерия
  1. Т-критерия Вилкоксона;
  2. критерия знаков G;
  3. Q-критерия Розенбаума;
  4. χ2 критерия Пирсона.



  1. Для оценки сдвига значений исследуемого признака не используют:
  1. Т-критерия Вилкоксона;
  2. критерия знаков G;
  3. Q-критерия Розенбаума;
  4. χ2 критерия Пирсона.



  1. Выявление статистически-значимых различий в степени согласованности изменений двух признаков не производится с помощью критерия:
  1. коэффициента корреляции Пирсона;
  2. коэффициента корреляции Кендела;
  3. коэффициента ранговой корреляции Спирмена:
  4. Т-критерия Вилкоксона.



  1. Выявление статистически-значимых различий в распределении признака при сопоставлении двух эмпирических распределений производят с помощью критерия:
  1. φ критерия (угловое преобразование Фишера);
  2. Т-критерия Вилкоксона;
  3. критерия знаков G;
  4. Q-критерия Розенбаума;



  1. Факторный анализ предназначен для:
  1. прогноза интегрального показателя по его составным частям;
  2. объединения исходных признаков в группе на основании их близости;
  3. объединения объектов выборки в группы по степени близости;
  4. прогноза принадлежности объекта к заранее выделенному классу объектов.



  1. Формальным критерием качества проведения процедуры факторного анализа является:
  1. число выделенных факторов;
  2. критерий Кайзера;
  3. процент объединенной дисперсии исходных признаков;
  4. объем исследовательской выборки.



  1. Кластерный анализ используется для:
  1. прогноза интегрального показателя по его составным частям;
  2. объединения объектов выборки в группы по степени близости;
  3. прогноза принадлежности объекта к заранее выделенному классу объектов.



  1. Исходными данные для кластерного анализа могут быть:
  1. нормальными;
  2. любыми;
  3. аномальными;
  4. визуальными.



  1. Завершающим этапом кластерного анализа является:
  1. доклад на конференции;
  2. интерпретация;
  3. публикация в журнале;
  4. выбор метрики.