Методика и техника проведения прикладного социологического исследования утверждено Редакционно-издательским советом университета в качестве учебно-методического пособия

Вид материалаДокументы
Каковы ваши успехи в учебе? Отметьте средний балл по результатам сессий за прошлый год.
Таблица 4.3 Успеваемость работающих и не работающих студентов
Таблица 4.3а Успеваемость работающих и не работающих студентов
Таблица 4.3б Успеваемость работающих и неработающих студентов
Тема 3. Коэффициенты корреляции
Таблица 4.4 Причины, мешающие повышению успеваемости по факультетам
Коэффициенты парной корреляции
Таблица 4.5 Перспективы трудоустройства по факультетам
Таблица 4.6 Взаимосвязь перспективы трудоустройства и трудовой занятости
Подобный материал:
1   2   3   4   5   6   7
Тема 2. Анализ двумерных распределений


Одной из важнейших задач любого анализа данных является проверка гипотез, сформулированных в программе исследования, то есть предположений о наличии связи между двумя и более переменными. И на определенном этапе анализа необходимо заняться поиском таких связей. Чтобы проделать это, надо найти ответ на пять основных вопросов:

1. Существует ли в реальности обозначенная в гипотезе связь между независимой и зависимой переменными?

2. Каково направление этой связи?

3. Насколько сильна связь?

4. Является ли связь статистически значимой?

5. Является ли связь каузальной?

Прежде всего, необходимо ответить на первый вопрос. Мы можем утверждать, что связь существует, если значения, которые мы наблюдаем для независимой переменной, ассоциируются со значениями, наблюдаемыми для зависимой переменной. Воспользуемся нашим примером. Мы сформулировали гипотезу о том, что существует связь между трудовой занятостью студента очного отделения и его успехами в учебе. При анкетировании был задан прямой вопрос с предлагаемыми вариантами ответов.

Каковы ваши успехи в учебе? Отметьте средний балл по результатам сессий за прошлый год.

1 - до 3,5 баллов

2 – 3,5 – 4 балла

3 – 4 – 4,5 балла

4 – 4,5 - 5 баллов

При обработке данных опроса нам для проверки гипотезы необходимо сопоставить значения независимой переменной (трудовая занятость) с соответствующими значениями зависимой переменной (успехи в учебе). С целью такого сопоставления мы после соответствующей обработки данных составляем таблицу 4.3.

Таблица 4.3

Успеваемость работающих и не работающих студентов.

Средний балл на момент опроса

Совмещаете ли вы учебу с работой?

Всего

да

нет

До 3,5

22

32

54

% по строке

40,7

59,3

100,0

% по столбцу

18,6

19,4

19,1

3,5 – 4

47

50

97

% по строке

48,5

51,5

100,0

% по столбцу

39,8

30,3

34,3

4 – 4,5

21

36

57

% по строке

36,8

63,2

100,0

% по столбцу

17,8

21,8

20,1

4,5 – 5

28

47

75

% по строке

37,3

62,7

100,0

% по столбцу

23,8

28,5

26,5

Всего

118

165

283

%

41,7

58,3

100,0


Такая таблица называется «кросстаб», а процесс ее создания – «кросстабуляция». Это один из основных способов анализа, используемых для того, чтобы увидеть, какую связь переменные имеют друг с другом. Категории независимой и зависимой переменной в принципе могут размещаться как по строкам, так и по столбцам (графам) кросстаба. Обычно независимую переменную помещают в верхней части кросстаба, формируя, таким образом, столбцы из значений зависимой переменной. Однако на практике из соображений удобства кросстаб чаще всего конструируют так, чтобы сверху вниз шла переменная с большим числом категорий. Реально, конечно не имеет значения, как будет сконструирован кросстаб: имея независимую переменную в верней части таблицы (по горизонтали) или сверху вниз (по вертикали). Главное – соблюсти правило: когда выбор сделан, процентные отношения в таблице должны вычисляться таким образом, чтобы проверить наличие связи. Давайте на примере кросстаба 4.3 посмотрим, как производится чтение таблицы – процесс, в ходе которого и выявляется наличие или отсутствие связи между переменными и ее параметры.

Прежде всего, обратим внимание на правый крайний столбец и две нижние строки. Здесь сведены контрольные суммы по каждой из строк. Смысл приведенных цифр таков: число в правой верхней ячейке говорит о том, что число опрошенных со средним баллом успеваемости до 3,5 составляет 54 человека; цифра в ячейке ниже сообщает, что это составляет 19,1% от общей численности выборочного массива (283 человека, которые и принимаются за сто процентов, - данные в клетках в правом нижнем углу таблицы). Общее число опрошенных со средним баллом от 3,5 до 4 - 97 человек, что составляет 34,3 процента от общей численности выборочного массива и т.д. В самой нижней строке приведены контрольные суммы количества тех, кто дал различные ответы по вопросу трудовой занятости по всем группам успеваемости. Так, общее число совмещающих работу и учебу – 118 человек, что составляет 41,7% от общего объема выборочного массива; тех, кто не работает, было в выборочном массиве 165 человек или 58,3% и т.д. Две ячейки в правом нижнем углу указывают на общую численность участников опроса, которая принимается за сто процентов для обеих исследуемых переменных. Контрольные суммы позволяют убедиться, что в процессе обработки были учтены ответы всех без исключения категорий респондентов. Вообще говоря, для максимальной полноты распределения в кросстабе обычно учитываются и те, кто не дал ответа на вопрос и те, кто выбрал ответ «затрудняюсь ответить». И хотя содержимое этих столбцов не очень информативно, порой знание о том, каков процент уклонившихся от ответа бывает достаточно полезным.

Анализ проводят, отслеживая изменение значений зависимой переменной при переходе от одного значения независимой переменной к другому. В данном примере независимой переменной мы считаем трудовую занятость студента, а зависимой – средний балл успеваемости по результатам сессии. Процедуру отслеживания изменений значения зависимой переменной можно проводить как по строкам, так и по столбцам. Двигаясь по столбцам, мы начинаем с первого значения независимой переменной – студентов, совмещающих учебу с работой. Мы видим, что среди работающих студентов около 40% имеют средний балл 3,5-4, а 23,8% опрошенных имеют максимально высокий балл – от 4,5 до 5. Перейдя к следующему столбцу, мы убеждаемся, что соотношение средне и хорошо успевающих студентов меняется – 30,3% и 28,5% соответственно. Это позволяет нам сделать вывод о наличии связи между переменными, а также о направлении этой связи, которая в данном случае в основном является прямой или положительной. Ее можно выразить простым описанием: студенты, совмещающие учебу с работой, имеют более низкие показатели успеваемости. Анализ по строкам подтверждает наши выводы: среди успевающих на 4 и более баллов значительно больше неработающих студентов, отдающих все силы и время учебе.

Фактически непосредственному анализу подвергались далеко не все цифры, а лишь некоторые из них – те, которые можно было бы свести в сокращенном варианте в виде табл.4.3а.


Таблица 4.3а

Успеваемость работающих и не работающих студентов.

Средний балл

Совмещают учебу и работу

Не совмещают учебу и работу

Всего

До 3,5

18,6

19,4

19,1

3,5 – 4

39,8

30,3

34,3

4 – 4,5

17,8

21,8

20,1

4,5 – 5

23,8

28,5

26,5

Итого

100,0

100,0

100,0


Данные, приведенные в табл.4.3 и 4.3а, позволяют нам сделать следующие основные выводы. 1. Существует связь между трудовой занятостью студента и его успеваемостью. 2. Эта связь в основном положительная: среди не работающих студентов меньше имеющих средний балл 3,5-4, и больше хорошо успевающих студентов со средним баллом 4-4,5 и 4,5-5. Исключение составляет лишь самая верхняя строка, где представлены слабо успевающие студенты, для которых, по-видимому, успеваемость вообще не играет никакой роли.

Понятие силы связи имеет отношение к тому, насколько сильно различаются наблюдаемые значения зависимой переменной при изменении значений независимой переменной. В нашем случае степень различия не велика, поэтому мы можем сделать вывод, что связь слабая. Наиболее сильная из возможных связей между двумя переменными – это такая связь, при которой значение зависимой переменной для каждого случая в одной категории независимой переменной отличается от каждого из случаев в другой категории. Такую связь называют совершенной, потому что зависимая переменная абсолютно ассоциируется с независимой переменной, не допуская никаких исключений. Совершенная связь дает исследователю возможность точно предсказать значение любого из случаев зависимой переменной, если известно значение независимой. Пример совершенной связи для гипотетического случая мог бы выглядеть так, как в таблице 4.3б.


Таблица 4.3б

Успеваемость работающих и неработающих студентов.

Успеваемость

Работающие студенты

Неработающие студенты

Слабо успевающие

100,0

0

Хорошо успевающие

0

100,0

Итого

100,0

100,0


Строго говоря, в реальных распределениях социологических данных крайне редко встречаются как вполне совершенная связь, так и абсолютно полное отсутствие всякой связи.


Тема 3. Коэффициенты корреляции


Закономерности массовых общественных явлений складываются под влиянием множества причин, которые действуют одновременно и взаимосвязано. Изучение такого рода закономерностей в статистике называется задачей о статистической зависимости. В этой задаче необходимо различать два аспекта: изучение взаимозависимости между несколькими величинами и изучение зависимости одной или большего числа величин от остальных. Первый аспект связан с теорией корреляции (корреляционный анализ), а второй – с теорией регрессии (регрессионный анализ). Основное внимание мы уделим корреляционному анализу. Корреляция указывает на степень статистической взаимосвязи признаков. При использовании порядковой шкалы измерения наиболее часто используются коэффициенты ранговой корреляции Спирмена и Кендалла, американских ученых, использовавших такие измерения в своих исследованиях. Рассмотрим наиболее простой и удобный в расчетах коэффициент ранговой корреляции Чарльза Спирмена. Он рассчитывается по формуле:

R= 1 – 6x ∑d2 / (n3 – n): (4.1)

где d – разность рангов,

n – общее число рангов (т.е. вариантов ответов).

Коэффициент ранговой корреляции Спирмена будет равен +1 (абсолютная положительная связь), если ответы респондентов обеих анализируемых групп будут в точности совпадать; он будет равен -1 (абсолютная отрицательная связь), если ответы всех респондентов обеих анализируемых групп будут прямо противоположны. Если R= 0, то это означает полное отсутствие всякой связи. Строго говоря, коэффициент ранговой корреляции показывает, насколько одинаковыми или различными были ответы на один и тот же вопрос со стороны двух сравниваемых между собой групп респондентов. То есть, он является мерой взаимозависимости между рядами рангов, а не мерой связи между самими переменными.

Рассмотрим процедуру расчета на примере данных из нашего исследования, приведенных в таблице 4.4.

Таблица 4.4

Причины, мешающие повышению успеваемости по факультетам

Что вам мешает учиться лучше?

ХТФ

ФАИТ

Ранг причин

Ранг причин

Разность рангов

Нет особого интереса в получении знаний

11,9

14,4

4

3

1

Многие предметы считаю бесполезными для профессии, которую получаю

20,0

28,1

2

1

1

Недостаточная довузовская подготовка

12,5

6,2

3

6

-3

Плохие бытовые условия для занятий

8,7

5,7

5

7

-2

Трудно заставить себя заниматься

36,2

22,5

1

2

-1

Неважная организация учебного процесса

5,0

10,6

7

5

2

Разочарование в профессии, которую получаю

5,7

12,5

6

4

2

Итого;

100,0

100,0

-

-

-


Респондентов просили высказать свое мнение о причинах, по которым они не могут учиться лучше. Мы проранжировали степень согласия с тем, или иным мнением студентов разных факультетов и вычислили разность рангов по каждой позиции. Теперь мы можем рассчитать коэффициент корреляции Спирмена:

R = 1 – 6 х (1 + 1 + 9 + 4 + 1 + 4 + 4)/ (343 – 7) = 1 – 168/336 = 1 – 0,5 = 0,5

Это довольно высокий уровень корреляции, указывающий на относительную близость взглядов студентов ХТФ и ФАИТ по всему комплексу причин (несмотря на существенные расхождения по некоторым признакам).

Коэффициенты парной корреляции призваны измерять взаимосвязь между двумя признаками исследуемого объекта. Эта взаимосвязь, при изучении социальных явлений, не всегда носит причинно-следственный характер. Например, если у большинства блондинов голубые глаза – это не обязательно следствие того, что они блондины, либо они блондины не обязательно по той причине, что у них голубые глаза, хотя взаимосвязь (корреляция) между двумя этими признаками может быть весьма тесной.

Если при корреляции двух признаков между ними существует причинно-следственная связь, то признак, влияющий на характер вариации другого признака принято называть факторным, а зависимый от него признак –результативным. Необходимо помнить, что корреляционная связь двух (или нескольких) признаков социального объекта носит не функциональный, а статистический характер, в связи с чем она является не строгой закономерностью, а лишь тенденцией.

Наиболее простой метод определения связи между признаками, измеренными при помощи номинальной шкалы – расчет коэффициента ассоциации Юла. Он измеряет тесноту связи между альтернативными признаками и вычисляется по формуле:

К =( ad – bc) / (ad + bc). (4.2)

Рассмотрим расчет коэффициента на примере из нашего исследования (см. табл.4.5)

Таблица 4.5

Перспективы трудоустройства по факультетам

Как вы оцениваете перспективу трудоустройства после окончания вуза?

ФАИТ

ХТФ

Итого

Уверены в трудоустройстве


63,9

(а)

36,1

(в)

100,0

Не уверены в трудоустройстве

56,9

(c)

43,1 (d)

100,0


К = (63,9 х 43,1) - (56,9 х 36,1) / (63,9 х 43,1) + (56,9 х 36,1) = 0,14

Как видим, связь между факультетами (а значит и профессией) и перспективами трудоустройства весьма слабая. Введем контрольную переменную – наличие работы у студентов очного отделения (см. табл. 4.6).

Таблица 4.6

Взаимосвязь перспективы трудоустройства и трудовой занятости

Как вы оцениваете перспективу трудоустройства после окончания вуза?

Работающие студенты

Не работающие студенты

Итого

Уверены в трудоустройстве

72,2(а)

27,8(в)

100,0

Не уверены в трудоустройстве

38,2 (c)

61,8 (d)

100,0


К = (72,2 х 61,8) – (38,2 х 27,8)/ (72,2 х 61,8) + (38,2 х 27,8) = 0,61. В этом случае мы обнаруживаем довольно высокую связь. Таким образом, можно сделать вывод о том, что перспективы трудоустройства, по мнению студентов, связаны не с получаемой в вузе профессией, а скорее с тем опытом, который они получают в процессе работы.

Для признаков, измеренных при помощи интервальной шкалы, наиболее совершенным является линейный коэффициент корреляции.

Нами здесь рассмотрены лишь некоторые, самые простые варианты расчета корреляции признаков объекта. Во всех случаях решения исследовательских задач, необходимо учитывать не только цели исследования, природу изучаемых признаков объекта, типы используемых шкал, но также и меру владения социологом различными математическими методами. Только в этом случае возможна грамотная интерпретация конкретных видов коэффициентов корреляции.