Предположение этой части главы состоит в том, чтобы представить основные вопросы использования компьютерной программы для социологического анализа в ситуации, когда
когда читатель еще не имел дело с такими программами. Для описания использовались избранные решения SPSS версии 17.
Эти знания могут быть полезны для анализа эмпирических бакалаврских и магистерских диссертаций. К сожалению, у польского читателя нет большого выбора, когда дело доходит до публикации книг по использованию SPSS на базовом уровне. Стоит обратить внимание на книгу Томаса Павкова и Кента А. Пирса «Бежим, готовы — вперед!» Введение в SPSS для Windows, или книга Ярослава Гурняка и Януша Вахницкого Первые шаги в анализе данных. Этот подраздел представляет собой запись собственного опыта автора, связанного с проведением занятий «Компьютерные исследования».
После запуска SPSS появляется диалоговое окно, в котором мы можем выбрать один из таких вариантов, как, например,
- запуск учебника справочной системы;
- ввод данных в коллекцию;
- выполнение существующего запроса (запрос к базе данных);
- создание нового запроса с помощью мастера — эта команда также позволяет запустить мастер для приема баз данных из источников, не являющихся файлами SPSS (т.е. мы можем использовать, например, данные, сохраненные в Excel);
- открытие существующей ленты.
Внизу экрана в левом углу мы видим две вкладки: «переменные» и «данные».
Вкладка: «переменные»
После нажатия на вкладку «переменные» мы можем приступить к описанию свойств переменных в нашем исследовании.
Мы начинаем кодирование с переменной «номер_опроса». В случае, если мы удалим какие-то данные или захотим исправить уже введенные данные, сохраненный номер позволит нам найти интересующий нас опрос.
Имя
В поле «имя» введите имя переменной, например, «номер_опроса». В случае следующих переменных стоит использовать последовательно единую модель кодирования, например, «p01_age», где «p» — вопрос, «01» — номер вопроса, «age» — имя переменной. Имя переменной не может начинаться с цифры и не может содержать специальные символы, например: -,.;: » ‘ ( ) + = * / % л & | < >?. Пробел также не принимается в этой области. Имя не обязательно должно отражать точное содержание переменной, эта точность достигается в поле «метка».
В этот момент может возникнуть вопрос, а почему бы не использовать в опросе сокращения, относящиеся к вопросу? Ну, вы могли бы сделать это:
Вопрос в анкете: «1. Вы пользуетесь Интернетом?»
Имя переменной: «Internet_Use».
Если у нас в опросе несколько вопросов, такая система не доставит хлопот. Однако, когда наш инструмент использует несколько десятков вопросов, мы быстрее найдем пронумерованный, закодированный вопрос опроса. В этом случае лучше сделать так: «p01_internet».
Тип
В следующем поле «тип» (переменная) мы указываем, какой тип данных мы вводим. По умолчанию выбрано «числовое» поле и здесь мы не вносим изменения. Если мы определим переменную как «текст», мы можем вводить текстовые данные, мы также можем вводить числа, но производить над ними какие-либо вычисления будет невозможно.
Ширина
Поле «ширина» имеет значение, когда мы определяем переменную как «текст». Указав ширину, мы определяем количество вводимых символов. Для «числовой» переменной указание ширины не имеет значения.
Десятичная дробь
«Десятичный» — количество знаков после запятой; если ситуация этого не требует, введите цифру «0».
Этикетка
«Ярлык» — ограничений на ввод символов нет. Если вопрос опроса не является обширным, его стоит поместить в метку — когда мы создадим таблицу или диаграмму, ее точное содержание будет видно в заголовке.
Ценности
В поле «значения» мы присваиваем переменной конкретное значение с числом.
ПРИМЕР
Вопрос в анкете: «1. Вы пользуетесь Интернетом?»
После нажатия на многоточие (появляющееся после щелчка левой кнопкой мыши по ячейке) в ячейке «значения» появляется диалоговое окно «Метки значений». В поле «значение» введите цифру «1», в поле «метка» — «да» и нажмите кнопку «добавить». Повторите шаги, введите «2» в поле «значение», «нет» в поле «метка» и нажмите «добавить» [графика — метки значений].
Чтобы улучшить кодирование, мы присваиваем «1» всем ответам «да» на вопросы анкеты и «2» ответам «нет».
Недостающие данные
После проведения исследования может оказаться, что анкеты, которые возвращаются исследователю, обременены ошибкой отсутствия данных – респондент по разным причинам не ответил на заданный нами вопрос (вопросы). Эти пробелы также являются информацией, которую мы можем анализировать в SPSS, если, конечно, мы знаем природу отсутствия ответов.
Нажав на уже известное многоточие, на этот раз в столбце «отсутствующие», мы вызываем диалоговое окно «отсутствующие данные», где мы можем выбрать такие параметры, как:
1) без пропущенных данных – если респонденты ответили на все вопросы анкеты,
2) дискретные значения пропущенных пунктов — если респонденты по неосторожности пропустили вопрос или не захотели отвечать на вопрос. Мы можем определить до трех таких значений — тогда они будут проигнорированы программой. Обозначим эти недостатки цифрами, «наилучшего» выбора конкретных цифр не существует. Правило состоит в том, чтобы выбрать те, которые не будут встречаться во всем нашем наборе, например, 999, 900.
- диапазон значений плюс дискретное значение — допустим, что в транспортной компании мы исследуем расход топлива грузовых автомобилей. На вопрос об этом расходе автоводители отвечали, например, 10 литров на 100 км, 12 или 9, что явно не соответствует действительности. Для исключения из анализа ответов, не соответствующих действительности, определим диапазон отсутствующих данных: нижний предел — 9, верхний предел — 12.
Столбцы
Поле «Столбцы» — здесь мы можем указать ширину столбца переменной, видимого в представлении данных. По умолчанию ширина установлена на «8», и мы можем оставить это значение. Если есть необходимость увеличить ширину столбца, мы можем сделать это в представлении «данные» так же, как и в MS Excel.
Выравнивание
Поле «Выравнивание» — мы можем установить параметр данных в представлении «данные» как выравнивание по левому краю, выравнивание по правому краю или по центру. Для анализируемых данных не имеет значения, насколько они выровнены.
уровень измерения
Для анализа важно определить уровень измерения каждой переменной. Тип шкалы переменных влияет на статистические операции, выполняемые над переменными.
- Количественный уровень измерения— мы используем его, когда переменная касается измеримого, количественного признака, например, веса, роста, возраста, заработка.
- Порядковый уровень измерения— употребляем, когда переменная касается качественного, неизмеримого признака, когда этот признак можно упорядочить, например образование, оценка работы местного самоуправления.
- Номинальный уровень измерения— употребляем, когда переменная касается качественного признака, неизмеримого, когда этот признак нельзя упорядочить, например пол, вероисповедание, цвет глаз.
ПРИМЕР
Вопрос в анкете: «1. Вы пользуетесь Интернетом?»
Описание переменной во вкладке переменных:
Имя: «p01_internet».
Тип: «числовой».
Ширина: не меняем.
Десятичный: «0».
Этикетка: «Использование Интернета».
Значения: «1 — да», «2 — нет».
Дефекты: «Дискретные значения дефектов — 999».
Столбцы: не меняем.
Мировоззрение: не меняем.
Уровень измерения: «номинальный».
Вопрос в анкете: «20. Год рождения»
Описание переменной во вкладке переменных:
Имя: «p20_birth_year».
Тип: «числовой».
Ширина: не меняем.
Десятичный: «0».
Этикетка: «Год рождения»
Ценности: не заполняем.
Дефекты: «Дискретные значения дефектов — 999».
Столбцы: не меняем.
Мировоззрение: не меняем.
Уровень измерения: «количественный».
Вкладка: «данные»
После описания свойств переменных можно приступить к вводу данных в набор во вкладке «данные». Каждый столбец соответствует одной переменной, а каждая пронумерованная строка соответствует конкретному случаю. Если мы хотим, чтобы метки значений введенных переменных отображались из меню «вид», выберите «метки значений».
Создание новых переменных путем манипулирования существующими переменными
В опросе при построении вопроса о возрасте мы задаем этот вопрос косвенно, но спрашиваем год рождения. Мы можем легко вычислить возраст респондента, получив данные о годе рождения.
В меню «преобразования» выберите «вычислить значения». В диалоговом окне «Расчет значений переменных» введите имя результирующей переменной — «возраст респондента», укажите тип и метку переменной, а затем в части «числовое выражение» введите формулу: «2010 — p20_год_рождения», где «2010» означает текущий год, а «p20_year ofbirth» — переменная, задающая номер вопроса в опросе, и переменная года рождения респондентов. После нажатия «ОК» появится новая переменная «возраст».
Добавление записей
В ситуации, когда несколько человек (например, исследовательская группа) совместно вводят данные в базу данных, добавление переменных и наблюдений является полезным навыком. В случае объединения переменных (один человек кодирует ответы, относящиеся к первому вопросу, другой — ответы, относящиеся ко второму вопросу и, например, третий человек — третий вопрос) в меню «данные» выберите » объединить данные» и добавить переменные».
ПРИМЕР
Предположим, что набор, содержащий ответы на первый вопрос (1.sav), связан с оценкой оборудования гостиничного номера, в котором респондент провел
праздники, мы добавляем еще две переменные (которые разрабатываются двумя людьми) — рейтинг еды и доступ к спортивным сооружениям. Мы выбираем место и файл, который содержит вторую переменную (например, 2.sav). В диалоговом окне «добавить переменные из 2.sav» в разделе «новый рабочий набор данных» отображаются две переменные — оценка оборудования (отмечена звездочкой) и оценка еды (отмечена плюсом). Знак «+» в скобках после переменной означает, что переменная будет включена в активный набор данных, а знак «*» означает, что переменная существует в этом наборе данных. В этом диалоговом окне мы также можем исключить переменную или переменные из нашего набора, все, что нам нужно сделать, это переместить выбранные переменные в раздел, озаглавленный «исключенные переменные». Если мы хотим включить третью переменную, мы действуем, как описано выше.
Добавление наблюдений
В ситуации, когда группа людей (научная группа) делит набор опросов между собой (например, каждый человек получает 40 опросов, готовых для внесения в набор данных, т.е. формирует подмножество выборки), мы используем агрегацию наблюдений. В меню «данные» выберите «объединить данные» и «добавить наблюдения». Мы выбираем место и файл, который содержит наблюдения. Предположим, что к файлу, содержащему наблюдения 1-6 (т.е. 6 разработанных съемок, 1_6.sav), мы хотим добавить следующие наблюдения 7-12 (т.е. следующие 6 съемок, разработанные в файле 7_12.sav). В диалоге «добавить наблюдения из 7_12.sav» в разделе «переменные в новом наборе данных» мы видим список переменных, которые есть в обоих файлах. Если бы программа распознала, что мы объединяем файлы, содержащие переменные с разными именами, список этих переменных был бы виден в разделе «переменные без совпадений».
Несколько ответов
При построении вопроса в опросе мы даем респонденту возможность выбрать более одного ответа.
ПРИМЕР
При выборе отеля обращаю внимание (можно выбрать более одного ответа):
- Цена
- оборудование помещения,
- расположение.
Респондент может выбрать один ответ, а может выбрать все три ответа.
И как бороться с этой проблемой в SPSS? Создаем три переменные: «hotel_price», «hotel_equipment», «hotel_location», а в колонке
«значению» ответа «да» присваивается значение «1», а ответу «нет» значение «2».
ВНИМАНИЕ: Чтобы каждый раз не вводить значения, присвоенные другим переменным, после присвоения значения переменной «hotel_price» выделите ячейку в первой строке и столбце «значения» и нажмите «Ctr-l+c «, затем выберите две ячейки ниже и нажмите «Ctrl + v».
Мы вводим данные, полученные из опросов, а затем в меню «анализ» выбираем опцию «несколько ответов» и «определить наборы». В диалоге «множественные наборы ответов» переходим к «переменным в наборе» — «hotel_price», «hotel_equipment» и «hotel_location». В разделе «переменные закодированы как» выберите «дихотомии» и определите подсчитанное значение как «1» (нас интересуют ответы «да» относительно цены, оборудования или местоположения).
Чтобы выполнить частотный анализ, в меню «анализ» выберите «множественные ответы» и «частоты».
Перекодирование значений переменных
При работе с переменными вам может понадобиться присвоить новые значения существующим переменным. Мы можем сделать это двумя способами:
1. в меню «преобразования» выбрать «перекодировать в те же переменные» — в этом случае новые значения переменной заменят старые;
2. В меню «преобразования» выберите «перекодировать в другие переменные» — в этом случае к существующему набору будет добавлена новая переменная с новыми значениями, а декодируемая переменная останется неизменной.
Второй способ безопасен, изменения будут применяться только к новой переменной и если мы захотим произвести какие-то операции над старой переменной, то это будет возможно.
ПРИМЕР
Мы собрали информацию о годе рождения опрошенных людей. Мы преобразовали эту информацию в переменную возраста. Однако для целей нашего исследования нам необходимо построить возрастные категории:
- до 30 лет,
- 31-65,
- 66 лет и старше.
В меню «преобразование» выберите «перекодировать в другие переменные». В диалоговом окне нажмите «Исходные и результирующие значения…». Описываем первую категорию, выбрав «диапазон значений от наименьшего до заданного» и введя «30», затем этому значению присваиваем цифру «1» и нажимаем «добавить». В случае категории 31-65 выберите «диапазон от 31 до 65», а для третьей категории «диапазон значений от заданного до наибольшего», введя «66».
Разделить на подмножества
Если мы хотим сравнить группы на основе выбранных переменных, мы обращаемся к меню «данные» — «разделить на подмножества» и в диалоговом окне выбираем «сравнить группы», а затем перемещаем выбранные переменные в «группы, выделенные на основе из» окна.
ПРИМЕР
В Академии специального образования на факультете педагогических наук и на факультете прикладных социальных наук на дневном отделении первой ступени было проведено исследование отношения студентов к сайтам знакомств. Мы хотим использовать описательную статистику для анализа возраста респондентов, но в разрезе пола, факультета и года обучения. В окно «группы, отличающиеся по» перемещаем следующие переменные: «пол», «факультет» и «год обучения». Затем в меню «анализ» выберите «статистическое описание» и «описательная статистика». Результатом наших действий является обширная таблица в окне отчета.
Пользовательская статистика
плр.р Wvdiinl рнкисследования | н | Розетка | Мирамвиу | Маккуунм | Иметь в виду | Отклонениестандартный | шотландский | Кипой | ||
статистика | Статистика | Стоти прикасается | Статистика | сутствки | подан | подан | ||||
женщина Прикладной крючок ИрландияВОЗРАСТ. Социальное Квзвешенный (демонстрация наблюдения | суглинок суглинок | 2D | 21 | 3D.]? | .405 | 1923 г. | .И1 | 2.037 | 1,279 | |
П год ВОЗРАСТ K Важно (отключено по наблюдениям; | 2′ 2′ | 2 | 20 | 22 | Z, 0,114 | .351 | .о. Дж | 0,464 | 6.659 | 0,912 |
DI годВОЗРАСТ КВажныйч(без учета наблюдений) | Идентификатор и < | ■3 | 22 | 25 | 22.43 | Л 52 | 2.4 ■ | 0,597 | 6.484 | 1,154 |
низкийПедагогический ирокезВОЗРАСТ часважно, а(доказано наблюдениями) | 10 10 | 2 | 20 | 22 | JJ.JiJ | 0,675 | 2,2 л | 0,687 | 4.765 | л.324 |
П год ВОЗРАСТ К Важно (за исключением замечаний) | 2Дж тридцать | 3 | 21 | 24 | 21.15 | /71 | 4.4)2 | 0,512 | 20,0 и | 0,9 л |
DI год ВОЗРАСТ K Важно (исключениенаблюдения} | 15 1.’ | 4 | 21 | 25 | 22.40 | 0,986 | 1,095 | 0,580 | 2,543 | 1,121 |
meżc^rana Прикладные оговорки Ирок возраст Социальное Кважно (отключение наблюдения} | и | 3 | 20 | 23 | джи/.’ | 1,211 | 1,912 | 0,645 | 3,657 | 1741 |
1 год ВОЗРАСТ H WtIfch (отключитьнаблюдения] | 6 С | 1 | 21 | 22 | .408 | 2449 | 0,845 | (..ЛУЙ | 1741 | |
Ш год ВОЗРАСТ К Важно (отключено по наблюдениям) | 9 9 | : | 22 | 2д | 77.0,67 | 0,366 | Джии | 0,717 | 0,1079 | :.4’P |
низкийПедагогический ИрландияВОЗРАСТ Х Дворники(неполноценныйнаблюдения | ; 2 | 1 | 2D | 21 | а, 5D | .707 | ||||
II год ВОЗРАСТ КВажно (замечания исключены | 7 2 | : | 21 | 23 | С!.00 | 1,4-4 | ||||
Шгод ВОЗРАСТ КВажныйч(исключениенаблюдения | 9 9 | : | 22 | 24 | 22.44 | 0,726 | 1,331 | .7Г | 1,467 | 1.43) |
Выберите наблюдения
Для целей анализа мы можем сосредоточиться, например, на выбранной переменной (или переменных). Предположим, мы хотим провести анализ только мужчин в возрасте 50 лет и младше. В меню «данные» — «выбрать наблюдения» — в диалоговом окне нажать «если условие выполнено» и построить функцию: «p15=2&возраст <= 50», где «p15» означает с переменной «пол «, «2» — значение переменной «пол», относящееся к мужчинам, «&» — дефис «и», «возраст» — переменная возраста, «<= 50» — люди в возрасте 50 лет и младше.
Графики
Графики являются важным элементом анализа и представления результатов. То, что сразу не видно в таблице, представлено на графике. При выборе типа диаграммы обратите внимание на данные, которые она представляет. Например, линейная диаграмма характерна для анализа определенного явления в изучаемый период. В SPSS у нас есть выбор из множества различных графиков.
- Гистограмма
ПРИМЕР
Мы хотим представить данные, например, о процентном разделении женщин и мужчин в обследуемой группе респондентов в виде простой гистограммы. В меню «графики» выберите «традиционный», а «гистограмма» — «простой». В диалоговом окне выберите «% наблюдений» в разделе «столбцы представляют», затем переместите переменную «пол» в окно «ось категории». Это самое простое использование гистограммы.
Мы также можем представить процентное соотношение женщин и мужчин на диаграмме с учетом отделов. Как и прежде, в меню «графики» выберите «традиционный», а «гистограмма» — «сгруппированный». В диалоговом окне выберите «% наблюдений» в разделе «столбцы представляют», затем переместите переменную «пол» в окно «ось категорий» и «отдел» в окно «определить группы по».
Каждый элемент диаграммы можно редактировать – для этого дважды щелкните созданную диаграмму в окне отчета. В окне редактора диаграмм мы можем, например, добавить описания данных (меню «элементы» — «показать описания данных»), изменить цветовое расположение столбцов (возможность аналогична MS Word).
ВНИМАНИЕ: Если на одном из графиков мы представили данные о женщинах и мужчинах, мы должны последовательно использовать одни и те же цветовые схемы на протяжении всей нашей работы (например, женщины — зеленый, мужчины — синий).
- Блочная диаграмма
Чрезвычайно интересным сюжетом является так называемый бокс-сюжет. коробочка. Вы можете прочитать медиану, значение первого и третьего квартиля, самое низкое и самое высокое наблюдаемое значение, необычные значения, экстремальные значения (максимальные и минимальные — отмечены символом «*»).
ПРИМЕР
На приведенном выше графике показан пол в разрезе возраста (справа описание графика из книги Анны Маларской «Статистический анализ данных при поддержке программы SPSS», 2005 г, стр. 26). Из диаграммы мы можем прочитать следующие значения:
Женщины — самому молодому человеку, участвовавшему в исследовании, было 20 лет (самое низкое наблюдаемое значение, равное остальным), самому старшему 23 года (самое высокое наблюдаемое значение, равное остальным), 50% респондентов были до 21 года. лет, 50% — старше 21 года и старше (медиана), 1-й квартиль — 25% опрошенных женщин были в возрасте 21 года и младше, 75% — 21 год и старше, 3-й квартиль — 75% женщин были в возрасте 22 лет возраст и моложе, 25% женщин в возрасте 22 лет и старше. Атипичные значения (а также крайние, максимальные значения) — 3 женщины 24 лет (наблюдения № 37, 97, 102), 2 женщины 25 лет (наблюдения № 59, 91).
Мужчины — самому молодому человеку, участвовавшему в исследовании, было 20 лет (наименьшее наблюдаемое значение, равное остальным), самому старшему 24 года (наивысшее наблюдаемое значение, равное остальным), 50% респондентов было 22 года. и моложе, 50% — 22 года и старше (медиана), 1-й квартиль — 25% опрошенных мужчин были в возрасте 21 года и младше, 75% — 21 год и старше, 3-й квартиль — 75% мужчин были в возрасте 23 лет и моложе, 25% женщин в возрасте 23 лет и старше.
Социальные исследования превращаются в почти детективный поиск взаимосвязей между переменными. Поиск этих зависимостей — искусство, а исследователь превращается в художника, разумеется, в контексте социальных наук, рисующего словами, таблицами и графиками картину исследуемого фрагмента действительности.
Корреляция Пирсона против корреляции Спирмена
Коэффициент линейной корреляции Пирсона (обозначаемый буквой «r») обращает наше внимание на силу прямолинейной зависимости между переменными. Прямолинейная зависимость возникает, когда увеличение на единицу одной переменной сопровождается увеличением на единицу другой переменной. Коэффициент корреляции может варьироваться от «-1» до «1». В случае значения «-1» мы имеем дело с максимальной отрицательной корреляцией, а «+1» — с максимальной положительной корреляцией.
Мы используем корреляцию Пирсона, когда:
- коррелированные переменные являются количественными переменными,
- связь между переменными носит линейный характер,
- распределение обеих рассматриваемых переменных близко к нормальному, т. е. имеет одну вершину и максимально симметрично..
ВКорреляция SPSS Пирсона рассчитывается путем выбора в меню «анализ» — «корреляции» — «попарно». В диалоговом окне переносим переменные, которые хотим сопоставить, выбираем «Корреляция Пирсона», затем «двусторонняя значимость» или «односторонняя значимость».
Шкала Станиша:
rxy = 0 переменные не коррелированы
0 < rxy < 0,1 небольшая корреляция
0,1 =<rxy <0,3 слабая корреляция
0,3 =<rxy <0,5 средняя корреляция
0,5 =<rxy <0,7 высокая корреляция
0,7 =<rxy <0,9 очень высокая корреляция
0,9 =<rxy<1 почти полная корреляция.
ВНИМАНИЕ: Близкое к нулю значение коэффициента не всегда означает отсутствие зависимости, а только отсутствие линейной зависимости.
В одном из исследований в SPSS возраст учащихся соотнесли с годом обучения и получили следующую таблицу:
Стол.Соотношение — возраст и год обучения
возраст | год обучения | |
возраст Корреляции Пирсона Значение (двустороннее) N | 1 22 | 0,725** |
,000 | ||
22 | ||
год обучения Корреляции Пирсона Значение (двустороннее) N | 0,725** | 1 22 |
.00 0 | ||
22 |
** Корреляция значима на уровне 0,01 (двусторонняя).
Начинаем чтение результатов из таблицы с конца. Под таблицей имеется информация о том, что корреляция значима на уровне 0,01. Что это значит?
Уровень значимости (обозначен символом «а»), который мы принимаем в исследовании, представляет собой максимально допустимую вероятность совершения так называемого Ошибка I рода (т. е. отклонение нулевой гипотезы, которая на самом деле верна). В социальных исследованиях принято устанавливать значимость на уровне 0,05, реже на уровне 0,03 или 0,01 (т. данный образец является случайным).
Если значимость коэффициента корреляции выше предполагаемого уровня значимости, мы предполагаем, что связи между переменными нет. Если значимость для коэффициента корреляции меньше или равна предполагаемому уровню значимости, мы предполагаем наличие связи между переменными, описывая при этом силу и направленность этой связи.
Интерпретация результатов таблицы: значимость в таблице «0,00», принятый уровень значимости 0,01 — значимость для коэффициента корреляции ниже принятого уровня значимости: 0,00<0,01, следовательно, между переменными имеется статистически значимая связь.
Из таблицы также видно, что корреляция переменной «возраст» с переменной «год обучения» положительная и очень высокая («0,725» — в таблице стоит знак «»,» читаем результат как «0,725» ), т.е. чем старше респондент, тем выше год обучения. Его также можно интерпретировать таким образом, что не существует (или незначительна) проблема с повторным обучением студентов в данном университете.
Коэффициент ранговой корреляции Спирмена используется в ситуациях, когда:
- рассматриваемые признаки (переменные) являются качественными, и мы можем их упорядочить,
- количество наблюдений не превышает 30.
Интерпретация результатов описана выше.
ПРИМЕР
Исследование проводилось в транспортной компании, оказывающей транспортные услуги одной из торговых сетей. Обращает на себя внимание расход топлива на 110-километровом маршруте автомобилями, управляемыми водителями обоих полов. При этом собиралась информация о возрасте водителей. Результаты исследования представлены в двух таблицах.
Стол.Скания 144.
40л | 32 л | 34 л | 36л | 33 л | 37л | 32 л | 32 л | 31л | 30л |
М-39 | М-45 | М-43 | М-41 | К-29 | М-42 | К-28 | К-27 | М-46 | К-25 |
Источник: договорные данные.
Стол.ЧЕЛОВЕК ТГХ 400 XXL
37л | 39л | 31л | 41л | 45л | 46л | 35л | 35л | 35л | 35л |
К-45 | М-40 | М-47 | М-38 | М-35 | М-34 | К-29 | М-42 | М-43 | К-42 |
Источник: договорные данные.
Пояснения:
Первая строка — «40L» — расход топлива.
Вторая строка — «М» или «К» — пол (мужской или женский), «-45» возраст водителя.
- Вводим переменные в SPSS:
номер опроса,
марка грузовика,
расход топлива на 110 км,
секс,
возраст.
Имя Тип | î Ширина | Десятичная дробь | Этикетка | Ценности | Недостатки | Столбцы | Выравнивание | уровень измерения | |
2 4 | Survey_no Числовой отметка Числовой потребление_палива_110км Числовой пол Числовой | 8 8 3 3 | 0 □ 0 В | Номер опроса Марка грузовика. Расход топлива на IWkrn Секс. | Недостаток 11, Скания 144.. Недостаток {1, женщина}… | Е рак Эрак Е рак Эрак | 8 8 8 | 3 Right s Right — Right Я Right | Джпорядковый номерэто: Номинальный И подозрительно аНоминальный |
5возраст Номер 8 □ Возраст Недостаток Недостаток 8 с = Дуправильно и кости
- Кодируем ответы.
- Вопросы:
- Какой процент водителей составляют женщины и сколько мужчин? Представьте данные в виде круговой диаграммы.
В меню «Графики/традиционные диаграммы» выберите «Круговая диаграмма». В диалоговом окне «Круговые диаграммы» выберите «Описания для групп наблюдений» (если он не был выбран ранее). В следующем диалоговом окне выберите «% наблюдений» и в поле «разделить по» поместите переменную «пол».
В исследуемой группе 65% мужчин и 35% женщин.
- Какой средний расход топлива (на 100 км) у всех автомобилей?
Данные, собранные во время теста, показывают расход топлива на расстояние 110 км, поэтому следует рассчитывать расход на 100 км. В меню «преобразования» выберите «вычислить значения». В диалоговом окне вводим имя результирующей переменной «расход_топлива_100км», затем используем пропорцию для построения выражения, т.е.:
40 литров — 110 км
Х литров — 100 км
Х литров = 100 км х 40 литров / 110 км
В SPSS формула будет такой: «расход_топлива_110км * 100/110».
Затем рассчитаем средний расход топлива на 100 км всех автомобилей:
В меню «анализ» выберите «статистическое описание» и «частоты». В диалоговом окне «частоты» новую переменную «расход топлива_100км» перенесите в переменные и нажмите на кнопку «статистика», выбрав меру центральной тенденции — среднее значение. Результатом наших действий является таблица:
Статистика | ||
расход топлива на 100 км | ||
н | Важный | 20 |
Недостающие данные | 0 | |
Иметь в виду | 32,5455 |
Для того чтобы таблица соответствовала методическим нормам, необходимо внести некоторые изменения:
Стол.Средний расход топлива на 100 км.
н | Важный | 20 |
Недостающие данные | 0 | |
Иметь в виду | 32,5455 |
Источник: собственное исследование.
- Scania или Man потребляют меньше топлива (на 100 км)? Представьте данные в виде гистограммы.
В меню «диаграммы» выберите «создатель диаграмм». В диалоговом окне отметьте «выбрать из: панели». Мы перемещаем «простую гистограмму» в предварительный просмотр диаграммы. Отметьте переменную «марка грузовика» по оси X, «расход топлива на 100 км» по оси Y и выберите «статистика — средний» в окне «свойства элемента» (если он не был выбран ранее).
В результате получается следующий график.
Ответ на вопрос: грузовики Scania потребляют меньше топлива на 100 км, этот расход составляет около 31 литра на 100 км, по сравнению с 34 литрами у грузовиков Man.
- Приведите анализ среднего расхода топлива (на 100 км) в случае, когда за рулем женщина и мужчина. Представьте эти данные в виде гистограммы с учетом марки грузовика. Грузовики, которыми управляют мужчины или женщины, горят больше (в среднем на 100 км)?
Действуем аналогично предыдущему вопросу:
В меню «диаграммы» выберите «создатель диаграмм». В диалоговом окне отметьте «выбрать из: панели». Мы перемещаем «сгруппированную гистограмму» в предварительный просмотр диаграммы. Отметьте переменную «пол» по оси X, «расход топлива на 100 км» по оси Y, «марку грузовика» по легенде и выберите «статистика — среднее» в окне «свойства элемента» (если он не был выбран ранее).
секс
На графике видно, что грузовики, которыми управляют женщины (независимо от марки), расходуют меньше топлива на 100 км. В случае Scania средний расход топлива составляет примерно 29 литров (автомобили, управляемые мужчинами — примерно 32 литра), а Man-a — примерно 32 литра (автомобили, управляемые мужчинами — примерно 35 литров).
- Какой расход топлива (на 100 км) ниже которого результаты 10% автомобилей, и сколько расход топлива выше которого только 20% автомобилей?
Для ответа на этот вопрос воспользуемся знанием квантилей, а точнее, процентилей. В меню «анализ» выберите «статистическое описание» и «частоты». В диалоговом окне в часть «переменные» переместите «расход топлива на 100 км» и нажмите на кнопку «статистика». Отметьте «процентили» и введите в поле рядом с «10» (речь идет о 10% водителей, автомобили которых потребляют меньше всего топлива на 100 км) и «80» (в данном случае речь идет о 20 % водителей, автомобили которых потребляют больше всего топлива).
Стол.Потребление топлива
н | Важный | 20 |
Недостающие данные | 0 | |
процентили | 10 | 28.1818 |
80 | 36.1818 |
Источник: собственное исследование.
Данные, представленные в представленной таблице, показывают, что 10% автомобилей сжигают около 28 литров топлива и менее, а 20% автомобилей — около 36 литров топлива и более.
Мы можем расширить наши исследования и принять во внимание пол водителя. Перед началом расчетов в меню «данные» выберите «разделить на подмножества» и в диалоговом окне выберите «сравнить группы», а затем
переместите переменную «пол» в окно «группы, различающиеся по» (и, конечно же, нажмите кнопку «ОК»). Действуем, как в случае, описанном выше. Получаем следующую таблицу:
Статистика | |||
расход топлива на 100 км | |||
женщина | н | Важный | 7 |
Недостающие данные | 0 | ||
процентили | 10 | 27.2727 | |
80 | 32,5455 | ||
мужчина | н | Важный | 13 |
Недостающие данные | 0 | ||
процентили | 10 | 28.1818 | |
80 | 38.0000 |
Метод интерпретации нам уже известен, мы включаем в анализ только гендерную переменную.
Мы можем еще больше расширить наши рассуждения, обратившись к переменным «пол» и «марка грузовика». Перед началом расчетов в меню «данные» выберите «подмножество» и в диалоговом окне выберите «сравнить группы», а затем переместите переменную «пол» и переменную «марка грузовика» в «группы, различаемые по» окно. Получаем еще более обширную таблицу:
Статистика | ||||
расход топлива на 100 км | ||||
женщина | Скания 144 | н | Важный | 4 |
Недостающие данные | 0 | |||
процентили | 10 | 27.2727 | ||
80 | 30.0000 | |||
ЧЕЛОВЕК ТГХ 400 XXL | н | Важный | 3 | |
Недостающие данные | 0 | |||
процентили | 10 | 31,8182 | ||
80 | 33,6364 | |||
мужчина | Скания 144 | н | Важный | 6 |
Недостающие данные | 0 | |||
процентили | 10 | 28.1818 | ||
80 | 35.2727 | |||
ЧЕЛОВЕК ТГХ 400 XXL | н | Важный | 7 | |
Недостающие данные | 0 | |||
процентили | 10 | 28.1818 | ||
80 | 41.2727 |
В случае с этой таблицей мы можем дать волю своему желанию получить всесторонний анализ.
- Есть ли связь между возрастом водителя и расходом топлива?
Переменные, которые мы будем анализировать, являются количественными переменными, поэтому мы можем использовать корреляцию Пирсона. В меню «анализ» выберите «корреляции» и «попарно», затем выберите переменные «возраст» и «расход топлива на 100 км». Получаем таблицу:
Корреляции | |||
Возраст | Расход топлива на 100 км | ||
Возраст | Корреляции Пирсона | 1 | 0,027 |
Значение (двустороннее) | 0,911 | ||
н | 20 | 20 | |
Расход топлива на 100 км | Корреляции Пирсона | 0,027 | 1 |
Значение (двустороннее) | 0,911 | ||
н | 20 | 20 |
Мы считываем уровень значимости «0,911» из таблицы и больше ничего не делаем — это значение превышает допустимый уровень ошибки «5», принятый в социальных науках. На этом можно было бы остановиться, но мы любознательные исследователи и расширяем наш поиск, включив в него пол водителя и расход топлива. Перед началом расчетов выберите «разделить на подмножества» в меню «данные» и выберите «сравнить группы» в диалоговом окне, а затем переместите переменную «пол» в окно «группы, различаемые по». Получаем следующую таблицу:
Корреляции | ||||
Секс | Возраст | Расход топлива на 100 км | ||
женщина | Возраст | Корреляции Пирсона | 1 | 0,848* |
Значение (двустороннее) | 0,016 | |||
н | 7 | 7 | ||
Расход топлива на 100 км | Корреляции Пирсона | 0,848* | 1 | |
Значение (двустороннее) | 0,016 | |||
н | 7 | 7 | ||
мужчина | Возраст | Корреляции Пирсона | 1 | -0,989** |
Значение (двустороннее) | ,000 | |||
н | 13 | 13 | ||
Расход топлива на 100 км | Корреляции Пирсона | -0,989** | 1 | |
Значение (двустороннее) | ,000 | |||
н | 13 | 13 | ||
* Корреляция значима на уровне 0,05 (двусторонняя). | ||||
** Корреляция значима на уровне 0,01 (двусторонняя). |
Если бы мы в это время были в ванне, то могли бы закричать «эврикааааа…» (как Архимед) — мы нашли существенную связь. Получается, что чем старше женщина, тем выше расход топлива ее автомобиля (а это очень высокая корреляция). У мужчин ситуация обратная — чем старше мужчина, тем меньше расход топлива автомобиля, на котором он ездит (и эта корреляция почти достоверна). Исходя из этого, мы можем задавать дополнительные вопросы, проникая в суть того, почему это происходит.
В современное время проведение исследований, подкрепленных компьютерными технологиями, не кажется сложным. Однако это только видимость, так как требуется не только знание исследуемой темы, но и обширные знания в области использования компьютерной техники, соответствующего программного обеспечения (текстовые процессоры, электронные таблицы, специализированное программное обеспечение, поддерживающее анализ и т. д.) или знание функционирования Интернета.
Современные условия требуют тщательной подготовки исследовательской мастерской. К важным навыкам, связанным с современными компьютерными технологиями, относятся: следующие предметы:
- знание поисковых систем в Интернете,
- правила ввода паролей в поисковых системах,
- продвинутые операторы гугл,
- умение находить себя в дипнете, т.е. знание специализированных поисковых систем по научным материалам,
- знание компьютерных программ, поддерживающих анализ.
Что касается последнего пункта, то знание того, как использовать программное обеспечение, бесполезно, если у вас нет базовых статистических знаний. Компьютерные программы не требуют знания статистических формул. Мы можем не знать никакой формулы, но если мы не знаем, что означает статистическая концепция, мы не знаем, как интерпретировать результат.
Компьютерные технологии облегчают работу на каждом этапе исследовательского процесса, но не могут заменить человеческие знания и интуицию. Ведь именно человек формулирует вопросы, гипотезы, определяет направления поиска, выбирает переменные и исследует отношения между ними. Компьютер за человека этого не сделает, далеко идущих интерпретаций не построит.
Здесь можно задаться вопросом, можно ли каждое явление описать математическими, статистическими формулами? Является ли социальная жизнь человека, его окружение лишь последовательностью нулей и единиц? Или это нечто большее, что ускользает от такого цифрового анализа? Каждый из нас должен ответить на этот вопрос для себя.
С другой стороны, мы живем в информационном обществе, где информационные технологии оставляют свой след в социальной структуре. Умберто
Эко указал на три возникающих класса: когнитариат (мультимедийная аристократия), дигитариат (способный использовать Интернет и современные технологии) и информационный люмпен-пролетариат (использующий в основном телевидение и, в ограниченной степени, телефон). Поэтому знания, связанные с современными компьютерными технологиями, не помешают и могут улучшить качество нашей жизни.