Одним из эффективных математических методов для определения зависимости по множеству измеренных данных является регрессионный анализ
Вид материала | Документы |
СодержаниеУравнение регрессии. |
- Методические указания по выбору темы и написанию курсовых проектов по дисциплине «Эконометрика, 61.07kb.
- Использование экономико-математических методов для определения финансового состояния, 47.07kb.
- Исследование методов приема сигналов данных, 68.73kb.
- Анализ методик использования моделирования в процессе обучения дошкольников математике, 472.24kb.
- Анализ экономической эффективности приобретения имущества посредством лизинга и кредита, 416.25kb.
- Классификация математических методов статистической обработки, 53.46kb.
- Эконометрические модели, 43.59kb.
- Анализ данных маркетинговых исследований: Корреляционно-регрессионный анализ и анализ, 91.98kb.
- 1352. 08. 02;LS. 01, 19.55kb.
- Операции над нечеткими подмножествами, 14.91kb.
Регрессия
В общественных науках большинство функциональных зависимостей носит статистический характер. Одним из эффективных математических методов для определения зависимости по множеству измеренных данных является регрессионный анализ.
Общее назначение множественной регрессии (термин введен Пирсоном, 1908) состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной. Исследователь в области образования может узнать, какие факторы являются наиболее «весомыми» для показателей успеваемости в средней школе. Упрощенно, формулировка задачи линейной регрессии состоит в подгонке прямой линии к некоторому набору точек.
^ Уравнение регрессии.
Прямая линия на плоскости (в двумерном пространстве) задается уравнением Y=bx+a; более подробно: переменная Y может быть выражена через константу (a) и угловой коэффициент ( b), умноженный на переменную X. Константу иногда называют также свободным членом, а угловой коэффициент - регрессионным или B-коэффициентом. Целью процедур линейной регрессии является вычислении прямой линии по точкам, соблюдая условие: минимизировать квадраты отклонений этой линии от наблюдаемых точек. Поэтому эту процедуру иногда называют как оценивание по методу наименьших квадратов.
Рассмотрим следующие данные. Мы выписали итоговые оценки учащихся нашего класса за период – триместр, по всем учебным предметам. Примечание - система оценивания, принятая в нашем лицее, базируется на 15-балльной шкале. Т.е. мы используем обычные школьные оценки, сведенные в таблицу. Каждая строка таблицы – оценки одного учащегося по всем предметам, каждый столбец таблицы – оценки одного предмета по всем учащимся класса.
Сформулируем задачу: определить - существует ли линейная зависимость между частной успеваемостью учащихся по выбранному предмету и средними показателями успеваемости (усреднение без выбранного учебного предмета). Таким образом, в качества независимого фактора (X) выступает средняя успеваемость – построчная сумма всех баллов, за исключением оценки за выбранный предмет, деленная на количество суммируемых оценок.
Русский язык | Литература | Алгебра | Геометрия | История России | Всеобщая история | География | Общест-ие | Биология | Экология | Физика | Химия | МХК | Англ. яз. | Инфор-ка | Физ-ра |
12 | 13 | 13 | 12 | 12 | 12 | 12 | 13 | 12 | 14 | 12 | 12 | 13 | 12 | 12 | 12 |
12 | 12 | 12 | 11 | 10 | 12 | 12 | 13 | 12 | 12 | 12 | 12 | 13 | 12 | 12 | 13 |
11 | 12 | 10 | 10 | 10 | 12 | 12 | 12 | 12 | 13 | 11 | 12 | 11 | 11 | 13 | 12 |
11 | 12 | 12 | 12 | 12 | 13 | 12 | 12 | 12 | 12 | 12 | 12 | 12 | 10 | 12 | 13 |
9 | 12 | 12 | 12 | 14 | 12 | 10 | 12 | 13 | 13 | 11 | 10 | 12 | 12 | 13 | 12 |
9 | 9 | 9 | 9 | 10 | 9 | 10 | 10 | 9 | 11 | 9 | 10 | 12 | 9 | 11 | 12 |
7 | 10 | 10 | 10 | 9 | 10 | 8 | 9 | 9 | 9 | 9 | 9 | 10 | 9 | 12 | 13 |
12 | 12 | 12 | 11 | 13 | 12 | 13 | 13 | 12 | 12 | 12 | 11 | 13 | 12 | 12 | 12 |
9 | 11 | 10 | 9 | 10 | 12 | 11 | 12 | 9 | 13 | 8 | 9 | 14 | 8 | 11 | 12 |
9 | 9 | 10 | 10 | 12 | 13 | 10 | 13 | 11 | 12 | 10 | 10 | 12 | 12 | 12 | 12 |
11 | 11 | 10 | 9 | 10 | 11 | 10 | 12 | 9 | 12 | 10 | 10 | 12 | 10 | 11 | 13 |
10 | 10 | 9 | 10 | 9 | 12 | 10 | 11 | 9 | 13 | 11 | 9 | 13 | 10 | 12 | 11 |
9 | 12 | 12 | 12 | 9 | 12 | 11 | 13 | 12 | 13 | 11 | 12 | 13 | 10 | 13 | 11 |
9 | 10 | 10 | 11 | 11 | 11 | 11 | 12 | 9 | 9 | 9 | 10 | 12 | 9 | 12 | 12 |
9 | 11 | 9 | 10 | 10 | 12 | 10 | 12 | 9 | 13 | 9 | 9 | 13 | 10 | 12 | 12 |
7 | 8 | 9 | 10 | 10 | 11 | 9 | 10 | 8 | 7 | 9 | 9 | 11 | 9 | 12 | 11 |
Независимая переменная Y – разность между оценкой по выбранному предмету оценки и средним баллом X. Все вычисления можно проводить с помощью известной программы MS Excel. Для этого следует включить надстройку «Пакет анализа» и выбрать пункт меню «Анализ данных». Для оценки качества подобранного уравнения регрессии используется параметр R2. Не обсуждая процедуру вычисления этого параметра, заметим, что он принимает значения от 0 до 1. И чем ближе значение к 1, тем лучше качество линейной аппроксимации.
Мы последовательно провели вычисления и построили регрессионные зависимости для всех учебных предметов. Результат данного численного эксперимента приведен в сводной таблице:
№ | Учебный предмет | Уравнение регрессии | R2 |
1 | Русский язык | 0.431879 X - 5.97767 | 0.132367 |
2 | Литература | 0.240822 X - 2.7229 | 0.0669416 |
3 | Алгебра | 0.169699 X - 2.26011 | 0.0335039 |
4 | Геометрия | 2.86073 - 0.307701 X | 0.0987309 |
5 | История России | 0.804708 - 0.0979637 X | 0.00551141 |
6 | Всеобщая история | 2.81844 - 0.196732 X | 0.0518536 |
7 | Обществознание | 0.00939578 X + 0.819136 | 0.000125559 |
8 | География | 0.0975758 X - 1.2785 | 0.0105472 |
9 | Биология | 0.566837 X - 6.88227 | 0.218213 |
10 | Экология | 0.253588 X - 1.90678 | 0.0236937 |
11 | Физика | 0.203768 X - 2.88851 | 0.0531365 |
12 | Химия | -0.0522355 X - 0.135008 | 0.00260265 |
13 | МХК | 8.25956 - 0.628856 X | 0.291601 |
14 | Английский язык | 0.111258 X - 1.99726 | 0.0119557 |
15 | Информатика | 12.6734 - 1.11544 X | 0.187029 |
16 | Физкультура | 10.5086 - 0.86305 X | 0.584706 |
Можно видеть, что в большинстве случаев уверенно говорить о наличии зависимости между успеваемостью по отдельному учебному предмету и средней успеваемостью нельзя. То есть, процедуры оценивания по учебным предметам достаточно независимы и не существует интегрального фактора, влияющего на успеваемость.