Графическое описание связи заключается в построении линии эмпирической регрессии - ломаной линии, соединяющей на корреляционном поле точки, абсциссами которых являются значения факторного признака (индивидуальные значения или групповые значения), а ординатами - средние значения результативного признака.
Эмпирическая линия регрессии отражает основную тенденцию рассматриваемой зависимости. Если по своему виду она приближается к прямой линии, то можно предположить наличие прямолинейной связи между признаками.
7.2.3. Теснота связи показывает меру влияния факторного признака на общую вариацию результативного признака.
Для описания корреляционной связи используется зависимость ~ y = F(x), которая проявляется только на всей статистической совокупности. Так как на результат всегда действует множество факторов, то для каждой отдельной единицы наблюдения значение результативного признака состоит из двух частей:
~ yi = yi + i, ~ где yi - локальная средняя, характеризующая значение результативного признака, сформированное под воздействием только данного фактора xi ;
~ i =(yi - yi ) - отклонение, характеризующее вариацию результативного признака под влиянием неучтённых факторов.
Таким образом, теснота связи - это характеристика ~ соотношения между локальной средней yi и отклонением i. Через тесноту связи определяется, в какой степени влияют на результат учтённые и неучтённые факторы.
На эмпирическом уровне, при проведении корреляционного анализа теснота связи измеряется с помощью интегральных показателей, построенных на правиле сложения дисперсии. В соответствии с ним общая дисперсия результативного признака разлагается на внутригрупповую и межгрупповую:
2 2 = +, y i где - средняя из внутригрупповых дисперсий;
i - межгрупповая дисперсия.
Через соотношение дисперсий определяются показатели, измеряющие степень тесноты связи между результативными и факторными признаками: коэффициент детерминации 2 и эмпирическое корреляционное отношение.
Х Коэффициент детерминации рассчитывается по формуле:
2 2 i = = 1-.
2 y y Приведенное отношение определяет удельный вес вариации, объясняемой влиянием учтенного фактора на результат, в общей вариации результативного признака. Показатель изменяется в диапазоне 2 от 0 до 1. При = 0 межгрупповая дисперсия =0, - это означает, что локальные средние во всех распределениях результативного признака строго одинаковы, центры распределений не смещаются; связь между 2 признаками отсутствует. При = 1 межгрупповая дисперсия равна 2 2 общей дисперсии результативного признака = ; следовательно, = 0, y i а внутригрупповые значение результативного признака не варьируют, то ~ есть yi = yi. Это означает, что на значения результативного признака влияют только учтенные факторы, и связь между признаками является функциональной: значению факторного признака соответствует единственное значение результативного.
Коэффициент детерминации сложно интерпретируется, поэтому на его основе рассчитывается ещё один показатель тесноты связи - эмпирическое корреляционное отношение.
Формат: Список Х Эмпирическое корреляционное отношение рассчитывается по формуле:
2 i = = 1-.
y Диапазон изменения этого показателя: = {0 1 }. Нулевое значение эмпирического корреляционного отношения означает отсутствие связи между результативным и факторным признаками, при = 1 связь классифицируется как функциональная.
Используя численное значение эмпирического корреляционного отношения, связь можно классифицировать по шкале Чеддока, таблица 7.1.:
Таблица 7.1.
Шкала Чеддока 00,1 0,11 0,3 0,31 0,5 0,51 0,7 0,71 0,9 0,91 0,99 0,991 Хара отсутству Слабая умеренна заметная тесная сильная функциональ ктери ет я ная стика связи Если известно, что между результативным и факторным признаком существует линейная связь, то для оценки её тесноты используется линейный коэффициент корреляции ry,x, рассчитываемый по формуле:
x y x y xy xy - n n ry.x = =.
2 x y ( x) ( y) [ - y2 - ] x n ][ n Значения линейного коэффициента корреляции важно для исследований, в которых распределение признака близко к нормальному.
Он принимает значение в интервале -1 ry,x +1. Отрицательные значения ry,x свидетельствуют о наличии обратной связи между признаками, положительные - о прямой связи. При ry,x =0 связь между признаками отсутствует. Для классификации связи по значению линейного коэффициента корреляции используется шкала Чеддока.
7.2.4. Выводы по результатам корреляционного анализа включают в себя констатацию факта наличия связи, определение её направления, предварительную оценку формы связи по линии эмпирической регрессии и классификацию связи по степени её тесноты.
7. 3. Парная регрессия на основе метода наименьших квадратов Парная регрессия характеризует связь между двумя признаками:
факторным и результативным.
Задача построения уравнения регрессии для одного факторного и одного результативного признака формулируется следующим образом:
Пусть имеется набор значений двух переменных:
результативного признака yi и факторного признака xi. Между этими переменными существует объективная связь вида: yi = f (xi )+ i.
Необходимо по данным наблюдения ( yi, xi, i=1,n) подобрать функцию = F(x), наилучшим образом описывающую существующую связь.
При подборе функции последовательно решаются две задачи:
Формат: Список Х Определяется вид функциональной зависимости, то есть проводится спецификация модели.
Х Рассчитываются значения параметров уравнения регрессии.
В парной регрессии выбор вида математической функции может быть осуществлён разными методами:
- аналитическим, исходя из материальной природы связи;
- графическим, на основе линии эмпирической регрессии;
- на основе показателей качества уравнения регрессии.
Показателем качества уравнения регрессии является величина остаточной дисперсии:
n (y - ) 2 i= =.
y- n Этот показатель рассчитывается для уравнений регрессии, построенных по разным математическим функциям. Лучшим по качеству является уравнение, для которого min.
y- При построении уравнений парной регрессии чаще всего используют следующие уравнения:
1. прямой = a + bx, 2. параболы второго порядка = a + bx + cx2, b 3. гиперболы = a +, x 4. степенной = a xb, 5. показательной = a bx, a 6. логистической кривой = и т.д.
1 + bc-CX Оценка параметров уравнений регрессии может быть проведена разными методами.
Классический подход к оцениванию параметров основан на методе наименьших квадратов (МНК).
Метод наименьших квадратов позволяет получить такие оценки параметров уравнения регрессии, которые минимизируют функционал вида:
n S = - i ) min ;
(yi i=Применение метода наименьших квадратов для расчёта параметров уравнения регрессии рассмотрим на примере прямолинейной зависимости = a + bx.
Подставим аналитическое выражение функции = a + bx в функционал S:
S = - a - bx) min.
(y Для нахождения минимума функции двух переменных а и b необходимо взять частные производные по каждому параметру и приравнять их к нулю:
dS dS = 0; = 0.
da db В результате получаем систему нормальных уравнений:
x na + b = y;
a x + b x2 = xy.
Решение системы уравнений даёт оценки параметров a и b:
y x xy y - b x n a = ; b = ;
n (x) x В линейном уравнении регрессии параметр а показывает усреднённое влияние на результативный признак неучтённых факторов.
Формально а= y при х=0. Интерпретация параметра а как среднего значения результативного признака возможно лишь при условии, что среди наблюдаемых значений факторного признака есть значения, равные или близкие к 0. Параметр b в уравнении линейной регрессии называется коэффициентом регрессии. Коэффициент регрессии показывает, на сколько в среднем изменится значение результативного признака при увеличении факторного на единицу собственного измерения.
Для получения качественного уравнения регрессии необходимо чтобы данные наблюдения соответствовали следующим требованиям:
1. число наблюдений должно в 6-7 раз превышать число рассчитываемых параметров при переменных х. Таким образом, искать линейную регрессию имея менее 7 наблюдений не имеет смысла;
2. распределение единиц наблюдения по факторному признаку должно быть однородным и подчиняться нормальному закону распределения.
Построение линейного уравнения регрессии рассмотрим на следующем примере: имеются экспериментальные данные исследования влияния времени вулканизации на сопротивление резины разрыву. Данные наблюдения приведены в таблице 7.3. На основе приведённых данных провести исследование влияния времени вулканизации на качество резины.
Таблица 7.3.
Данные о времени вулканизации и сопротивлению резины № Время Сопротивление № Время Сопротивление анализа вулканизации, разрыву, анализа вулканизации, разрыву, мин мин кг/ см2 кг/ см2 35 162 8 33 2 40 174 9 36 3 30 155 10 31 4 42 172 11 36 5 37 179 12 43 6 38 166 13 39 7 34 162 14 44 Результативный признак y - сопротивление резины, факторный x - время вулканизации.
Прежде чем подбирать соответствующую математическую функцию и строить уравнение регрессии, необходимо проверить качество исходной информации, уровень её вариации, нормальность распределения.
1. Для проверки совокупности на однородность по факторному признаку, используется коэффициент вариации (Vx 33%):
x Vx = 100% x Среднее время вулканизации по данным таблицы 7.4. составляет x = = 37мин.
Таблица 7.4.
Вспомогательная таблица для расчета x и х № п/п x x - x (x - x)2 № п/п x x - x (x - x)1 35 -2 4 8 33 -4 2 40 +3 9 9 36 -1 3 30 -7 49 10 31 -6 4 42 +5 25 11 36 -1 5 37 0 0 12 43 +6 6 38 +1 1 13 39 +2 7 34 -3 9 14 44 +7 - - - Итого 518 - 240 4,(x - x) = = = 17.14 4.1мин ; = 100 = 11,1% < 33%, X X n 14 это означает, что изучаемая совокупность однородна.
2. Проверка первичной информации на нормальность распределение проводится на основе правила 3-х сигм:
x 1 = 37 4.1 = 39.2 41.1 ;
x 2 = 37 2 4.1 = 3 8.2 = 28.8 45.2 ;
x 3 = 37 3 4.1 = 37 12.3 = 24.7 49.3.
Для проверки составим следующую таблицу:
Таблица 7.5.
Проверка данных наблюдения на нормальность распределения Интервалы Число единиц Удельный вес Удельный вес значений попадающих единиц, единиц, входящих признака в интервал попавших в в интервал при интервал, % нормальном распределении,% 39,2 - 41,1 9 64,3 68,28,8 - 45,2 14 100,0 95,24,7 - 49,3 14 100,0 99,Первичная информация по факторному признаку не полностью подчиняется закону нормального распределения, однако это не является основанием для отказа использования корреляционно-регрессионного анализа для описания связи между признаками.
3. Исключение из первичной информации аномальных значений факторного признака, то есть значений, не попадающих в интервал x (24,7< xi <49,3). Таких аномальных значений в первичной информации нет.
4.
5. Для установления факта наличия связи проведём аналитическую группировку. Она выполняется как равноинтервальная xmax - xmin - группировка. При m=4, a = = = 3.5, принимаем а = 4 мин.
m Результаты группировки приведены в таблице 7.6:
Таблица 7.6.
Исследование зависимости сопротивления резины от времени вулканизации Время Номера Число Сопротивление yi Среднее № вулканизации, анализов, анализов резины сопротивление группы мин попавших в группе, yi резины, кг/смв группу 1 30-34 3,8,10 3 155,160,153 156,2 34-38 1,5,7,9,11 5 162,173,162,167,163 827 165,3 38-42 2,6,13 3 174,166,168 508 169,4 42-44 4,12,14 3 172,173,176 521 173,Итого 30-46 - 14 - - Анализ таблицы 7.6. позволяет сделать следующий вывод: связь между признаками существует, так как при увеличении времени вулканизации возрастает сопротивление резины. Графически это выглядит следующим образом:
32 36 40 Рис. 7.3. Эмпирическая линия регрессии сопротивления резины на время вулканизации Эмпирическая линия регрессии приближается к прямой.
Следовательно, можно считать, что между признаками имеется прямолинейная связь вида = a + bx.
Коэффициент регрессии b рассчитаем по формуле:
y x * - xy n b = ;
(x) x y - b x.
параметр a = n Для расчёта параметров составим вспомогательную таблицу:
Таблица 7.7.
Расчёт параметров уравнения регрессии x y yi i - № x2 y2 yi (y - ) xi i анализа 1 162 1225 5670 26244 163.0 -1.0 1.2 174 1600 6960 30276 170.5 +3.5 12. 3 155 900 4650 24025 155.5 -0.5 0.4 172 1764 7224 29584 173.5 -1.5 2.5 173 1369 6401 29929 166.0 +7.0 49.6 166 1444 6308 27556 167.5 -1.5 2.7 162 1156 5508 26244 161.5 +0.5 0.8 160 1089 5280 25600 160.0 0.0 0.9 167 1296 6012 27889 164.5 +2.5 6. 10 153 961 4743 23409 157.0 -4.0 16. 11 163 1296 5868 26569 164.5 -1.5 2. 12 73 1849 7439 29929 175.0 -2.0 4. 13 168 1521 6552 28224 169.0 -1.0 1. 14 176 1936 7744 30976 176.5 -0.5 0.Итого 2324 19406 86359 386.454 - 97.518 2364,518 - b = = 1.5;
5182 -19.2324 -1.5 a = =110.5.
Уравнение регрессии имеет вид = 110.5 +1.5x. Параметры модели могут быть интерпретированы следующим образом: коэффициент регрессии b=1,5 показывает, что при увеличении времени вулканизации на 1 минуту сопротивление резины увеличивается на 1,5 кг/см2. Параметр a = 110,5 интерпретировать невозможно, так как среди наблюдаемых значений факторного признака - времени вулканизации отсутствуют значения равные или близкие к нулю.
Аналогичным образом на основе МНК рассчитываются параметры нелинейной регрессии.
Для параболы второго порядка: = a + bx + cx2 получаем систему нормальных уравнений следующего вида:
y = n a + b + c x x x2 + c x y = a x + b x x2 + b x3 + c x x y = a x Для показательной функции = a b предварительно необходимо выполнить процедуру минимизации, то есть привести функцию к линейному виду. Это можно сделать, прологарифмировав обе части уравнения:
ln = ln a + x ln b.
Введём следующие обозначения: ln = Y ; ln a = A; ln b = B. Тогда уравнение регрессии принимает вид: Y=A+Bх, то есть приводится к линейному уравнению регрессии.
Pages: | 1 | ... | 14 | 15 | 16 | 17 | 18 | ... | 22 | Книги по разным темам