Книги по разным темам Pages:     | 1 |   ...   | 15 | 16 | 17 | 18 | 19 |   ...   | 22 |

7.4. Оценка существенности парной корреляционной связи Для проверки существенности парной корреляционной связи, то есть соответствия полученной модели данным наблюдения используется следующий подход: модель признаётся значимой, если таковыми являются параметры модели или показатели тесноты связи. При этом выясняется, не являются ли вычисленные значения параметров регрессии случайными величинами Значимость параметров линейной модели определяется с помощью t-критерия Стьюдента. Для каждого из параметров уравнения регрессии вычисляются расчетные (фактические) значения t-критерия:

n - для параметра a: ta=0 = a ;

y- n - для параметра b: tb = b x y- где n - число наблюдений;

(y - ) - остаточное среднее квадратическое отклонение = y- n результативного признака y от выровненных значений, рассчитанных по модели;

(x - x) - среднее квадратическое отклонение факторного = x n признака xi от общей средней x.

Вычисленные значения t-критериев сравниваются с критическими значениями, определёнными по таблице распределения Стюдента с t, учётом принятого уровня значимости и числа степеней свободы вариации = n - 2.

Параметр признаётся значимым, если выполняется неравенство: tРАСЧ >.

t, В этом случае найдённые значения параметров не являются случайными, а уравнение регрессии признаётся существенным.

Значимость линейной регрессии можно оценить по линейному коэффициенту корреляции. Модель признаётся значимой, если расчётное значение t-критерия для линейного коэффициента корреляции превышает табличное, то есть выполняется неравенство:

>.

t t, RYX Расчётное значение t-критерия для линейного коэффициента корреляции определяется по формуле:

n - =.

t r rYX yx 1r yx Для нелинейных моделей их существенность проверяется с помощью F-критерия Фишера.

Модель признаётся значимой, если выполняется следующее неравенство:

> ;

F F Р V 1,V где - расчётное значение критерия Фишера, F Р - критическое значение критерия Фишера, выбираемое по F V1,V специальной таблице распределения F-критерия.

Расчётное значение F-критерия определяется по формуле:

- m n, F РАСЧ m - 1 где - теоретический коэффициент детерминации, m- число параметров уравнения регрессии.

Теоретический коэффициент детерминации является показателем тесноты связи результативного и факторного признака в уравнении регрессии. Рассчитывается на основе правила сложения дисперсий.

При наличии уравнения регрессии, описывающего существующую связь, степень влияния факторного признака на результативный может быть выражена следующим образом:

yi = i + i, где i - теоретическое (сглаженное) значение результативного признака, просчитанное по уравнению регрессии.

Соответственно, дисперсия результативного признака y должна включить в себя дисперсию теоретических значений результативного признака (объясняемую) и дисперсию отклонений эмпирических (наблюдаемых) значений результативного признака от теоретических.

y- 2 2 Таким образом, = +, y y- (y - y) - общая дисперсия результативного признака, где = y n ( - y) - объяснённая дисперсия результативного признака, = n (y - ) - остаточная дисперсия результативного признака.

= y- n Объяснённая дисперсия характеризует влияние фактора, включённого в модель, на общую вариацию результативного признака.

Остаточная дисперсия характеризует влияние факторов, не y- включённых в уравнение регрессии, на вариацию результативного признака.

Теоретический коэффициент детерминации определяется через соотношение объясняемой и общей дисперсии результативного признака.

2 2 y- 2 2 =, так как = -, то = 1-.

y y- 2 y y Оценим качество линейного уравнения регрессии = 110.5 + 1.5x, выражающего влияние времени вулканизации на качество резины (сопротивление на разрыв) Оценку проведём по линейному коэффициенту корреляции по данным таблицы 7.7:

x y 518 86389 xy - n = = = +0.r yx 2 5182 (x) ( y) - - - - x2 y19406 14 386454 n n.

Расчётное значение критерия Стьюдента составит:

n - 2 14 - tryx = = 0.925 = 83,r yx 1- 0.1r yx Табличное значение t-критерия составляет t,v = 2.179 при = 0,05 и v = 14-2 =12.

Таким образом, с вероятностью в 95% можно утверждать численные значения линейного коэффициента корреляции не является случайной величиной, а уравнение регрессии = 110.5 + 1.5x является статистически значимым.

7.5. Множественная корреляция Двухмерные корреляционные модели (парная корреляция) используются в случаях, когда среди факторов, влияющих на результативный признак, есть доминирующий. Таких связей немного, чаще встречаются зависимости результативного признака от нескольких факторных, так как экономические явления находятся под влиянием значительного числа одновременно и совокупно действующих факторов.

Для описания совместного влияния одновременно действующих факторов на результат используют множественные корреляционные модели вида:

н = f (x1, x2,...xK ) Модели подобного класса используются при изучении спроса, функции потребления, доходности акций и т.д.

Задача множественного корреляционно-регрессионного анализа в общем виде формулируется следующим образом:

Пусть некоторая статистическая совокупность, состоящая из n единиц наблюдения обладает определённым набором признаков, один из которых играет роль результативного y, а остальные - факторных (x1, x2,...xK ). На основе наблюдаемых значений всех признаков требуется выявить и описать связь между ними в виде множественной корреляционной модели вида: н = f (x1, x2,...xK ).

Решение данной задачи требует последовательного выполнения следующих этапов исследования множественной корреляционной связи:

Формат: Список Х предварительный отбор факторов, включаемых в модель;

Х предварительное описание связи;

Х уточнение модели на основе анализа корреляционной матрицы;

Х определение тесноты связи;

Формат: Список Х оценка надёжности множественной корреляционной модели;

Х интерпретация модели.

7.5.1. Предварительный отбор факторов Изучение множественной регрессии (корреляции) требует измерения не только прямого воздействия каждого фактора на результат, но и учёта влияния факторов друг на друга, то есть учета наличия межфакторных связей. Общее число связей всегда значительно больше числа факторов, включаемых в модель. Оно определяется выражением:

k(k + 1);

l = где k - количество факторных признаков, включенных в модель.

Например, если в модель включаются четыре фактора, то количество связей равно 10, если в модель включено 10 факторов, то общее число связей составит 55.

В общем случае, при большом числе учитываемых факторов необходимо строить сложные модели, требующие проведения сложных расчётов; модели получаются громоздкими. С другой стороны,- чем большое количество факторов учитывается, тем адекватнее построенная модель.

Для разрешения указанного противоречия предварительно ограничивается число учитываемых факторов. Целесообразность их включения в модель определяется следующими соображениями:

Формат: Список Х они должны быть соизмеримы, иметь количественное выражение;

Х факторы не должны быть интеркоррелированы, то есть тесно связанными между собой;

Х они должны объяснять вариацию результативного признака.

При включении в модель интеркоррелированных факторов невозможно определить изолированное влияние таких факторов на результативный показатель, а оценки параметров уравнения множественной регрессии будут ненадёжными, зависимыми от наблюдений.

7.5.2. Предварительное описание множественной корреляционной связи (МКС) осуществляется через построение соответствующего уравнения регрессии. Практика показывает, что можно использовать следующие пять функций, так как они описывают все реально существующие зависимости между социально-экономическими явлениями:

1. линейная = a0 + a1x1 + a2 x2 +..... + akbk ;

2. степенная = a0 x1a1 x2a2..... xk ak ;

a0 +a1X1 +a2x2 +......aK X K 3. показательная (экспотенциональная) = ;

e 4. параболическая = a0 + a1x2 + a2 x2 2 +..... + akbk ;

a1 a2 ak 5. гиперболическая = a0 + + +.... +.

x1 x2 xk Работать с нелинейными функциями сложно, поэтому основное значение имеют линейные модели в силу их простоты и логичности экономической интерпретации. Нелинейные формы всегда можно привести к линейной, используя известный в математике приём линеаризации функций.

Величина каждого параметра в уравнении прямой может быть определена по методу наименьших квадратов. Для этого в функционал S = - ) min подставим выражение прямолинейной функции. В (y результате подстановки получаем:

(y - a0 - a1x1 - a2 x2 -..... - aK xK ) min Продифференцировав полученное выражение по каждому из параметров, получаем систему нормальных уравнений вида:

y = a0 n + a1 x1 + a2 +... + ak x2 xk 2 y x1 = a0 x1 + a1 + a2 x1 x2 +... + ak x1 xk y x2 = a0 + a1 x1x2 + a2 x2 xk +... + ak xk x2.................................................................................................

y xk = a0 xk + a1 x1 xk + a2 x2 xk +... + ak xk Число уравнений в системе равно числу параметров, поэтому задача их нахождения является разрешимой.

При выборе формы уравнения множественной регрессии необходимо иметь в виду:

1. Чем сложнее функция, тем хуже интерпретируются параметры модели.

2. Сложные функции (полиномы) с большим количеством факторов требуют большого числа наблюдений (на каждый параметр не менее 6 наблюдений) Формат: Список 7.5.3. Окончательный отбор факторов Окончательный отбор факторов, то есть уточнение корреляционной модели проводится на основе анализа корреляционной матрицы.

Корреляционная матрица состоит из парных линейных коэффициентов корреляции ryx, отражающих тесноту связи результативного и факторного признака и коэффициентов интеркорреляции rxixj, отражающих тесноту связи между i-м и j-м факторными признаками, рассчитываемых по известной формуле:

x y xy n = ; =.

r r r ij ij ji 2 ( x) ( x) - - y x n n Общий вид корреляционной матрицы приведен в таблице 7.8.

Таблица 7.8.

Общий вид корреляционной матрицы ЕЕЕ. ЕЕЕ.

x x x x 1 2 j K y r r r r YX1 YX YX YX 2 j K y r X1X X1X X1X x YX1 r r r 2 K j r r X X X X x YX2 X1X r r 2 2 2 K j ЕЕ Е.

r r X X X X x YX X X1 r r j j j j 2 j K ЕЕ ЕЕ r r r r x YX X X1 X X X X K K K K 2 j Факторы, теснота связи между которыми оценивается как высокая, считаются коллинеарными. Окончательный отбор факторов заключается во включении в модель независимых (неколлинеарных) факторов. Процедура отбора осуществляется способом шаговой регрессии.

Применение шаговой регрессии рассмотрим на следующем примере: в процессе предварительного отбора были выявлены 5 факторов, влияющих на результат. Значения линейных коэффициентов корреляции приведено в таблице 7.9. Необходимо построить двухфакторную корреляционную модель.

Корреляционная матрица имеет вид:

Таблица 7.9.

x x x x x 1 2 3 4 y 1 -0,43 0,50 0,55 0,7 0,y -0,3 1 0,65 -0,44 0,5 0,x 0,50 0,62 1 0,85 0,79 0,x 0,55 -0,44 0,85 1 -0,95 0,x 0,70 0,5 0,79 -0,95 1 0,x 0,1 0,38 0,70 0,50 0,78 x 1. Для обоснования включения факторов в модель оценивается первая строка матрицы, отражающая связь факторов с результатом. В модель включаются факторы, оказывающие наибольшее влияние на результат (с максимальными линейными коэффициентами корреляции). Такими являются факторы x3и x4.

2. Оценивается теснота межфакторной связи. Если она высока, то между данными факторами существует тесная зависимость, то есть факторы коллинеарны, а коллинеарность (тесная зависимость между факторами) существенно искажает результаты исследования. Связь относится к коллинеарной, если: 0.8. rx3x5 = -0.95, - факторы r ij коллинеарны. Один из них необходимо исключить из модели.

Исключается фактор с меньшим значением линейного коэффициента корреляции - x3.

3. Для включения недостающего вошедшие в модель на первом этапе. Это факторы x1, x2, x5. Выбирается фактор с максимальным значением линейного коэффициента корреляции. Это x2 с ryx2 = 0.50.

Проверяем тесноту межфакторной связи x2, x4, У нее rx2x4 = 0.79 - факторы не коллинеарны. Таким образом, в модель включаются факторы x2 и x4.

Она имеет вид: = F(x2, x4 ).

7.5.4. Оценка тесноты связи Оценка тесноты множественной корреляционной связи проводится на основе двух показателей: множественного коэффициента детерминации Ryx1...xk и множественного коэффициента корреляции Ryx1...xk.

Сложность расчёта этих показателей связана с необходимостью учёта межфакторных связей. Гипотетически данные показатели рассчитываются по формулам:

2 Y Ryx1...xk =1- ;

Y Ryx1...xk = Ryx1...xk.

На практике множественный коэффициент корреляции R рассчитывается на основе определителей корреляционной матрицы:

r Ryx1...xk = 1- ;

rxixj где r - общий определитель корреляционной матрицы;

rxixj - определитель матрицы межфакторной корреляции.

Для двухфакторной модели множественный коэффициент корреляции определяется по формуле:

2 ryx1 + ryx2 - 2 ryx1 ryx2rx1xRyx1x2 =.

1- rx1xДиапазон изменения множественного коэффициента корреляции Ryx1...xk = 0 1.

0 означает отсутствие связи, л1 - наличие функциональной множественной связи между признаками. Для классификации тесноты связи используется шкала Чеддока.

7.5.5. Оценка надёжности модели Для оценки надёжности выявленной связи сравнивается множественный коэффициент корреляции с линейными корреляционными коэффициентами корреляции между результатом и факторными признаками, включёнными в модель.

Связь признаётся надёжной, если Ryx1...xk max{ryxj}.

7.5.6. Интерпретация параметров модели Завершающим этапом множественной корреляции является интерпретация параметров построенной корреляционной модели. Чем больше величина этих параметров (коэффициентов регрессии), тем значительнее влияние данных факторов на результат. Важное значение имеют знак перед коэффициентами регрессии. Знак У+Ф свидетельствует о росте результата при увеличении факторного признака, знак У-Ф - об уменьшении результата при росте факторного.

Пример построения многофакторной корреляционной модели: В результате выборочного исследования была собрана следующая информация об акционерных обществах таблица 7.10:

Таблица 7.10.

Финансовые показатели акционерных обществ № п/п Размер Сумма кредитов Уставной дивидендов, % капитал, млн.руб.

Pages:     | 1 |   ...   | 15 | 16 | 17 | 18 | 19 |   ...   | 22 |    Книги по разным темам