Статистика

Вид материалаСамостоятельная работа

Содержание


Тема 12. КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ
Стохастическая (случайная) связь
Корреляционная связь
Метод сопоставления двух параллельных рядов
Метод аналитических группировок.
Корреляционный анализ.
Регрессионный анализ.
Парная линейная корреляция —
Уравнение парной линейной корреляционной связи
Контрольные вопросы
Подобный материал:
1   ...   5   6   7   8   9   10   11   12   13

Тема 12. КОРРЕЛЯЦИОННО-РЕГРЕССИОННЫЙ АНАЛИЗ


При исследовании социально-экономических явлений часто приходится иметь дело со взаимосвязанными показателями. При этом часто связь, существующая между двумя или несколькими показателями, затушевывается, усложняется наслоением действия других причин (факторов). Изучить, насколько изменение одного показателя зависит от изменения другого (или нескольких), — одна из важнейших задач статистики.

Возможны различные формы связи:

Стохастическая (случайная) связь представляет собой связь между величинами, при которой одна из них реагирует на изменение другой величины или других величин изменением закона распределения. Иными словами, при данной связи разным значениям одной переменной соответствуют разные распределения другой переменной. Это обуславливается тем, что зависимая переменная, кроме рассматриваемых независимых, подвержена влиянию ряда неучтенных или неконтролируемых случайных факторов, а также некоторых неизбежных ошибок измерения переменных. В связи с тем что значения зависимой переменной подвержены случайному разбросу, они не могут быть предсказаны с достаточной точностью, а могут быть только указаны с определенной вероятностью.

Особенностью стохастических связей является то, что они проявляются во всей совокупности, а не в каждой ее единице. Все связи, которые могут быть измерены и выражены численно, подходят под определения стохастической связи, в том числе и факторные.

Факторные связи характеризуются тем, что они проявляются в согласованной вариации изучаемых показателей. При этом одни показатели выступают как факторные, а другие — как результативные.

Факторные связи могут рассматриваться как функциональные и корреляционные.

При функциональной зависимости каждому значению одной переменной строго соответствует определенное значение другой переменной. Функциональная связь двух величин возможна лишь при условии, что вторая из них зависит только от первой и ни от чего более. Особенностью данного вида связи является то, что в каждом отдельном случае известен полный перечень факторов, которые определяют значение зависимого (результативного) признака, а также точный механизм их влияния, выраженный определенным уравнением.

Функциональную связь можно представить следующим уравнением:


yi = f(xi )


где: yi результативный признак; f(xi ) известная функция связи результативного и факторного признаков; xi факторный признак.

В реальной природе функциональных связей нет. Они являются лишь абстракциями, полезными при анализе явлений, но упрощающими реальность. В социально-экономических процессах они используются в очень редких случаях, потому что отражают взаимосвязь только отдельных сторон сложных явлений общественной жизни. Однако такие науки, как математика, физика, механика и другие точные науки, успешно используют представление связей как функциональных не только в аналитических целях, но нередко и в целях прогнозирования. Это становится возможным потому, что в простых системах интересующая нас переменная величина зависит в основном от немногих других переменных или только от одной переменной

Корреляционная связь представляет собой частный случай стохастической связи и важнейший частный случай статистической связи, который состоит в том, что разным значениям одной переменной соответствуют различные средние значения другой.

Она существует только там, где взаимосвязанные явления характеризуются только случайными величинами. Корреляционная связь проявляется не в каждом отдельном случае, а во всей совокупности в целом. Только при достаточно большом количестве случаев каждому значению случайного признака х будет соответствовать распределение средних значений случайного признака у.

Зависимость, при которой одному значению переменной (х) может соответствовать (в силу наслоения других причин) множество значений другой переменной (у), называют корреляционной. Поэтому корреляционные связи не являются полными (тесными) зависимостями.

Корреляционная зависимость проявляется лишь на основе массового наблюдения.

Примером корреляционной зависимости может служить зависимость производительности труда от стажа работы рабочих, зависимость урожайности от срока сева, зависимость годового удоя коров от количества отелов и т.п.

Наличие этого вида связи присуще многим общественным явлениям.

Для исследования стохастических связей широко применяются такие методы, как метод сопоставления двух параллельных рядов, метод аналитических группировок, корреляционный анализ, регрессионный анализ и некоторые непараметрические методы.

Метод сопоставления двух параллельных рядов заключается в установлении стохастической связи. Получить представление о ее характере и направлении можно с помощью сопоставления двух параллельных рядов статистических величин. Для этого необходимо расположить факторы, которые характеризуют результативный признак, в возрастающем или убывающем порядке, а затем проследить изменение величины результативного признака. Недостатком метода взаимозависимых параллельных рядов является невозможность определения количественной меры связи между изучаемыми показателями. Когда речь идет о связях между факторами и показателями, которые характеризуют экономический процесс, данный метод очень удобен и эффективен.

Метод аналитических группировок. Если применить для изучения стохастической связи аналитические группировки, то она будет проявляться отчетливее. Чтобы выявить зависимость с помощью этого метода, необходимо произвести группировку единиц совокупности по факторному признаку и для каждой группы вычислить среднее или относительное значение результативного признака. Недостаток данного метода заключается в том, что он не позволяет определить форму (аналитическое выражение) влияния факторных признаков на результативный.

Корреляционный анализ. Его функция сводится к измерению тесноты известной связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов, которые оказывают наибольшее влияние на результативный признак.

Регрессионный анализ. Его задача состоит в выборе типа модели, установлении степени влияния независимых переменных на зависимую и определение расчетных значений зависимой переменной.

Какие цели имеет изучение корреляционно-регрессивного анализа?

Первая цель измерение параметров уравнения, которое выражает связь средних значений зависимой переменной со значениями независимой переменной. Она является общей и разработана для функциональных связей.

Вторая цель — измерение тесноты связи двух или большего числа признаков между собой

Рассмотрим РКА на примере парной линейной корреляция?

Парная линейная корреляция — это простейшая система корреляционной связи, представляющая линейную связь между двумя признаками.

Ее практическое значение состоит в том, что имеются системы, в которых среди всех факторов, влияющих на результативный признак, выделяют один важнейший фактор, который в основном определяет вариацию результативного признака.

Уравнение парной линейной корреляционной связи имеет следующий вид:

ỹ = a0 + ax,


где ỹ теоретические значения результативного признака, которые получены по уравнению регрессии.

Основными задачами при изучении корреляционных зависимостей являются:

1) отыскание формы связи в виде математической формулы, выражающей эту зависимость ỹ от х.

2) измерение тесноты такой зависимости.

Решение первой задачи, т.е. определение формы связи с последующим отысканием параметров уравнения, называется нахождением уравнения связи (уравнения регрессии). Результативный показатель, рассматриваемый как функция х, обозначают (читается: «игрек, выравненный по икс»).

Для того, чтобы установить, есть ли зависимость между величинами, используются многообразные статистические методы, позволяющие определить, во-первых — какие связи; во-вторых — тесноту связи (в одном случае она сильная, устойчивая, в другом — слабая); в-третьих — форму связи (т.е. формулу, связывающую величину и ỹ).

В процессе изучения связи надо учитывать, что мы используем математический аппарат, но всегда надо иметь теоретические обоснования той связи, которую пытаются показать.

Переходим к методам изучения статистической связи.

Наиболее простой способ иллюстрации зависимости между двумя величинами — построение таблиц, показывающих, как при изменении одной величины меняется другая. Параллельные ряды.


Пример. 12. 1

Производство молока в год. тыс. тонн.

Выработка продукции на 1 работающего, тыс. руб.

до 31

34,2

31 — 50

37,3

51 и выше

42,7


Таблица показывает лишь согласованность в изменении двух величин, наличие связи. Но она не определяет ни тесноту связи, ни форму этой связи.

Для определения тесноты корреляционной связи применяется коэффициент корреляции.

К простейшим показателям степени тесноты связи относят коэффициент корреляции знаков, который был предложен немецким ученым Г.Фехнером (1801-1887). Этот показатель основан на оценке степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от соответствующих средних. Для его расчета вычисляют средние значения результативного и факторного признаков, а затем проставляют знаки отклонений для всех значений взаимосвязанных пар признаков.

Если ввести обозначения: nA - число совпадений знаков отклонений индивидуальных величин от средней, nB - число несовпадений знаков отклонений, то коэффициент Фехнера можно записать таким образом:


nA - nB

Кф = nA + nB


Коэффициент Фехнера может принимать различные значения в пределах от -1до +1. Если знаки всех отклонений совпадут, то п, = 0 и тогда показатель будет равен 1, что свидетельствует о возможном наличии прямой связи. Если же знаки всех отклонений будут разными, тогда п = 0 и коэффициент Фехнера будет равен -1, что дает основание предположить наличие обратной связи.

Как видно из приведенной формулы для расчета коэффициента Фехнера, величина этого показателя не зависит от величины отклонений факторного и результативного признака от соответствующей средней величины. Поэтому нельзя говорить о степени тесноты корреляционной связи, а тем более об оценке ее существенности на основании только коэффициента Фехнера. При малом объеме исходной информации коэффициент Фехнера практически решает ту же задачу, которая ставится при построении групповых и корреляционных таблиц, т.е. отвечает на вопрос о наличии и направлении корреляционной связи между признаками. В том случае, если построена корреляционная или же групповая таблица, дополнительный расчет коэффициента Фехнера не имеет практической ценности.

Более совершенным показателем степени тесноты связи является линейный коэффициент корреляции (г).

При расчете этого показателя учитываются не только знаки отклонений индивидуальных значений признака от средней, но и сама величина таких отклонений.

Однако непосредственно сопоставлять между собой полученные абсолютные величины нельзя, так как сами признаки могут быть выражены в разных единицах (как это имеет место в представленном примере), а при наличии одних и тех же единиц измерения средние могут быть различны по величине. Коэффициент корреляции был предложен английским математиком К.Пирсоном.

Коэффициент корреляции изменяется от -1 до +1 и показывает тесноту и направление корреляционной связи.

Если отклонения по х и по у от среднего совпадают и по знаку, и по величине, то это полная прямая связь, то r = +1.

Если полная обратная связь, то r = -1.

Если связь отсутствует, то r = 0.

Наиболее удобной формулой для расчета коэффициента корреляции является:





В ряде случаев возникает необходимость установления статистической связи между признаками, не имеющими количественного выражения.


Пример. 12.2

На предприятии работает группа станков. В силу организационно-технических причин, периодически возникают простои. Было проведено 133 наблюдения за работой станков на протяжении дня , при этом в 59 случаях были отмечены простои, соответственно в 74 случаях их не было. После рационализаторского предложения, направленного на уменьшение простоев, вновь было проведено наблюдение, но уже за 66 станками. При этом в 27 случаях были отмечены простои, в 39 — нет. Ставиться вопрос: а есть ли вообще связь между сделанным предложением и уменьшением простоев, либо это вообще между собой никак не соотносится.

В данном случае сопоставляются два признака, причем альтернативных.

1 признак — наличие или отсутствие рационального предложения;

2 признак — наличие или отсутствие простоев.

Ни тот, ни другой признак нельзя выразить числено. Поэтому введем следующие обозначения.

Первый признак (х): — наличие рационального предложения (1), отсутствие — (0).

Второй признак (у): — отсутствие простоев (1), наличие простоев (0).


Наши наблюдения представим таблицей:




66

133

199

0

27

74

101

1

39

59

98

y

x

1

0





Для центральной части таблицы введем специальные обозначения

c

d

a

b

В этих обозначениях коэффициент корреляции имеет вид: его еще называют коэффициентом ассоциации.

Он так же меняется от -1 до +1 и для нашего примера равен:





Очень маленький коэффициент. Показывает, что связь между рациональным предложением и уменьшением числа простоев очень мала. Конечно, простои уменьшились, но не на столько эффективно, как бы этого хотелось.


КОНТРОЛЬНЫЕ ВОПРОСЫ


12.1. Какой признак называется результативным?

12.2. Какой признак называется факторным?

12.3. Какая связь называется функциональной?

12.4. Сформулируйте определение корреляционной связи между факторным и результативным признаками.

12.5. Какая статистическая связь называется линейной и нелинейной?

12.6. В чем состоит задача регрессионного анализа?

12.7. В чем состоит метод приведения параллельных данных?

12.8. Что называется уравнением регрессии?

12.9. Какой вид имеет уравнение прямой линии регрессии?

12.10. Какой смысл носит коэффициент регрессии?