Исследование регрессии на основе численных данных

Курсовой проект - Математика и статистика

Другие курсовые по предмету Математика и статистика

?утствовал вовсе, то точки Y совпадали бы с точками Y предсказанное и точно бы показали положение прямой. В этом случаю было бы достаточно просто построить эту прямую и определить значения и .

 

Почему существует случайный член:

  1. Невключение объясняющих переменных. Соотношение между X и Y почти всегда является очень большим упрощением. В действительности существуют другие факторы влияющие на Y, которые не учтены в формуле y=x+u. Влияние факторов приводит к тому, что наблюдаемые точки лежат вне прямой. Часто происходит так, что имеются переменные, которые мы хотели бы включить в регрессионное уравнение, но не можем этого сделать потому, что не знаем, как их измерить, например психологические факторы. Возможно, что существуют также другие факторы, которые мы можем измерить, но которые оказывают такое слабое влияние, что их не стоит учитывать. Кроме того, могут быть факторы, которые являются существенными, но которые мы из-за отсутствия опыта таковыми не считаем. Объединив все эти составляющие, мы получаем то, что обозначено как u.
  2. Агрегирование переменных . во многих случаях рассматриваемая зависимость это попытка объединить вместе некоторое число соотношений. Так как отдельные соотношения, вероятно, имеют разные параметры, любая попытка определить соотношение между ними является лишь аппроксимацией. Наблюдаемое расхождение при этом приписывается наличию случайного члена.
  3. Неправильное описание структуры модели. Структура модели может быть описана неправильно или не вполне правильно. Иногда может показаться, что существует зависимость между Y и X, но это будет лишь аппроксимация, и расхождение вновь будет связано с наличием случайного члена.
  4. Неправильная функциональная спецификация. Функциональное соотношение между Y и X математически может быть определено неправильно. Например, истинная зависимость может не являться линейной, а быть более сложной. Безусловно, надо постараться избежать возникновения этой проблемы, используя подходящую математическую формулу, но любая самая изощренная формула является лишь приближением, и существующее расхождение вносит вклад в остаточный член.
  5. Ошибки измерения. Если в измерении одной или более взаимосвязанных переменных имеются ошибки, то наблюдаемые значения не будут соответствовать точному соотношению, и существующее расхождение будет вносить вклад в остаточный член.

Остаточный член является суммарным проявлением всех этих факторов. Очевидно, что если бы вас интересовало только измерение влияния X на Y, то было бы значительно удобнее, если бы остаточного члена не было. Если бы он отсутствовал, мы бы знали, что любое изменение Y от наблюдения к наблюдению вызвано изменением X, и смогли бы точно вычислить . Однако в действительности каждое изменение Y отчасти вызвано изменением u, и это значительно усложняет жизнь.

 

5. Регрессия по методу наименьших квадратов

Пусть мы имеем наблюдения X и Y, то перед нами стоит задача определить значения и . В качестве грубой аппроксимации можно это сделать на глаз, построив прямую, в наибольшей степени соответствующую этим точкам. Отрезок, отсекаемый прямой на оси OY, представляет собой оценку , а угловой коэффициент прямой представляет собой оценку .

Необходимо признать, что мы никогда не сможем рассчитать истинные значения и при попытке построить прямую и определить положение линии регрессии. Мы можем получить только оценки, и они могут быть хорошими или плохими. Иногда оценки могут быть абсолютно точными, но это возможно лишь в результате случайного совпадения, и даже в том случае не будет способа узнать, что оценки абсолютно точны.

Первым шагом является определение остатка для каждого наблюдения. Разность между фактическим и расчетным значениями, то есть Y и Y предсказанное, описывается как остаток. Обозначим остаток какого-то наблюдения за ei.

Стандартный же остаток (отклонение)- мера разброса для распределения вероятностей, это квадратный корень из дисперсии.

Очевидно, что мы хотим построить линию регрессии таким образом, чтобы эти остатки были минимальными. Необходимо выбрать какой-то критерий подбора, который будет одновременно учитывать величину всех остатков. Один из способов решения поставленной проблемы состоит в минимизации суммы квадратов остатков

S=ei

В соответствии с этим критерием, чем меньше S, тем строже соответствие.

Существуют и другие достаточно разумные решения, однако при выполнении определенных условий метод наименьших квадратов дает несмещенные и эффективные оценки и .

 

6. Качество оценки: коэффициент R

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной Y. Мы пытаемся сделать это путем определения регрессионной зависимости Y от соответственно выбранной независимой переменной X. Но мы не можем с помощью уравнения регрессии объяснить расхождение между фактическим и расчетным значениями Y. Коэффициент детерминации R - та часть дисперсии Y, которая объяснена уравнением регрессии.

R=D(Y расчетное)

D(Y)

Максимальное значение коэффициента R равно единице. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что Y=Yрасчетному для всех наблюдений и все остатки равны нулю.

Если в выборке отсутствует видимая связь между X и Y, то R будет близок к нулю. При прочих равных условиях желательно, чтоб коэффициент R был как можно больше.