Теория статистики
Вопросы - Экономика
Другие вопросы по предмету Экономика
?ой информации, делать их компактными и наглядными.
Как и любой другой метод, кластерный анализ имеет определенные недостатки и ограничения: В частности, состав и количество кластеров зависит от выбираемых критериев разбиения. При сведении исходного массива данных к более компактному виду могут возникать определенные искажения, а также могут теряться индивидуальные черты отдельных объектов за счет замены их характеристиками обобщенных значений параметров кластера. При проведении классификации объектов игнорируется очень часто возможность отсутствия в рассматриваемой совокупности каких-либо значений кластеров.
Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся во множестве Х, разбить множество объектов G на m (m - целое) кластеров (подмножеств) Q1, Q2, …, Qm, так, чтобы каждый объект Gj принадлежал одному и только одному подмножеству разбиения и чтобы объекты, принадлежащие одному и тому же кластеру, были сходными, в то время, как объекты, принадлежащие разным кластерам были разнородными.
55. Метод наименьших квадратов (МНК). Свойства МНК-оценок в множественном регрессионном анализе
Общий вид КЛММР:
Постулируется взаимная некоррелированность случайных регрессионных остатков ( для ij). Тот факт, что для всех остатков ?1, ?2,…, ?n выполняется соотношение E ?i2=?2, где величина ?2 от номера наблюдения I не зависит, означает неизменность дисперсий регрессионных остатков. Это свойство принято называть гомоскедастичностью регрессионных остатков.
Матричная форма записи КЛММР имеет вид:
МНК
Для оценки вектора ? наиболее часто используют метод наименьших квадратов (МНК), согласно которому в качестве оценки принимают вектор b, который минимизирует сумму квадратов отклонения наблюдаемых значений yi от модельных значений y, т. е. квадратичную форму:
Дифференцируя, с учетом квадратичную форму Q по вектору ?:
и приравнивая производные нулю, получим оценку метода наименьших квадратов:
Получаем вектор оценок b, где b=(b0 b1...bk)T.
Оценка ковариационной матрицы коэффициентов регрессии вектора b определяется из выражения:
,
где
Свойства МНК-оценок.
) состоятельность (по вероятности) n>?
для ?, ?>0, n0, что для всех объемов выборки выполняется
p
2) несмещенность
. Беря мат. Ожидание от левой и правой частей с учетом того, что величины неслучайны, а средние значения остатков равны 0, то получаем:. Тем самым показано, что МНК-оценки неизвестных параметров КЛММР являются несмещенными.
) эффективность; 4) линейность.
57. Интервальное оценивание коэффициентов уравнения регрессии
Интервальное оценивание коэффициентов уравнения регрессии
Регрессионный анализ - это статистический метод исследования зависимости случайной величины Y от переменных Xj (j = 1, 2,..., k), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения Xj.
Наиболее часто используемая множественная линейная модель регрессионного анализа имеет вид:
y = ?0 +?1хi1 +...+?jxij+...+?kxik+?i (2.1)
где ?i - случайные ошибки наблюдения, независимые между собой, имеют нулевую среднюю и дисперсию ?2
В матричной форме регрессионная модель имеет вид:
Y = X? + ? (2.2)
Значимость уравнения регрессии, т. е. гипотеза H0: ?=0 (?0=?1=...=?k=0), проверяется по F-критерию, наблюдаемое значение которого определяется по формуле:
,
где QR=(Xb)T(Xb), Qост=(Y-Xb)T(Y-Xb)=?(yi-yi)2.
По таблице F-распределения для заданных ?, ?1=?+1, ?2=n???1 находят Fкр.
Для проверки значимости отдельных коэффициентов регрессии, т. е. гипотез H0: ?j=0, где j=1,2,...k, используют t-критерий и вычисляют: . По таблице t-распределения для заданного ? и ?= n-k-1, находят tкр.
Гипотеза H0 отвергается с вероятностью ?, если tнабл>tкр. Из этого следует, что соответствующий коэффициент регрессии ?j значим, т. е. ?j ?0. В противном случае коэффициент регрессии незначим и соответствующая переменная в модель не включается. Тогда реализуется алгоритм пошагового регрессионного анализа, состоящий в том, что исключается одна из незначимых переменных, которой соответствует минимальное по абсолютной величине значение tнабл. После этого вновь проводят регрессионный анализ с числом факторов, уменьшенным на единицу. Алгоритм заканчивается получением уравнения регрессии со значимым коэффициентами.
Наряду с точечными оценками bj генеральных коэффициентов регрессии ?j, регрессионный анализ позволяет получать и интервальные оценки последних с доверительной вероятностью ?.
Интервальная оценка с доверительной вероятностью ? для параметра ?j имеет вид:
,
где t? находят по таблице t-распределения при вероятности ? =1?? и числе степеней свободы ?=n???1.
58. Гомо- и гетероскедастичность остатков в регрессионных моделях
Термин гетероскедастичность в широком смысле означает предположение о дисперсии случайных ошибок регрессионной модели. Случайная ошибка - отклонение в модели линейной множественной регрессии: . Величина случайной регрессионной ошибки является неизвестной, поэтому вычисляется выборочная оценка случайной ошибки регрессионной модели по формуле: , где - остатки регрессионной модели. Нормальная линейная регрессионная модель строится на основании следующих предположения о случайной ошибке: Матожидан