Статистичний аналіз тенденцій захворюваності в Україні
Дипломная работа - Математика и статистика
Другие дипломы по предмету Математика и статистика
вирази у формулу = (XX)-1XY, після деяких спрощень одержуємо
0 = (1.3.1)
= 0 + 1xi = (1.3.2)
Нарешті, знаходимо вираз для F- статистики
(1.3.3)
Де
Помітимо, що з (1.3.4) випливає, що
Де
є квадратом вибіркового коефіцієнта кореляції між Y і х. Відношення r є мірою ступені лінійності звязку меж Y і х, оскільки, згідно з (1.3.5),
RSS = (1.3.6)
Отже, чим більше значення г2, тим менше RSS і, тим краще підібрана пряма відповідає спостереженням.
1.4 Порівняння прямих регресій. Критерій паралельності прямих. Критерій збігу прямих
Нехай необхідно порівняти K ліній регресій
Y = ?k + ?kxk + ? (k =1, 2, ..., K),
де M[?] = 0 і дисперсії D[?] = ?2 однакові для всіх K ліній. Якщо для k-й лінії є nk пар спостережень (xki, Yki ) (i = 1, 2, ..., nk), то модель приймає вигляд
Yki = ?k + ?kxki + ?ki (k =1, 2, ..., nk), (1.4.1)
де ?ki - незалежні випадкові величини з розподілом N(0, ?2).
Введемо позначення Y = (Y11, Y12, …, Y1n1, …, YKn1, …, YKnk) запишемо модель у вигляді Y = X? + ?, де
Тут X -матріца розміру N2K рангу 2К, а N = .
Використовуючи загальну теорію підрозділу 1.2, можна перевірити будь-яку гіпотезу вигляду Н:А? = с. Дві гіпотези такого роду розглядаються нижче.
Критерій паралельності прямих
Розглянемо задачу перевірки паралельності всіх K ліній. Тоді гіпотеза
Н:А? = с має вигляд H1: ?1 = ?2 = . . . = ?K = ?, або ?1- ?K = ?2 ?K = ... = ?K-1 - - ?K = 0. У матричній формі H1 приймає вигляд
або А? = 0, де А-матрица розміру (К- 1)2K рангу K-1. Використовуючи загальну теорію регресії з q = K-1, n = N і р = 2К, одержуємо, що статистика критерія для перевірки гіпотези H1, має вигляд
(1.4.2)
Для знаходження RSS необхідно мінімізувати
S = ?? = .
Продиференціюємо S по ?k та ?k
З перших K рівнянь системи знаходимо, що
Підставляємо ?k в (1.4.4)
(1.4.5)
Тоді Підставляємо оцінки в S. Знаходимо
RSS =
(1.4.6)
Для знаходження мінімізуємо суму S = відносно ? і ?. Продиференціюємо S по ?k та ?
(k = 1, 2, …, K)
З перших K рівнянь системи знаходимо
Підставляємо знайдені ?k в друге рівняння системи
Тоді
Підставляючи оцінки в S, знаходимо
Отже, гіпотезу H1: ?1 = ?2 = . . . = ?K = ? відхиляємо при
і не відхиляємо в супротивному разі. Рівень значущості критерію ?.
Критерій збігу прямих
Для вирішення питання про збіг всіх K ліній регресії розглянемо гіпотезу H2: ?1 = ?2 = ... = ?K і ?1 = ?1 = ... = ?K, або, що те ж саме, H2: ?1- ?K = = ?2 - ?K = ... = ?K-1 - ?K = 0 і ?1 - ?K = ... = ?K-1 - ?K = 0.
В матричній формі гіпотеза H2 приймає вигляд:A? = 0, зокрема
Матриця А має розмір (2K-2) рядків, 2K стовпців (ранг 2М 2).
F статистика для перевірки гіпотези H2 має вигляд
(1.4.7)
Знайдемо RSSH2. Для знаходження RSSH2 необхідно мінімізувати суму по ? і ?, одержуємо
Із першого рівняння знаходимо
Підставляючи ? в перше рівняння системи одержуємо ?
Тоді
Отже,
Отже, гіпотезу H2:?1 = ?2 = ... = ?K і ?1 = ?1 = ... = ?K відхиляємо при
> F?,(2K-2),(N-2K)
і не відхиляємо в супротивному разі. Рівень значущості критерію ?.
На практиці спочатку застосовують критерій паралельності прямих, а потім вже, якщо гіпотеза Н1 не відхиляється, перевіряють гіпотезу H2 (вважаючи, що гіпотеза H1 справелива), використовуючи статистику
.
РОЗДІЛ 2. ДОСЛІДЖЕННЯ ЗАХВОРЮВАНОСТІ НА ТУБЕРКУЛЬОЗ, РАК, СНІД, ГЕПАТИТ А, ГЕПАТИТ Б
2.1 Дослідження захворюваності на туберкульоз (всі форми), туберкульоз легенів
Необхідно перевірити гіпотезу про наявність лінійної залежності між y- захворюваністю на туберкульоз на 100 000 населення та х роком проведення спостереження, оцінити невідомі параметри лінійної одновимірної регресії , побудувати довірчі інтервали для параметрів .
Захворюваність на туберкульоз в кожній з 24 областей, А.Р.Крим, м.Київ та м. Севастополі, а також в Україні в цілому розглядається окремо.
Для кожної області дослідження залежності захворюваності на туберкульоз від року спостереження проводиться так:
- знаходяться МНК- оцінки
коефіцієнтів регресії ;
- перевіряється гіпотеза H0:
про значущість вільного члена регресії за допомогою t критерію;
- перевіряється гіпотеза H0:
про значущість коефіцієнта при незалежній змінній x за допомогою F- критерію та t- критерію;
- перевіряється гіпотеза H0:
про значущість коефіцієнта кореляції за допомогою t- критерію;
- будується довірчий інтервал для
з коефіцієнтом довіри 0,95;
- будується довірчий інтервал для
з коефіцієнтом довіри 0,95;
- будується довірчий інтервал для
з коефіцієнтом довіри 0,95.
А. Р. Крим
Рис.2.1.1 Захворюваність на туберкульоз на 100000 населення в А.Р. Крим (всі форми)
Лінійна регресія 4,2862х 8512,2 значуща.
F = 124,76 > = 4,6; t1 = 11,17 > = 2,145, гіпотеза H0:b1 = 0 відхиляється на рівні значущості ? = 0,05.
t0 = |-11,105| > = 2,145 гіпотеза H0:b0 = 0 відхиляється на рівні значущості ? = 0,05.
tR = 11,17 > = 2,145 гіпотеза H0:R = 0 відхиляється на рівні значущості ? = 0,05.
Вінницька область
Рис. 2.1.2 Захворюваність на тубе