Статистичний аналіз тенденцій захворюваності в Україні

Дипломная работа - Математика и статистика

Другие дипломы по предмету Математика и статистика

вирази у формулу = (XX)-1XY, після деяких спрощень одержуємо

 

0 = (1.3.1)

= 0 + 1xi = (1.3.2)

 

Нарешті, знаходимо вираз для F- статистики

 

(1.3.3)

 

Де

 

 

Помітимо, що з (1.3.4) випливає, що

 

Де

 

 

є квадратом вибіркового коефіцієнта кореляції між Y і х. Відношення r є мірою ступені лінійності звязку меж Y і х, оскільки, згідно з (1.3.5),

 

RSS = (1.3.6)

 

Отже, чим більше значення г2, тим менше RSS і, тим краще підібрана пряма відповідає спостереженням.

 

1.4 Порівняння прямих регресій. Критерій паралельності прямих. Критерій збігу прямих

 

Нехай необхідно порівняти K ліній регресій

 

Y = ?k + ?kxk + ? (k =1, 2, ..., K),

 

де M[?] = 0 і дисперсії D[?] = ?2 однакові для всіх K ліній. Якщо для k-й лінії є nk пар спостережень (xki, Yki ) (i = 1, 2, ..., nk), то модель приймає вигляд

 

Yki = ?k + ?kxki + ?ki (k =1, 2, ..., nk), (1.4.1)

де ?ki - незалежні випадкові величини з розподілом N(0, ?2).

Введемо позначення Y = (Y11, Y12, …, Y1n1, …, YKn1, …, YKnk) запишемо модель у вигляді Y = X? + ?, де

 

 

Тут X -матріца розміру N2K рангу 2К, а N = .

Використовуючи загальну теорію підрозділу 1.2, можна перевірити будь-яку гіпотезу вигляду Н:А? = с. Дві гіпотези такого роду розглядаються нижче.

Критерій паралельності прямих

Розглянемо задачу перевірки паралельності всіх K ліній. Тоді гіпотеза

Н:А? = с має вигляд H1: ?1 = ?2 = . . . = ?K = ?, або ?1- ?K = ?2 ?K = ... = ?K-1 - - ?K = 0. У матричній формі H1 приймає вигляд

 

 

або А? = 0, де А-матрица розміру (К- 1)2K рангу K-1. Використовуючи загальну теорію регресії з q = K-1, n = N і р = 2К, одержуємо, що статистика критерія для перевірки гіпотези H1, має вигляд

(1.4.2)

 

Для знаходження RSS необхідно мінімізувати

 

S = ?? = .

 

Продиференціюємо S по ?k та ?k

 

 

З перших K рівнянь системи знаходимо, що

 

 

Підставляємо ?k в (1.4.4)

 

(1.4.5)

 

Тоді Підставляємо оцінки в S. Знаходимо

 

RSS =

(1.4.6)

 

Для знаходження мінімізуємо суму S = відносно ? і ?. Продиференціюємо S по ?k та ?

 

(k = 1, 2, …, K)

 

З перших K рівнянь системи знаходимо

 

 

Підставляємо знайдені ?k в друге рівняння системи

 

 

Тоді

 

 

Підставляючи оцінки в S, знаходимо

 

 

Отже, гіпотезу H1: ?1 = ?2 = . . . = ?K = ? відхиляємо при

 

 

і не відхиляємо в супротивному разі. Рівень значущості критерію ?.

Критерій збігу прямих

Для вирішення питання про збіг всіх K ліній регресії розглянемо гіпотезу H2: ?1 = ?2 = ... = ?K і ?1 = ?1 = ... = ?K, або, що те ж саме, H2: ?1- ?K = = ?2 - ?K = ... = ?K-1 - ?K = 0 і ?1 - ?K = ... = ?K-1 - ?K = 0.

В матричній формі гіпотеза H2 приймає вигляд:A? = 0, зокрема

 

 

Матриця А має розмір (2K-2) рядків, 2K стовпців (ранг 2М 2).

F статистика для перевірки гіпотези H2 має вигляд

 

(1.4.7)

 

Знайдемо RSSH2. Для знаходження RSSH2 необхідно мінімізувати суму по ? і ?, одержуємо

 

 

Із першого рівняння знаходимо

 

 

Підставляючи ? в перше рівняння системи одержуємо ?

 

 

Тоді

 

 

Отже,

 

 

Отже, гіпотезу H2:?1 = ?2 = ... = ?K і ?1 = ?1 = ... = ?K відхиляємо при

 

> F?,(2K-2),(N-2K)

 

і не відхиляємо в супротивному разі. Рівень значущості критерію ?.

На практиці спочатку застосовують критерій паралельності прямих, а потім вже, якщо гіпотеза Н1 не відхиляється, перевіряють гіпотезу H2 (вважаючи, що гіпотеза H1 справелива), використовуючи статистику

 

.

РОЗДІЛ 2. ДОСЛІДЖЕННЯ ЗАХВОРЮВАНОСТІ НА ТУБЕРКУЛЬОЗ, РАК, СНІД, ГЕПАТИТ А, ГЕПАТИТ Б

 

2.1 Дослідження захворюваності на туберкульоз (всі форми), туберкульоз легенів

 

Необхідно перевірити гіпотезу про наявність лінійної залежності між y- захворюваністю на туберкульоз на 100 000 населення та х роком проведення спостереження, оцінити невідомі параметри лінійної одновимірної регресії , побудувати довірчі інтервали для параметрів .

Захворюваність на туберкульоз в кожній з 24 областей, А.Р.Крим, м.Київ та м. Севастополі, а також в Україні в цілому розглядається окремо.

Для кожної області дослідження залежності захворюваності на туберкульоз від року спостереження проводиться так:

  1. знаходяться МНК- оцінки

    коефіцієнтів регресії ;

  2. перевіряється гіпотеза H0:

    про значущість вільного члена регресії за допомогою t критерію;

  3. перевіряється гіпотеза H0:

    про значущість коефіцієнта при незалежній змінній x за допомогою F- критерію та t- критерію;

  4. перевіряється гіпотеза H0:

    про значущість коефіцієнта кореляції за допомогою t- критерію;

  5. будується довірчий інтервал для

    з коефіцієнтом довіри 0,95;

  6. будується довірчий інтервал для

    з коефіцієнтом довіри 0,95;

  7. будується довірчий інтервал для

    з коефіцієнтом довіри 0,95.

  8. А. Р. Крим

    Рис.2.1.1 Захворюваність на туберкульоз на 100000 населення в А.Р. Крим (всі форми)

 

Лінійна регресія 4,2862х 8512,2 значуща.

F = 124,76 > = 4,6; t1 = 11,17 > = 2,145, гіпотеза H0:b1 = 0 відхиляється на рівні значущості ? = 0,05.

t0 = |-11,105| > = 2,145 гіпотеза H0:b0 = 0 відхиляється на рівні значущості ? = 0,05.

tR = 11,17 > = 2,145 гіпотеза H0:R = 0 відхиляється на рівні значущості ? = 0,05.

Вінницька область

 

Рис. 2.1.2 Захворюваність на тубе