«городской курьер»

Вид материалаКурсовая

Содержание


Цель и задачи работы
Выбор методов прогнозирования
Анализ сезонности ряда с помощью Спектрального (Фурье) анализа
Спектральный анализ одного ряда
Прогнозирование ряда методом АРИМА с интервенцией
Номер ячейки
Forecasts; Model:(2,1,0) 4 Interventions (Sheet1 in Imported)Input: Частота упоминаний ЗАТОStart of origin: 1 End of origin: 414
Разложение ряда на компоненты методом Сезонной корректировки X-11 (метод Census II)
Прогнозирование ряда без шумовой компоненты методом Экспоненциального сглаживания
Окончательная оценка прогнозов: сравнение прогнозных значений с истинными
Дата выпуска газеты
Разность прогноза методом АРИМА с интервенцией и истинными значениями
Подобный материал:

МИНИСТЕРСТВО НАУКИ И ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«НИЖЕГОРОДСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ им. Н. И. ЛОБАЧЕВСКОГО»


Факультет социальных наук

Кафедра прикладной социологии




Курсовая работа


магистранта 2 года обучения дневного отделения

направления

социология – 521200

Масловой Александры Николаевны



ПРОГНОЗИРОВАНИЕ ЧАСТОТЫ УПОМИНАНИЙ ЗАКРЫТЫХ ГОРОДОВ В ЕЖЕНЕДЕЛЬНОЙ ГАЗЕТЕ Г. САРОВА «ГОРОДСКОЙ КУРЬЕР»


Нижний Новгород – 2006 г.

Содержание



Цель и задачи работы 3

Выбор методов прогнозирования 3

Анализ сезонности ряда с помощью Спектрального (Фурье) анализа 4

Прогнозирование ряда методом АРИМА с интервенцией 5

Разложение ряда на компоненты методом Сезонной корректировки X-11 (метод Census II) 11

Прогнозирование ряда без шумовой компоненты методом Экспоненциального сглаживания 15

Окончательная оценка прогнозов: сравнение прогнозных значений с истинными 17

Цель и задачи работы


Целью данной работы является построение адекватной модели прогноза ряда.

Исходным рядом служит частота встречаемости названий закрытых административно-территориальных преобразований в еженедельных выпусках газеты г. Сарова «Городской курьер» с 3 июня 1997 года по 11 мая 2005 года. Таким образом, ряд содержит 414 точек. Каждое значение ряда представляет собой сумму частоты встречаемости следующих ЗАТО Минатома: Трехгорного, Снежинска, Лесного, Заречного, Зеленогорска, Озерска, Новоуральска, Железногорска, Северска во всех статьях данного выпуска.

Анализ и прогнозирование временного ряда в программе Statistica позволит решить следующие задачи:
  • выявить наличие сезонности и определить ее лаги (периоды)
  • определить тренд-циклическую компоненту ряда
  • выявить и снять нерегулярную (шумовую) компоненту ряда
  • построить прогнозы различными методами и оценить их.



Выбор методов прогнозирования


Для того, чтобы выбрать методы прогнозирования рассмотрим исходный ряд.


График 1. Исходный ряд: частота встречаемости названий ЗАТО в газете





Исходя из представленного графика, можно сделать вывод о том, что закрытые города Минатома упоминаются в газете г. Сарова довольно редко. Лишь иногда наблюдается значительное увеличение значений. Это может быть связано с некоторыми «внешними воздействиями», например, обсуждением новых законов о ЗАТО, изменением их финансирования и др.. Такие «внешние воздействия» называются интервенциями. Следовательно, для прогнозирования необходимо выбрать метод АРИМА с интервенцией (АРИМА прерванная).

В данном ряде отсутствует тренд, т. е. на протяжении девяти лет о ЗАТО Минатома в газете пишут примерно одинаково редко. Зато можно предположить наличие аддитивной сезонности, однако, эту гипотезу необходимо проверить с помощью спектрального (Фурье) анализа.

Из графика не ясно, какова логика ряда – какие значения ряда можно обозначить, как белый шум, какие же составляют тренд-циклическую компоненту. Также сложно сказать о сезонных факторах. Разложить ряд на 3 типа компонент позволит метод сезонной корректировки X-11 (метод Census II).

Анализ сезонности ряда с помощью Спектрального (Фурье) анализа


Спектральный анализ позволит распознать основные периодические компоненты и в дальнейшем использовать их в других моделях прогнозирования.

Итак, в диалоговом окне Спектрального анализа выберем опцию Спектральный анализ одного ряда (Single series Fourier analysis). Также поставим флажки для некоторых преобразований исходного ряда перед самим анализом. Флажок напротив трансформации Вычитание среднего (Subtract mean) означает, что из значений ряда будет вычитаться выборочное среднее. Флажок напротив трансформации Вычитание тренда (Detrend) означает, что из значений ряда будет вычитаться линейный тренд.


Рисунок1. Диалоговое окно Спектрального анализа





Спектральный анализ с заданными трансформациями показал наличие пяти наивысших пиков периодограммы. Точные значения периодограммы см. на рис. 2.


Рисунок 2. Диалоговое окно представления результатов Спектрального анализа





Наглядно просмотреть пики значений и соответствующие им периоды можно на периодограмме.


График 2. Периодограмма результатов Спектрального анализа





Из периодограммы видно, что наиболее существенными являются 4 пика, причем, наиболее значим пик, соответствующий периоду ок. 80 точек. Конкретную длину периодов можно выяснить с помощью таблицы наибольших значений периодограммы.


Таблица 1. Наибольшие значения периодограммы





Наибольшие значения периодограммы в соответствующем столбце (Periodog) соответствуют длинам периодов в столбце Период (Period). Таким образом, с помощью Спектрального анализа выделяются 4 основных периода сезонности: 83, 3, 17, 5. Именно эти периоды следует учитывать при построении моделей прогноза.

Прогнозирование ряда методом АРИМА с интервенцией


Для построения адекватной модели прогноза необходимо преобразовать исходный ряд таким образом, чтобы он стал стационарным. При этом рассмотрим его распределение.


Гистограмма 1. Распределение исходного ряда





График 3. Распределение исходного ряда





Из гистограммы и графика видно, что распределение исходного ряда далеко от нормального. Поэтому следующей задачей является необходимое преобразование ряда. Из всех возможных способов преобразования ряда наилучшим является двухступенчатое преобразование с помощью натурального логарифма (благодаря которому уменьшается дисперсия ряда) и 4253 Фильтра. В результате распределение преобразованного ряда близко к нормальному.


Гистограмма 2. Распределение преобразованного ряда





График 4. Распределение преобразованного ряда





Сделав ряд стационарным, можно определить параметры модели АРИМА прерванная. Для этого рассмотрим автокоррелограмму и частную автокоррелограмму преобразованного ряда.


Гистограмма 3. Автокорреляционная функция преобразованного ряда





Гистограмма 3. Частная автокорреляционная функция преобразованного ряда





Автокорреляционная функция экспоненциально убывает, а частная автокорреляционная функция имеет выбросы на двух первых лагах. При таком поведении функций необходима модель с двумя параметрами авторегрессии без параметров скользящего среднего.

Прогнозирование методом АРИМА прерванная подразумевает наличие интервенций, значительно изменяющих значения ряда с некоторого лага. Для того, чтобы определить число интервенций, их типы воздействий и точки ряда, с которых начинаются данные интервенции, необходимо вернуться к графику исходного ряда (график 1).

На графике видно наличие пяти интервенций, причем, все они одного типа – скачкообразное временное воздействие. Это значит, что события, повлиявшие на частоту упоминаний закрытых городов Минатома, существенно не изменили последующие значения ряда. Исходя из графика 5 можно также приблизительно оценить, на каких точках ряда имеют место воздействия. Однако, точные значения необходимо выяснить на основе таблицы исходных данных.


Таблица 2. Исходные данные: частота встречаемости названий ЗАТО в газете





Выбрав из таблицы исходных данных наивысшие значения ряда и номера точек, получаем следующую таблицу.


Таблица 3. Наивысшие значения ряда


Номер ячейки

Дата выпуска газеты

Значение ряда

138

20 января 2000 г.

30

157

1 июня 2000 г.

15

237

13 декабря 2001 г.

50

404

2 марта 2005 г.

13

407

23 марта 2005 г.

12


Обращение к выпускам газеты «Городской курьер», в которых ЗАТО Минатома упоминаются наиболее часто, показывает, что эти всплески связаны со следующими событиями:
  • Совещание в Минатоме по обсуждению метода ипотеки во всех ЗАТО
  • Визит в Саров мэра и председателя городского совета г. Снежинска
  • Поездка в г. Снежинск председателя городской Думы и др. чиновников г. Сарова
  • Заседание Координационного совета «Инициативы ядерных городов» в Вашингтоне
  • Поездка в г. Снежинск журналиста газеты «Городской курьер»
  • Лыжный мемориал, на который съехались спортсмены из ЗАТО
  • Взятие под стражу мэра г. Снежинска.

В диалоговом окне АРИМА прерванная проставляем параметры, выделенные на предыдущих этапах анализа1.


Рисунок 3. Диалоговое окно построения модели прогноза методом АРИМА с интервенцией





В диалоговом окне результатов укажем уровень доверия 90 %, а также необходимость построения прогноза на 25 шагов вперед.


Рисунок 4. Диалоговое окно результатов применения модели прогноза методом АРИМА с интервенцией





На графике прогноза методом АРИМА с интервенцией видно, значения ряда будут колебаться в пределах от 0 до 2-ух с периодом сезонности 5 точек. Модель предсказывает отсутствие всплесков и тренда. Доверительный интервал довольно небольшой. Точные значения прогноза, доверительный интервал и стандартные ошибки представлены в таблице 4.


График 5. Прогноз частоты упоминаний названий ЗАТО в газете методом АРИМА с интервенцией





Таблица 4. Прогноз частоты упоминаний названий ЗАТО в газете методом АРИМА с интервенцией


Forecasts; Model:(2,1,0) 4 Interventions (Sheet1 in Imported)
Input: Частота упоминаний ЗАТО
Start of origin: 1 End of origin: 414


CaseNo.

Forecast

Lower 90,0000%

Upper 90,0000%

Std.Err.




CaseNo.

Forecast

Lower 90,0000%

Upper 90,0000%

Std.Err.

415

1,885509

-1,28053

5,051546

1,920344




428

0,991709

-4,51768

6,501102

3,341696

416

2,091222

-1,07550

5,257949

1,920763




429

-0,00135

-5,51081

5,508113

3,341738

417

1,012622

-2,16781

4,193060

1,929079




430

1,886257

-4,46838

8,240897

3,854377

418

0,991724

-2,18871

4,172161

1,929079




431

2,091364

-4,26359

8,446322

3,854570

419

-0,001354

-3,18191

3,179203

1,929152




432

1,012555

-5,34924

7,374351

3,858717

420

1,886256

-2,60188

6,374392

2,722258




433

0,991709

-5,37009

7,353505

3,858717

421

2,091365

-2,39722

6,579950

2,722530




434

-0,00135

-6,36320

6,360508

3,858754

422

1,012555

-3,48571

5,510817

2,728400




435

1,886257

-5,22011

8,992627

4,310335

423

0,991709

-3,50655

5,489971

2,728400




436

2,091364

-5,01529

9,198018

4,310507

424

-0,001348

-4,49970

4,496998

2,728451




437

1,012555

-6,10021

8,125325

4,314217

425

1,886257

-3,61487

7,387385

3,336683




438

0,991709

-6,12106

8,104479

4,314217

426

2,091364

-3,41013

7,592859

3,336906




439

-0,00135

-7,11417

7,111475

4,314249

427

1,012555

-4,49684

6,521948

3,341696




















Для оценки адекватности построенного прогноза необходимо провести анализ остатков. Как видно из гистограммы и графика остатков их значения близки к нормальному распределению, следовательно прогноз можно считать адекватным.


Гистограмма 4. Распределение остатков прогноза методом АРИМА с интервенцией





График 6. Распределение остатков прогноза методом АРИМА с интервенцией





Разложение ряда на компоненты методом Сезонной корректировки X-11 (метод Census II)


Применение метода Сезонной корректировки Х-11 позволит разделить ряд на 3 составляющих: тренд-циклическую, сезонную компоненту и белый шум. Сложив тренд-циклическую и сезонную компоненту, получим ряд без внешних воздействий. Это даст возможность определить логику ряда с тем, чтоб впоследствии построить прогноз. Данный метод применим только для рядов длиной не более 360 точек, поэтому был построен ряд без 54 начальных значений.

В диалоговом окне метода Сезонной корректировки Х-11 задаем параметр модели – ряд с аддитивной сезонностью. В закладке Output выбираем таблицы и графики для вывода на экран. Для анализа нам необходимы таблицы окончательного оценивания сезонных факторов, тренд-циклической и нерегулярной компонент ряда (D10-D13) и все графики.


Рисунок 5. Диалоговое окно метода Сезонной корректировки ряда Х-11





Рисунок 6. Диалоговое окно вывода результатов Сезонной корректировки Х-11 ряда на экран





Результаты разложения ряда наглядно представлены на графиках. На графике 7 жирной линией выделена тренд-циклическая компонента ряда. Ее значения редко поднимаются выше двух упоминаний ЗАТО в каждом выпуске газеты. На графике 8 жирной линией выделена сезонность ряда с лагом 12. На графике 9 представлена шумовая компонента ряда. Именно в данной компоненте содержатся выбросы. Из этого можно заключить, что информация довольно большого объема о закрытых городах Минатома проскальзывает в газете «Городской курьер» лишь изредка, в связи с какими-либо событиями, и не входит в число регулярно обсуждаемых тем. Говорить о наличии тематической рубрики, в которой обсуждались бы вопросы о ЗАТО также не приходится. Журналисты не подбирают специально материал о ЗАТО Минатома, однако, описывая жизнь города Сарова они довольно часто вскользь упоминают и другие ЗАТО (ведь значения тренд-циклической и сезонной компонент не нулевые). Из всего этого следует, что построить адекватный прогноз довольно сложно, ведь внешние воздействия непредсказуемы.


График 7. Тренд-циклическая компонента ряда частоты упоминаний названий ЗАТО в газете





График 8. Сезонная компонента ряда частоты упоминаний названий ЗАТО в газете





График 9. Шумовая компонента ряда частоты упоминаний названий ЗАТО в газете





Точные значения тренд-циклической и сезонной компонент представлены в таблицах 5, 6. Из суммы этих значений получаем новый ряд без шумовой компоненты.


Таблица 5. Значения тренд-циклической компоненты ряда частоты упоминаний названий ЗАТО в газете





Таблица 6. Значения сезонной компоненты ряда частоты упоминаний названий ЗАТО в газете





Получившийся ряд представлен на графике 10. В целом он напоминает исходный ряд с уменьшенной дисперсией.


График 10. Ряд частоты упоминаний названий ЗАТО в газете без шумовой компоненты




Прогнозирование ряда без шумовой компоненты методом Экспоненциального сглаживания


Для построения прогноза ряда частоты упоминаний названий ЗАТО без влияния внешних воздействий был выбран метод Экспоненциального сглаживания. Такой выбор был сделан по следующей причине – после удаления шумовой компоненты ряд стал более простым, следовательно, к нему можно применить метод экспоненциального сглаживания.

Для построения модели прогноза необходимо определить наилучшие параметры сглаживания Alpha и Delta. Это делается в диалоговом окне Экспоненциального сглаживания на закладке Grid Search. Наиболее подходящими значениями параметров сглаживания являются Alpha=0,9 и Delta=0,1. Именно при таких параметрах модели абсолютная ошибка минимальна.


Таблица 7. Выбор параметров сглаживания ряда без шумовой компоненты





В диалоговом окне Экспоненциального сглаживания задаем параметры модели: аддитивная сезонность, Alpha=0,9 и Delta=0,1. Значения сезонных факторов берем из ряда, выделенного с помощью Сезонной корректировки Х-11. Вследствие того, что сезонный лаг при выделении сезонной компоненты составлял 12 точек, выставляем именно это значение.


Рисунок 7. Диалоговое окно метода Экспоненциального сглаживания





Результаты построения прогноза методом Экспоненциального сглаживания представлены на графике 11 и в таблице 8. Прогноз свидетельствует о том, что в каждом из последующих 25 выпусков газеты названия закрытых городов Минатома будут упоминаться не более 1 раза. Если сравнить значения этого прогноза с прогнозом методом АРИМА прерванная, то видно, что прогноз исходного ряда методом АРИМА прерванная дает более высокие значения частоты упоминаний ЗАТО (в среднем от 1 до 2-ух упоминаний). Это можно объяснить большей дисперсией исходного ряда, которая после удаления шумовой компоненты была уменьшена.


График 11. Прогноз ряда без шумовой компоненты методом Экспоненциального сглаживания





Таблица 8. Прогноз ряда без шумовой компоненты методом Экспоненциального сглаживания


Case

Smoothed Series




Case

Smoothed Series

361

0,636121




374

0,873598

362

0,873598




375

0,977321

363

0,977321




376

0,987118

364

0,987118




377

1,180708

365

1,180708




378

1,075610

366

1,075610




379

0,646008

367

0,646008




380

0,459315

368

0,459315




381

0,414849

369

0,414849




382

0,306892

370

0,306892




383

0,426400

371

0,426400




384

0,610936

372

0,610936




385

0,636121

373

0,636121











Распределение остатков близко к нормальному, следовательно, модель прогноза можно считать адекватной.


Гистограмма 5. Распределение остатков ряда без шумовой компоненты





График 12. Распределение остатков ряда без шумовой компоненты




Окончательная оценка прогнозов: сравнение прогнозных значений с истинными


Окончательное оценивание любого прогноза происходит со временем, когда прогноз сбывается либо нет. В данной работе прогноз был построен двумя способами: методом АРИМА прерванная, модель включала 2 параметра авторегрессии, сезонный лаг равный 3-ем и разность 5; методом Экспоненциального сглаживания с предварительным вычитанием шумовой компоненты (модель включала параметры сглаживания Alpha=0,9 и Delta=0,1, сезонные факторы, выделенные методом Сезонной корректировки Х-11 с лагом 12). Прогнозы незначительно отличаются друг от друга (в среднем примерно на 1 значение).

Сравнение прогнозируемой частоты упоминаний названий ЗАТО в газете «Городской курьер» представлено в таблице 9 и на графике 13.


Таблица 9. Сравнение прогнозируемых значений с истинными


Дата выпуска газеты

Прогноз исходного ряда методом АРИМА с интервенцией

Прогноз ряда без шумовой компоненты методом Экспоненциального сглаживания

Истинные значения ряда

Разность прогноза методом АРИМА с интервенцией и истинными значениями

(по модулю)

Разность прогноза методом Экспоненциального сглаживания и истинными значениями ряда

(по модулю)

18 мая 2005

1,885509

0,636121

4

2,114491

3,363879

25 мая 2005

2,091222

0,873598

0

2,091222

0,873598

1 июня 2005

1,012622

0,977321

3

1,987378

2,022679

8 июня 2005

0,991724

0,987118

14

13,008276

13,012882

15 июня 2005

-0,001354

1,180708

1

1,001354

0,180708

22 июня 2005

1,886256

1,07561

0

1,886256

1,07561

29 июня 2005

2,091365

0,646008

2

0,091365

1,353992

6 июля 2005

1,012555

0,459315

0

1,012555

0,459315

13 июля 2005

0,991709

0,414849

0

0,991709

0,414849

20 июля 2005

-0,001348

0,306892

0

0,001348

0,306892

27 июля 2005

1,886257

0,4264

0

1,886257

0,4264

3 августа 2005

2,091364

0,610936

0

2,091364

0,610936

10 августа 2005

1,012555

0,636121

9

7,987445

8,363879

17 августа 2005

0,991709

0,873598

 

 

 

24 августа 2005

-0,00135

0,977321

 

 

 

31 августа 2005

1,886257

0,987118

 

 

 

7 сентября 2005

2,091364

1,180708

 

 

 

14 сентября 2005

1,012555

1,07561

0

1,012555

1,07561

21 сентября 2005

0,991709

0,646008

0

0,991709

0,646008

28 сентября 2005

-0,00135

0,459315

0

0,00135

0,459315

5 октября 2005

1,886257

0,414849

3

1,113743

2,585151

12 октября 2005

2,091364

0,306892

0

2,091364

0,306892

19 октября 2005

1,012555

0,4264

6

4,987445

5,5736

26 октября 2005

0,991709

0,610936

17

16,008291

16,389064

2 ноября 2005

-0,00135

0,636121

 

 

 




 

62,357477

59,501259


График 13. Сравнение прогнозируемых значений с истинными





Частота упоминаний ЗАТО в газете известна не по всем 25 выпускам газеты, но сравнение провести все равно можно. Разница прогнозируемых значений с истинными велика, из чего можно заключить, что прогнозы не сбылись. Разница между истинными значениями ряда и прогнозом методом Экспоненциального сглаживания чуть меньше разницы истинных значений с прогнозируемыми методом АРИМА с интервенцией. Но говорить о более адекватном прогнозе нельзя.

Внешние воздействия на частоту упоминаний ЗАТО в газете оказались непредсказуемыми. В эти 25 недель произошли следующие события:
  • научно-практический семинар по вопросам особенностей формирования бюджетов ЗАТО
  • празднование 55-летия города Железногорска
  • финал конкурса «Учитель, воспитатель года» среди закрытых городов

Неспособность дать адекватный прогноз не является недостатком предложенных моделей прогноза, просто логика ряда слишком подвержена событиям извне, поэтому, чтобы построить адекватный прогноз, необходимо учитывать ряд других факторов, как например, план поездок чиновников закрытых городов в другие ЗАТО или график совещаний Минатома и других структур по проблемам ЗАТО. Предположительно, частота упоминаний ЗАТО будет коррелировать с частотой упоминаний ЗАТО в графике совещаний Минатома и др. с запаздыванием не более 7 дней (т.е. событие будет описано в ближайшем выпуске газеты).



1 Интервенцию на 407 шаге невозможно учитывать в данной модели, т. к. необходимо минимум 10 точек после интервенции, а ряд составляют только 414 точек.

Периоды 82,8 и 16,5686 точек, выделенные с помощью Спектрального анализа, не учитываются в данной модели, т. к. первый из них слишком велик (при округлении до 83 точек в ряд не укладываются необходимые для анализа 5 циклов), а второй слишком грубо округляется до целого числа, в результате чего перестает быть адекватным. Поэтому в модели учитываются периоды в 3 и 5 точек.