Прогнозирование поведения финансовых рынков на основе метода главных компонент аннотация

Вид материалаДокументы

Содержание


Проблема Выбора Параметров
N достаточно большой, чтобы она захватывала как нисходящий, так и восходящий участки. Что же касается выбора длины окна m
Подобный материал:
ПРОГНОЗИРОВАНИЕ ПОВЕДЕНИЯ ФИНАНСОВЫХ РЫНКОВ

НА ОСНОВЕ МЕТОДА ГЛАВНЫХ КОМПОНЕНТ


Аннотация

Рассмотрено применение метода Singular Spectrum Analysis - SSA для анализа и прогнозирования финансовых рынков, позволяющий выделить из истории рынка отдельные составляющие, такие как тренд, периодические составляющие и случайный шум. Это позволяет абстрагироваться от случайных составляющих и прогнозировать как сам рынок, так и тенденции развития различных его компонент. На основе этого подхода введен принципиально новый индикатор и описан механизм расчета «Прогнозной Скользящей» (Forecasting Moving – FМ-SSA).


Теория

В настоящее время актуальным является анализ и прогнозирование товарных и финансовых рынков с использованием методов математической статистики. Традиционные подходы, основанные на использовании классических моделей типа «тренд + шум» либо «авторегрессии – скользящего среднего» приводят к удовлетворительным результатам лишь для рядов достаточно простой структуры. Особенностью временных рядов, отражающих поведение рынка, является то, что их характеристики (цены, объемы сделок, индикаторы и т.д.) формируются из нескольких составляющих: медленной - трендом, периодической или колебательной составляющей и случайной составляющей описываемой случайным процессом определенного типа. Важной особенностью периодической составляющей, в свою очередь, является наличие периодичности с переменным периодом и амплитудой.

В виду рассмотренных особенностей для исследования финансовых рынков плохо применимы классические методы анализа, такие как анализ Фурье, регрессионный анализ или вейвлет-анализ, т.к. они используют разложение исходной функции в ряд по фиксированной системе базисных функций, что порождает свойство строгой периодичности.

Альтернативным подходом, используемым для анализа и прогноза рынков, является Сингулярный Спектральный Анализ SSA (Singular Spectrum Analysis), в России метод получил название «Гусеница»), основанный на динамической модификации метода главных компонент. Данный подход основан на исследовании временного ряда методом главных компонент и не требует предварительной стабилизации ряда. SSA позволяет исследовать структуру временного ряда, выделить отдельные его составляющие и прогнозировать как сам ряд, так и тенденции развития его составляющих. Особенностями метода являются такие его свойства, как интерактивность и визуализация результатов вычислений.

Первой идеей, лежащей в основе метода, является создание повторяемости путем перехода от временного ряда, например последовательности цен в равноотстоящие моменты времени, к последовательности векторов, состоящих из отрезков временного ряда выбранной длины. Таким образом, получается многомерная выборка, другими словами, подразумевается, что если исходный ряд имел какую-то структуру, то и его отрезки наследуют эту структуру. Второй идеей является анализ полученной многомерной выборки (траекторной матрицы) с помощью ее сингулярного разложения или, используя статистические аналогии, анализа главных компонент, выделении значимых компонент и дальнейшем восстановлении, основанном на группировке и диагональном усреднении. Тем самым получается разложение исходного временного ряда (точнее, его траекторной матрицы) по базису, порождаемому им самим. Одной из отличительных черт метода является его естественность. Метод не навязывает изначально какую-либо модель исследуемого временного ряда. Но при этом он позволяет так разложить ряд на элементарные составляющие, что по ним оказывается возможным воссоздать структуру ряда, например, выделить тренд или найти периодические составляющие. Кроме этого, метод дает возможность очищать сигнал от шумовой составляющей.

Достоинством метода «Гусеница»-SSA является отсутствие требования априорного задания модели ряда, а также возможность выделения гармонических составляющих с изменяющимися амплитудами и частотами, что выгодно отличает его от методов, в основе которых лежит метод Фурье.

Недостатком метода, ограничивающим возможности его применения, является предположение о линейности модели исследуемого ряда. На первый план выдвигается задача выбора достаточно универсальной модели временного ряда, позволяющей отразить существенные особенности его нелинейной динамики, зачастую носящей хаотический характер. Для решения подобных задач эффективны методы, основанные на ядерных методах (kernel methods), обеспечивающих возможность моделирования нелинейных связей в финансовых временных рядах при сравнительно малом объеме априорной информации.

Основными проблемами метода являются:
  1. выбор основных управляющих параметров N и m, отвечающих за размерность выборки, полученной из одномерного временного ряда;
  2. анализ промежуточных результатов, интерпретация и отбор главных компонент;
  3. метод не является абсолютно жестким и допускает различные модификации.


Проблема Выбора Параметров

Дело состоит в изначальном выборе параметров для анализа, то есть длины ряда N и длины окна m. Относительно этого, строгого мнения нет, хотя и имеются определенного рода соображения. Как видно из описания метода, основным управляющим параметром метода является N, m и число компонент. При геометрической интерпретации параметр m является размерностью пространства, в котором исследуется траектория многомерной ломанной линии, в которую переводится исходный временной ряд. В общем случае выбор m зависит от задачи, рассмотрим 3-и наиболее типичных:
  1. Задача анализа исходного временного ряда, с целью отыскания скрытых периодичностей с неизвестными периодами. Здесь используют следующий подход. Сначала вычисляются собственные числа при максимально возможном m, и определяется l. Затем проводят повторные расчеты с m несколько большим l.
  2. Задача сглаживания исходного ряда, здесь необходим механизм фильтрации, основанный на выделении набора главных компонент. Выделение некоторой компоненты в m-мерном представлении исходного ряда эквивалентно пропусканию ряда через фильтр, переходная функция которого совпадает с собственным вектором этой компоненты. Ширина полосы пропускания зависит от формы переходной функции фильтра и среди прочего, определяется величиной m. Чем больше этот параметр, тем уже может быть сделана полоса фильтра.
  3. Выделение периодичности. Если решается задача анализа исходного временного ряда с целью отыскания скрытых периодичностей с неизвестными периодами, то рекомендуется брать размерность пространства, равную половине длины ряда. В этом случае для лучшего решения, m должно быть равно, а N кратно периоду колебания. При выделении колебания с известным периодом предлагается изменить длину временного ряда так, чтобы она была кратна длине периода выделяемого колебания.

Отбор главных компонент, информативных в том или ином смысле, также не может быть выполнен априори и в определенном смысле является искусством. Для выбора главных компонент имеются два критерия: критерий Кайзера (Kaiser) и критерий Кэттелла (Cattell). По критерию Кайзера отбираются компоненты с собственными значениями большими единицы. Критерий Кэттелла является графическим методом и основан на рассмотрении изображения собственных чисел, наносимых на график в порядке убывания их значений. На практике, обычно исследуется несколько наборов компонент и выбирается тот, который может быть интерпретирован в рамках задачи. В данном подходе существует два представления исходного временного ряда:
  • представление в виде суммы рядов, которые не ортогональны;
  • представление в виде траекторий в m-мерном пространстве, которые в ортонормальном базисе главных компонент (собственных векторов корреляционной матрицы) раскладывается на ортогональные компоненты.

Соответственно имеется 4 набора интерпретируемых объектов:
  • собственные числа корреляционной матрицы m–мерного представления исходного временного ряда, их интерпретация сходна с анализом EOF;
  • набор собственных векторов корреляционной матрицы, их можно изучать как временные ряды длины m;
  • набор главных компонент m-мерного представления;
  • восстановленные по разным наборам главных компонент временные ряды.

Существует два крайних случая:
  • m< – «длинные» ряды. В этом случае более естественным кажется интерпретация собственных векторов как переходных функций линейных фильтров, а соответствующих EOF как результат действия этих фильтров.
  • m=N/2 – аппроксимация исходного временного ряда рядами конечного ранга. Здесь более уместен геометрический подход и поиск гармонических компонент исследуемого процесса.

При выборе длины ряда, необходимо: или исключить трендовую составляющую, или выбирать длину выборки N достаточно большой, чтобы она захватывала как нисходящий, так и восходящий участки. Что же касается выбора длины окна m, то оно может равняться периоду визуального колебательного движения курса.

Ограничиваться представленными выше различными вариантами выбора параметров для анализа не следует. Метод является основополагающим для моделирования рыночных ситуаций методом нелинейной динамики.

Результаты

Для практических расчетов, задача состоит в выборе, для дальнейшего анализа сингулярных чисел и соответствующих им EOF, которые дают наибольший вклад. Поскольку сингулярные значения матрицы расположены в порядке убывания, то, установив, согласно критерия Кэттелла (Cattell), некоторое пороговое значение, можно обнулить остальные значения матрицы, таким образом, выбрав только ведущие компоненты. Теперь, используя эти собственные функции, можно восстановить матрицу траекторий, и соответственно временной ряд, а также построить прогноз. Остается только сделать оценку того, начиная с какого уровня можно обнулять сингулярные числа. Рассмотрим более подробно график сингулярных чисел. В качестве примера возьмем временной ряд из котировок EURUSD с интервалом 240 мин. Ряд содержит N = 50 цен закрытия.




Рис.1. Логарифм сингулярные числа матрицы траекторий для EURUSD 240 мин с параметрами N = 50 и m = 25. Вклад отдельной компоненты в сумму диагональных элементов спадает по экспоненте и, уже начиная со 2-го сингулярного значения, доля вклада от этой компоненты в общую сумму спадает почти в 500 раз.


Рассмотрим график зависимости логарифмов сингулярных чисел от их порядкового номера. Первое сингулярное значение вносит наибольший вклад в общую сумму, а собственная функция, соответствующая данному значению определяет трендовую составляющую. Из Рис.1 видно, что следующие сингулярные числа отделены гэпом от первого. Также на графике, можно заметить еще два излома в районе 5-й, 7-й и 23-й компонент. Далее, если проследить за наклоном графика, можно увидеть, что он изменяется. Наклон кривой на участке до 23-ой точки меньше угла наклона после нее. А потому, можно ограничить значение l максимальным значением 23-25. Следует отметить, что интервал 1-23 для выбора ведущих компонент, ограничивает потенциально интересную область. Простым способом поиска наилучшего набора EOF, является оптимизация на указанном выше интервале. Для практических расчетов достаточно учета гораздо меньшего количества компонент, а именно 3-10. Величина этого набора может изменяться в зависимости от финансового инструмента и используемого временного интервала.


Обычной практикой применения SSA, является расчет и последующий анализ восстановленного ряда. Следует отметить, что в силу самого подхода, восстановленный ряд пересчитывается и соответственно его график «перерисовывается» по ходу развития рынка во времени. Этот эффект делает невозможным анализ результатов на исторических данных.





Рис.2. EURUSD 240 мин. Восстановленный ряд и прогноз для различных значений управляющих параметров и различных главных компонент:
  • зеленый – 200. 100, 1-3
  • красный – 50, 25, 1-3
  • коричневый - 100, 50, 1-7



В реальности наибольший интерес представляют именно прогнозные возможности метода SSA. На рисунках ниже приведены, график валюты и линия «SSA-прогноз», представляющая собой первые прогнозные точки для каждого бара. С точки зрения задачи сглаживания исходного ряда эту кривую можно рассматривать как Прогнозную Скользящую (FM-SSA Forecasting Moving-SSA). Необходимо еще раз подчеркнуть, что все существующие типы МА не обладают прогнозными свойствами, а являются только лишь результатом фильтрации исходного ряда. В отличие от них, FM-SSA – обладает именно прогнозными свойствами, и соответственно на графиках, изображается не результат фильтрации, а именно прогноз. Легко видеть, что FM-SSA быстрее реагирует на изменение цен по сравнению с другими типами Скользящих Средних тойже длины.




Рис.3. Сравнительный анализ FMA-SSA(50) и EMA(50) (Экспоненциальная Скользящая Средняя).


Заключение

На статистике международного валютного рынка FOREX проведен сравнительный анализ эффективности SSA с классическими методами Технического Анализа. Сравнительный анализ показывает, что SSA подход, по крайней мере, также хорош, а во многих случаях превосходит классические средства Технического Анализа. При этом часто он позволяет обнаружить эффекты, которые распознать стандартными методами не представляется возможным. Разработан новый индикатор FM-SSA. Приводятся примеры анализа реальных рядов финансовых данных. С результатами работы индикатора FMA-SSA можно ознакомиться, посетив веб сайт AnalysisFX (www.AnalysisFX.com).