Выделение детерминированных компонент из зашумленных данных

Вид материалаДокументы

Содержание


Список литературы
Подобный материал:

Выделение детерминированных компонент из зашумленных данных

В.П. БЕРЕЗНЕВ, А.Н. ВАСИЛЬЕВА, В.В. ИВАНОВ1, С.Г. КЛИМАНОВ, С.Г. КОРЗЕНЕВА,

А.В. КРЯНЕВ, Г.В. ЛУКИН, А.Н. ПАНФИЛОВА, И.А. РЯБОШАПКА, С.А. СЮСЮКАЛОВ, Д.К. УДУМЯН, Т.В. ШЕМЯКИНА

Национальный исследовательский ядерный университет «МИФИ»
1Лаборатория информационных технологий ОИЯИ, Дубна


ВЫДЕЛЕНИЕ ДЕТЕРМИНИРОВАННЫХ КОМПОНЕНТ

ИЗ ЗАШУМЛЕННЫХ ДАННЫХ


Представлено несколько схем, позволяющих с помощью компьютерной техники выделять детерминированные компоненты из временных рядов с аддитивной хаотической компонентой. Представленные схемы основаны на применении систем ортогональных робастных полиномов, линейных и кубических сплайнов, сингулярно-спектрального анализа, метрического анализа и обладают свойством робастности по отношению к аномальным выбросам в хаотических компонентах исходных данных. Алгоритмы численных решений задач выделения детерминированных компонент основаны на итерационных процедурах, сходящихся за конечное число итераций. В докладе приведены результаты численных расчетов для модельных и прикладных задач, показывающих эффективность выделения детерминированных компонент.


Основной задачей данной работы является представление и анализ эффективных численных методов выделения трендовой, аномальной и хаотической составляющих в исследуемых временных рядах.

Таким образом, мы будем рассматривать представление исходного временного ряда :

,

где – трендовая, аномальная и хаотическая компоненты исходного временного ряда.

Разделение исходного временного ряда на трендовую, аномальную и хаотическую компоненты является необходимым этапом решения задач исследования ряда и прогнозирования его дальнейшего развития. В частности, выделение плавно изменяющейся трендовой составляющей позволяет изучать глобальное поведения процесса, соответствующего данному временному ряду, включая его прогнозирование.

Сформулируем требования на используемые нами методы выделения трендовой составляющей .

1. Наличие устойчивости к присутствию краткосрочных выбросов большой амплитуды и возможность выделения аномальной составляющей.

2. Возможность использования нелинейной полиномиальной модели тренда с любой степенью нелинейности.

3. Наличие эффективных и устойчивых численных методов, реализующих предлагаемую схему выделения детерминированной компоненты.

Традиционные не робастные методы выделения детерминированной компоненты, не предполагающие выделение аномальной компоненты, не обладают необходимой устойчивостью по отношению к кратковременным выбросам большой амплитуды, что приводит к нежелательному искажению самой детерминированной компоненты, а также не позволяет выделять аномальную составляющую, которая довольно часто представляет большой самостоятельный интерес.

В настоящей работе представлено несколько схем, позволяющих с помощью компьютерной техники выделять детерминированные, аномальные и хаотические компоненты из исследуемых временных рядов. Представленные схемы основаны на применении систем ортогональных робастных полиномов, линейных и кубических робастных сплайнов, сингулярно-спектрального и метрического анализов и обладают свойством робастности по отношению к аномальным выбросам в хаотических компонентах исходных данных [1–6]. Алгоритмы численных решений задач выделения детерминированных компонент основаны на итерационных процедурах, сходящихся за конечное число итераций.

Например, при применении схемы, основанной на ортогональных полиномах, трендовая компонента представляется нами в виде разложения

, (1)

где – искомые коэффициенты разложения; – ортогональные полиномы степени k, удовлетворяющие условиям ортогональности

,

где – символ Кронеккера.

Коэффициенты разложения , являются решением следующей экстремальной задачи

,

где – дисперсия случайной величины , , а – функция Хьюбера:

(2)

где K – параметр Хьюбера [1–3, 6].

Нами используется эффективный итерационный метод численного решения экстремальной задачи (2), сходящийся за конечное число итераций [1, 6].

Для решения задачи выбора подходящего уровня сглаживания, определяемого числом m членов разложения (1), можно использовать показатель Херста [1, 6].

Во фрактальной теории исследования временных рядов доказывается теорема о том, что для случайного процесса типа броуновского движения показатель Херста H должен равняться 0,5.

Выделив хаотическую составляющую при различных значениях m и построив график зависимости от m показателя Херста , можно определить подходящее значение m, при котором достигается определенный уровень невыполнения равенства:

.

Робастная схема выделения детерминированной, аномальной и хаотической компонент, использующая линейные сплайны, основана на минимизации целевой функции:

,

где – робастная функция Тьюки; – значения робастного линейного сплайна; – сглаживающий (регуляризирующий) параметр [1–3, 6].

Робастная схема выделения детерминированной, аномальной и хаотической компонент, использующая кубические сплайны, основана на минимизации целевой функции:



где – робастная функция Тьюки; – значения робастных кубических сплайнов; – сглаживающий (регуляризирующий) параметр [1, 6].

Величины сглаживающего параметра (m или ) могут быть получены из условия минимума функционала, равного сумме квадратов разностей между прогнозируемыми и реализованными значениями исследуемого финансового временного ряда.

В последние годы для прогнозирования хаотических временных рядов используется сингулярно-спектральный анализ (ССА), в том числе многомерный сингулярно-спектральный анализ (МССА) [2].

Однако традиционная схема применения ССА не является устойчивой по отношению к большим выбросам, и поэтому выделение детерминированных компонент, полученное с помощью традиционных не робастных схем ССА или МССА, часто не является приемлемым.

Ниже приводится схема, основанная на робастном сингулярно-спектральном анализе, для выделения детерминированных компонент, устойчивых к наличию больших выбросов в исходных временных рядах.

Как известно, ССА-модели соответствуют динамическим процессам, описываемым в непрерывном представлении однородными дифференциальными уравнениями вида

(3)

где – константы [1,2,6].

Конечномерный аналог однородного дифференциального уравнения (3) имеет вид однородной конечноразностной модели авторегрессии

,

где – константы.

Далее, как и для традиционной схемы ССА, рассматривается задача на собственные значения симметричной неотрицательной матрицы YT·Y размерности (MM)


YTY · Ψ = μ · Ψ, (4)

где



Проведем ранжирование сингулярных чисел и обозначим через Ψj = (Ψj,1,…, Ψj,p+m–1)T соответствующие им ортонормированные собственные векторы (Ψj, Ψj) = = δj,j.

Тогда

(5)


При реализации схемы сглаживания (4), (5) необходимо задать значение параметра m. Оптимальная величина целочисленного параметра m может быть найдена, в частности, из условия минимума суммы квадратов разности между реализованными и прогнозируемыми значениями исследуемого временного ряда.

Еще одна схема выделения детерминированных компонент основана на применении метрического анализа [4–6].

Восстановленное детерминированное значение находится согласно равенству

,

где коэффициенты являются решением задачи на условный экстремум:

(6)

В задаче (6) матрица суммарной неопределенности W определяется равенством

,

где – матрица метрической неопределенности; – матрица стохастической неопределенности; – параметр сглаживания, определяемый в согласии с принципом невязки [4–6].

Восстановленное детерминированное значение вычисляется из равенства



где – обратная матрица матрицы W.

Отметим, что схема, основанная на метрическом анализе, дает возможность выделять детерминированные компоненты из многомерных функциональных зависимостей.

В рамках реализации вышеописанных схем получены результаты численных расчетов для модельных и прикладных задач, показывающих эффективность выделения детерминированных компонент.

Представленные здесь схемы выделения детерминированной, аномальной и хаотической компонент с помощью робастных ортогональных полиномов, робастных линейных и кубических сплайнов, сингулярно-спектрального и метрического анализов обладают вычислительной устойчивостью и устойчивостью по отношению к наличию больших по амплитуде кратковременных выбросов в реализованных значениях исследуемых временных рядов. С помощью этих схем выделяются аномальные выбросы, в том числе явно не просматривающиеся как по их временному местоположению, так и по амплитуде, что дает возможность детального исследования аномальных и кризисных явлений в исследуемых временных процессах.


СПИСОК ЛИТЕРАТУРЫ

  1. Крянев А.В., Лукин Г.В. Математические методы обработки неопределенных данных. М.: Наука, 2006.
  2. Antoniou I., Akritas P., Burak D.A. et al. // Physica A. 2004. 336. P. 538.
  3. Arsenin V.Ya., Kryanev A.V. Generalized Maximum Likelihood Method and its Application for Ill-Posed Problems Solving. Ill-Posed Problems in Natural Sciences: ed. A. Tikhonov. Netherland. 1992. VSP-BV. P. 3.
  4. Крянев А.В., Лукин Г.В. // Препринт МИФИ 003-2005. М.: МИФИ, 2005.
  5. Kryanev A.V., Lukin G.V., Udumyan D.K. // Numerical Methods and Programming. Scientific Journal. 2009. V. 10. P. 408.
  6. Крянев А.В., Лукин Г.В. Метрический анализ и обработка данных. М.: Наука, 2010.