Книги по разным темам ТОРА-Центр. Статьи экспертов и сотрудников фирмы ТОРА-Центр. Стр. 1 из 2 Нейросети и анализ временных рядов.

В части, касающейся финансистов...

(продолжение) Михаил Болдырев, ТОРА-Центр В начале статьи, опубликованном в предыдущем номере, на примере популярной системы Ward System были рассмотрены возможности и характеристики современных нейропрограмм.

обзору задач, как правило решаемых с помощью нейросетей.

Немного теории...

При решениии той или иной задачи мы опираемся на доказанную теорему, в общем случае представляемую так: если задача имеет решение в рамках классического набора математически задачи может быть реализовано с помощью нейросети обратного распространения, причем с количеством слоев не более трех (имеются в виду входной, скрытый и выходной слои).

В подавляющем большинстве задач (90%) действительно используются сети с алгоритмом настройки, названным Уобратное распространениеФ (Back Propagation, Backprop). Этот алгори в работе, хотя и не самым точным в результатах. Дело в том, что любой алгоритм настройки (парадигма) нейросети является множественно-вероятностной. Поэтому, задумываясь о выбор мы ни в коем случае не отрицаем тот факт, что точность решения при использовании методов классического анализа получится выше.. Но, во-первых, время, затраченное на Уклассическое непомерно большим для конкретной задачи. Во-вторых, стабильность такого решения (его применимость для широкого диапазона реальных значений) - тоже вопрос, а время корректиров разработкой новой. Наконец, в-третьих, для решения задач классическими методами требуются достаточно квалифицированные специалисты с хорошей математической подготовкой. Ней от указанных недостатков.

High Date Low Close Volume Open Int. 01/01/96 85.997 83.012 84.756 19567 10054.....

02/01/96 86.003 83.976 84.563 20057 12138....

03/01/96 88.113 84.103 86.435 21774 11097....

........................

Вернемся к обратному распространению. Когда мы оцениваем перспективы получения конкретного решения, то на одной чаше весов лежит та степень точности, которая нас устраивает и настройке сети. На другой чаше лежит ответ на вопрос: Убудет ли получено решение с заданной точностью вообще и за какое время Ф. Планируя решение задачи мы располагаем набором может быть временной ряд, кодированное изображение, любой процесс, описанный в виде набора формальных параметров и рядя их значений (см. таблицу 1). Таблица разделяется на кол обучающих шаблонов (они же выходные значения). В идеальном случае для нейросети требуется предъявление минимума наиболее совместных данных, то есть таких, которые наиболее п рассматриваемого процесса. Но практически мы затрудняемся явно определить, какие именно данные содержат более значимую информацию, а какие - менее значимую. Поэтому в реальн проделать большую работу по подбору данных, которые, на наш взгляд, имеют отношение к исследуемой задаче. (В скобках замечу, что подбор и предобработка, УпричесываниеФ входной времени аналитика, о способах ее подготовки будет отдельный разговор). Весь фокус в том, что не существует в нейросетевой науке более-менее стабильных и общепризнанных методик д времени настройки нейросети. Бывает так, что весьма большой массив данных сеть обрабатывает за приемлемое время (час-полтора), а бывает, что с виду нехитрая задача заставляет сеть будет ходить вокруг компьютера несколько часов (дней), чтобы выяснить, что сеть Увпала в маразмФ и отказывается работать дальше Существуют разные подходы к решению этой пробл Практические приемы.

Предобработка данных. Эта часть решения задачи целик крепкие плечи (голову) аналитика. Состав и гл статистической выборки как обучающей послед имеет для нейросети такое же значение, как и в управляющие параметры. Что касается состава возникает широкое поле для экспериментов. По включение в данные дневной цены семечек на вряд ли будет иметь смысл в задаче прогноза ц (впрочем, как знать ). Пассажи такого типа ана специальной подготовки. Однако, с другой стор располагает значительным количеством делов прямо или косвенно относящейся к УегоФ сектор Проблема в том, как отфильтровать информац нужные данные.

Во-первых, современные нейропакеты, как правило, содержат функцию Уопределение чувствительности входамФ (см. рис 1). Практически имеющиеся данные Усваливаются в кучу У, а затем нейросеть посли сери предварительных прогонов дает развернутую картину приоритетности входных данных. Этот метод скоре оптимальный (вспомним неопределенное время обучения !), зато наиболее доступный в смысле затрат ус Во-вторых, существуют методы кластерного, корреляционно time series analysis), которые позволяют сгруппировать да анализа временных рядов ( взаимосвязи разных групп (отдельных элементов) в численном виде, а также определить в том же численном диапазонах значений как групп, так и отдельных элементов (см. рис 2). Это также дает аналитику некоторую 17.06.ТОРА-Центр. Статьи экспертов и сотрудников фирмы ТОРА-Центр. Стр. 2 из выборе данных и задани их глубины.

В-третьих, существует целое направление в финансовом анализе, технология Data Maining (буквально - Узаготовка данныхФ), которое пытается ответить на вопрос: Укак извлечь интуитив применения знания из больших информационных объемов, причем достаточно быстрым и эффективным способомФ. И существуют различные программные инструменты, которые такую Например, пакет IDIS фирмы Information Discovery в результате работы порождает систему явных правил, описывающих взаимосвязь между полями вашей базы данных с указанием степ возможностью обработки исключительных и противоречивых ситуаций. Система на основе нечеткой логики CubiCalc 2.0 фирмы HyperLogic имеет в своем составе элемент Rule Maker, множество нечетких правил из предоставляемых вами данных, либо аппроксимирует сложные функции на основе тех же данных. И в том, и в другом случае в качестве УдвигателяФ (rule e сети, работающие в режиме классификации.

Наконец, в-четвертых, проблема противоречивости данных. Излишне говорить, что плохое качество исходных данных может Усвести на нет У все ваши усилия по их подбору. Эта проблем рынках, на российском - особо. Фирмой ТОРА-Центр на основании анкетирования многих клиентов и учета их пожеланий было проведено специальное маркетинговое исследование в обл услуг в Москве. Учитывалось количество предоставляемой информации, частота ее обновления и уровень предоставляемого сервиса по ряду параметров. В числе прочего выяснился любо агенства, имеющие внутрифирменный стандарт передачи данных (не декларируемый, а фактический) - скорее исключение, чем правило. Этот факт означает, что возможность (или невоз обработки данных - это количество ваших же часов и головной боли, потраченных в борьбе с табличным процессором в деле формирования собственной базы данных (это утверждение пр Постановка задачи. Существенный, хотя, на первый взгляд, очевидный момент. Попытки нахождения того, что вы сами представляете смутно, часто приводит к процессу Удостижения ли формах.

Общим местом стала необходимость привлечения квалифицированных экспертов. Например, вы предполагаете, что УвашФ сектор рынка сильно зависит от изменений политического (соци Нейросети здесь наготове, но сразу возникает проблема эффективной формализации указанных вами факторов, то есть, опять же, сбора информации, ее классификации и составления мод Другое общее место - применение специальных технологий и соответствующего программного обеспечения. Например, технология реинжиниринга, ставшего на Западе экономическим ид как имитационное моделирование (разновидность системного анализа) воплощена в пакете iThink фирмы High Performance System (HPS). Применение такого подхода, конечно, требует но, во-первых, порождает систему моделей, привязанных к конкретной предметной области (и представляющих самостоятельную ценность), во-вторых, освобождает вас от применения Ум решения.

Выбор парадигмы нейросети, то есть ее конструктивного типа и связанного с ним алгоритма обучения.

Таковых существует около 30 (т.к. для некоторых сходимость не доказана), объединенных в несколько групп. Некоторые из них представляют интерес в основном для исследований (как, другие находят широкое применение в коммерческих задачах. Одни нейропакеты, включают все известные парадигмы и представляют собой элементные УконструкторыФ для создания пр OWL фирмы HyperLogic c полным набором нейро- и fuzzy- парадигм. Или роскошнейший Explore Net фирмы Hecht-Nielsen Company (HNC) - одного из УпатриарховФ в мире нейроком специализированных нейрокомпьютеров и систем класса FALCON. Другие системы - коммерческие - в большинстве своем содержат сети: обратного распространения (широчайший круг распространения, сети с механизмами рекуррентных связей (реализуется механизм задания УассоциацийФ и дает неплохие результаты прогноза временных рядов), сети Кохонена (задачи к стохастическими методами обучения (обучение и работа с неполными данными) и в редких случаях - сети с линейными алгоритмами обучения (возможность преобразования аппроксимир вычислением коэффициентов). Их применимость детально описана в различной литературе, но в общих случаях рекомендуется двигаться Уот простого к сложномуФ, то есть начинать с Ba Настройка сети и проверка качества настройки.

Вопрос настройки - отдельная большая тема. В сложных ситуациях процесс может занимать часы и дни. Один мз критериев качества настройки - способность сети распознавать данные, н этого из обучающего набора извлекается Утестовое множествоФ (обычно 10-20%), которым периодически проверяется работоспособность сети. Отсюда же вытекает понятие Упереобучени начинает расти, хотя обучающая уменьшается. Такая ситуация говорит о том, что обучение надо прекратить и поменять исходные настройки и (или) состав данных.

Критерием работоспособности сети является для вас среднеквадратичная ошибка обучения. Ее можно характеризовать как Устепень разбросаФ прогнозируемых данных. Точнее - вероятно величины за диапазон, заданный при настройке. Диапазон изменения - весьма существенный показатель, вне которого сеть не сможет функционировать корректно. Другой критерий работ повторяемость точности получаемых прогнозов, определяемая серией экспериментов в УреальномФ режиме.

Итак, мы с вами прошли весь цикл нейросетевого решения решения задачи. Все это замечательно, скажете вы, но каковы результаты реального применения.

17.06.    Книги по разным темам