Банковское дело / Доходы и расходы / Лизинг / Финансовая статистика / Финансовый анализ / Финансовый менеджмент / Финансы / Финансы и кредит / Финансы предприятий / Шпаргалки Главная Финансы Финансы
Д.Э. БЭСТЕНС, В.М. ВАН ДЕН БЕРГ, Д. ВУД. Нейронные сети и финансовые рынки: принятие решений в торговых операциях. - Москва: ТВП,1997. - хх, 236 с., 1997 | |
МНОГОСЛОЙНАЯ СХЕМА С ОБРАТНЫМ РАСПРОСТРАНЕНИЕМ ОШИБКИ |
|
С применением алгоритма Nevada Quickrop (см. гл. 1) на мэйнфрейм-машине Convex были опробованы сети различной архитектуры. Базовая структура сети проста: входной вектор из шести переменных и одномерный выход (переменная VWNY). Остается выбрать число скрытых слоев и число нейронов. Далее, поскольку результаты Чена, Ролла и Росса указывают на присутствие линейных связей между входами и выходом, способность сети к обобщению может быть увеличена за счет прямых связей между входными и выходным элементами. В отсутствие каких-либо готовых схем для оптимального выбора модели исследователь должен опробовать различные статистические критерии согласия. Так, Утанс и Муди [270] оценивали риск предсказания, полученный при различных архитектурах сети, а Каяма и др. [157] находили общее число дублирующих друг друга элементов в скрытом слое. Мы же просто сравнивали величины квадратного корня из среднеквадратичной ошибки (ЯМБЕ) на тестовом множестве, состоящем из 60 наблюдений, относящихся к последним 5 годам интервала наблюдений (1981-85 гг.). Для дальнейшей работы была взята та архитектура сети, которая давала наименьшее ИМБЕ. Конфигурация Прямые связи Эпохи (КМБЕ) Коэффициент обучения 0.9 6-2-1 нет 29000 0.12014 6-3-1 нет 6500 0.10687 6-4-1 нет 3000 0.10881 6-5-1 нет 6000 0.10872 6-5-4-1 нет 1500 0.10872 6-2-1 есть 7000 0.10819 6-3-1 есть 13000 0.10468 6-5-1 есть 1500 0.10918 Коэффициент обучения 2 6-3-1 нет 4500 0.10739 6-3-1 есть 22000 0.10529 Таблица 6.3. Квадратный корень из средней квадратичной ошибки на подтверждающем множестве для полностью обученных сетей различной архитектуры Для того чтобы ошибочно не принять раньше времени локальный минимум погрешности обобщения за глобальный, наш алгоритм брал вдвое большее число эпох по сравнению с тем, на котором достигалось наилучшее обобщение. Таким образом, на самом деле, число эпох было вдвое больше, чем показано в табл. 6.3 и на рис. 6.1. При любом выборе коэффициента обучения ошибка ИМБЕ на тестовом множестве оказывалась меньше, чем на обучающем. Этот в некоторой степени удивительный эффект может объясняться наличием белого шума в обучающем множестве и его отсутствием в тестовом множестве. Поскольку обучение прекращалось, как только ИМБЕ на тестовом множестве начинала расти, мы полагаем, что переобучение не имело места, и что сеть не запоминала шум. Таким образом, относительно большая погрешность на обучающем множестве объясняется именно белым шумом. обучение, коэфф. = 0.9 тестирование, коэфф. = 0.9 I I I I и 2500 5000 7500 10000 12500 15000 17500 Число эпох Рис. 6.1. Квадратный корень из среднеквадратичной ошибки дяя 6-3-1 сети с прямыми связями и коэффициентом обучения 0.9 обучение, коэфф. = 2 тестирование, коэфф. = 2 л _1_ _1_ 2500 5000 7500 10000 Число эпох 12500 15000 17500 Рис. 6.2. Квадратный корень из среднеквадратичной ошибки для 6-3-1 сети с прямыми связями и коэффициентом обучения 2 _ 0.85000 - о 5 0.75000 - со e" 0.65000 - я 0.55000 -< 3 / я 0.45000 L о /. в- / 0.35000 - ? > 0.25000 - ? 0 15000 ' 1 ' ' 1 1 LЧ1 1 1 1 ' 1 1 m-^-^-^u^invovovoi^l^ooooooOsos Случай VWNY Регрессия Сеть Рис. 6.3. Сравнение оценочных значений переменной VWNY, полученных регрессией и сетью, с ее истинными значениями Среди всех конфигураций наилучшей (имеющей наименьшее RMSE на подтверждающем множестве) оказалась 6-3-1 сеть с прямыми связями и коэффициентом обучения 0.9. Желая получить решение за кратчайшее время (в пределах 13 тыс. эпох), мы увеличили коэффициент обучения в два раза (до 2). Шаги в направлении градиента теперь стали очень большими, и мы перескакивали через решение. Поэтому даже оптимально обученной сети понадобилось гораздо больше, чем 13 тыс. эпох (а именно, 22 тыс.). На рис. 6.1 видно, как RMSE быстро убывает в первые 500 эпох, а после 12 тыс. эпох начинает осциллировать. На рис. 6.3 показаны оценки, полученные на подтверждающем множестве (которое соответствует 1981-85 гг.) с помощью OLS-per- рессии и 6-3-1 сети. Оценки, которые выдала сеть, оказались лучше всех, которые дает регрессионный анализ, как по показателю RMSE, так и коэффициентам корреляции Пирсона. При этом результаты, которые сеть показывает на новых образцах, даже превосходят те, которые регрессия имела на обучающем множестве (REGI). До сих пор мы сравнивали между собой сетевые архитектуры с различным числом скрытых слоев и нейронов, предполагая, что каждый входной сигнал, действительно, влияет на результат. Однако, как уже говорилось, непредвиденная инфляция (UI) и месячное производство (МР) существенно не влияют на среднеквадратичную ошибку. В связи с этим возникает вопрос о том, нельзя ли эти переменные безболезненно изъять из дальнейшего рассмотрения. Явля ются ли эти переменные просто несущественными, т.е. не ВЛИЯЮЩИМИ на выходной сигнал, или же они избыточные, т.е. могут быть представлены в виде линейной (или нелинейной) комбинации остальных? RM SE на обучающем и тестовом множествах REGI REG2 обучение 0.1207 0.123 тестирование - 0.109 Корреляция Пирсона между проверок ными множествами VWNY Регрессия VWNY 1 Регрессия .66** 1 Сеть .68** .97** ** - при 1-процентных хвостах распределения Таблица 6.4. Критерии согласия для выходов регрессии и сети RMSE DC631 UI(f) DEI(f) URP(f) UTS(f) МР(+1) YP(f+ 12) Общ. 0.117 0.118 0.120 0.141 0.148 0.117 0.119 Обуч. 0.119 0.120 0.123 0.143 0.139 0.119 0.121 Тест. 0.105 0.106 0.108 0.128 0.191 0.106 0.108 Разница в RMSE ( в процентах) Общ. 100 0.94 2.88 20.30 26.45 0.33 1.74 Обуч. 100 0.91 2.87 20.02 16.54 0.26 1.51 Тест. 100 1.19 2.95 22.27 82.91 0.82 3.39 Таблица 6.5. Вклад всех переменных в решение на обучающем, тестовом множествах и на всех данных Чтобы оценить вклад переменных, мы вычисляли выход сети с оптимальным вектором весов с помощью пакета Microsoft Excel, версия 4. Затем про каждую переменную по очереди мы временно полагали, что ее значение неизвестно и должно быть заменено на среднее арифметическое (безусловное ожидание) этих значений при постоянных исходных значениях остальных пяти переменных. В результате получилось 6 новых входных матриц. Затем мы вычислили выходы сети для всех этих матриц. Для шести полученных выходных рядов подсчитывалась RMSE и сравнивалась с RMSE исходной входной матрицы. Идея была в том, что для переменной, которая активно влияет на решение, RMSE на соответствующем выходном векторе должна быть заметно больше, чем для исходной входной матрицы. Сеть 0.1191 0.1047 Сеть Все вычисленные таким образом RMSE оказались больше исходной. Такое увеличение означает, что замена переменной ее безуслов ным ожиданием ухудшает оценку целевой переменной. В случаях с временной структурой и премией за риск рост ЯМБЕ был самым большим (соответственно, 83% и 22% на проверочном множестве). Вспомните, что эти две переменные по результатам регрессионного анализа на всех подинтервалах также были оценены как имеющие сильное влияние. Далее, выявилось такое любопытное обстоятельство: переменные, которые по результатам регрессионного анализа были квалифицированы как неактивные, на самом деле, влияют на решение. Непредвиденная инфляция и месячная продукция имеют определенную лобъясняющую роль и не могут быть заменены комбинациями других входных переменных. Различия между сетью и ОЬБ-регрессией становятся разительными, когда в данных присутствуют нелинейности, которые можно уловить с помощью сигмоидальной функции преобразования. Ви- генд [275] ввел следующую меру улучшения результата за счет функции активации по сравнению с ОЬБ: ^ _ дисперсия остатков (нелинейная модель) дисперсия остатков (линейная модель) Ее значение всегда лежит в интервале от 0 до 1, поскольку от того, что сеть при обучении улавливает содержащиеся в данных нелинейности, погрешность может только уменьшиться. Значения этого отношения для обучающего и проверочного множеств оказались равны, соответственно, 0.94 и 0.92, и это говорит о том, что либо сеть плохо использует свои нелинейные возможности, либо нелинейно- стей в данных просто нет. Мы подозреваем второе, потому что база данных строилась с помощью линейных моделей, для того чтобы выделить взаимно не коррелирующие экономические факторы. Большим значением данного отношения объясняется то обстоятельство, что обученная сеть лишь незначительно превосходит ОЬБ-рег- рессию по критерию ИМБЕ. Однако остается фактом то, что нейронные сети превосходят ОЬБ-регрессию даже при работе с такими данными, в которых нелинейные связи между входами и целевой переменной выражены слабо. |
|
<< Предыдушая | Следующая >> |
= К содержанию = | |
Похожие документы: "МНОГОСЛОЙНАЯ СХЕМА С ОБРАТНЫМ РАСПРОСТРАНЕНИЕМ ОШИБКИ" |
|
|