Книги по разным темам Pages:     | 1 | 2 | В ЗВ З ЙД З Введение в нейронные сети ЗВ ЗВ nscalp@mail.ru В прессе про нейросети говорят, как правило, общими фразами принципов их действия. Работающие трейдеры, как правило, не и часто в восторженных тонах. Специалисты, занимающиеся имеют специальной подготовки по нейросетевым технологиям, а этой проблемой, трезво оценивают возможность использования академические статьи не объясняют, как ими пользоваться.

нейросетей, понимая их истинные достоинства и недостатки. В этой статье делается попытка определить круг базовых Потенциал у нейронных технологий огромен, но их эффективное понятий, на основе которых новички приобретут некоторые использование требует определенного уровня знаний и понимания навыки работы в этой интересной области.

История возникновения ко вперед, однако многие утверждения Персептрон, воспринятый первоначальнейронных сетей У. Маккаллока остаются актуальными и но безоговорочно и с большим энтузиазпо сей день. В частности, при большом мом, вскоре подвергся интенсивным наЧеловека всегда интересовало устрой- разнообразии моделей нейронов прин- падкам со стороны крупных научных авство мозга, принципы его работы и орга- цип их действия, заложенный У. Мак- торитетов.

низации. Первая математическая модель каллоком и У. Питтсом, остается неиз- В 1982 году американский биофизик нейрона (базового элемента мозга) была менным. Недостатком модели У. Мак- Дж. Хопфилд (Hopfield J.) предложил создана в 1943 году, когда американский каллока является сама модель нейрона Ч оригинальную модель нейронной сети, в ученый Уоррен Маккаллок (McCulloch пороговый вид активационной функ- дальнейшем названную его именем.

W.) и его ученик У. Питтс (Pitts W.) ции. Пороговый вид функции не дает Сеть Дж. Хопфилда имеет обратные свясформулировали основные положения нейронной сети достаточную гибкость зи между слоями, что увеличивает ее теории деятельности головного мозга. при обучении и настройке на поставлен- обобщающие свойства, такие сети наИми было сделано следующее: ную задачу. шли широкое применение при распознаХ разработана модель нейрона как про- Дальнейшее развитие теория нейрон- вании образов. В последующие нескольстейшего процессорного элемента, ных сетей получила в работах американ- ко лет было найдено множество эффеквыполнявшего вычисление переход- ского нейрофизиолога Френсиса Розен- тивных алгоритмов и архитектур ной функции от скалярного произве- блата (Rosenblatt F.). В 1958 году он пред- нейросетей, таких как сеть обратного дения вектора входных сигналов и век- ложил свою модель нейронной сети. распространения, двунаправленная ассотора весовых коэффициентов; Ф. Розенблат ввел в модель У. Маккалло- циативная память, самоорганизующиеся Х предложена конструкция сети таких ка и У. Питтса способность связей к мо- карты и др.

элементов для выполнения логичес- дификации, что сделало ее обучаемой. Построение любой нейронной сети ких и арифметических операций; Эта модель была названа персептроном. предполагает большой объем вычислеХ сделано основополагающее предполо- Первоначально персептрон представлял ний (обучение сети обычно является жение о том, что такая сеть способна собой однослойную структуру с жесткой итерационным процессом). Поэтому обучаться, распознавать образы, обоб- пороговой функцией процессорного только с ростом вычислительной мощщать полученную информацию. элемента и бинарными или многознач- ности компьютеров появилась возможЗа прошедшие десятилетия теория ными входами, в дальнейшем эта модель ность практического применения нейронейронных сетей ушла достаточно дале- была значительно усовершенствована. сетей, что дало мощный толчок к широ12 ЧВ ЙД 2 www.m-trading.ru Т кому распространению программ, ис- водится необходимое нелинейное преоб- ти нейросети существенно выше возпользующих принципы нейросетевой разование: можностей отдельных нейронов.

обработки данных. Выше описанная модель нейрона пренебрегает многими известными ха.

Искусственный нейрон рактеристиками биологического проЭта функция называется активацион- тотипа, которые некоторые исследоваИскусственные нейросети чрезвычайно ной, примеры таких функций приведены тели считают критическими. Наприразнообразны по своей архитектуре, и в на рис. 2. Наиболее часто на практике мер, в ней не учитывают нелинейность настоящее время создано более 20 их па- применяется сигмоидальная (логистиче- пространственно-временной суммарадигм1. Все они имеет простой общий ская) функция вида: ции, которая особенно существенна базовый элемент Ч искусственный ней- для сигналов, приходящих по возбужрон (рис. 1), который имитирует свойст- дающим и тормозящим синапсам; разва своего биологического родителя.. личного рода временные задержки; эфНа вход искусственного нейрона (см. фекты синхронизации и частотной морис. 1) подается набор входных сигналов Эта функция позволяет работать как дуляции; рефлекторность и т. п.

x1, x2,..., xn (входной вектор X), представ- со слабыми уровнями возбуждения (зна- Невзирая на эти отклонения, сети, поляющий собой выходные сигналы дру- чения около 0), так и с большими уров- строенные на основе таких нейронов, гих нейроподобных элементов или вход- нями возбуждения нейрона. При силь- демонстрируют ассоциативные свойства, напоминающие свойства биологических систем, и успешно применяются на практике.

Многослойная нейронная сеть Как и человеческий мозг, нейросеть состоит из множества простейших элементов Ч нейронов, взаимодействующих друг с другом. Именно их совокупность обеспечивает уникальность свойств нейронных сетей, таких как способность к обобщению, работа с зашумленными и неполными данными и др.

Среди всего разнообразия архитектур нейронных сетей наибольшее распространение получили многослойные. Фактически эти сети стали классическим, и когда в литературе говорится о нейросеЦ. 1. Й З тях, обычно подразумевают многослойные полно связанные сети. Поэтому расные сигналы нейросети. Каждый вход- ных уровнях сигнала происходит насы- смотрим их подробнее и приведем приной сигнал умножается на щение активационной функции2, и меры использования.

соответствующий вес связи w1, w2,..., таким образом, нейрон функционирует В такой архитектуре нейроны объедиwn Ч аналог эффективности синапса. Вес в широком диапазоне входных сигналов. нены в так называемые слои. Под слоем этой связи является положительным для Коэффициент определяет крутизну понимается совокупность нейронов, возбуждающей и отрицательным для сигмоида. входы которых соединены с выходами тормозящей связи нейрона. Взвешенные Нелинейность функции активации нейронов предыдущего слоя, а в свою весами связей, входные сигналы посту- F(S) очень важна и принципиальна; если очередь, выходы нейронов этого слоя явпают на блок суммации (по своей сути бы нейроны были линейными элемента- ляются входами для следующего слоя.

являющийся аналогом тела клетки в би- ми (использовали линейную функцию Обычно слоистые сети являются полно ологическом нейроне), где вычисляется активации), то любая последователь- связанными, то есть входы каждого нейих алгебраическая сумма и определяется ность нейронов также производила бы рона слоя связаны со всеми выходами уровень возбуждения нейрона S: линейное преобразование и вся нейро- нейронов предыдущего слоя. Пример сеть была бы эквивалентна одному ней- двухслойной полносвязанной нейросети рону (или одному слою нейронов Ч в приведен на рис. 3. В нейропрограммах, случае нескольких выходов). Нелиней- пользователь может легко задать требуегде: Ч порог возбуждения нейрона. ность разрушает линейную суперпози- мую структуру нейронной сети (рис. 4), Затем над уровнем возбуждения S произ- цию и приводит к тому, что возможнос- определив для этого лишь число слоев и Парадигма (здесь) Ч исходная концептуальная схема нейронной сети (базовый вариант).

Насыщение активационной функции Ч состояние нейрона, при котором значительное изменение параметров входа приводит к очень малым изменениям параметров выхода.

2 2001 ЧВ ЙД В ЗВ З ЙД З нейронов в них. Практическое распрост- классификации, при которой выделяе- (веса синапса) между одновременно ранение таких сетей объясняется хоро- мые классы можно разделить гиперплос- активными нейронами. Часто испольшо отработанными алгоритмами обу- костями (для нейросети с двумя входа- зуемые связи усиливаются, и этим чения и широким классом решаемых ми Ч прямыми линиями). объясняется феномен обучаемости ими задач. нейросетей путем повторения и привыкания. В настоящее время выработано достаточное количество разнообразных обучающих правил (алгоритмов обучения).

Все это многообразие можно разделить на две условные группы Ч лобучение без учителя и лобучение с учителем. При лобучении без учителя нет эталонных выходных значений, и нейросеть сама обучается на входных примерах, выявляя в них закономерности и проводя самоорганизацию. Наиболее известной архитектурой такой нейросети являются самоорганизующиеся карты Кохонена (Self-Organizing Maps), о которых будет рассказано в дальнейшем.

В процессе лобучения с учителем на входы нейросети подаются входные значения и затем производится сравнеЦ. 2. С ЗВЗ ние полученных выходных значений с требуемыми. Фактически требуемые Не полносвязанные нейросети явля- Обучение нейросети (эталонные) значения выходов играют ются частным случаем. Отсутствие связи роль лучителя, каждый раз давая урок эквивалентно нулевому коэффициенту Одно из важнейших свойств нейрон- нейросети. Рассматриваемые в этой веса связи. ной сети Ч ее способность к самоорга- статье многослойные сети обучаются Чаще применяются нейросети имею- низации, самоадаптации с целью улуч- по этому принципу.

щие два и более слоев. Однослойные шения качества функционирования. Когда в сети есть только один слой, нейронные сети имеют один существен- Эта цель достигается путем обучения то алгоритм ее обучения с учителем ный недостаток, они не решают задачу сети, алгоритм задается набором пра- довольно очевиден, так как правильные выходные состояния нейронов единственного слоя заведомо известны и подстройка весов (синаптических связей) идет в направлении минимизации ошибки на выходе. В многослойных же сетях оптимальные выходные значения нейронов всех слоев, кроме последнего, как правило, не известны, и их уже невозможно обучить, руководствуясь только величинами ошибок на выходах НС.

Тренировка многослойных нейронных сетей проводится с помощью алгоритма обратного распространения ошибки (back propagation). Этот алгоритм является обобщением одной из процедур обучения простого персептрона, известной как дельта-правило, и требует наличия обучающей выборки. Выборка состоит из набора пары векторов Ц. 3. ВЗ З (входной и выходной), между которыми надо установить соответствие.

классификации линейно неразделимых вил. Обучающие правила определяют, Алгоритм обратного распространения классов, которая в литературе носит на- каким образом изменяются связи в от- ошибки является одной из разновидносзвание задачи лисключающего ИЛИ. вет на входное воздействие. Обучение тей градиентного спуска, минимизируюЛинейно разделимая задача Ч задача основано на увеличении силы связи щий суммарную квадратичную ошибку:

14 ЧВ ЙД 2 www.m-trading.ru Т Перед началом обучения связям при- Х в процессе обучения может возниксваиваются небольшие случайные значе- нуть ситуация, когда большие полония. Каждая итерация процедуры состо- жительные или отрицательные знаит из двух фаз. Во время первой фазы чения весов переведут нейрон в об(прямой проход) на сеть подается вход- ласть насыщения активационной где: Ч реальное выходное состоя- ной вектор путем установки в нужное функции;

ние нейрона i-го выходного слоя N ней- состояние входных элементов. Затем Х применение метода градиентного ронной сети при подаче на ее входы k-го входные сигналы распространяются по спуска не гарантирует, что будет найобраза; Yi,k Ч идеальное (желаемое) вы- сети, порождая выходной вектор. ден глобальный, а не локальный миходное состояние этого нейрона. Идея Полученный выходной вектор сравни- нимум целевой функции;

алгоритма состоит в том, чтобы вычис- вается с требуемым (обратный проход). Х нет никаких предварительных оцелить чувствительность выхода нейрона к Если они совпадают, обучения не проис- нок требуемого времени для обучеизменению весов в случае возникнове- ходит. В противном случае вычисляется ния нейросети.

Наличие этих и другие, проблем подвигло разработчиков, в свою очередь, к созданию большого числа улучшенных алгоритмов обратного распространения ошибки, таких как использование производных второго порядка, пакетной обработки и т. д.

Отдельной проблемой при обучении с учителем является переобучение нейросети. Под переобучением понимается такое обучение, при котором теряются обобщающие свойства и нейросеть просто запоминает выходные данные. Другими словами на обучающей выборке сеть показывает великолепные результаты, а на новых данных или на подтверждающей выборке, результаты гораздо хуже. На рис. 5 покаЦ. 4. ЧЙЗ В ДЗ NeuroScalp зан момент наступления переобучения нейросети. При дальнейшем уменьшения ошибки. Для этого вычисляются ча- разница между фактическими и требуе- нии ошибки на обучающей выборке на стные производные от ошибки по весам. мыми выходными значениями, которая подтверждающей выборке ошибка увеДля работы алгоритма требуется, чтобы передается последовательно от выходно- личивается.

активационные функции нейронов бы- го слоя к входному. На основании ин- Основным методом борьбы с перели неубывающими и имели ограничен- формации об ошибке производится мо- обучением является введение механизную производную. При проведении дан- дификация весов связей. ма калибровки в алгоритм обучения.

ной операции обычно используют сиг- Описанный алгоритм хотя и является Калибровка подразумевает выделение моидальную активационную функцию широко распространенным, но все же из обучающего множества Ч специ(рис. 2.). имеет некоторые недостатки: ального калибровочного (подтверждающего). Процесс обучения проводится на обучающем множестве, а мониторинг и принятие решения об остановке обучения принимается по результатам прогона через нейросеть калибровочного множества примеров.

В большинстве случаев ошибка прогноза нейросети складывается из двух основных составляющих. Первая из них определяется недостаточным качеством аппроксимации и наличием шума во входных данных, вторая Ч недостатком информации, поданной на вход нейросети при обучении. Недостаток информации обычно вызван либо отсутствием во входах важных для прогноза переменных или/и малым размером обучающей выборки, не Ц. 5. отражающей всей полноты картины.

Pages:     | 1 | 2 |    Книги по разным темам