Книги по разным темам Pages:     | 1 |   ...   | 23 | 24 | 25 |

Во втором случае обучение проводится безучителя, при предъявлении входных образов сеть самоорганизуется посредствомнастройки своих весов согласно определенному алгоритму. Вследствие отсутствияуказания требуемого выхода в процессе обучения результаты непредсказуемы сточки зрения определения возбуждающих образов для конкретных нейронов. Приэтом, однако, сеть организуется в форме, отражающей существенные характеристикиобучающего набора. Например, входные образы могут быть классифицированысогласно степени их сходства так, что образы одного класса активизируют один итот же выходной нейрон.

      1. МЕТОД ОБУЧЕНИЯ ХЭББА

Работа [2] обеспечила основу для большинстваалгоритмов обучения, которые были разработаны после ее выхода. В предшествующихэтой работе трудах в общем виде определялось, что обучение в биологическихсистемах происходит посредством некоторых физических изменений в нейронах,однако отсутствовали идеи о том, каким образом это в действительности можетиметь место. Основываясь на физиологических и психологических исследованиях,Хэбб в [2] интуитивно выдвинул гипотезу о том, каким образом может обучатьсянабор биологических нейронов. Его теория предполагает только локальноевзаимодействие между нейронами при отсутствии глобального учителя;следовательно, обучение является неуправляемым, Несмотря на то что его работане включает математического анализа, идеи, изложенные в ней, настолько ясны инепринужденны, что получили статус универсальных допущений. Его книга сталаклассической и широко изучается специалистами, имеющими серьезный интерес вэтой области.

        1. Алгоритмобучения Хэбба

По существу Хэбб предположил, чтосинаптическое соединение двух нейронов усиливается, если оба эти нейронавозбуждены. Это можно представить как усиление синапса в соответствии скорреляцией уровней возбужденных нейронов, соединяемых данным синапсом. По этойпричине алгоритм обучения Хэбба иногда называется корреляционнымалгоритмом.

Идея алгоритма выражается следующимравенством:

wij(t+1) =wij(t) +NETi NETj,

где wij(t) – сила синапса от нейронаi к нейрону j в момент времени t; NETi – уровень возбужденияпредсинаптического нейрона; NETj – уровеньвозбуждения постсинаптического нейрона.

Концепция Хэбба отвечает на сложный вопрос,каким образом обучение может проводиться без учителя. В методе Хэбба обучениеявляется исключительно локальным явлением, охватывающим только два нейрона исоединяющий их синапс; не требуется глобальной системы обратной связи дляразвития нейронных образований.

Последующее использование метода Хэбба дляобучения нейронных сетей привело к большим успехам, но наряду с этим показалоограниченность метода; некоторые образы просто не могут использоваться дляобучения этим методом. В результате появилось большое количество расширений инововведений, большинство из которых в значительной степени основано на работеХэбба.

        1. Методсигнального обучения Хэбба

Как мы видели, выход NET простогоискусственного нейрона является взвешенной суммой его входов. Это может бытьвыражено следующим образом:

где NETj – выходNET нейрона j;OUTi – выход нейрона i;wij– вес связи нейронаi с нейроном j.

Можно показать, что в этом случае линейнаямногослойная сеть не является более мощной, чем однослойная сеть;рассматриваемые возможности сети могут быть улучшены только введениемнелинейности в передаточную функцию нейрона. Говорят, что сеть, использующаясигмоидальную функцию активации и метод обучения Хэбба, обучается посигнальному методу Хэбба. В этом случае уравнение Хэбба модифицируетсяследующим образом:

wij(t+1) =wij(t) +OUTi OUTj

где wij(t) – сила синапса от нейронаi к нейрону j в момент времени t; OUTi – выходной уровеньпресинаптического нейрона равный F(NETi);OUTj – выходной уровеньпостсинаптического нейрона равный F(NET).

        1. Методдифференциального обучения Хэбба

Метод сигнального обучения Хэббапредполагает вычисление свертки предыдущих изменений выходов для определенияизменения весов. Настоящий метод, называемый методом дифференциального обученияХэбба, использует следующее равенство:

wij(t+1) =wij(t) +[OUTi(t) – OUTi(t–1)][ OUTj(t) –OUTj(t–1)],

где wij(t) – сила синапса от нейронаi к нейрону j в момент времени t; OUTi(t) –выходной уровень пресинаптического нейрона в момент времени t; OUTj(t) –выходной уровень постсинаптического нейрона в момент времени t.

Рис.аБ.1. Сеть ИнстарГроссберга

      1. ВХОДНЫЕ И ВЫХОДНЫЕЗВЕЗДЫ

Много общих идей, используемых вискусственных нейронных сетях, прослеживаются в работах Гроссберга; в качествепримера можно указать конфигурации входных и выходных звезд [I], используемыево многих сетевых парадигмах. Входная звезда, как показано на рис.аБ.1, состоитиз нейрона, на который подается группа входов через синапсические веса.Выходная звезда, показанная на рис.аБ.2, является нейроном, управляющим группойвесов. Входные и выходные звезды могут быть взаимно соединены в сети любойсложности; Гроссберг рассматривает их как модель определенных биологическихфункций. Вид звезды определяет ее название, однако звезды обычно изображаются всети иначе.

Рис.аБ.2. Сеть АутстарГроссберга

        1. Обучение входнойзвезды

Входная звезда выполняет распознаваниеобразов, т.ае. она обучается реагировать на определенный входной векторХ и ни на какой другой. Этообучение реализуется путем настройки весов таким образом, чтобы онисоответствовали входному вектору. Выход входной звезды определяется каквзвешенная сумма ее входов, как это описано в предыдущих разделах. С другойточки зрения, выход можно рассматривать как свертку входного вектора с весовымвектором, меру сходства нормализованных векторов. Следовательно, нейрон долженреагировать наиболее сильно на входной образ, которому был обучен.

Процесс обучения выражается следующимобразом:

wi(t+1) = wi(t) + α[xi – wi(t)],

где wi – вес входа хi; хi – i–й вход;α – нормирующий коэффициент обучения,который имеет начальное значение 0,1 и постепенно уменьшается в процессеобучения.

После завершения обучения предъявлениевходного вектора Х будетактивизировать обученный входной нейрон. Это можно рассматривать как единыйобучающий цикл, если αустановлен в 1, однако в этом случае исключается способность входной звезды кобобщению. Хорошо обученная входная звезда будет реагировать не только наопределенный единичный вектор, но также и на незначительные изменения этоговектора. Это достигается постепенной настройкой нейронных весов припредъявлении в процессе обучения векторов, представляющих нормальные вариациивходного вектора. Веса настраиваются таким образом, чтобы усреднить величиныобучающих векторов, и нейроны получают способность реагировать на любой векторэтого класса.

        1. Обучениевыходной звезды

В то время как входная звезда возбуждаетсявсякий раз при появлении определенного входного вектора, выходная звезда имеетдополнительную функцию; она вырабатывает требуемый возбуждающий сигнал длядругих нейронов всякий раз, когда возбуждается.

Для того чтобы обучить нейрон выходнойзвезды, его веса настраиваются в соответствии с требуемым целевым вектором.Алгоритм обучения может быть представлен символически следующимобразом:

wi(t+1) = wi(t) + β[yi – wi(t)],

где β представляет собой нормирующийкоэффициент обучения, который в начале приблизительно равен единице ипостепенно уменьшается до нуля в процессе обучения.

Как и в случае входной звезды, веса выходнойзвезды, постепенно настраиваются над множеством векторов, представляющих собойобычные вариации идеального вектора. В этом случае выходной сигнал нейроновпредставляет собой статистическую характеристику обучающего набора и может вдействительности сходиться в процессе обучения к идеальному вектору припредъявлении только искаженных версий вектора.

      1. ОБУЧЕНИЕ ПЕРСЕПТРОНА

В 1957 г. Розенблатт [4] разработал модель,которая вызвала большой интерес у исследователей. Несмотря на некоторыеограничения ее исходной формы, она стала основой для многих современных,наиболее сложных алгоритмов обучения с учителем. Персептрон является настольковажным, что вся гл.а2 посвящена его описанию; однако это описание являетсякратким и приводится в формате, несколько отличном от используемого в[4].

Персептрон является двухуровневой,нерекуррентной сетью, вид которой показан на рис.аБ.3. Она использует алгоритмобучения с учителем; другими словами, обучающая выборка состоит из множествавходных векторов, для каждого из которых указан свой требуемый вектор цели.Компоненты входного вектора представлены непрерывным диапазоном значений;компоненты вектора цели являются двоичными величинами (0 или 1). После обучениясеть получает на входе набор непрерывных входов и вырабатывает требуемый выходв виде вектора с бинарными компонентами.

Рис.аБ.3. Однослоиная нейроннаясеть

Обучение осуществляется следующимобразом:

  1. Рандомизируются все веса сети в малые величины.
  2. На вход сети подается входной обучающий вектор Х и вычисляется сигнал NET от каждогонейрона, используя стандартное выражение

.

  1. Вычисляется значение пороговой функции активации для сигнала NET откаждого нейрона следующим образом:

OUTj =1, еслиNETj больше чемпорогиj,

OUTj = 0 в противномслучае.

Здесь иj представляет собой порог,соответствующий нейрону j (впростейшем случае, все нейроны имеют один и тот же порог).

  1. Вычисляется ошибка для каждого нейрона посредством вычитанияполученного выхода из требуемого выхода:

errorj =targetj – OUTj.

  1. Каждый вес модифицируется следующим образом:

Wij(t+1) =wij(t)+αxierrorj.

  1. Повторяются шаги со второго по пятый до тех пор, пока ошибка нестанет достаточно малой.
      1. МЕТОД ОБУЧЕНИЯ УИДРОУ-ХОФФА

Как мы видели, персептрон ограничиваетсябинарными выходами. Уидроу вместе со студентом университета Хоффом расширилиалгоритм обучения персептрона на случай непрерывных выходов, используясигмоидальную функцию [5,6]. Кроме того, они разработали математическоедоказательство того, что сеть при определенных условиях будет сходиться к любойфункции, которую она может представить. Их первая модель – Адалин – имеет один выходной нейрон, болеепоздняя модель –Мадалин – расширяет еена случай с многими выходными нейронами.

Выражения, описывающие процесс обученияАдалина, очень схожи с персептронными. Существенные отличия имеются в четвертомшаге, где используются непрерывные сигналы NET вместо бинарных OUT.Модифицированный шаг 4 в этом случае реализуется следующим образом:

4. Вычисляется ошибка для каждого нейронапосредством вычитания полученного выхода из требуемого выхода:

errorj =targetj – NETj.

      1. МЕТОДЫ СТАТИСТИЧЕСКОГООБУЧЕНИЯ

В гл.а5 детально описаны статистическиеметоды обучения, поэтому здесь приводится лишь обзор этих методов.

Однослойные сети несколько ограничены сточки зрения проблем, которые они могут решать; однако в течение многих летотсутствовали методы обучения многослойных сетей. Статистическое обучениеобеспечивает путь решения этих проблем.

По аналогии обучение сети статистическимиспособами подобно процессу отжига металла. В процессе отжига температураметалла вначале повышается, пока атомы металла не начнут перемещаться почтисвободно. Затем температура постепенно уменьшается и атомы непрерывно стремятсяк минимальной энергетической конфигурации. При некоторой низкой температуреатомы переходят на низший энергетический уровень.

В искусственных нейронных сетях полнаявеличина энергии сети определяется как функция определенного множества сетевыхпеременных. Искусственная переменная температуры инициируется в большуювеличину, тем самым позволяя сетевым переменным претерпевать большие случайныеизменения. Изменения, приводящие к уменьшению полной энергии сети, сохраняются;изменения, приводящие к увеличению энергии, сохраняются в соответствии свероятностной функцией. Искусственная температура постепенно уменьшается стечением времени и сеть конвергирует в состояние минимума полнойэнергии.

Существует много вариаций на темустатистического обучения. Например, глобальная энергия может быть определенакак средняя квадратичная ошибка между полученным и желаемым выходным векторомиз обучаемого множества, а переменными могут быть веса сети. В этом случае сетьможет быть обучена, начиная с высокой искусственной температуры, путемвыполнения следующих шагов:

  1. Подать обучающий вектор на вход сети и вычислить выход согласносоответствующим сетевым правилам.
  2. Вычислить значение средней квадратичной ошибки между желаемым иполученным выходными векторами.
  3. Изменить сетевые веса случайным образом, затем вычислить новыйвыход и результирующую ошибку. Если ошибка уменьшилась, оставить измененныйвес; если ошибка увеличилась, оставить измененный вес с вероятностью,определяемой распределением Больцмана. Если изменения весов не производится, товернуть вес к его предыдущему •значению.
  4. Повторить шаги с 1 по 3, постепенно уменьшая искусственнуютемпературу.

Если величина случайного изменения весовопределяется в соответствии с распределением Больцмана, сходимость кглобальному минимуму будет осуществляться только в том случае, если температураизменяется обратно пропорционально логарифму прошедшего времени обучения. Этоможет привести к невероятной длительности процесса обучения, поэтому большоевнимание уделялось поиску более быстрых методов обучения. Выбором размера шагав соответствии с распределением Коши может быть достигнуто уменьшениетемпературы, обратно пропорциональное обучающему времени, что существенноуменьшает время, требуемое для сходимости.

Заметим, что существует класс статистическихметодов для нейронных сетей, в которых переменными сети являются выходынейронов, а не веса. В гл.а5 эти алгоритмы рассматривалисьподробно.

Pages:     | 1 |   ...   | 23 | 24 | 25 |    Книги по разным темам