
Во втором случае обучение проводится безучителя, при предъявлении входных образов сеть самоорганизуется посредствомнастройки своих весов согласно определенному алгоритму. Вследствие отсутствияуказания требуемого выхода в процессе обучения результаты непредсказуемы сточки зрения определения возбуждающих образов для конкретных нейронов. Приэтом, однако, сеть организуется в форме, отражающей существенные характеристикиобучающего набора. Например, входные образы могут быть классифицированысогласно степени их сходства так, что образы одного класса активизируют один итот же выходной нейрон.
- МЕТОД ОБУЧЕНИЯ ХЭББА
Работа [2] обеспечила основу для большинстваалгоритмов обучения, которые были разработаны после ее выхода. В предшествующихэтой работе трудах в общем виде определялось, что обучение в биологическихсистемах происходит посредством некоторых физических изменений в нейронах,однако отсутствовали идеи о том, каким образом это в действительности можетиметь место. Основываясь на физиологических и психологических исследованиях,Хэбб в [2] интуитивно выдвинул гипотезу о том, каким образом может обучатьсянабор биологических нейронов. Его теория предполагает только локальноевзаимодействие между нейронами при отсутствии глобального учителя;следовательно, обучение является неуправляемым, Несмотря на то что его работане включает математического анализа, идеи, изложенные в ней, настолько ясны инепринужденны, что получили статус универсальных допущений. Его книга сталаклассической и широко изучается специалистами, имеющими серьезный интерес вэтой области.
- Алгоритмобучения Хэбба
По существу Хэбб предположил, чтосинаптическое соединение двух нейронов усиливается, если оба эти нейронавозбуждены. Это можно представить как усиление синапса в соответствии скорреляцией уровней возбужденных нейронов, соединяемых данным синапсом. По этойпричине алгоритм обучения Хэбба иногда называется корреляционнымалгоритмом.
Идея алгоритма выражается следующимравенством:
wij(t+1) =wij(t) +NETi NETj,
где wij(t) – сила синапса от нейронаi к нейрону j в момент времени t; NETi – уровень возбужденияпредсинаптического нейрона; NETj – уровеньвозбуждения постсинаптического нейрона.
Концепция Хэбба отвечает на сложный вопрос,каким образом обучение может проводиться без учителя. В методе Хэбба обучениеявляется исключительно локальным явлением, охватывающим только два нейрона исоединяющий их синапс; не требуется глобальной системы обратной связи дляразвития нейронных образований.
Последующее использование метода Хэбба дляобучения нейронных сетей привело к большим успехам, но наряду с этим показалоограниченность метода; некоторые образы просто не могут использоваться дляобучения этим методом. В результате появилось большое количество расширений инововведений, большинство из которых в значительной степени основано на работеХэбба.
- Методсигнального обучения Хэбба
Как мы видели, выход NET простогоискусственного нейрона является взвешенной суммой его входов. Это может бытьвыражено следующим образом:
где NETj – выходNET нейрона j;OUTi – выход нейрона i;wij– вес связи нейронаi с нейроном j.
Можно показать, что в этом случае линейнаямногослойная сеть не является более мощной, чем однослойная сеть;рассматриваемые возможности сети могут быть улучшены только введениемнелинейности в передаточную функцию нейрона. Говорят, что сеть, использующаясигмоидальную функцию активации и метод обучения Хэбба, обучается посигнальному методу Хэбба. В этом случае уравнение Хэбба модифицируетсяследующим образом:
wij(t+1) =wij(t) +OUTi OUTj
где wij(t) – сила синапса от нейронаi к нейрону j в момент времени t; OUTi – выходной уровеньпресинаптического нейрона равный F(NETi);OUTj – выходной уровеньпостсинаптического нейрона равный F(NET).
- Методдифференциального обучения Хэбба
Метод сигнального обучения Хэббапредполагает вычисление свертки предыдущих изменений выходов для определенияизменения весов. Настоящий метод, называемый методом дифференциального обученияХэбба, использует следующее равенство:
wij(t+1) =wij(t) +[OUTi(t) – OUTi(t–1)][ OUTj(t) –OUTj(t–1)],
где wij(t) – сила синапса от нейронаi к нейрону j в момент времени t; OUTi(t) –выходной уровень пресинаптического нейрона в момент времени t; OUTj(t) –выходной уровень постсинаптического нейрона в момент времени t.
Рис.аБ.1. Сеть ИнстарГроссберга
- ВХОДНЫЕ И ВЫХОДНЫЕЗВЕЗДЫ
Много общих идей, используемых вискусственных нейронных сетях, прослеживаются в работах Гроссберга; в качествепримера можно указать конфигурации входных и выходных звезд [I], используемыево многих сетевых парадигмах. Входная звезда, как показано на рис.аБ.1, состоитиз нейрона, на который подается группа входов через синапсические веса.Выходная звезда, показанная на рис.аБ.2, является нейроном, управляющим группойвесов. Входные и выходные звезды могут быть взаимно соединены в сети любойсложности; Гроссберг рассматривает их как модель определенных биологическихфункций. Вид звезды определяет ее название, однако звезды обычно изображаются всети иначе.
Рис.аБ.2. Сеть АутстарГроссберга
- Обучение входнойзвезды
Входная звезда выполняет распознаваниеобразов, т.ае. она обучается реагировать на определенный входной векторХ и ни на какой другой. Этообучение реализуется путем настройки весов таким образом, чтобы онисоответствовали входному вектору. Выход входной звезды определяется каквзвешенная сумма ее входов, как это описано в предыдущих разделах. С другойточки зрения, выход можно рассматривать как свертку входного вектора с весовымвектором, меру сходства нормализованных векторов. Следовательно, нейрон долженреагировать наиболее сильно на входной образ, которому был обучен.
Процесс обучения выражается следующимобразом:
wi(t+1) = wi(t) + α[xi – wi(t)],
где wi – вес входа хi; хi – i–й вход;α – нормирующий коэффициент обучения,который имеет начальное значение 0,1 и постепенно уменьшается в процессеобучения.
После завершения обучения предъявлениевходного вектора Х будетактивизировать обученный входной нейрон. Это можно рассматривать как единыйобучающий цикл, если αустановлен в 1, однако в этом случае исключается способность входной звезды кобобщению. Хорошо обученная входная звезда будет реагировать не только наопределенный единичный вектор, но также и на незначительные изменения этоговектора. Это достигается постепенной настройкой нейронных весов припредъявлении в процессе обучения векторов, представляющих нормальные вариациивходного вектора. Веса настраиваются таким образом, чтобы усреднить величиныобучающих векторов, и нейроны получают способность реагировать на любой векторэтого класса.
- Обучениевыходной звезды
В то время как входная звезда возбуждаетсявсякий раз при появлении определенного входного вектора, выходная звезда имеетдополнительную функцию; она вырабатывает требуемый возбуждающий сигнал длядругих нейронов всякий раз, когда возбуждается.
Для того чтобы обучить нейрон выходнойзвезды, его веса настраиваются в соответствии с требуемым целевым вектором.Алгоритм обучения может быть представлен символически следующимобразом:
wi(t+1) = wi(t) + β[yi – wi(t)],
где β представляет собой нормирующийкоэффициент обучения, который в начале приблизительно равен единице ипостепенно уменьшается до нуля в процессе обучения.
Как и в случае входной звезды, веса выходнойзвезды, постепенно настраиваются над множеством векторов, представляющих собойобычные вариации идеального вектора. В этом случае выходной сигнал нейроновпредставляет собой статистическую характеристику обучающего набора и может вдействительности сходиться в процессе обучения к идеальному вектору припредъявлении только искаженных версий вектора.
- ОБУЧЕНИЕ ПЕРСЕПТРОНА
В 1957 г. Розенблатт [4] разработал модель,которая вызвала большой интерес у исследователей. Несмотря на некоторыеограничения ее исходной формы, она стала основой для многих современных,наиболее сложных алгоритмов обучения с учителем. Персептрон является настольковажным, что вся гл.а2 посвящена его описанию; однако это описание являетсякратким и приводится в формате, несколько отличном от используемого в[4].
Персептрон является двухуровневой,нерекуррентной сетью, вид которой показан на рис.аБ.3. Она использует алгоритмобучения с учителем; другими словами, обучающая выборка состоит из множествавходных векторов, для каждого из которых указан свой требуемый вектор цели.Компоненты входного вектора представлены непрерывным диапазоном значений;компоненты вектора цели являются двоичными величинами (0 или 1). После обучениясеть получает на входе набор непрерывных входов и вырабатывает требуемый выходв виде вектора с бинарными компонентами.
Рис.аБ.3. Однослоиная нейроннаясеть
Обучение осуществляется следующимобразом:
- Рандомизируются все веса сети в малые величины.
- На вход сети подается входной обучающий вектор Х и вычисляется сигнал NET от каждогонейрона, используя стандартное выражение
.
- Вычисляется значение пороговой функции активации для сигнала NET откаждого нейрона следующим образом:
OUTj =1, еслиNETj больше чемпорогиj,
OUTj = 0 в противномслучае.
Здесь иj представляет собой порог,соответствующий нейрону j (впростейшем случае, все нейроны имеют один и тот же порог).
- Вычисляется ошибка для каждого нейрона посредством вычитанияполученного выхода из требуемого выхода:
errorj =targetj – OUTj.
- Каждый вес модифицируется следующим образом:
Wij(t+1) =wij(t)+αxierrorj.
- Повторяются шаги со второго по пятый до тех пор, пока ошибка нестанет достаточно малой.
- МЕТОД ОБУЧЕНИЯ УИДРОУ-ХОФФА
Как мы видели, персептрон ограничиваетсябинарными выходами. Уидроу вместе со студентом университета Хоффом расширилиалгоритм обучения персептрона на случай непрерывных выходов, используясигмоидальную функцию [5,6]. Кроме того, они разработали математическоедоказательство того, что сеть при определенных условиях будет сходиться к любойфункции, которую она может представить. Их первая модель – Адалин – имеет один выходной нейрон, болеепоздняя модель –Мадалин – расширяет еена случай с многими выходными нейронами.
Выражения, описывающие процесс обученияАдалина, очень схожи с персептронными. Существенные отличия имеются в четвертомшаге, где используются непрерывные сигналы NET вместо бинарных OUT.Модифицированный шаг 4 в этом случае реализуется следующим образом:
4. Вычисляется ошибка для каждого нейронапосредством вычитания полученного выхода из требуемого выхода:
errorj =targetj – NETj.
- МЕТОДЫ СТАТИСТИЧЕСКОГООБУЧЕНИЯ
В гл.а5 детально описаны статистическиеметоды обучения, поэтому здесь приводится лишь обзор этих методов.
Однослойные сети несколько ограничены сточки зрения проблем, которые они могут решать; однако в течение многих летотсутствовали методы обучения многослойных сетей. Статистическое обучениеобеспечивает путь решения этих проблем.
По аналогии обучение сети статистическимиспособами подобно процессу отжига металла. В процессе отжига температураметалла вначале повышается, пока атомы металла не начнут перемещаться почтисвободно. Затем температура постепенно уменьшается и атомы непрерывно стремятсяк минимальной энергетической конфигурации. При некоторой низкой температуреатомы переходят на низший энергетический уровень.
В искусственных нейронных сетях полнаявеличина энергии сети определяется как функция определенного множества сетевыхпеременных. Искусственная переменная температуры инициируется в большуювеличину, тем самым позволяя сетевым переменным претерпевать большие случайныеизменения. Изменения, приводящие к уменьшению полной энергии сети, сохраняются;изменения, приводящие к увеличению энергии, сохраняются в соответствии свероятностной функцией. Искусственная температура постепенно уменьшается стечением времени и сеть конвергирует в состояние минимума полнойэнергии.
Существует много вариаций на темустатистического обучения. Например, глобальная энергия может быть определенакак средняя квадратичная ошибка между полученным и желаемым выходным векторомиз обучаемого множества, а переменными могут быть веса сети. В этом случае сетьможет быть обучена, начиная с высокой искусственной температуры, путемвыполнения следующих шагов:
- Подать обучающий вектор на вход сети и вычислить выход согласносоответствующим сетевым правилам.
- Вычислить значение средней квадратичной ошибки между желаемым иполученным выходными векторами.
- Изменить сетевые веса случайным образом, затем вычислить новыйвыход и результирующую ошибку. Если ошибка уменьшилась, оставить измененныйвес; если ошибка увеличилась, оставить измененный вес с вероятностью,определяемой распределением Больцмана. Если изменения весов не производится, товернуть вес к его предыдущему •значению.
- Повторить шаги с 1 по 3, постепенно уменьшая искусственнуютемпературу.
Если величина случайного изменения весовопределяется в соответствии с распределением Больцмана, сходимость кглобальному минимуму будет осуществляться только в том случае, если температураизменяется обратно пропорционально логарифму прошедшего времени обучения. Этоможет привести к невероятной длительности процесса обучения, поэтому большоевнимание уделялось поиску более быстрых методов обучения. Выбором размера шагав соответствии с распределением Коши может быть достигнуто уменьшениетемпературы, обратно пропорциональное обучающему времени, что существенноуменьшает время, требуемое для сходимости.
Заметим, что существует класс статистическихметодов для нейронных сетей, в которых переменными сети являются выходынейронов, а не веса. В гл.а5 эти алгоритмы рассматривалисьподробно.
Pages: | 1 | ... | 23 | 24 | 25 |