Книги по разным темам Pages:     | 1 |   ...   | 10 | 11 | 12 | 13 | 14 |   ...   | 25 |
        1. Обсуждение

Комбинированная сеть, использующая обратноераспространение и обучение Коши, обучается значительно быстрее, чем каждый изалгоритмов в отдельности, и относительно нечувствительна к величинамкоэффициентов. Сходимость к глобальному минимуму гарантируется алгоритмом Коши,в сотнях экспериментов по обучению сеть ни разу не попадала в ловушки локальныхминимумов. Проблема сетевого паралича была решена с помощью алгоритмаселективного сжатия весов, который обеспечил сходимость во всех предъявленныхтестовых задачах без существенного увеличения обучающего времени.

Несмотря на такие обнадеживающие результаты,метод еще не исследован до конца, особенно на больших задачах. Значительнобольшая работа потребуется для определения его достоинств инедостатков.

        1. итература
  1. GemanаS., GemanаD. 1984. Stohastic relaxation, Gibbs distributionand Baysian restoration of images. IEEE Transactions on Pattern Analysis andMachine Intelligence 6:721-41.
  2. HintonаG.аE., SejnowskiаT.аJ. 1986. Learning and relearning inBoltzmann machines. In Parallel distributed processing, vol.а1, p.а282-317.Cambridge, MA: MIT Press.
  3. MetropolisаN., RosenbluthаA.аW-.RosenbluthаM.аN., TellerаA.аN.,TellerаE. 1953. Equations of state calculations by fast computing machines.Journal of Chemistry and Physics. 21:1087-91.
  4. ParkerаD.аB. 1987. Optimal algorithms for adaptive networks.Second order Hebbian learning. In Proceedings of the IEEE First InternationalConference on Neural Networks, eds.аM.аCaudill and C.аBuller, vol.а2,pp.а593-600. San Diego, CA:аSOS Printing.
  5. RumelhartаD.аE. HintonаG.аE. WilliamsаR.аJ. 1986. Learninginternal representations by error propagation. In Parallel distributedprocessing, vol.а1, pp.а318-62. Cambridg, MA:аMIT Press.
  6. SzuаH., HartleyаR. 1987. Fast Simulated annealing. PhysicsLetters. 1222(3,4):а157-62.
  7. WassermannаP.аD. 1988. Combined backpropagation/Cauchi machine.Neural Networks. Abstracts of the First INNS Meeting, Boston 1988, vol.а1,p.а556. Elmsford, NY. Pergamon Press.
    1. Глава 6.
      Сети Хопфилда

Сети, рассмотренные в предыдущих главах, неимели обратных связей, т.ае. связей, идущих от выходов сетей и их входам.Отсутствие обратной связи гарантирует безусловную устойчивость сетей. Они немогут войти в режим, когда выход беспрерывно блуждает от состояния к состояниюи не пригоден к использованию. Но это весьма желательное свойство достигаетсяне бесплатно, сети без обратных связей обладают более ограниченнымивозможностями по сравнению с сетями с обратными связями.

Так как сети с обратными связями имеют пути,передающие сигналы от выходов к входам, то отклик таких сетей являетсядинамическим, т.ае. после приложения нового входа вычисляется выход и,передаваясь по сети обратной связи, модифицирует вход. Затем выход повторновычисляется, и процесс повторяется снова и снова. Для устойчивой сетипоследовательные итерации приводят к все меньшим изменениям выхода, пока вконце концов выход не становится постоянным. Для многих сетей процесс никогдане заканчивается, такие сети называют неустойчивыми. Неустойчивые сети обладаютинтересными свойствами и изучались в качестве примера хаотических систем.Однако такой большой предмет, как хаос, находится за пределами этой книги.Вместо этого мы сконцентрируем внимание на устойчивых сетях, т.ае. на тех,которые в конце концов дают постоянный выход.

Проблема устойчивости ставила в тупик первыхисследователей. Никто не был в состоянии предсказать, какие из сетей будутустойчивыми, а какие будут находиться в постоянном изменении. Более того,проблема представлялась столь трудной, что многие исследователи были настроеныпессимистически относительно возможности бе решения. К счастью, в работе [2]была получена теорема, описавшая подмножество сетей с обратными связями, выходыкоторых в конце концов достигают устойчивого состояния. Это замечательноедостижение открыло дорогу дальнейшим исследованиям и сегодня многие ученыезанимаются исследованием сложного поведения и возможностей этихсистем.

Дж. Хопфилд сделал важный вклад как втеорию, так и в применение систем с обратными связями. Поэтому некоторые изконфигураций известны как сети Хопфилда. Из обзора литературы видно, чтоисследованием этих и сходных систем занимались многие. Например, в работе [4]изучались общие свойства сетей, аналогичных многим, рассмотренным здесь.Работы, цитируемые в списке литературы в конце главы, не направлены на то,чтобы дать исчерпывающую библиографию по системам с обратными связями. Скорееони являются лишь доступными источниками, которые могут служить для объяснения,расширения и обобщения содержимого этой книги.

      1. КОНФИГУРАЦИИ СЕТЕЙ С ОБРАТНЫМИСВЯЗЯМИ

На рис.а6.1 показана сеть с обратнымисвязями, состоящая из двух слоев. Способ представления несколько отличается отиспользованного в работе Хопфилда и других, но эквивалентен им с функциональнойточки зрения, а также хорошо связан с сетями, рассмотренными в предыдущихглавах. Нулевой слой, как и на предыдущих рисунках, не выполняет вычислительнойфункции, а лишь распределяет выходы сети обратно на входы. Каждый нейронпервого слоя вычисляет взвешенную сумму своих входов, давая сигнал NET, которыйзатем с помощью нелинейной функции F преобразуется в сигнал OUT. Эти операции сходны с нейронами другихсетей (см. гл.а2).

        1. Бинарныесистемы

В первой работе Хопфилда [6] функцияF была просто пороговойфункцией. Выход такого нейрона равен единице, если взвешенная сумма выходов сдругих нейронов больше порога Tj, в противном случае она равна нулю. Онвычисляется следующим образом:

, (6.1)

OUT, = 1, если NETj>Тj,

OUT. = 0, если NETj<Тj,

OUT не изменяется, если NETj = Тj,

Рис.а6.1. Однослойная сеть с обратнымисвязями.
Пунктирные линии обозначают нулевыевеса

Состояние сети – этопросто множество текущих значений сигналов OUT от всех нейронов. Впервоначальной сети Хопфилда состояние каждого нейрона менялось в дискретныеслучайные моменты времени, в последующей работе состояния нейронов моглименяться одновременно. Так как выходом бинарного нейрона может быть только нольили единица (промежуточных уровней нет), то текущее состояние сети являетсядвоичным числом, каждый бит которого является сигналом OUT некоторогонейрона.

Функционирование сети легко визуализируетсягеометрически. На рис.а6.2а показан случай двух нейронов в выходном слое,причем каждой вершине квадрата соответствует одно из четырех состояний системы(00, 01, 10, 11). На рис.а6.2б показана трехнейронная система, представленнаякубом (в трехмерном пространстве), имеющим восемь вершин, каждая из которыхпомечена трехбитовым бинарным числом. В общем случае система с n нейронами имеет 2n различных состояний и представляетсяn-мерным гиперкубом.

Рис.а6.2а. Два нейрона порождают систему счетырьмя состояними

Рис.а6.2б. Три нейрона порождают систему свосемью состояниями

Когда подается новый входной вектор, сетьпереходит из вершины в вершину, пока не стабилизируется. Устойчивая вершинаопределяется сетевыми весами, текущими входами и величиной порога. Если входнойвектор частично неправилен или неполон, то сеть стабилизируется в вершине,ближайшей к желаемой.

        1. Устойчивость

Как и в других сетях, веса между слоями вэтой сети могут рассматриваться в виде матрицы W. В работе [2]показано, что сеть с обратными связями является устойчивой, если ее матрицасимметрична и имеет нули на главной диагонали, т.ае. если wij =wji и wii = 0 для всех i.

Устойчивость такой сети может быть доказанас помощью элегантного математического метода. Допустим, что найдена функция,которая всегда убывает при изменении состояния сети. В конце концов эта функциядолжна достичь минимума и прекратить изменение, гарантируя тем самымустойчивость сети. Такая функция, называемая функцией Ляпунова, длярассматриваемых сетей с обратными связями может быть введена следующимобразом:

(6.2)

где Е – искусственная энергия сети; wij – вес от выхода нейронаi к входу нейронаj; OUTj – выход нейрона j; Ij – внешний вход нейрона j; Тj – порог нейрона j.

Изменение энергии Е, вызванное изменением состоянияj-нейрона, есть

(6.3)

где дOUTj – изменение выхода j-го нейрона.

Допустим, что величина NET нейронаj больше порога. Тогдавыражение в скобках будет положительным, а из Уравнения (6.1) следует, чтовыход нейронааj долженизмениться в положительную сторону (или остаться без изменения). Это значит,что дOUT. может быть толькоположительным или нулем и дЕ должно быть отрицательным.Следовательно, энергия сети должна либо уменьшиться, либо остаться безизменения.

Далее, допустим, что величина NET меньшепорога. Тогда величина дOUTj может быть только отрицательной илинулем. Следовательно, опять энергия должна уменьшиться или остаться безизменения.

И окончательно, если величина NET равнапорогу, дj равна нулю и энергия остается без изменения.

Это показывает, что любое изменениесостояния нейрона либо уменьшит энергию, либо оставит ее без изменения.Благодаря такому непрерывному стремлению к уменьшению энергия в конце концовдолжна достигнуть минимума и прекратить изменение. По определению такая сетьявляется устойчивой.

Симметрия сети является достаточным, но ненеобходимым условием для устойчивости системы. Имеется много устойчивых систем(например, все сети прямого действия!), которые ему не удовлетворяют. Можнопродемонстрировать примеры, в которых незначительное отклонение от симметрииможет приводить к непрерывным осцилляциям. Однако приближенной симметрии обычнодостаточно для устойчивости систем.

        1. Ассоциативнаяпамять

Человеческая память ассоциативна, т.ае.некоторое воспоминание может порождать большую связанную с ним область.Например, несколько музыкальных тактов могут вызвать целую гамму чувственныхвоспоминаний, включая пейзажи, звуки и запахи. Напротив, обычная компьютернаяпамять является локально адресуемой, предъявляется адрес и извлекаетсяинформация по этому адресу.

Сеть с обратной связью формируетассоциативную память. Подобно человеческой памяти по заданной части нужнойинформации вся информация извлекается из памяти. Чтобы организоватьассоциативную память с помощью сети с обратными связями, веса должны выбиратьсятак, чтобы образовывать энергетические минимумы в нужных вершинах единичногогиперкуба.

Хопфилд разработал ассоциативную память снепрерывными выходами, изменяющимися в пределах от +1 до –1, соответствующих двоичнымзначенияма0 и 1, Запоминаемая информация кодируется двоичными векторами ихранится в весах согласно следующей формуле:

(6.4)

где т – числозапоминаемых выходных векторов; d – номерзапоминаемого выходного вектора; OUTi,j –i-компонента запоминаемоговыходного вектора.

Это выражение может стать более ясным, еслизаметить, что весовой массив W может быть найден вычислением внешнего произведения каждогозапоминаемого вектора с самим собой (если требуемый вектор имеет n компонент, то эта операция образуетматрицу размером п хп) и суммированием матриц,полученных таким образом. Это может быть записано в виде

, (6.5)

где Di – i-й запоминаемыйвектор-строка.

Как только веса заданы, сеть может бытьиспользована для получения запомненного выходного вектора по данному входномувектору, который может быть частично неправильным или неполным. Для этоговыходам сети сначала придают значения этого входного вектора. Затем входнойвектор убирается и сети предоставляется возможность расслабиться, опустившисьв ближайший глубокий минимум. Сеть идущая по локальному наклону функцииэнергии, может быть захвачена локальным минимумом, не достигнув наилучшего вглобальном смысле решения.

        1. Непрерывныесистемы

В работе [7] рассмотрены модели снепрерывной активационной функцией F, точнее моделирующей биологический нейрон. В общем случае этоS-образная или логистическая функция

, (6.6)

где λ – коэффициент, определяющийкрутизну сигмоидальной функции. Если λ велико, F приближается к описанной ранеепороговой функции. Небольшие значения λ дают более пологийнаклон.

Как и для бинарных систем, устойчивостьгарантируется, если веса симметричны, т.ае. wij =wji и wii = 0 при всех i. Функция энергии, доказывающаяустойчивость подобных систем, была сконструирована, но она не рассматриваетсяздесь из-за своего концептуального сходства с дискретным случаем.Интересующиеся читатели могут обратиться к работе [2] для более полногорассмотрения этого важного предмета.

Если λ велико, непрерывные системыфункционируют подобно дискретным бинарным системам, окончательно стабилизируясьсо всеми выходами, близкими нулю или единице, т.ае. в вершине единичногогиперкуба. С уменьшением λ устойчивые точки удаляются от вершин, последовательно исчезая помере приближения λ кнулю. На рис.а6.3 показаны линии энергетических уровней непрерывной системы сдвумя нейронами.

        1. Сети Хопфилда имашина Больцмана

Недостатком сетей Хопфилда является ихтенденция стабилизироваться в локальном, а не глобальном минимуме функцииэнергии. Эта трудность преодолевается в основном с помощью класса сетей,известных под названием машин Больцмана, в которых изменения состояний нейроновобусловлены статистическими, а не детерминированными закономерностями.Существует тесная аналогия между этими методами и отжигом металла, поэтому исами методы часто называют имитацией отжига.

        1. Термодинамические системы

Металл отжигают, нагревая его дотемпературы, превышающей точку его плавления, а затем давая ему медленноостыть. При высоких температурах атомы, обладая высокими энергиями и свободойперемещения, случайным образом принимают все возможные конфигурации. Припостепенном снижении температуры энергии атомов уменьшаются, и система в целомстремится принять конфигурацию с минимальной энергией. Когда охлаждениезавершено, достигается состояние глобального минимума энергии.

Рис.а6.3. Линии энергетическихуровнен

При фиксированной температуре распределениеэнергий системы определяется вероятностным фактором Больцмана

exp(–E/kT),

где Е – энергиясистемы; k – постоянная Больцмана;Т – температура.

Pages:     | 1 |   ...   | 10 | 11 | 12 | 13 | 14 |   ...   | 25 |    Книги по разным темам