11 Ф.аУоссерменНейрокомпьютерная техника: Теория и практика В книге американского автора в общедоступнойформе излагаются основы построения нейрокомпьютеров. Описаны

Книги по разным темам Pages: | 1 | ... | 9 | 10 | 11 | 12 | 13 | ... | 25 |

При критических температурах небольшоеуменьшение температуры приводит к большому изменению средней величины целевойфункции. Возвращаясь к аналогии с шариком, при температуре, когда шарикобладает достаточной средней энергией, чтобы перейти из A в B, но недостаточнойдля перехода из B в A, средняя величина целевой функции испытываетскачкообразное изменение. В этих критических точках алгоритм должен изменятьтемпературу очень медленно, чтобы гарантировать, что система не замерзнетслучайно в точке A, оказавшись пойманной в локальный минимум. Критическаятемпература может быть обнаружена по резкому уменьшению искусственнойтеплоемкости, т.ае. средней скорости изменения температуры с целевой функцией.При достижении критической температуры скорость изменения температуры должназамедляться, чтобы гарантировать сходимость к глобальному минимуму. При всехостальных температурах может без риска использоваться более высокая скоростьснижения температуры, что приводит к значительному снижению времениобучения.

ПРИЛОЖЕНИЯ К ОБЩИМ НЕЛИНЕЙНЫМ ЗАДАЧАМОПТИМИЗАЦИИ

До сих пор в обсуждении предполагалось, чтомы корректируем веса в традиционных искусственных нейронных сетях. Фактически,однако, это есть лишь некоторый частный случай. Эти статистические методы носятзначительно более общий характер и способны решать множество задач нелинейнойоптимизации.

Нелинейная оптимизационнаязадача включает множество независимых переменных,детерминистским образом связанных с значением целевой функции. Целью являетсянахождение такого множества значений независимых переменных, котороеминимизирует (или максимизирует) целевую функцию. Рассмотрим, например,нахождение минимума функции F{x) =3х3 + 6х2 – 2х + 3.

Здесь имеется единственная независимаяпеременная х, управляющаязначением целевой функции F(x), которая должна быть минимизирована. Этапростая функция легко минимизируется с помощью методов дифференциальногоисчисления, однако минимизировать подобным образом более сложные функции отбольшого числа переменных может оказаться затруднительным.

Во многих практических ситуацияхфункциональная связь между независимыми переменными и целевой функциейнеизвестна и фактически не может быть известной. Сложный химический процессможет не иметь адекватной математической модели. Единственными измеряемымивеличинами могут быть выход, качество, лцена и т.ад., которые являютсянеизвестными функциями от большого числа таких независимых переменных, кактемпература, время и характеристики сырья.

Подобная задача может решаться следующимобразом:

Система наблюдается и собираются данные для составления обучающегомножества. Каждый элемент обучающего множества состоит из замеров во времянаблюдений и включает значения всех входов (входной вектор) и всех выходов(выходной вектор).
Сеть обучается на этом обучающем множестве. Обучение состоит изпредъявления входного вектора, вычисления выходного вектора, сравниваниявыходного вектора с входным вектором, полученным в процессе наблюдений, икоррекции весов, минимизирующей разность между ними. Каждый входной векторпредъявляется по очереди, и сеть частично обучается. После большого числапредъявлении входных векторов сеть сойдется к решению, которое минимизируетразность между желаемыми и измеренными выходами системы. Фактически сеть строитвнутреннюю модель неизвестной системы. Если обучающее множество достаточновелико, сеть сходится к точной модели системы. Если сети предъявить некоторыйвходной вектор, отличный от любого из векторов, предъявленных при обучении, тополностью обученная сеть выдаст тот же самый выходной вектор, что и настоящаясистема.
Максимизируется целевая функция. Целевая функция выходов должнабыть сконструирована таким образом, чтобы выражать степеньлудовлетворительности результата. Теперь входы становятся переменными дляобученной сети. Они подстраиваются с помощью того же самого обучающегоалгоритма, который применялся для выставления весов на шагеа2, однакоиспользуются для максимизации целевой функции.

Во многих случаях могут присутствоватьограничения, накладываемые задачей. Например, может быть невозможно физическибрать значения переменных вне некоторого диапазона. Эти ограничения (которыемогут быть сложными выражениями) могут быть легко учтены отбрасыванием нашагеа3 любого изменения входной переменной, которое нарушаетограничение.

Это обобщение метода стохастическойоптимизации позволяет его использовать для широкого круга оптимизационныхзадач. Можно применять и другие методы, но стохастический метод позволяетпреодолеть трудности, обусловленные локальными минимумами, с которымисталкивается метод обратного распространения и другие методы градиентногоспуска. К сожалению, вероятностная природа процесса обучения может приводить кбольшому времени сходимости. Использование методов псевдотеплоемкости можетсущественно уменьшить это время, но процесс все равно остаетсямедленным.

ОБРАТНОЕ РАСПРОСТРАНЕНИЕ И ОБУЧЕНИЕКОШИ

Обратное распространение обладаетпреимуществом прямого поиска, т.ае. веса всегда корректируются в направлении,минимизирующем функцию ошибки. Хотя время обучения и велико, оно существенноменьше, чем при случайном поиске, выполняемом машиной Коши, когда находитсяглобальный минимум, но многие шаги выполняются в неверном направлении, чтоотнимает много времени.

Соединение этих двух методов дало хорошиерезультаты [7]. Коррекция весов, равная сумме, вычисленной алгоритмом обратногораспространения, и случайный шаг, задаваемый алгоритмом Коши, приводят ксистеме, которая сходится и находит глобальный минимум быстрее, чем система,обучаемая каждым из методов в отдельности. Простая эвристика используется дляизбежания паралича сети, который может иметь место как при обратномраспространении, так и при обучении по методу Коши.

Трудности,связанные с обратным распространением

Несмотря на мощь, продемонстрированнуюметодом обратного распространения, при его применении возникает ряд трудностей,часть из которых, однако, облегчается благодаря использованию новогоалгоритма.

Сходимость.В работе [5] доказательство сходимости дается на языкедифференциальных уравнений в частных производных, что делает его справедливымлишь в том случае, когда коррекция весов выполняется с помощью бесконечно малыхшагов. Так как это ведет к бесконечному времени сходимости, то оно теряет силув практических применениях. В действительности нет доказательства, что обратноераспространение будет сходиться при конечном размере шага. Экспериментыпоказывают, что сети обычно обучаются, но время обучения велико инепредсказуемо.

окальные минимумы. В обратном распространении для коррекциивесов сети используется градиентный спуск, продвигающийся к минимуму всоответствии с локальным наклоном поверхности ошибки. Он хорошо работает вслучае сильно изрезанных невыпуклых поверхностей, которые встречаются впрактических задачах. В одних случаях локальный минимум является приемлемымрешением, в других случаях он неприемлем.

Даже после того как сеть обучена, невозможносказать, найден ли с помощью обратного распространения глобальный минимум. Еслирешение неудовлетворительно, приходится давать весам новые начальные случайныезначения и повторно обучать сеть без гарантии, что обучение закончится на этойпопытке или что глобальный минимум вообще будет когда либо найден.

Паралич.При некоторых условиях сеть может при обучении попастьв такое состояние, когда модификация весов не ведет к действительным изменениямсети. Такой паралич сети является серьезной проблемой: один раз возникнув, онможет увеличить время обучения на несколько порядков.

Паралич возникает, когда значительная частьнейронов получает веса, достаточно большие, чтобы дать большие значения NET.Это приводит к тому, что величина OUT приближается к своему предельномузначению, а производная от сжимающей функции приближается к нулю. Как мывидели, алгоритм обратного распространения при вычислении величины изменениявеса использует эту производную в формуле в качестве коэффициента. Дляпораженных параличом нейронов близость производной к нулю приводит к тому, чтоизменение веса становится близким к нулю.

Если подобные условия возникают во многихнейронах сети, то обучение может замедлиться до почти полнойостановки.

Нет теории, способной предсказывать, будетли сеть парализована во время обучения или нет. Экспериментально установлено,что малые размеры шага реже приводят к параличу, но шаг, малый для однойзадачи, может оказаться большим для другой. Цена же паралича может бытьвысокой. При моделировании многие часы машинного времени могут уйти на то,чтобы выйти из паралича.

Трудности салгоритмом обучения Коши

Несмотря на улучшение скорости обучения,даваемое машиной Коши по сравнению с машиной Больцмана, время сходимости всееще может в 100 раз превышать время для алгоритма обратного распространения.Отметим, что сетевой паралич особенно опасен для алгоритма обучения Коши, вособенности для сети с нелинейностью типа логистической функции. Бесконечнаядисперсия распределения Коши приводит к изменениям весов неограниченнойвеличины. Далее, большие изменения весов будут иногда приниматься даже в техслучаях, когда они неблагоприятны, часто приводя к сильному насыщению сетевыхнейронов с вытекающим отсюда риском паралича.

Комбинированиеобратного распространения с обучением Коши

Коррекция весов в комбинированном алгоритме,использующем обратное распространение и обучение Коши, состоит из двухкомпонент: (1) направленной компоненты, вычисляемой с использованием алгоритмаобратного распространения, и (2) случайной компоненты, определяемойраспределением Коши.

Эти компоненты вычисляются для каждого веса,и их сумма является величиной, на которую изменяется вес. Как и в алгоритмеКоши, после вычисления изменения веса вычисляется целевая функция. Если имеетместо улучшение, изменение сохраняется. В противном случае оно сохраняется свероятностью, определяемой распределением Больцмана.

Коррекция веса вычисляется с использованиемпредставленных ранее уравнений для каждого из алгоритмов:

wmn,k(n+1) =wmn,k(n) + з [αДwmn,k(n) + (1 – α) дn,k OUTm,j] + (1 – з) xс,

где з –коэффициент, управляющий относительными величинами Коши и обратногораспространения в компонентах весового шага. Если з приравнивается нулю, система становитсяполностью машиной Коши. Если з приравнивается единице, система становится машиной обратногораспространения.

Изменение лишь одного весового коэффициентамежду вычислениями весовой функции неэффективно. Оказалось, что лучше сразуизменять все веса целого слоя, хотя для некоторых задач может оказатьсявыгоднее иная стратегия.

Преодолениесетевого паралича комбинированным методом обучения. Как и в машине Коши, если изменение веса ухудшает целевую функцию,– с помощью распределения Больцмана решается,сохранить ли новое значение веса или восстановить предыдущее значение. Такимобразом, имеется конечная вероятность того, что ухудшающее множество приращенийвесов будет сохранено. Так как распределение Коши имеет бесконечную дисперсию(диапазон изменения тангенса простирается от – ∞ до +∞ на области определения), то весьма вероятновозникновение больших приращений весов, часто приводящих к сетевомупараличу.

Очевидное решение, состоящее в ограничениидиапазона изменения весовых шагов, ставит вопрос о математической корректностиполученного таким образом алгоритма. В работе [6] доказана сходимость системы кглобальному минимуму лишь для исходного алгоритма. Подобного доказательства приискусственном ограничении размера шага не существует. В действительностиэкспериментально выявлены случаи, когда для реализации некоторой функциитребуются большие веса, и два больших веса, вычитаясь, дают малуюразность.

Другое решение состоит в рандомизации весовтех нейронов, которые оказались в состоянии насыщения. Недостатком его являетсято, что оно может серьезно нарушить обучающий процесс, иногда затягивая его добесконечности.

Для решения проблемы паралича был найденметод, не нарушающий достигнутого обучения. Насыщенные нейроны выявляются спомощью измерения их сигналов OUT. Когда величина OUT приближается к своемупредельному значению, положительному или отрицательному, на веса, питающие этотнейрон, действует сжимающая функция. Она подобна используемой для получениянейронного сигнала OUT, за исключением того, что диапазоном ее измененияявляется интервал (+5,–5) или другое подходящее множество. Тогда модифицированные весовыезначения равны

Эта функция сильно уменьшает величину оченьбольших весов, воздействие на малые веса значительно более слабое. Далее онаподдерживает симметрию, сохраняя небольшие различия между большими весами.Экспериментально было показано, что эта функция выводит нейроны из состояниянасыщения без нарушения достигнутого в сети обучения. Не было затраченосерьезных усилий для оптимизации используемой функции, другие значения константмогут оказаться лучшими.

Экспериментальное результаты. Комбинированный алгоритм, использующий обратное распространение иобучение Коши, применялся для обучения нескольких больших сетей. Например, этимметодом была успешно обучена система, распознающая рукописные китайскиеиероглифы [б]. Все же время обучения может оказаться большим (приблизительно36ачасов машинного времени уходило на обучение).

В другом эксперименте эта сеть обучалась назадаче ИСКЛЮЧАЮЩЕЕаИЛИ, которая была использована в качестве теста длясравнения с другими алгоритмами. Для сходимости сети в среднем требовалосьоколо 76 предъявлении обучающего множества. В качестве сравнения можно указать,что при использовании обратного распространения в среднем требовалось около 245предъявлении для решения этой же задачи [5] и 4986 итераций при использованииобратного распространения второго порядка.

Ни одно из обучений не привело к локальномуминимуму, о которых сообщалось в [5]. Более того, ни одно из 160 обучений необнаружило неожиданных патологий, сеть всегда правильно обучалась.

Эксперименты же с чистой машиной Кошипривели к значительно большим временам обучения. Например, при ρ = 0,002 для обучения сети в среднемтребовалось около 2284 предъявлении обучающего множества.

Pages: | 1 | ... | 9 | 10 | 11 | 12 | 13 | ... | 25 |

Книги по разным темам

Blog