18 Ф.аУоссерменНейрокомпьютерная техника: Теория и практика В книге американского автора в общедоступнойформе излагаются основы построения нейрокомпьютеров. Описаны

Книги по разным темам Pages: | 1 | ... | 16 | 17 | 18 | 19 | 20 | ... | 25 |

Вначале на вход заново проинициированнойсистемы подается буква С. Так как отсутствуют запомненные образы, фаза поисказаканчивается неуспешно; новый нейрон выделяется в слое распознавания, и весаТjустанавливаются равными соответствующим компонентам входного вектора, при этомвеса Вj представляют масштабированную версию входного вектора.

Далее предъявляется буква В. Она такжевызывает неуспешное окончание фазы поиска и распределение нового нейрона.Аналогичный процесс повторяется для буквы Е. Затем слабо искаженная версиябуквы Е подается на вход сети. Она достаточно точно соответствует запомненнойбукве Е, чтобы выдержать проверку на сходство, поэтому используется дляобучения сети. Отсутствующий пиксель в нижней ножке буквы Е устанавливает в 0соответствующую компоненту вектора С, заставляя обучающий алгоритм установить этот вес запомненногообраза в нуль, тем самым воспроизводя искажения в запомненном образе.Дополнительный изолированный квадрат не изменяет запомненного образа, так какне соответствует единице в запомненном образе.

Четвертым символом является буква Е сдвумя различными искажениями. Она не соответствует ранее запомненному образу(S меньше чем ρ), поэтому для ее запоминаниявыделяется новый нейрон.

Этот пример иллюстрирует важность выборакорректного значения критерия сходства. Если значение критерия слишком велико,большинство образов не будут подтверждать сходство с ранее запомненными и сетьбудет выделять новый нейрон для каждого из них. Это приводит к плохомуобобщению в сети, в результате даже незначительные изменения одного образабудут создавать отдельные новые категории. Количество категорий увеличивается,все доступные нейроны распределяются, и способность системы к восприятию новыхданных теряется. Наоборот, если критерий сходства слишком мал, сильноразличающиеся образы будут группироваться вместе, искажая запомненный образ дотех пор, пока в результате не получится очень малое сходство с одним изних.

К сожалению, отсутствует теоретическоеобоснование выбора критерия сходства, в каждом конкретном случае необходиморешить, какая степень сходства должна быть принята для отнесения образов кодной категории. Границы между категориями часто неясны, и решение задачи длябольшого набора входных векторов может быть чрезмерно трудным.

В работе [2] предложена процедура сиспользованием обратной связи для настройки коэффициента сходства, вносящая,однако, некоторые искажения в результате классификации как наказание завнешнее вмешательство с целью увеличения коэффициента сходства. Такие системытребуют правил определения, является ли производимая ими классификациякорректной.

ХАРАКТЕРИСТИКИ APT

Системы APT имеют ряд важных характеристик,не являющихся очевидными. Формулы и алгоритмы могут казаться произвольными, вто время как в действительности они были тщательно отобраны с цельюудовлетворения требований теорем относительно производительности систем APT. Вданном разделе описываются некоторые алгоритмы APT, раскрывающие отдельныевопросы инициализации и обучения.

Инициализациявесовых векторов Т

Из ранее рассмотренного примера обучениясети можно было видеть, что правило двух третей приводит к вычислению вектораС как функции И междувходным вектором Х ивыигравшим соревнование запомненным вектором Тj.Следовательно, любая компонента вектора С будет равна единице в том случае, если соответствующие компонентыобоих векторов равны единице. После обучения эти компоненты вектораТjостаются единичными; все остальные устанавливаются в нуль.

Это объясняет, почему веса tij должныинициализироваться единичными значениями. Если бы они были проинициализированынулевыми значениями, все компоненты вектора С были бы нулевыми независимо от значенийкомпонент входного вектора, и обучающий алгоритм предохранял бы веса отизменения их нулевых значений.

Обучение может рассматриваться как процесслсокращения компонент запомненных векторов, которые не соответствуют входнымвекторам. Этот процесс необратим, если вес однажды установлен в нуль, обучающийалгоритм никогда не восстановит его единичное значение.

Это свойство имеет важное отношение кпроцессу обучения. Предположим, что группа точно соответствующих векторовдолжна быть классифицирована к одной категории, определяемой возбуждениемодного нейрона в слое распознавания. Если эти вектора последовательнопредъявляются сети, при предъявлении первого будет распределяться нейронраспознающего слоя, его веса будут обучены с целью соответствия входномувектору. Обучение при предъявлении остальных векторов будет приводить кобнулению весов в тех позициях, которые имеют нулевые значения в любом извходных векторов. Таким образом, запомненный вектор представляет собойлогическое пересечение всех обучающих векторов и может включать существенныехарактеристики данной категории весов. Новый вектор, включающий толькосущественные характеристики, будет соответствовать этой категории. Такимобразом, сеть корректно распознает образ, никогда не виденный ранее, т.ае.реализуется возможность, напоминающая процесс восприятия человека.

Настройкавесовых векторов Вj

Выражение, описывающее процесс настройкивесов (выражение (8.6) повторено здесь для справки) является центральным дляописания процесса функционирования сетей APT.

(8.6)

Сумма в знаменателе представляет собойколичество единиц на выходе слоя сравнения. Эта величина может быть рассмотренакак размер этого вектора. В такой интерпретации большие векторыС производят более маленькиевеличины весов bij, чемлмаленькие вектора С. Этосвойство самомасштабирования делает возможным разделение двух векторов вслучае, когда один вектор является поднабором другого; т.ае. когда наборединичных компонент одного вектора составляет подмножество единичных компонентдругого.

Чтобы продемонстрировать проблему,возникающую при отсутствии масштабирования, используемого в выражении (8.6),предположим, что сеть обучена двум приведенным ниже входным векторам, при этомкаждому распределен нейрон в слое распознавания.

Заметим, что Х1 являетсяподнабором Х2. В отсутствие свойства масштабирования веса bij иtij получат значения, идентичные значениям входных векторов. Еслиначальные значения выбраны равными 1,0, веса образов будут иметь следующиезначения:

Если Х прикладывается повторно, оба нейрона в слое распознавания получаютодинаковые активации; следовательно, нейрона2, ошибочный нейрон, выиграетконкуренцию.

Кроме выполнения некорректной классификации,может быть нарушен процесс обучения. Так как Т2 равно1а1а1а0а0, только первая единица соответствует единице входного вектора, иС устанавливается в1а0а0а0а0, критерий сходства удовлетворяется и алгоритм обучения устанавливаетвторую и третью единицы векторов Т2 и В2 в нуль,разрушая запомненный образ.

Масштабирование весов bijпредотвращает это нежелательное поведение. Предположим, что в выражении (8.2)используется значение L=2,тем самым определяя следующую формулу:

Значения векторов будут тогда стремиться квеличинам

Подавая на вход сети вектор Х1, получимвозбуждающее воздействие 1,0 для нейронаа1 в слое распознавания и ½ длянейронаа2; таким образом, нейрона1 (правильный) выиграет соревнование.Аналогично предъявление вектора Х2 вызовет уровень возбуждения 1,0 длянейронаа1 и 3/2 для нейронаа2, тем самым снова правильно выбираяпобедителя.

Инициализациявесов bij

Инициализация весов bij малымизначениями является существенной для корректного функционирования систем APT.Если они слишком большие, входной вектора который ранее был запомнен, будетскорее активизировать несвязанный нейрон, чем ранее обученный. Выражение (8.1),определяющее начальные значения весов, повторяется здесь длясправки

для всех i, j, (8.1)

Установка этих весов в малые величиныгарантирует, что несвязанные нейроны не будут получать возбуждения большего,чем обученные нейроны в слое распознавания. Используя предыдущий пример сL=2, т=5 и bij<1/3,произвольно установим bij=1/6. С такими весами предъявление вектора,которому сеть была ранее обучена, приведет к более высокому уровню активациидля правильно обученного нейрона в слое распознавания, чем для несвязанногонейрона. Например, для несвязанного нейрона Х1 будетпроизводить возбуждение 1/6, в то время как Х2 будетпроизводить возбуждение ½; и то и другое ниже возбуждения дляобученных нейронов.

Поиск. Можетпоказаться, что в описанных алгоритмах отсутствует необходимость наличия фазыпоиска за исключением случая, когда для входного вектора должен бытьраспределен новый несвязанный нейрон. Это не совсем так; предъявление входноговектора, сходного, но не абсолютно идентичного одному из запомненных образов,может при первом испытании не обеспечить выбор нейрона слоя распознавания суровнем сходства большим р, хотя такой нейрон будет существовать.

Как и в предыдущем примере, предположим, чтосеть обучается следующим двум векторам:

X1 = 1 0 0 00

X2 = 1 1 1 00

с векторами весовВi, обученными следующим образом

B1 = 1 0 0 00

B2 =½ ½ ½ 00

Теперь приложим входной вектор X3 = 1а1а0а0а0. Вэтом случае возбуждение нейронаа1 в слое распознавания будет 1,0, а нейрона 2только 2/3. Нейрона1 выйдет победителем (хотя он не лучшим образомсоответствует входному вектору), вектор С получит значение 1а1а0а0а0, S будет равно ½. Еслиуровень сходства установлен в 3/4, нейрона1 будет заторможен и нейрона2выиграет состязание. Сстанет равным 1а1а0а0а0, Sстанет равныма1, критерий сходства будет удовлетворен и поискзакончится.

ТеоремыAPT

В работе [2] доказаны некоторые теоремы,показывающие характеристики сетей APT. Четыре результата, приведенные ниже,являются одними из наиболее важных:

После стабилизации процесса обучения предъявление одного изобучающих векторов (или вектора с существенными характеристиками категории)будет активизировать требуемый нейрон слоя распознавания без поиска. Этахарактеристика прямого доступа определяет быстрый доступ к предварительноизученным образам.
Процесс поиска является устойчивым. После определения выигравшегонейрона в сети не будет возбуждений других нейронов в результате изменениявекторов выхода слоя сравнения С; только сигнал сброса может вызвать такие изменения.
Процесс обучения является устойчивым. Обучение не будет вызыватьпереключения с одного возбужденного нейрона слоя распознавания надругой.
Процесс обучения конечен. Любая последовательность произвольныхвходных векторов будет производить стабильный набор весов после конечногоколичества обучающих серий; повторяющиеся последовательности обучающих векторовне будут приводить к циклическому изменению весов.

ЗАКЛЮЧЕНИЕ

Сети APT являются интересным и важным видомсистем. Они способны решить дилемму стабильности-пластичности и хорошо работаютс других точек зрения. Архитектура APT сконструирована по принципубиологического подобия; это означает, что ее механизмы во многом соответствуютмеханизмам мозга (как мы их понимаем). Однако они могут оказаться не всостоянии моделировать распределенную память, которую многие рассматривают какважную характеристику функций мозга. Экземпляры APT представляют собойлбабушкины узелки; потеря одного узла разрушает всю память. Память мозга,напротив, распределена по веществу мозга, запомненные образы могут частопережить значительные физические повреждения мозга без полной ихпотери.

Кажется логичным изучение архитектур,соответствующих нашему пониманию организации и функций мозга. Человеческий мозгпредставляет существующее доказательство того факта, что решение проблемыраспознавания образов возможно. Кажется разумным эмулировать работу мозга, еслимы хотим повторить его работу. Однако контраргументом является история полетов;человек не смог оторваться от земли до тех пор, пока не перестал имитироватьдвижения крыльев и полет птиц.

итература

CarpenterаG., GrossbergаS. 1986. Neural dynamics of categorylearning and recognition: Attention; memory consolidation and amnesia. In BrainStructure, Learning and Memory (AAAS Symposium Series), eds. J.аDavis.,R.аNewburgh and E.аWegman.
CarpenterаG., GrossbergаS. 1987. A massively parallel architecturefor a self-organizing neural pattern recognition machine. Computing Vision.Graphics, and Image Processing 37:54-115.
CarpenterаG., GrossbergаS. 1987 ART-2: Self-organization of stablecategory recognition codes for analog input patterns. Applied Optics26(23):4919-30.
CrossbergаS. 1987. Competitive learning: From interactiveactivation to adaptive resonanse. Cognitive Science 11:23-63.
LippmanаR.аP. 1987. An introduction to computing with neuralsnets. IEEE Transactions on Acosufics, Speech and Signal Processing, April,pp.а4-22.

Глава 9.
Оптические нейронные сети

Использование и обучение нейронных сетейтребует в основном двух типов операций над данными: вычислений и передачиданных. Вычислительные функции легко и просто выполняются электроннымисистемами. Элементы интегральных цепей работают в наносекундных интервалах.Кроме того, они имеют размеры, измеряемые в микронах, и могут иметь стоимостьменее сотой цента за вентиль.

Задачи передачи данных решаются не просто.Электронные сигналы в интегральных сетях требуют наличия конденсаторов дляпередачи сигналов от вентиля к вентилю. Хотя конденсаторы имеют микронныеразмеры, занимаемое пространство (с учетом пространства, необходимого дляизоляции одного конденсатора от другого) может стать настолько большим, что напластине кремния не останется места для размещения вычислительных цепей.Несмотря на то, что существует технология реализации обыкновенных цифровыхкомпьютеров в виде больших функциональных блоков с относительно небольшимколичеством конденсаторов, эта технология не годится в случае массовогопараллелизма. Аналогичное решение для искусственных нейронных сетей в настоящеевремя неизвестно. Мощность нейронных сетей определяется большим количествомсвязей; взятые отдельно элементы имеют относительно малые вычислительныевозможности.

Pages: | 1 | ... | 16 | 17 | 18 | 19 | 20 | ... | 25 |

Книги по разным темам

Blog