- Временнаянеустойчивость
Если сеть учится распознавать буквы, то нетсмысла учить Б, если при этом забывается А. Процесс обучения должен бытьтаким, чтобы сеть обучалась на всем обучающем множестве без пропусков того, чтоуже выучено. В доказательстве сходимости [7] это условие выполнено, нотребуется также, чтобы сети предъявлялись все векторы обучающего множествапрежде, чем выполняется коррекция весов. Необходимые изменения весов должнывычисляться на всем множестве, а это требует дополнительной памяти; после рядатаких обучающих циклов веса сойдутся к минимальной ошибке. Этот метод можетоказаться бесполезным, если сеть находится в постоянно меняющейся внешнейсреде, так что второй раз один и тот же вектор может уже не повториться. В этомслучае процесс обучения может никогда не сойтись, бесцельно блуждая или сильноосциллируя. В этом смысле обратное распространение не похоже на биологическиесистемы. Как будет указано в гл.а8, это несоответствие (среди прочих) привело ксистеме ART, принадлежащей Гроссбергу.
- итература
- AlmeidaаL.аB. 1987. Neural computaters. Proceedings of NATO ARW onNeural Computers, Dusseldorf. Heidelberg: Springer-Verlag.
- BurrаD.аJ. 1987. Experiments with a connecnionlist text reader. InProceedings of the IEEE First International Conferense on Neural Networks, eds.M. Caudill and C.Butler, vol.а4, pp.а717-24. San Diego, CA: SOSPrinting.
- CottrellаG.аW., MunroаP., ZipserаD. 1987. Image compression bybackpropagation: An example of extensional programming. ICS Report 8702,University of California, San Diego.
- ParkerаD.аB. 1982. Learning logic. Invention Report S81-64,Fileа1, Office of Technology Licensing, Stanford University, Stanford,CA.
- ParkerаD.аB. 1987. Second order back propagation: Implementing anoptimal 0(n) approximationto Newton's method as an artificial newral network. Manuscript submitted forpublication.
- PinedaаF.аJ. 1988. Generalization of backpropagation to recurrentand higher order networks. In Newral information processing systems, ed. DanaZ. Anderson, pp.а602-11. New York: American Institute of Phisycs.
- RumelhartаD.аE., HintonаG.аE., WilliamsаR.аJ. 1986. Learninginternal reprentations by error propagation. In Parallel distributedprocessing, vol.а1, pp.а318-62. Cambridge, MA: MIT Press.
- SejnowskiаT.аJ., RosenbergаC.аR. 1987. Parallel networks thatlearn to pronounce English text. Complex Systemsа1:145-68.
- StornettaаW.аS., HubermanаB.аA. 1987. An improwed three-layer,backpropagation algorithm. In Proceedings of the IEEE First InternationalConference on Newral Networks, eds. M.аCaudill and C.аButler. San Diego, CA:SOS Printing.
- WassermanаP.аD. 1988a. Combined backpropagation/Cauchy machine.Proceedings of the International Newral Network Society. New York: PergamonPress.
- WassermanаP.аD. 1988b. Experiments in translating Chinesecharacters using backpropagation. Proceedings of the Thirty-Third IEEE ComputerSociety International Conference. Washington, D.аC.: Computer Society Press ofthe IEEE.
- WerbosаP.аJ. 1974. Beyond regression: New tools for prediction andanalysis in the behavioral sciences. Masters thesis, HarwardUniversity.
- Глава 4.
Сети встречногораспространения - ВВЕДЕНИЕ В СЕТИ ВСТРЕЧНОГОРАСПРОСТРАНЕНИЯ
Возможности сети встречного распространения,разработанной в [5-7], превосходят возможности однослойных сетей. Время жеобучения по сравнению с обратным распространением может уменьшаться в сто раз.Встречное распространение не столь общо, как обратное распространение, но ономожет давать решение в тех приложениях, где долгая обучающая процедураневозможна. Будет показано, что помимо преодоления ограничений других сетейвстречное распространение обладает собственными интересными и полезнымисвойствами.
Во встречном распространении объединены двахорошо известных алгоритма: самоорганизующаяся карта Кохонена [8] и звездаГроссберга [2-4] (см. приложение Б). Их объединение ведет к свойствам, которыхнет ни у одного из них в отдельности.
Методы, которые подобно встречномураспространению, объединяют различные сетевые парадигмы как строительные блоки,могут привести к сетям, более близким к мозгу по архитектуре, чем любые другиеоднородные структуры. Похоже, что в мозгу именно каскадные соединения модулейразличной специализации позволяют выполнять требуемые вычисления.
Сеть встречного распространенияфункционирует подобно столу справок, способному к обобщению. В процессеобучения входные векторы ассоциируются с соответствующими выходными векторами.Эти векторы могут быть двоичными, состоящими из нулей и единиц, илинепрерывными. Когда сеть обучена, приложение входного вектора приводит ктребуемому выходному вектору. Обобщающая способность сети позволяет получатьправильный выход даже при приложении входного вектора, который являетсянеполным или слегка неверным. Это позволяет использовать данную сеть дляраспознавания образов, восстановления образов и усиления сигналов.
- СТРУКТУРА СЕТИ
На рис.а4.1 показана упрощенная версияпрямого действия сети встречного распространения. На нем иллюстрируютсяфункциональные свойства этой парадигмы. Полная двунаправленная сеть основана натех же принципах, она обсуждается в этой главе позднее.
Рис.а4.1. Сеть с встречным распознаваниембез обратных связей
Нейроны слояа0 (показанные кружками) служатлишь точками разветвления и не выполняют вычислений. Каждый нейрон слояа0соединен с каждым нейроном слояа1 (называемого слоем Кохонена) отдельным весомwmn. Эти веса в целом рассматриваются как матрица весов W. Аналогично, каждый нейрон в слоеКохонена (слоеа1) соединен с каждым нейроном в слое Гроссберга (слоеа2) весомvnp. Эти веса образуют матрицу весов V. Все это весьма напоминает другие сети,встречавшиеся в предыдущих главах, различие, однако, состоит в операциях,выполняемых нейронами Кохонена и Гроссберга.
Как и многие другие сети, встречноераспространение функционирует в двух режимах: в нормальном режиме, при которомпринимается входной вектор Хи выдается выходной вектор Y, и в режиме обучения, при котором подается входной вектор и весакорректируются, чтобы дать требуемый выходной вектор.
- НОРМАЛЬНОЕФУНКЦИОНИРОВАНИЕ
- СлоиКохоненна
В своей простейшей форме слой Кохоненафункционирует в духе победитель забирает все, т.ае. для данного входноговектора один и только один нейрон Кохонена выдает на выходе логическую единицу,все остальные выдают ноль. Нейроны Кохонена можно воспринимать как наборэлектрических лампочек, так что для любого входного вектора загорается одна изних.
Ассоциированное с каждым нейроном Кохоненамножество весов соединяет его с каждым входом. Например, на рис.а4.1 нейронКохонена К1 имеет веса w11, w21, Е,wm1, составляющие весовой вектор W1. Онисоединяются-через входной слой с входными сигналами х1,x2, Е, xm, составляющими входной векторX. Подобно нейронамбольшинства сетей выход NET каждого нейрона Кохонена является просто суммойвзвешенных входов. Это может быть выражено следующим образом:
NETj =w1jx1 +w2jx2 + Е +wmjxm (4.1)
где NETj – этовыход NET нейрона Кохонена j,
(4.2)
или в векторной записи
N = XW, (4.3)
где N – векторвыходов NET слоя Кохонена.
Нейрон Кохонена с максимальным значением NETявляется победителем. Его выход равен единице, у остальных он равеннулю.
- СлойГроссберга
Слой Гроссберга функционирует в сходнойманере. Его выход NET является взвешенной суммой выходов k1,k2,...,knслоя Кохонена, образующих вектор К. Вектор соединяющих весов, обозначенный через V, состоит из весов v11,v21,..., vnp. Тогда выход NET каждого нейронаГроссберга есть
, (4.4)
где NETj – выходj-го нейрона Гроссберга, илив векторной форме
Y = KV, (4.5)
где Y –выходной вектор слоя Гроссберга, К –выходной вектор слоя Кохонена, V – матрицавесов слоя Гроссберга.
Если слой Кохонена функционирует такимобразом, что лишь у одного нейрона величина NET равна единице, а у остальныхравна нулю, то лишь один элемент вектора К отличен от нуля, и вычисления оченьпросты. Фактически каждый нейрон слоя Гроссберга лишь выдает величину веса,который связывает этот нейрон с единственным ненулевым нейрономКохонена.
- ОБУЧЕНИЕ СЛОЯ КОХОНЕНА
Слой Кохонена классифицирует входные векторыв группы схожих. Это достигается с помощью такой подстройки весов слояКохонена, что близкие входные векторы активируют один и тот же нейрон данногослоя. Затем задачей слоя Гроссберга является получение требуемыхвыходов.
Обучение Кохонена является самообучением,протекающим без учителя. Поэтому трудно (и не нужно) предсказывать, какойименно нейрон Кохонена будет активироваться для заданного входного вектора.Необходимо лишь гарантировать, чтобы в результате обучения разделялись несхожиевходные векторы.
- Предварительнаяобработка входных векторов
Весьма желательно (хотя и не обязательно)нормализовать входные векторы перед тем, как предъявлять их сети. Этовыполняется с помощью деления каждой компоненты входного вектора на длинувектора. Эта длина находится извлечением квадратного корня из суммы квадратовкомпонент вектора. В алгебраической записи
(4.6)
Это превращает входной вектор в единичныйвектор с тем же самым направлением, т.ае. в вектор единичной длины в n-мерномпространстве.
Уравнениеа(4.6) обобщает хорошо известныйслучай двух измерений, когда длина вектора равна гипотенузе прямоугольноготреугольника, образованного его х и у компонентами, как это следует из известной теоремы Пифагора. Нарис.а4.2а такой двумерный вектор V представлен в координатах х-у, причем координата х равна четырем, а координатаy – трем. Квадратный корень из суммыквадратов этих компонент равен пяти. Деление каждой компоненты V на пять дает вектор V с компонентами 4/5 и 3/5, гдеV’ указывает в том же направлении, что и V, но имеет единичную длину.
На рис.а4.26 показано несколько единичныхвекторов. Они оканчиваются в точках единичной окружности (окружности единичногорадиуса), что имеет место, когда у сети лишь два входа. В случае трех входоввекторы представлялись бы стрелками, оканчивающимися на поверхности единичнойсферы. Эти представления могут быть перенесены на сети, имеющие произвольноечисло входов, где каждый входной вектор является стрелкой, оканчивающейся наповерхности единичной гиперсферы (полезной абстракцией, хотя и не допускающейнепосредственной визуализации).
Рис.а4.2а. Единичный входнойвектор
Рис.а4.26. Двумерные единичные векторы наединичной окружности
При обучении слоя Кохонена на вход подаетсявходной вектор и вычисляются его скалярные произведения с векторами весов,связанными со всеми нейронами Кохонена. Нейрон с максимальным значениемскалярного произведения объявляется победителем и его веса подстраиваются.Так как скалярное произведение, используемое для вычисления величин NET,является мерой сходства между входным вектором и вектором весов, то процессобучения состоит в выборе нейрона Кохонена с весовым вектором, наиболее близкимк входному вектору, и дальнейшем приближении весового вектора к входному. Сноваотметим, что процесс является самообучением, выполняемым без учителя. Сетьсамоорганизуется таким образом, что данный нейрон Кохонена имеет максимальныйвыход для данного входного вектора. Уравнение, описывающее процесс обученияимеет следующий вид:
wн =wс+ α(x – wс), (4.7)
где wн – новое значение веса, соединяющеговходную компоненту х свыигравшим нейроном; wс – предыдущее значение этого веса;α – коэффициент скорости обучения,который может варьироваться в процессе обучения.
Каждый вес, связанный с выигравшим нейрономКохонена, изменяется пропорционально разности между его величиной и величинойвхода, к которому он присоединен. Направление изменения минимизирует разностьмежду весом и его входом.
На рис.а4.3 этот процесс показангеометрически в двумерном виде. Сначала находится вектор Xа–аWс, для этого проводится отрезок из конца W в конец X. Затем этот вектор укорачиваетсяумножением его на скалярную величину α, меньшую единицы, в результатечего получается вектор изменения д. Окончательно новый весовой вектор Wн являетсяотрезком, направленным из начала координат в конец вектора д. Отсюда можно видеть, что эффектобучения состоит во вращении весового вектора в направлении входного векторабез существенного изменения его длины.
Рис.а4.3. Вращение весового вектора впроцессе обучения (Wн– вектор новыхвесовых коэффициентов, Wс– вектор старыхвесовых коэффициентов)
Переменная к является коэффициентом скоростиобучения, который вначале обычно равен ~ 0,7 и может постепенно уменьшаться впроцессе обучения. Это позволяет делать большие начальные шаги для быстрогогрубого обучения и меньшие шаги при подходе к окончательнойвеличине.
Если бы с каждым нейроном Кохоненаассоциировался один входной вектор, то слой Кохонена мог бы быть обучен спомощью одного вычисления на вес. Веса нейрона-победителя приравнивались бы ккомпонентам обучающего вектора (αа=а1). Как правило, обучающее множество включает много сходныхмежду собой входных векторов, и сеть должна быть обучена активировать один итот же нейрон Кохонена для каждого из них. В этом случае веса.этого нейронадолжны получаться усреднением входных векторов, которые должны егоактивировать. Постепенное уменьшение величины α уменьшает воздействие каждогообучающего шага, так что окончательное значение будет средней величиной отвходных векторов, на которых происходит обучение. Таким образом, веса,ассоциированные с нейроном, примут значение вблизи лцентра входных векторов,для которых данный нейрон является победителем.
Pages: | 1 | ... | 6 | 7 | 8 | 9 | 10 | ... | 25 | Книги по разным темам