Нейросети. Ассоциативная память
Вид материала | Реферат |
- А. Л. Микаэлян Ассоциативная память, способная распознавать сильно скоррелированные, 109.72kb.
- Лекция 5 Внутренняя память, 178.2kb.
- Память память, 1160.48kb.
- Индивидуальное развитие памяти у людей, 357.08kb.
- Человеческого духа, 1692.85kb.
- Конкурс сочинений «Поклонимся великим тем годам, 48.33kb.
- Н. М. Омаров, к п. н., докторант Кыргызско-Российского Славянского Университета (Кыргызстан), 167.73kb.
- 1. Общие представления о памяти. Круг явлений памяти, 754.68kb.
- Память… Память Никуда от неё не денешься, не уйдёшь…, 84.62kb.
- Профилактика нарушений памяти. Память, 87.04kb.
Министерство общего и профессионального образования РФ
Ульяновский государственный технический университет
Факультет «Информационные системы и технологии»
Кафедра «Информатика и вычислительная техника»
Дисциплина «Инженерия знаний»
реферат
«Нейросети. Ассоциативная память»
Выполнил студент группы ЭВМд-42
Шарафутдинов И.Г.
Проверил профессор Соснин П.И.
Ульяновск 2002
Содержание
Введение 3
1. Общее описание АП структур 7
1.1 Два способа представления ассоциативности в нейроподобных сетях 7
1.2 Проблема имени и описания объектов в системах искусственного интеллекта 10
1.3 Представление информации в АП-структурах 13
2. Двунаправленная ассоциативная память 14
2.1 Структура ДАП 14
2.2 Восстановление запомненных ассоциаций 16
2.3 Кодирование ассоциаций 18
2.4 Емкость памяти 20
2.5 Непрерывная ДАП 21
2.6 Адаптивная ДАП 22
2.7 Конкурирующая ДАП 22
ЗАКЛЮЧЕНИЕ 23
Литература 24
Введение
Одним из основных свойств нейроподобных сетей является ассоциативность, т.е. способность восстанавливать информацию по ее малой части и устанавливать сходство различных объектов по их описанию. Это свойство играет большую роль в решении проблем искусственного интеллекта.
С середины 80-х гг. непрерывно растет интерес к моделированию нейронных сетей. Их особенностью является параллельная работа, и поэтому моделирование таких сетей на ЭВМ, имеющих традиционную архитектуру, требует затрат большого количества времени. Для ускорения этого процесса в разных странах мира начали появляться специализированные устройства, получившие название нейрокомпьютеров.
Существует большое разнообразие типов нейрокомпьютеров - от специализированных интегральных схем, в которые вводится заранее определенная структура нейронной сети, до универсальных программируемых сопроцессоров к вычислительным машинам, на которых можно реализовать любую модель любой нейронной сети. Существует также и целый ряд промежуточных типов нейрокомпьютеров с той или иной степенью специализации. В данной монографии мы опишем специализированные нейрокомпьютеры, ориентированные на моделирование одного класса нейронных сетей. Этот класс характеризуется тем, что нейронные сети имеют иерархическую ассоциативную структуру, причем на каждом иерархическом уровне нейроны связываются друг с другом ассоциативными связями, образуя нейронные ансамбли, а между уровнями - проективными связями, которые остаются неизменными в процессе работы сети. Таким образом, структуры интересующих нас сетей можно назвать ассоциативно-проективными структурами (АП-структурами), а нейрокомпьютеры, моделирующие такого рода структуры, - ассоциативно-проективными нейрокомпьютерами (АП-нейрокомпьютерами).На нейрокомпьютерах целесообразно решать задачи, в которых традиционно силен человек и где вычислительные машины уступают человеческому мозгу. Примерами таких задач могут быть ассоциативный поиск информации, распознавание зрительных и слуховых образов, формирование сложных моделей внешнего мира для автоматического выполнения работ в реальной среде, построение баз знаний о некоторой предметной области, построение систем поддержки принятия решений и др. Нейрокомпьютеры, как и человеческий мозг, слабы в области выполнения расчетных работ, связанных с большим объемом вычислений, с высокой точностью. Поэтому во многих случаях их целесообразно использовать совместно с ЭВМ. Как правило, нейрокомпьютеры так и разрабатывают в виде приставки к персональной или другой вычислительной машине.
Нейроподобные структуры дают возможность по новому подойти к решению целого ряда задач, считающихся традиционно сложными для вычислительных машин, благодаря ряду своих особенностей приведем некоторые из них.
- Параллельность обработки информации. Данным процессом исследователи интересовались на протяжении всей истории развития электронной вычислительной техники, и в настоящее время создано большое количество вычислительных средств, позволяющих распараллеливать решение задач. Опыт работы с такими устройствами показывает, что хорошие результаты получаются в тех случаях, когда обрабатываемые данные имеют однородную структуру (векторы, матрицы и т.п.), однако попытки применения их для решения задач, связанных с поиском на графах, и аналогичных задач, к которым обычно сводят проблемы искусственного интеллекта, наталкиваются на большие трудности. Нейроподобные структуры дают возможность организовать данные в виде однородных массивов и применить методы распараллеливания, но при этом они дают и новые возможности поиска хранящейся в этих структурах информации, что позволяет надеяться на новые подходы к решению задач искусственного интеллекта.
- Ассоциативность. Это свойство нейроподобных структур восстанавливать хранящуюся в них информацию по ее части. Подобное свойство пытались воспроизвести на всех этапах развития вычислительной техники, однако в подавляющем большинстве случаев предложенные ассоциативные устройства осуществляют поиск информации по заранее выделенной ее части (по ключу). Ассоциативность нейроподобных структур отличается от ассоциативности большинства других типов технических устройств возможностью восстановления информации по любой ее части.
- Способность к автоматической классификации. В вычислительной технике данному свойству уделялось большое внимание. Разработаны разнообразные автоматические классификаторы и классифицирующие программы, реализуемые на универсальных ЭВМ. Особенностью нейроподобных структур является то, что способность к автоматической классификации внутренне присуща многим таким структурам и для ее реализации не требуется применение дополнительных мер.
- 4. Способность к обучению. В процессе обучения нейроподобные структуры способны перестраиваться для решения различных задач. Многие программы в той или иной степени такой способностью обладают и все-таки в целом основным способом подготовки вычислительной машины к решению новой задачи остается создание новой программы и обучение, а основным способом подготовки нейроподобных структур к решению новых задач является обучение. В этом между нейроподобными структурами и вычислительными машинами нет какого-либо резкого принципиального различия, речь идет скорее о количественном соотношении затрат, необходимых при разработке новых программ и параметрической настройке их на решаемые задачи. Однако надо иметь в виду, что в нейроподобных сетях под "программой" понимаются исходная структура (вводимая разработчиком до начала обучения нейроподобной сети), исходные значения параметров и алгоритмы функционирования различных блоков нейроподобной сети. Это понятие не совсем точно соответствует понятию программы в вычислительной машине. Общность их заключается в том, что в обоих случаях разработчик, используя свои представления о задаче подготавливает устройство к ее решению, а к предъявлению примеров, на которых строится процесс обучения, прибегает лишь после создания самой программы.
- Надежность. Нейроподобные структуры работают с высокой надежностью. Эксперименты, проведенные на вычислительных машинах, показывают, что выход из строя большого количества элементов нейроподобной сети (до 10%, а иногда и более) не приводит к отказам в работе всей структуры. Надо отметить, что хотя источник высокой надежности нейроподобных структур обычный - дублирование элементов, в отличие от традиционных схем дублирования оно не приводит к избыточным затратам аппаратуры, поскольку в нейроподобных структурах каждый элемент принимает участие в реализации многих функций, что позволяет при высокой степени дублирования экономно использовать рабочие элементы. Отказ каждого элемента в нейроподобной структуре ведет к ухудшению многих функций, но это ухудшение настолько мало, что его, как правило, практически невозможно обнаружить.
- Перечисленные свойства делают нейроподобные структуры привлекательными и вполне оправдан тот интерес, который исследователи проявляют к ним в течение последних лет. Здесь следует объяснить причины, по которым этого интереса не было на протяжении второй половины 60-х и 70-х гг. Их следует разделить на субъективные и объективные. К субъективным, по-видимому, следует отнести надежды первых исследователей на быстрое и эффективное решение всех проблем в данной области и на получение законченных полезных результатов. Но надежды не оправдались и последовавшее затем разочарование было чрезвычайно глубоким. Из множества объективных причин необходимо выделить две. Первая заключается в теоретических трудностях, с которыми столкнулись исследователи нейроподобных структур - нелинейными, сложными объектами, трудно поддающимися анализу. При этом многие исследователи поддались соблазну сильного упрощения, линеаризации исследуемого объекта, что привело к потере основных полезных свойств нейроподобных структур. Результаты же, полученные на таких упрощенных моделях, были отнесены ко всему множеству неисследованных структур. Второй объективной причиной было слабое развитие аппаратных средств. Попытки найти достаточно дешевые и технологичные аналоговые элементы для реализации адаптивных межнейронных связей в те годы закончились неудачей, а развитой микропроцессорной техники, позволяющей решить эти проблемы на цифровой элементной базе, еще не было.
- Бурное развитие электронной технологии в 70-х и 80-х гг. привело к тому, что в настоящее время существует адекватная элементная база для аппаратной поддержки нейроподобных структур, а целый ряд теоретических проблем, не решенных в 50-х и гг. удалось решить, не прибегая к излишним упрощениям. Поэтому в настоящее время сложились условия, благоприятные для развития работ по нейроподобным структурам и нейрокомпьютерам. Выбирая конкретное направление работ, сейчас очень важно правильно оценить ситуацию и свои реальные возможности. Зарубежные исследователи, разрабатывая универсальные устройства для моделирования самых различных нейронных сетей, делают ставку на высокий уровень электронной технологии, позволяющий реализовывать высокопроизво-дительные параллельные устройства, но наша элементная база не позволяет нам успешно конкурировать в этой области. Поэтому целесообразно выбрать конкретный тип нейроподобной сети и разрабатывать для него специализированное вычислительное устройство, позволяющее скомпенсировать недостатки элементной базы высоким уровнем специализации. При этом есть риск сильно сузить круг за-дач, которые сможет решать такое устройство. К счастью, существуют нейроподобные структуры, обладающие большой универсальностью, и реализация специализированного устройства для них позволяет ориентировать устройство на решение широкого круга задач, сохранив преимущества специализации. Этот путь позволяет разработать конкурентоспособные устройства даже на слабой элементной базе. Ниже будут описаны такие нейроподобные структуры.
1. Общее описание АП структур
1.1 Два способа представления ассоциативности в нейроподобных сетях
Когда психологи говорят об ассоциации, они обычно имеют в виду способность человека по заданному понятию (или образу) очень быстро находить другие понятия (или образы), в каком-то смысле близкие к исходному. Это свойство считается очень важным для человеческого мышления, и специалисты по искусственному интеллекту не могли не отразить его в своих работах.
Можно выделить два основных способа, при помощи которых в искусственном интеллекте пытаются воспроизвести свойство ассоциативности. Первый заключается в установлении отношений между различными понятиями и записи этих отношений в явном виде, как это делается, например, в семантических сетях [1]. Тогда понятиям ставятся в соответствие узлы сети, а отношениям - связи между ними и ассоциации возникают при переходе по связям от одних узлов к другим. Второй способ заключается в описании содержания (объема) каждого понятия путем перечисления его признаков. Ассоциация при этом может быть получена путем сравнения признаковых структур и выявления общих (ассоциация по смежности) или проти-воположных (ассоциация по контрасту) признаков. Этот способ может быть реализован в фреймовых структурах [2], хотя поиск ассоциаций в них приводит к очень трудоемким процедурам. Как одну из интересных попыток ввести внутреннюю структуру понятий можно рассматривать нечеткие множества Заде [3], хотя структурирование здесь осуществляется только по одному параметру - мере принадлежности, и получается относительно бедным.
Нетрудно заметить, что различие между этими способами базируется на том, что в первом случае понятие представляют единым, неделимым элементом, и все, что можно сказать об этом элементе, переносится в его связи, а во втором - множеством элементов, имеющим свою внутреннюю структуру.
Нейронные сети по своей природе являются едва ли не идеальным устройством для получения ассоциаций, поэтому при их моделировании свойству ассоциативности уделяется большое внимание и почти все авторы моделей так или иначе решают вопрос о формиро-вании ассоциаций, но способов решения этого вопроса остается как минимум два: ассоциации за счет формирования межнейронных связей и ассоциации за счет пересечения подмножеств нейронов, входящих в состав понятий [4]. Различия этих двух способов имеют очень важные и далеко идущие последствия, но по-видимому, это обстоятельство еще недостаточно хорошо осознанно и не получило в литературе должного освещения.
Еще в 1949 г, Д.О.Хебб [5] высказал гипотезу, в соответствии с которой информацию о внешнем мире человеческий мозг формирует в виде нейронных ансамблей. Нейронный ансамбль по Хеббу - это множество нейронов, связанных между собой взаимными возбуждающими связями. Он обладает свойством возбуждаться целиком, когда в его составе возбужденной оказывается только часть нейронов. Это свойство, очевидно, может служить основой для появления ассоциаций. Так, если два ансамбля содержат в своем составе общие нейроны, то возбуждение одного из них через общие нейроны может привести к последующему возбуждению другого ансамбля. Если общие нейроны рассматривать как общие признаки, которые входят в состав двух понятий, отражаемых этими ансамблями, то переход возбуждения с одного ансамбля на другой можно считать ассоциацией по смежности.
Рассматривая такого рода ассоциации, П.Милнер [6] пришел к выводу, что нейронный ансамбль имеет достаточно сложную внутреннюю структуру. В нем можно выделить ядро, отражающее основное содержание понятия или образа, и бахрому, отражающую менее существенные или конкретизирующие признаки. Нетрудно провести аналогию между внутренней структурой нейронных ансамблей и тех понятий или образов, которые им соответствуют.
Ассоциативные структуры, предложенные Д.Хеббом и П.Милнером, с нашей точки зрения были наиболее близки к тому, что требуется для построения систем искусственного интеллекта, но в работах Д.Хебба и П.Милнера остались нерешенными многие вопросы, от которых зависела практическая реализация их модели. Одним из таких вопросов была устойчивость работы нейронной сети. Для того чтобы возбуждение отдельной группы нейронов не приводило к возбуждению всей сети, П.Милнеру пришлось ввести тормозящие связи между активными и неактивными нейронами. Дальнейшее логическое развитие этой идеи привело к появлению сетей Хопфилда [7], в которых исчезло исходное понятие нейронного ансамбля с его сложной внутренней структурой.
Другим нерешенным вопросом у Д.Хебба и П.Милнера был вопрос иерархии. Очевидно, что достаточно развитая информационная модель внешнего мира должна быть иерархической. Нейронные сети Д.Хебба и П.Милнера имели "плоскую" структуру: все нейроны в такой сети совершенно равноправны и имеют равные возможности устанавливать связи друг с другом. Наиболее естественным способом преодоления этого недостатка казалось выделение отдельных нейронов, которые могли бы служить представителями целых ансамблей на более высоком уровне иерархии.
Идея заменить целый ансамбль отдельным нейроном кажется очень привлекательной и в том или ином виде она присутствует в целом ряде работ, связанных с созданием нейроподобных структур. Так, в модели Гроссберга [8] входной вектор, содержащий набор признаков, входит в "адаптивный резонанс" с отдельным нейроном более высокого уровня, причем между уровнями формируются такие связи, что этот нейрон становится единственным представителем набора признаков. Если набор признаков существенно изменится, то появится новый нейрон-представитель. Главный недостаток этой модели заключается в том, что на верхнем уровне нейрон-представитель не имеет никакой внутренней структуры, которая хоть как-то отражала бы внутреннюю структуру соответствующего набора признаков. Положение практически не изменяется и в том случае, когда на верхнем уровне для представительства выбирают не один, а несколько нейронов, поскольку в модели Гроссберга эта группа нейронов не представляет собой единого целого (нейронного ансамбля) и ее внутренняя структура не анализируется.
Потеря внутренней структуры признаковых наборов происходит и в иерархической модели Фукушимы [9], где также доминирует идея замены нейронных ансамблей отдельными нейронами при переходе с одного уровня на другой.
Одной из наиболее тщательно проработанных иерархических моделей с заменой группы признаков одним элементом более высокого уровня является растущая пирамидальная сеть, предложенная В.П.Гладуном [10]. Вся модель строится в виде множества пересекающихся пирамид, у которых любая вершина может быть описана в виде булевой функции от переменных, помечающих нижележащие узлы пирамидальной структуры. Анализируя эту модель, можно убедиться в том, что в ней (как и в других моделях с заменой нейронных ансамблей одним нейроном) сохраняется потенциальная возможность восстановить внутреннюю структуру ансамблей, перемещаясь по пирамиде сверху вниз, и получить необходимые ассоциативные переходы, но практическая реализация этих переходов требует сложных поисковых процедур, что снижает возможности применения этих моделей в системах искусственного интеллекта.
Очень интересные результаты, связанные с преодолением недостатков модели Хебба и Милнера, получены Брайтенбергом [11], предложившим эффективный механизм управления активностью нейронной сети, которые содержат нейронные ансамбли. Этот механизм основан на регулировании порога срабатывания нейронов. Однако дальнейшее развитие этих работ в моделях Палма [12] и Ланснера [13] вылилось в основном в исследование информационной емкости подобных сетей. Ни проблема внутренней структуры ансамблей, ни вопросы сохранения этой структуры в иерархических моделях названными авторами не рассматриваются.
Таким образом, попытки устранить недостатки модели Хебба и Милнера привели одновременно к устранению ее основных достоинств. Быть может с этим связано и то обстоятельство, что даже термин "нейронный ансамбль" не слишком часто употребляется в современной литературе по нейронным сетям.
В работах школы Н.М.Амосова, к которой принадлежит автор, также прослеживается двойственное отношение к проблеме отображения нейронных ансамблей в иерархических сетевых моделях. Одно направление работ [4] связано с разработкой активных семантических сетей (М-сетей), когда каждый нейронный ансамбль заменяется одним узлом сети. При этом сохраняются его семантические связи с другими ансамблями, но внутренняя структура теряется.
Другое направление работ связано с попыткой сохранить структуру нейронных ансамблей на всех уровнях иерархии. Данное направление развивается с конца 60-х гг. и первая задача, которая была решена в рамках направления, - это достижение стабильности работы сетей с ансамблевой структурой. Задача была решена А.Д.Гольцевым [14] еще до появления соответствующей работы Брайтенберга. Механизм регулирования активности сети, предложенный Брайтенбергом, оказался близким к механизму Гольцева.
В конце 70-х гг. автор данной монографии рассмотрел целый ряд вопросов, связанных с формированием внутренней структуры нейронных ансамблей, ее описанием и с той ролью, которую может играть структура нейронных ансамблей в системах искусственного интеллекта [15].
Оставалась нерешенной проблема построения иерархических мо-делей, в которых ансамблевая структура естественным образом возникала бы на всех уровнях иерархии. Решение этой проблемы получено в работах автора и его сотрудников, выполненных в течение последних лет (см. например, [16,17,18,19]).
1.2 Проблема имени и описания объектов в системах искусственного интеллекта
АП-структуры разрабатываются в основном для решения задач искусственного интеллекта и служат для обеспечения возможности моделирования образного и понятийного мышления, не отрывая их друг от друга. Здесь требуется пояснить, что мы будем понимать под образным и понятийным мышлением. Считается, что в сенсорных органах человека и животных осуществляется первичная обработка информации. Она приводит к выделению некоторых признаков, из которых в дальнейшем формируются образы. В процессе обработки информации можно оперировать комбинациями таких признаков или другими более сложными структурами, описывающими образы. Манипуляции признаковыми структурами мы будем называть образным мышлением.
Существует и другой тип обработки информации, когда каждой сколько-нибудь значимой признаковой структуре (образу) дается определенное имя (понятие). Из понятий складываются новые структуры и таким структурам даются новые имена (понятия более высокого уровня). Каждое понятие является лишь обозначением соответствующей структуры и в отрыве от этой структуры не несет о ней никакой информации, кроме ссылки на нее. Поэтому для осмысленного манипулирования понятиями ("понятийного мышления") устанавливаются некоторые правила, в которых косвенно учитываются свойства структур, обозначенных соответствующими понятиями.
Ставшие уже традиционными, основные методы построения систем искусственного интеллекта главное внимание уделяют моделированию понятийного мышления. Все попытки оперировать непосредственно признаковыми структурами не дали реальных результатов, и в настоящее время даже в тех случаях, когда в систему искусственного интеллекта включают сенсорные органы, воспринимающие признаки объектов окружающего мира, от них стараются как можно быстрее освободиться. Для этого осуществляют распознавание образов и замену их именами. Нам представляется вполне вероятным, что многие проблемы, с которыми сталкиваются разработчики искусственного интеллекта, обусловлены отрывом имени (понятия) от той исходной структуры, которая этим именем названа. Предпринимаются различные попытки преодолеть этот разрыв. Одной из таких попыток является организация фреймовых структур, в которых именем является заголовок структуры, а сама она служит расшифровкой содержания имени. К сожалению, при построении иерархических систем в структуры более высокого уровня передаются только заголовки, т.е. имена, и когда появляется потребность в расшифровке содержимого этих имен, необходимо прибегать к поисковым процедурам, которые в развитых системах искусственного интеллекта приводят к проблеме так называемого экспоненциального взрыва.
Можно попытаться создать системы, когда содержание понятий, составляющих основу системы, не имеет значения. Вместо этого нужно только определить набор правил, по которым производятся все манипуляции понятиями. Это не что иное, как формализация решаемой задачи. Трудности, возникающие на этом пути, хорошо известны.
Приведем конкретный пример. Пусть перед нами стоит задача разработать систему управления транспортным роботом, предназначенным для выполнения работ в естественной среде. Пусть этот робот оснащен достаточно совершенной системой технического зрения, и нам необходимо сформулировать на первый взгляд простое правило: "Если перед роботом находится препятствие, его нужно объехать". Каждое из понятий в этом правиле для робота нужно расшифровать. Что значит "перед роботом"? Впереди на расстоянии 100 м? Или робот уже прикоснулся передним бампером? Или впереди, но в стороне, однако дорога поворачивает в эту же сторону? Таких вопросов можно поставить сотни. Что значит препятствие? Поваленное дерево? Кустик полыни? Выбоина на дороге? Выбоина на песке в сухую погоду или она же на глинистой дороге после сильного дождя? Что значит объехать? Повернуть руль и проехать вперед или надо сначала отъехать немного назад?
Даже такой пример, с самого начала очень упрощенный, может породить систему описаний, практически необозримую, если мы пожелаем учесть все возможные случаи. Попытки структурировать систему описаний улучшают ее, но не решают проблему полностью, поскольку любая классификация, которой приходится пользоваться в таких случаях, вносит свои погрешности и добавляет возможности ошибок. Когда человека обучают водить транспортное средство, ему кроме правил еще приводят примеры, а после этого дают возможность самому набрать такого рода примеры, посадив человека за руль. Эти примеры помогают человеку дополнить сообщенные ему правила. Но ни одна дорожная ситуация, как правило, не повторяется в точности. Для того чтобы пользоваться примерами, необходимо уметь обнаруживать сходство текущей ситуации с примерами и их различия. Это можно сделать только в том случае, когда определено сходство использованных понятий. Если мы скажем будущему водителю: "Выбоину по мокрой глинистой дороге лучше объехать", но теперь он едет не по дороге, а по болоту и перед ним не выбоина, а естественная ямка, заполненная водой, то водитель воспользуется советом на основании сходства выбоины и ямки. Для того чтобы подобным образом мог действовать робот, ему нужно уметь на всех уровнях обработки информации улавливать сходство различных элементов обрабатываемой информации. Этому процессу мешает тот факт, что имена понятий всюду оказываются оторванными от их содержимого. У самих слов "выбоина" и "ямка" нет ничего общего, если не обратиться к их содержимому. Но обратившись к их описанию, в котором используются другие понятия, нам потребуется найти сходство и этих понятий, входящих в описание. Количество требуемых для этого операций нарастает, как снежный ком, поэтому практически сходство различных понятий в реально существующих системах искусственного интеллекта либо полностью игнорируется, либо учитывается чисто формально через списки синонимов. Эта утрата способности к быстрому определению сходства приводит к тому, что несмотря на все призывы использовать в системах искусственного интеллекта рассуждения по аналогии, такие рассуждения используются очень мало, хотя хорошо известно, что в практической деятельности человека они являются едва ли не основным видом рассуждений.
1.3 Представление информации в АП-структурах
Предлагаемые нами АП-структуры созданы для того, чтобы в системах искусственного интеллекта можно было ликвидировать разрыв между содержимым понятия и его именем, что позволит разработать эффективные процедуры "рассуждений" по аналогии и использования опыта, накопленного в форме примеров.
Основная идея заключается в том, что в АП-структурах все элементы, имеющие какой-либо содержательный смысл, кодируются различными подмножествами нейронов. Любой признак, любой объект, понятие, отношение между объектами, описание сцены, содержание фразы, текста - все они имеют в АП-структуре свое представительство в виде соответствующих подмножеств нейронов. Для элементов информации на самых нижних уровнях (признаков, элементарных действий робота и т.п.) соответствующие подмножества выбираются при помощи случайной процедуры, а элементы более высоких уровней строятся по определенным правилам из подмножеств нижних уровней. Так, если объект может быть описан набором признаков, то в состав соответствующего ему подмножества войдут представители тех признаков, которые входят в набор. Если сцена может быть описана набором составляющих ее объектов и отношений между ними, то код этой сцены будет составлен из представителей соответствующих объектов и отношений. Специальные процедуры позволяют учесть последовательность формирования сложного кода из более простых составляющих, что дает возможность формировать нейронные подмножества, соответствующие словам, из кодов составляющих их букв, кодировать фразы по составляющим словам и т.д.
Как уже говорилось выше, АП-структуры строятся из ассоциативных нейронных полей, связанных между собой проективными связями. Ассоциативные поля имеют внутренние ассоциативные связи между нейронами, изменяющиеся при обучении. Они и позволяют формировать нужные для работы подмножества нейронов - нейронные ансамбли. Проективные связи не изменяются в процессе обучения сети, а устанавливают взаимно однозначное соответствие между нейронами различных ассоциативных полей и передают возбуждение из одного поля в другое согласно этому однозначному соответствию
Для того чтобы эффективно работать с представлением информации в форме подмножеств нейронов, необходимо выполнить несколько условий. Во-первых, процессы кодирования и декодирования должны быть взаимно обратимыми. Если какая-либо процедура собирает составной код из более простых кодов, то должна существовать процедура, восстанавливающая простые коды по составному. Во-вторых, при переходе к кодам более высоких уровней размеры кодирующих подмножеств не должны сильно увеличиваться (во всяком случае, они не должны расти экспоненциально в зависимости от уровня). Отсюда следует вывод, что более простые составляющие посылают в составной код только часть своих элементов в качестве представителей. В-третьих, подмножество нейронов, кодирующее любой информационный элемент, должно в процессе работы нейронной сети вести себя как единое целое, т.е. все входящие в него нейроны должны, как правило, возбуждаться одновременно, а нейроны, принадлежащие другим подмножествам, во время такого возбуждения должны быть неактивными. В противном случае было бы очень сложно установить, какие процессы происходят в сети.
Для выполнения всех названных условий АП-структуры строятся таким образом, чтобы каждое кодирующее подмножество нейронов образовывало нейронный ансамбль. Нейронным ансамблем называют такое подмножество нейронов, внутри которого между нейронами существует большое количество взаимно возбуждающих связей. В таком ансамбле достаточно возбудить только часть нейронов, и в результате распространения возбуждения по связям он возбудится весь. Поскольку каждый из нейронов может входить во много разных ансамблей, процесс возбуждения охватит всю сеть, если не принять специальные меры по регулированию уровня общей активности нейронов сети. В АП-структурах используются регуляторы активности, которые поддерживают число одновременно возбужденных нейронов на уровне, приблизительно соответствующем размеру одного нейронного ансамбля.
2. Двунаправленная ассоциативная память
2.1 Структура ДАП
На рис.1 приведена базовая конфигурация ДАПОна выбрана таким образом, чтобы подчеркнуть сходство с сетями Хопфилда и предусмотреть
рис.1.Конфигурация двунаправленной ассоциативной памяти
увеличения количества слоев. На рис.1 входной вектор А обрабатывается матрицей весовW сети, в результате чего вырабатывается вектор выходных сигналов нейронов В. Вектор В затем обрабатывается транспонированной матрицей W весов сети, которая вырабатывает новые выходные сигналы, представляющие собой новый входной вектор А. Этот процесс повторяется до тех пор, пока сеть не достигнет стабильного состояния, в котором ни вектор А ни вектор В не изменяются. Заметим, что нейроны в слоях 1 и 2 функционируют, как и в других парадигмах, вычисляя сумму взвешенных входов и вычисляя по ней значение функции активации F Этот процесс может быть выражен следующим образом:
(1) bi=F(СУМjajwij)
или в векторной форме
(2) B=F(AW)
где В - вектор выходных сигналов нейронов слоя 2. А - вектор выходных сигналов нейронов слоя 1, W-матрица весов связей между слоями 1 и 2, F -функция активации. Аналогично
(3) A=F(BWt)
где Wt является транспозицией матрицы W. Как отмечено в первом разделе. Гроссберг показал преимущества использования сигмоидальной (логистической) функции активации
(4) OUT =1/(1+e-hNETi)
где OUTi - выход нейрона i , NETi-взвешенная сумма входных сигналов нейрона i , h - константа, определяющая степень кривизны. В простейших версиях ДАП значение константы А выбирается большим, в результате чего функция активации приближается к простой пороговой функции. В дальнейших рассуждениях будем предполагать, что используется пороговая функция активации. Примем также, что существует память внутри каждого нейрона в слоях 1 и 2 и что выходные сигналы нейронов изменяются одновременно с каждым тактом синхронизации, оставаясь постоянными между этими тактами. Таким образом, поведение нейронов может быть описано следующими правилами:
OUTi(n+l)=l, если NETi(n)>0,
OUTi(n+l)=0, если NETi(n)< 0.
OUTi(n+l)=OUT(n), если NETi(n)=0,
где OUTi(n) представляет собой величину выходного сигнала нейрона i в момент времени n. Заметим, что в описанных ранее сетях слой 0 не производит вычислений и не имеет памяти; он является только средством распределения выходных сигналов слоя 2 к элементам матрицы Wt.
2.2 Восстановление запомненных ассоциаций
Долговременная память (или ассоциации) реализуется в весовых массивах W и Wt. Каждый образ состоит из двух векторов: вектора А, являющегося выходом слоя 1, и вектора В, ассоциированного образа, являющегося выходом слоя 2. Для восстановления ассоциированного образа вектор А или его часть кратковременно устанавливаются на выходах слоя 1. Затем вектор А удаляется и сеть приводится в стабильное состояние, вырабатывая ассоциированный вектор В на выходе слоя 2. Затем вектор В воздействует через транспонированную матрицу Wt воспроизводя воздействие исходного входного вектора А на выходе слоя 1. Каждый такой цикл вызывает уточнение выходных векторов слоя 1 и 2 до тех пор, пока не будет достигнута точка стабильности в сети. Эта точка может быть рассмотрена как резонансная, так как вектор передается обратно и вперед между слоями сети, всегда обрабатывая текущие выходные сигналы, но больше не изменяя их. Состояние нейронов представляет собой кратковременную память (КП), так как оно может быстро изменяться при появлении другого входного вектора. Значения коэффициентов весовой матрицы образуют долговременную память и могут изменяться только на более длительном отрезке времени, используя представленные ниже в данном разделе методы. В работе [9] показано, что сеть функционирует в направлении минимизации функции энергии Ляпунова в основном таким же образом, как и сети Хопфилда в процессе; сходимости (см. Сети Хопфилда).Таким образом, каждый цикл модифицирует систему в направлении энергетического минимума, расположение которого определяется значениями весов.Этот процесс может быть визуально представлен в форме направленного движения мяча по резиновой ленте, вытянутой над столом, причем каждому запомненному образу соответствует; точка, «вдавленная» в направлении поверхности стола. Рис. 2 иллюстрирует данную аналогию с одним запомненным образом.
рис.2.Энергетическая поверхность ДАП
Данный процесс формирует минимум гравитационной энергии в каждой точке, соответствующей запомненному образу, с соответствующим искривлением поля притяжения в направлении к данной точке. Свободно движущийся мяч попадает в поле притяжения и в результате будет двигаться в направлении энергетического минимума, где и остановится.
2.3 Кодирование ассоциаций
Обычно сеть обучается распознаванию множества образов. Обучение производится с использованием обучающего набора, состоящего из пар векторов А и В. Процесс обучения реализуется в форме вычислений; это означает, что весовая матрица вычисляется как сумма произведений всех векторных пар обучающего набора. В символьной форме:
W=СУМiAtiBi
Предположим, что все запомненные образы представляют собой двоичные векторы. Это ограничение покажется менее строгим, если вспомнить, что все содержимое Библиотеки Конгресса может быть закодировано в один очень длинный двоичный вектор. В работе [11] показана возможность достижения более высокой производительности при использовании биполярных векторов. При этом векторная компонента, большая чем 0, становится 1, а компонента, меньшая или равная 0, становится -1. Предположим, что требуется обучить сеть с целью запоминания трех пар двоичных векторов, причем векторы Аi имеют размерность такую же, как и векторы Вi. Надо отметить, что это не является необходимым условием для работы алгоритма; ассоциации могут быть сформированы и между векторами различной размерности.
Исходный вектор | Ассоциированный вектор | Бинарная версия | ||
A1=(1,0,0) | B1=(0,0,1) | A'1=(1,-1,-1) | B'1=(-1,-1,1) | |
A2=(0,1,0) | B2=(0,1,0) | A'2=(-1,1,-1) | B'2=(-1,1,-1) | |
A3=(0,0,1) | B3=(1,0,0) | A'3=(-1,-1,1) | B'3=(1,-1,-1) |
Вычисляем весовую матрицу
W=A'1tB'1+A'2tB'2+A'3tB'3
1 | 1 | 1 | | 1 | -1 | 1 | | -1 | 1 | 1 | | -1 | -1 | -3 |
1 | 1 | -1 | + | -1 | 1 | -1 | + | -1 | -1 | 1 | = | -1 | 3 | -1 |
1 | 1 | -1 | | 1 | -1 | 1 | | 1 | -1 | -1 | | 3 | -1 | -1 |
Далее прикладывая входной вектор A=(1,0,0) , вычисляем выходной вектор O:
O=A1tW=(1 0 0)
1 | -1 | 3 | | | | |
-1 | 3 | -1 | = | -1 | -1 | 3 |
3 | -1 | -1 | | | | |
Используя пороговое правило:
bi = 1, если оi>О,
bi = 0, если оi<О,
bi не изменяется, если оi = О
вычисляем
В' =(0 0 1),
что является требуемой ассоциацией.Затем, подавая вектор В'1 через обратную связь на вход первого слоя к Wt, получаем
В'1Wt = (0 0 1)
-1 -1 3
-1 3 - 1 = (3 -1 -1)
3 -1 1
что дает значение (1,0,0) после применения пороговой функции, образуя величину вектора А1 .Этот пример показывает, как входной вектор А с использованием матрицы W производит выходной вектор В. В свою очередь векторВ> с использованием матрицы Wt<производит вектор А, таким образом в системе формируется устойчивое состояние и резонанс. ДАП обладает способностью к обобщению. Например, если незавершенный или частично искаженный вектор подается в качестве А, сеть имеет тенденцию к выработке запомненного вектора В, который в свою очередь стремится исправить ошибки в А. Возможно, для этого потребуется несколько проходов, но сеть сходится к воспроизведению ближайшего запомненного образа.Системы с обратной связью могут иметь тенденцию к колебаниям; это означает, что они могут переходить от состояния к состоянию, никогда не достигая стабильности. В [9] доказано, что все ДАП безусловно стабильны при любых значениях весов сети. Это важное свойство возникает из отношения транспонирования между двумя весовыми матрицами и означает, что любой набор ассоциаций может быть изучен без риска возникновения нестабильности. Существует взаимосвязь между ДАП и рассмотренными сетями Хопфилда. Если весовая матрица W является квадратной и симметричной, то W=Wt. В этом случае, если слои 1 и 2 являются одним и тем же набором нейронов, ДАП превращается в автоассоциативную сеть Хопфилда.
2.4 Емкость памяти
Как и сети Хопфилда, ДАП имеет ограничения на максимальное количество ассоциаций, которые она может точно воспроизвести. Если этот лимит превышен, сеть может выработать неверный выходной сигнал, воспроизводя ассоциации, которым не обучена. В работе [9] приведены оценки, в соответствии с которыми количество запомненных ассоциаций не может превышать количества нейронов в меньшем слое. При этом предполагается что емкость памяти максимизирована посредством специального кодирования, при котором количество компонент со значениями +1 равно количеству компонент со значениями -1 в каждом биполярном векторе. Эта оценка оказалась слишком оптимистичной. Работа [13] по оценке емкости сетей Хопфилда может быть легко расширена для ДАП. Можно показать, что если L векторов выбраны случайно и представлены в указанной выше форме, и если L меньше чем n/(21og2n), где n- количество нейронов в наименьшем слое, тогда все запомненные образы, за исключением «малой части», могут быть восстановлены. Например, если n =1024, тогда L должно быть меньше 51. Если все образы должны восстанавливаться, Lдолжно быть меньше n/(41og2n), то есть меньше 25.Эти, скорее озадачивающие, результаты показывают, что большие системы могут запоминать только умеренное количество ассоциаций. В работе [7] показано, что ДАП может иметь до 2n стабильных состояний, если пороговое значение Т выбирается для каждого нейрона. Такая конфигурация, которую авторы назвали негомогенной ДАП, является расширением исходной гомогенной ДАП, в которой все пороги были нулевыми. Модифицированная передаточная функция нейрона принимает в этом случае следующий вид:
OUTi(t+l)=l, если NETi(t)>Ti,
OUTi(t+l)=l, если NETi(t)
OUTi(t+l)=OUTi(t),если NETi(t)=Ti,
где OUTi(t) -выход нейрона i в момент времени t. Посредством выбора соответствующего порога для каждого нейрона количество стабильных состояний может быть сделано любым в диапазоне от 1 до 2, где n есть количество нейронов в меньшем слое. К сожалению, эти состояния не могут быть выбраны случайно; они определяются жесткой геометрической процедурой. Если пользователь выбирает L состояний случайным образом, причем L меньше (0,68)n2/([log2(n)]+ 4)2, и если каждый вектор имеет 4 + log2n компонент, равных +1, и остальные, равные -1, то можно сконструировать негомогенную ДАП, имеющую 98% этих векторов в качестве стабильных состояний. Например, если n =1024, L должно быть меньше 3637, что является существенным улучшением по сравнению с гомогенными ДАП, но это намного меньше 21024 возможных состояния. Ограничение количества единиц во входных векторах представляет серьезную проблему, тем более, что теория, которая позволяет перекодировать произвольный набор векторов в такой "разреженный" набор, отсутствует. Возможно, однако, что еще более серьезной является проблема некорректной сходимости. Суть этой проблемы заключается в том, что сеть может не производить точных ассоциаций вследствие природы поля притяжения; об ее форме известно очень немногое. Это означает, что ДАП не является ассоциатором по отношению к ближайшему соседнему образу. В действительности она может производить ассоциации, имеющие слабое отношение ко входному вектору. Как и в случае гомогенных ДАП. могут встречаться ложные стабильные состояния и немногое известно об их количестве и природе. Несмотря на эти проблемы, ДАП остается объектом интенсивных исследований. Основная привлекательность ДАП заключается в ее простоте. Кроме того, она может быть реализована в виде СБИС (либо аналоговых, либо цифровых), что делает ее потенциально недорогой. Так как наши знания постоянно растут, ограничения ДАП могут быть сняты. В этом случае как в экспериментальных, так и в практических приложениях ДАП будет являться весьма перспективным и полезным классом искусственных нейронных сетей.
2.5 Непрерывная ДАП
В предшествующем обсуждении нейроны в слоях 1 и 2 рассматривались как синхронные, каждый нейрон обладает памятью, причем все нейроны изменяют состояния одновременно под воздействием импульса от центральных часов. В асинхронной системе любой нейрон свободен изменять состояние в любое время, когда его вход предписывает это сделать. Кроме того, при определении функции активации нейрона использовался простой порог, тем самым образуя разрывность передаточной функции нейронов. Как синхронность функционирования, так и разрывность функций, являются биологически неправдоподобными и совсем необязательными; непрерывные асинхронные ДАП отвергают синхронность и разрывность, но функционируют в основном аналогично дискретным версиям. Может показаться, что такие системы должны являться нестабильными. В [9] показано, что непрерывные ДАП являются стабильными (однако для них справедливы ограничения емкости, обсужденные ранее).В работах [2-5] показано, что сигмоида является оптимальной функцией активации благодаря ее способности усиливать низкоуровневые сигналы, в то же время сжимая динамический диапазон нейронов. Непрерывная ДАП может иметь сигмоидальную функцию с величиной А, близкой к единице, образуя тем самым нейроны с плавной и непрерывной реакцией, во многом аналогичной реакции их биологических прототипов. Непрерывная ДАП может быть реализована в виде аналоговой схемы из резисторов и усилителей. Реализация таких схем в виде СБИС кажется возможной и экономически привлекательной.
2.6 Адаптивная ДАП
В версиях ДАП, рассматриваемых до сих пор, весовая матрица вычисляется в виде суммы произведений пар векторов. Эти вычисления полезны, поскольку они демонстрируют функции, которые может выполнять ДАП. Однако это определенно не тот способ, посредством которого производится определение весов нейронов мозга. Адаптивная ДАП изменяет свои веса в процессе функционирования. Это означает, что подача на вход сети обучающего набора входных векторов заставляет ее изменять энергетическое состояние до получения резонанса. Постепенно кратковременная память превращается в долговременную память, настраивая сеть в результате ее функционирования. В процессе обучения векторы подаются на слой А, а ассоциированные векторы на слой В. Один из них или оба вектора могут быть зашумленными версиями эталона; сеть обучается исходным векторам, свободным от шума. В этом случае она извлекает сущность ассоциаций, обучаясь эталонам, хотя «видела» только зашумленные аппроксимации. Так как доказано, что непрерывная ДАП является стабильной независимо от значения весов, ожидается, что медленное изменение ее весов не должно нарушить этой стабильности. В работе [10] доказано это правило. Простейший обучающий алгоритм использует правило Хэбба [8], в котором изменение веса пропорционально уровню активации его нейрона-источника и уровню активации нейрона-приемника. Символически это можно представить следующим образом:
swij=n'(OUTiOUTj),
где swij - изменение веса связи нейрона i с нейроном j в матрицах W или Wt, OUTi - выход нейрона i слоя 1 или 2; n' - положительный нормирующий коэффициент обучения, меньший 1.
2.7 Конкурирующая ДАП
Во многих конкурирующих нейронных системах наблюдаются некоторые виды конкуренции между нейронами. В нейронах, обрабатывающих сигналы от сетчатки, латеральное торможение приводит к увеличению выхода наиболее высокоактивных нейронов за счет соседних. Такие системы увеличивают контрастность, поднимая уровень активности нейронов, подсоединенных к яркой области сетчатки, в то же время еще более ослабляя выходы нейронов, подсоединенных к темным областям. В ДАП конкуренция реализуется взаимным соединением нейронов внутри каждого слоя посредством дополнительных связей. Веса этих связей формируют другую весовую матрицу с положительными значениями элементов главной диагонали и отрицательными значениями остальных элементов. Теорема Кохен-Гроссберга [1] показывает, что такая сеть является безусловно стабильной, если весовые матрицы симметричны. На практике сети обычно стабильны даже в случае отсутствия симметрии весовых матриц. Однако неизвестно, какие особенности весовых матриц могут привести к неустойчивости функционирования сети.
ЗАКЛЮЧЕНИЕ
Ограниченная емкость памяти ДАП, ложные ответы и некоторая непредсказуемость поведения привели к рассмотрению ее как устаревшей модели искусственных нейронных сетей.Этот вывод определенно является преждевременным. ДАП имеет много преимуществ: она совместима с аналоговыми схемами и оптическими системами; для нее быстро сходятся как процесс обучения так, и процесс восстановления информации; она имеет простую и интуитивно привлекательную форму функционирования. В связи с быстрым развитием теории могут быть найдены методы, объясняющие поведение ДАП и разрешающие ее проблемы.
Литература
1. Cohen M., Grossberg S. 1983. Absolute stability of global pattern formation and parallel memory storage by competitive neural networks. IEE Transactions on Systems, Man, and Cybernetics SMC-13:815-926.
2. Grossberg S. 1973. Contour enhancement, short term memory, and constancies in reverberating neural networks. Studies in Applied Mathematics 52:217-57.
3. Grossberg S. 1976. Adaptive pattern classification and universal recording,1: Parallel development and coding of neural feature detectors. Biological Сibernatics 23:187-202.
4. Qrossberg S. 1978. A theory of human memory: Selforganization and performance of sensory-motor codes, maps, and plans. In Progress in theoretical biology, vol.5, ed. R.Rosen and F.Shell. New lork:Academic Press.
5. Orossberg S. 1980. How does the brain build a cognitive code? Psychological Review 1:1-51.
6. Qrossberg S. 1982. Studies of mind and brain. Boston: Reidel Press.
7. Haines K... Hecht-Nielsen R. 1988. А ВАМ with increased information storage capacity. Proceedings of the IEEE International Conference on Neural Networks, vol.1, pp.181-190. San Diego. CA:SOS Printing.
8. Hebb D. 0. 1949. The organization of behavior. New lork: Wiley.
9. Kosko B. (1987 a). Bi-directional associative memories. IEEE Transactions on Systems, Man and Cybernetics 8(1):49-60.
10. Kosko B. (1987 b). Competitive adaptive bi-directional associative memories. In Proceedings of the IEEE First International Conference on Neural Networks. eds. M.Caudill and C.Butler, vol.2, pp. 75966. San Diego. CA:SOS Printing.
11. Kosko B. (1987 с). Constructing an associative memory. Byte. September, pp. 137-44.
12. Kosko В., Guest С. 1987. Optical bi-directional associative memories. Sosiety for Photo-optical and Instrumentation Engineers Proceedings: Image Understanding 758:11-18.
13. McEliece R.J., Rosner E.G., Rodemich E.R., Venkatesh S.S. 1987. The capacity of Hopfield associative memory. IEEE Transactions on Information Theory IT-33:461-82.