Isbn 5-7262-0634 нейроинформатика 2006

Вид материалаДокументы

Содержание


2. Теория нейронных сетей – логический базис разработки
3. Выбор задач, адекватных нейросетевому логическому базису
4. Общая структура пакета программ решения задач
Сравнение методов настройки многослойных нейронных сетей
5. О мифах на пути теории нейронных сетей
Подобный материал:

ISBN 5-7262-0634-7. НЕЙРОИНФОРМАТИКА – 2006. Часть 1

А.И. ГАЛУШКИН

НИИ автоматической аппаратуры им. В.С. Семенихина, Москва

neurocomputer@yandex.ru


О МЕТОДИКЕ РЕШЕНИЯ ЗАДАЧ

В НЕЙРОСЕТЕВОМ ЛОГИЧЕСКОМ БАЗИСЕ


Аннотация

Представлена структура маршрута проектирования нейросетевых алгоритмов решения сложных задач с учетом последних достижений в области теории нейронных сетей.


1. Нейроматематика – новый перспективный раздел

вычислительной математики


Нейроматематика – раздел вычислительной математики, связанный с разработкой методов и алгоритмов решения задач в нейросетевом базисе. Объективной предпосылкой развития этого нового раздела вычислительной математики является более чем 30-летний научный задел в области теории нейронных сетей, позволяющий создать единый подход к разработке нейросетевых алгоритмов решения практически любых задач общей и прикладной математики.

Нейронным (или нейросетевым) алгоритмом будем называть вычислительную процедуру, основная часть которой может быть реализована в виде нейронной сети той или иной структуры с алгоритмом настройки весовых коэффициентов. Главная задача нейрокомпьютера – быстрое решение задач.

Данная работа как бы определяет логический маршрут разработки нейросетевого алгоритма решения задач и в какой-то степени может служить основой для создания интеллектуального меню пакета программ, реализующего нейросетевые алгоритмы решения задач.


2. Теория нейронных сетей – логический базис разработки

нейросетевых алгоритмов решения задач


Теория нейронных сетей является логическим базисом для решения задач общей и прикладной нейроматематики, как ранее булевская логика была основой решения задач на ЭВМ с фон-неймановской архитектурой.

Основными преимуществами нейронных сетей как логического базиса алгоритмов решения сложных задач являются следующие:
  • инвариантность методов синтеза нейронной сети к размерности пространства признаков и их размеров;
  • соответствие современным и перспективным технологиям микроэлектроники;
  • отказоустойчивость в смысле монотонного, а не катастрофического изменения качества решения задачи в зависимости от числа вышедших из строя элементов.

Аксиоматической основой теории нейронных сетей является вероятностная байесовская модель окружающего мира. В связи с этим формирование входного сигнала нейронных сетей производится в виде канала образов и канала указаний учителя, причем входной сигнал в общем виде является нестационарным случайным сигналом со сложной, неизвестной, многомодальной плотностью распределения вероятностей.


3. Выбор задач, адекватных нейросетевому логическому базису


Все задачи, в физической постановке (не в математической, а физической постановке) делятся на две части – неформализуемые задачи и формализуемые задачи. Неформализуемые задачи – задачи, которые невозможно формализовать в виде каких-то математических знаков, формул, структур, графов и т.д., и любых других формальных математических описаний. Длительное время считалось, что нейрокомпьютеры эффективны для решения не формализуемых и плохо формализуемых задач, связанных с необходимостью включения в алгоритм их решения процесса обучения на реальном экспериментальном материале.

В соответствии с вышеизложенным необходимо дать некоторые пояснения к рис. 1, представляющему собой логическую структуру процесса выбора задач, адекватных нейросетевому логическому базису. Как отмечено выше, все задачи делятся на формализуемые и неформализуемые. По мнению автора, если задача неформализуема, то практически единственным путем ее решения является использование нейросетевого логического базиса.

После разработки нейросетевого алгоритма решения такой неформализуемой задачи, ее программирования на рабочей станции и анализа зависимости времени решения от параметров, в частности размерности задачи, определяется удовлетворяет ли заказчика время решения задачи. Если время решения задачи удовлетворяет заказчика, то в данном случае реализацией нейрокомпьютера является программа рабочей станции. Если время решения задачи не удовлетворяет заказчика, то возможно идти практически только двумя путями:

1. Разработка аппаратного нейросетевого ускорителя решения задачи с использованием той или иной технологии в зависимости от требований по срокам разработки, весам, габаритам и стоимости блока аппаратной поддержки.

При этом для конкретной выбранной технологии реализации нейрочипов и нейроплат можно ориентировочно подсчитать их количество в аппаратном ускорителе, необходимое для реализации задачи в заданное время. При этом реализацией нейрокомпьютера является плата, блок или стойка нейросетевого аппаратного ускорителя с управляющей хост-ЭВМ.

2. В случае жестких требований по срокам реализации и отсутствии требований по весам, габаритам и стоимости – разработка программы кластерной ЭВМ с распараллеливанием нейросетевого алгоритма на несколько процессоров. При этом число процессоров, необходимых для реализации задачи в заданное время может быть ориентировочно рассчитано, так как в случае нейросетевых алгоритмов есть возможность управления со стороны нейросетевого алгоритма равномерностью загрузки процессоров и потерями на обмен информацией между процессорами. В этом случае реализацией нейрокомпьютера является программа кластерной ЭВМ, реализующая параллельный нейросетевой алгоритм.

Вся вычислительная математика посвящена решению формализуемых задач. И если после реализации алгоритма решения задачи в классическом логическом базисе, адекватном фон-Неймановской архитектуре, время решения задачи удовлетворяет заказчика, то необходимость использования нейросетевого логического базиса отпадает. Развитие высоких технологий и повышение сложности формализуемых задач, в основном вследствие повышения размерности, приводят к тому, что зачастую время решения задачи на рабочей станции с использованием классических алгоритмов не удовлетворяет заказчика.

Тогда, как и ранее, у разработчиков два пути:

1. Разработать нейросетевой алгоритм решения формализуемой задачи и далее идти по пути, описанному выше для неформализуемых задач, как это делали исследователи – авторы работы [4] и библиографических ссылок в ней, а также авторы, указанные в [6] в разделе «Нейроматематика».

2. Разработать программу кластерной ЭВМ с распараллеливанием классического алгоритма, как это делают подавляющее большинство (если не все) пользователи кластерных ЭВМ.





Рис. 1


4. Общая структура пакета программ решения задач

в нейросетевом логическом базисе


Основой единой методики решения задач в нейросетевом логическом базисе является методика синтеза алгоритмов адаптации многослойных нейронных сетей. В соответствии с данной методикой были разработаны алгоритмы настройки многослойных нейронных сетей:

сети для произвольного режима работы (обучения, самообучения, обучения с учителем, имеющим конечную квалификацию и т.д.);

сети для широкого класса критериев первичной оптимизации (минимум средней функции риска, минимум средней функции риска при наличии ограничений на ее составляющие, максимум апостериорной вероятности и т.д.);

сети для широкого класса функционалов вторичной оптимизации (градиентный, градиентный с памятью, сочетание градиентной процедуры со случайным поиском при выборе начальных условий и т.д.);

сети для различных структур многослойных нейронных сетей (с произвольным числом слоев нейронов, с полными последовательными, перекрестными или обратными связями и т.д.).

В основе построения нейросетевых алгоритмов решения задач лежат следующие принципы:
  • отказ от известных, излагаемых в документации по нейропакетам, нейросетевых парадигм;
  • синтез нейросетевых алгоритмов, адекватных каждой данной поставленной математической задаче;
  • синтез нейросетевых алгоритмов, в которых отсутствует навязывание со стороны поставленной задачи структуры настраиваемой нейронной сети, а существует возможность гибкого планового выбора структуры с целью улучшения качества решения задачи.

Под качеством решения задачи понимаются точность ее решения и потенциальная скорость, определяемая, в частности, числом итераций в процессе адаптации нейронной сети.

Общая методика решения математических задач в нейросетевом логическом базисе впервые была изложена в [2]. Нейросетевые алгоритмы решения задач представляются здесь в единой структуре, определяемой методикой синтеза многослойных нейронных сетей, которая включает следующие этапы постановки задачи:
  • физическую, геометрическую;
  • математическую;
  • нейросетевую.

Нейросетевая постановка задачи в свою очередь содержит:

описание исходных данных;

определение входного сигнала х(n) нейронной сети;

формирование функционала первичной оптимизации нейронной сети при решении поставленной задачи;

определение выходного сигнала у(n) нейронной сети;

определение желаемого выходного сигнала нейронной сети;

определение вектора сигнала ошибки нейронной сети при решении задачи;

формирование функционала вторичной оптимизации нейронной сети через сигналы в системе;

выбор метода поиска экстремума функционала вторичной оптимизации нейронной сети при решении поставленной задачи;

аналитическое определение преобразования, осуществляемого нейронной сетью; выбор конкретной структуры нейронной сети;

нахождение аналитического выражения для градиента функционала вторичной оптимизации по настраиваемым параметрам;

формирование алгоритма настройки нейронной сети при решении поставленной задачи;

выбор начальных условий при настройке нейронной сети;

выбор типовых входных сигналов для тестирования процесса решения поставленной задачи;

разработка плана экспериментов.

На рис. 2 представлен текущий вариант общей структуры пакета программ решения задач в нейросетевом логическом базисе. Данная структура представляет собой по сути дела маршрут разработки нейросетевого алгоритма решения задачи и может быть основой для разработки меню рассматриваемого пакета программ.


Таблица


Сравнение методов настройки многослойных нейронных сетей


п/п

Признак методики синтеза нейронных сетей

Российские методы адаптации в многослойных нейронных сетях

Метод обратного распространения

Примечание

1

Срок разработки и опубликования

1965-1971 гг.,

1970-1974 гг.

1976-1984 гг.




Характеристики входных сигналов

2

Число классов образов (градаций по уровню сигнала указаний учителя о принадлежности входных образов полученному классу)

2, К, континуум

2




3

Характеристика стационарности входных образов, как случайных сигналов

Стационарная, нестационар-ная

стационарные




4

Характеристика «квалификации учителя»

Произвольная

Обучение (в=1)

Редко

Самообучение (в=0)




5

Собственное мнение учителя о своих способностях

+

-




6

Априорные вероятности появления классов образов

Произвольная

равные




Характеристика пространства решений

7

Количество решений

2, К, континуум

2

Для любого варианта числа классов

8

Априорная информация об условной плотности распределения вероятностей относительно образов классов

Может быть учтена

Не учитывается





Продолжение таблицы


п/п

Признак методики синтеза нейронных сетей

Российские методы адаптации в многослойных нейронных сетях

Метод обратного распространения

Примечание

Критерии первичной оптимизации

9

Класс критериев первичной оптимизации

Средняя функция риска, без учета и при наличии ограничений на составляющие для различных классов, максимум апостериорной информации и другие критерии, соответствующие физике задач

Энергетическая функция, среднеквадратическая ошибка

Российская методика:

-min R (средней функции риска) –min R при (составляющей средней функции риска) –min R при и др. критерии

10

Матрица (функция) потерь

произвольная

Диагональная, симметричная




Структуры многослойных нейронных сетей

11

Типы структур многослойных нейронных сетей

Многослойные нейронные сети с полными и неполными последовательными, перекрестными и обратными связями. Произвольные структуры, адекватные решаемым задачам

Трехслойные сети с полными последовательными связями




Функционал вторичной оптимизации

12

Метод выбора функционала вторичной оптимизации, соответствующего функционалу первичной оптимизации

+

-




Окончание таблицы


п/п

Признак методики синтеза нейронных сетей

Российские методы адаптации в многослойных нейронных сетях

Метод обратного распространения

Примечание

Методы поиска экстремума функционала вторичной оптимизации

13

Использование комбинированных (градиентных и случайных методов поиска)

+

-




14

Использование метода стохастической аппроксимации

+

-




15

Учет информации об ограничениях на настраиваемые коэффициенты (например, по величине или скорости изменения)

+

-




16

Возможность использования поисковых колебаний

+

-




17

Возможность фильтрации в контуре адаптации при оценке градиента функционала вторичной оптимизации

+

-




18

Выбор начальных условий в контуре адаптации весовых коэффициентов

+

-




Типовые входные сигналы

19

Выбор типовых входных сигналов

+

-






Рис. 2 (начало)





Рис. 2 (продолжение)





Рис. 2. Структура маршрута проектирования нейросетевого приложения

5. О мифах на пути теории нейронных сетей


Размытая логика – один из фундаментов развития теории нейронных сетей. Нейронные сети по мнению автора – один из наиболее эффективных методов реализации концепции размытой логики.

Наряду с этим, с нашей точки зрения, в процессе развития теории нейронных сетей часто возникают научные направления, которые при ближайшем рассмотрении оказываются весьма частной, достаточно узкой интерпретацией отдельных аспектов теории нейронных сетей. Предлагается с этой точки зрения обсудить некоторые из таких определений, в частности:

•  Genetic algorithms;

•  Support vector machines;

•  Wavelet networks;

•  RBF-networks;

•  Principle component analysis;

•  Эволюционное программирование.

Попытки вырвать из общей теории нейронных сетей и сделать самостоятельными отдельные направления, например, перечисленные выше, только, с нашей точки зрения, обедняют эти направления.

Такими же весьма частными интерпретациями теории нейронных сетей являются классические методы математической статистики и методы потенциальных функций, активно и широко рекламируемые в конце 60-х и начале 70-х годов прошлого столетия.

Основное предложение заключается в том, чтобы при обсуждении ранее предложенных и предлагаемых в дальнейшем алгоритмов в области многослойных нейронных сетей, каждый раз превращать «эмоциональное» определение алгоритма в некоторый вектор количественно представленных параметров с объяснением того, почему при введении нового алгоритма тот или иной параметр меняется количественно.

Подобное количественное описание с нашей точки зрения можно сделать для многих типов нейронных сетей, известных из литературы:

•  Сети Кохонена;

•  Сети Эльмана;

•  Сети Хопфилда;

•  Сети ART и другие

При этом сразу будут ясны количественные ограничения данных сетей, зачастую неясные для «доверчивых» пользователей даны нейросетевых парадигм.

Заключение


В данном докладе представлен по сути дела максимально возможный с точки зрения автора в настоящее время маршрут проектирования нейросетевых алгоритмов решения задач.

Количество научных работ в области теории нейронных сетей возрастает. Именно поэтому требуют аналитического подхода сравнение и детальная классификация различных подходов к решению задач синтеза нейронных сетей. В первую очередь это нужно делать, сравнивая априорную информацию, необходимую для синтеза нейронных сетей в каждом конкретном случае.

1. Априорные характеристики пространства «указаний учителя» нейронной сети – число классов образов (два, К, континуум).

2. Априорные характеристики нестационарности входного сигнала нейронной сети.

3. Функция «квалификации учителя» нейронной сети двух аргументов, являющихся индексами соответствующих классов.

4. Функция «собственного мнения учителя» нейронной сети о своих способностях. Это также функция двух аргументов, являющихся индексами соответствующих классов.

5. Априорные вероятности появления классов.

6. Априорные характеристики пространства решений нейронной сети (два, , континуум решений).

7. Класс критериев первичной оптимизации нейронной сети.

8. Функция потерь, возникающих при отнесении системой образов одного класса к другому.

9. Априорная информация об условных функциях распределения.

10. Априорная информация о фиксированной структуре разомкнутой нейронной сети при построении нейронной сети с фиксированной структурой, настраивающейся по замкнутому циклу.

11. Априорная информация о классе структур при построении нейронной сети с переменной структурой.

12. Априорная информация об отличии функционалов первичной и вторичной оптимизации при построении нейронной сети с фиксированной структурой, настраивающейся по замкнутому циклу.

13. Априорная информация о методе поиска экстремума функционала вторичной оптимизации.

14. Априорная информация о наличии и виде ограничений на настраиваемые коэффициенты.

15. Априорная информация о методе выбора коэффициентов параметрической матрицы системы поиска экстремума функционала вторичной оптимизации.

16. Априорная информация о параметрах поисковых колебаний в том случае, если алгоритм адаптации нейронной сети не может быть построен в виде аналитической системы.

17. Априорная информация о начальных условиях для настройки.

18. Априорная информация о классе типовых входных сигналов нейронной сети.

19. Априорная информация о степени усложнения структуры разомкнутой нейронной сети на каждом шаге и способе проведения данного усложнения.

Объективное сравнение многослойных нейронных сетей различных типов необходимо проводить, сравнивая априорную информацию, данную для их построения, а также качество работы многослойных нейронных сетей при типовых и реальных входных сигналах.

В таблице приведено сравнение методов синтеза нейронных сетей, представленных в [2, 3] книге, и методов, изложенных в большом количестве американских работ, посвященных методам обратного распространения ошибки.

К большому сожалению, видимо, из-за плохой информированности, возникает достаточно большое количество «доморощенных» нейросетевых алгоритмов. Получение с их помощью первых положительных результатов может создать впечатление о «законченности» теории нейронных сетей, хотя она находится на начальном этапе своего развития. Выше представлен наверняка неполный перечень проблем теории нейронных сетей, осуществление которых должно улучшить решение многих задач и открыть для нас новые задачи. Нейронные сети с нашей точки зрения будут являться основным базовым инструментом изучения сложных явлений нелинейного мира.

Работа выполнена в рамках государственного контракта Федерального агентства по науке и инновациям на выполнение опытно-конструкторских работ № 02.435.11.1003.


Список литературы

  1. Галушкин А.И. Многослойные системы распознавания образов. М.: МИЭМ, 1970.
  2. Галушкин А.И. Синтез многослойных нейронных систем распознавания образов. М.: Изд-во «Энергия», 1974.
  3. Галушкин А.И. Теория нейронных сетей. М.: ИПРЖР, 2000.
  4. Нейроматематика. Т.6 серии «Нейрокомпьютеры и их применение». М.: Изд-во «Радиотехника», 2002.
  5. Галушкин А.И. Нейроматематика (проблемы развития). «Нейрокомпьютер». № 1. 2003.
  6. Галушкин А.И. Нейрокомпьютеры и их применение на рубеже тысячелетий в Китае. М.: Изд-во «Горячая линия - Телеком», 2004.
  7. Галушкин А.И. Формирование начальных условий для ускорения настройки коэффициентов нейронных сетей в задачах оптимизации. «Нейрокомпьютер». № 5. 2005.




УДК 004.032.26(06) Нейронные сети