Нейробум: поэзия и проза нейронных сетей
Вид материала | Документы |
СодержаниеМетод динамических ядер Выбор начального приближения Примеры видов классификации Сферическая модель Пространственная модель Модель линейных зависимостей |
- Ю. Н. Шунин Лекции по теории и приложениям искусственных нейронных сетей,Рига,2007, 190.96kb.
- Я. А. Трофимов международный университет природы, общества и человека «Дубна», Дубна, 71.95kb.
- Курсовая работа по дисциплине " Основы систем искусственного интеллекта" Тема: Опыт, 903.59kb.
- Нейрокомпьютерная техника: Теория и практика, 2147.23kb.
- Заочный Государственный Университет Внастоящее время все большее применение в разработке, 64.47kb.
- Особенности применения нейронных сетей в курсе «Интеллектуальные информационные системы», 82.99kb.
- Применение аппарата нейронных сетей системы matlab для аппроксимации степенных математических, 50.69kb.
- Автоматизированная система рубрикации лекционного материала с использованием нейронных, 114.4kb.
- Ульяновский Государственный Технический Университет Кафедра вычислительной техники, 216.41kb.
- Isbn 5-7262-0634 нейроинформатика 2006, 96.9kb.
Метод динамических ядер
Альтернативой методам пообъектного обучения сетей Кохонена является метод динамических ядер, который напрямую минимизирует суммарную меру близости (1). Метод является итерационной процедурой, каждая итерация которой состоит из двух шагов. Сначала задаются начальные значения ядер. Затем выполняют следующие шаги:
- Разбиение на классы при фиксированных значениях ядер:
![]() | (3) |
- Оптимизация значений ядер при фиксированном разбиении на классы:
![]() | (4) |
В случае равенства в формуле (3) объект относят к классу с меньшим номером. Процедура останавливается если после очередного выполнения разбиения на классы (3) не изменился состав ни одного класса.
Исследуем сходимость метода динамических ядер. На шаге (3) суммарная мера близости (1) может измениться только при переходе объектов из одного класса в другой. Если объект перешел из j-о класса в i-й, то верно неравенство

Процедура (3), (4) сходится за конечное число шагов, причем ни на одном шаге не происходит возрастания суммарной меры близости.
На первом из рассмотренных выше примеров, с равномерно распределенными по окружности объектами, при любом начальном положении ядер (за исключением совпадающих ядер) метод динамических ядер остановится на втором шаге, поскольку при второй классификации (3) состав классов останется неизменным.
На втором из примеров, рассмотренных выше (см. рис. 4, 6) примеров при том же начальном положении ядер, метод динамических ядер остановится после первого шага, не изменив положения ядер. Однако такое положение ядер не соответствует обычному представлению о «хорошей» классификации. Причина – неудачное начальное положение ядер (созданное специально).
^
Выбор начального приближения
Как и во многих других итерационных методах, в задаче обучения сети Кохонена и в методе динамических ядер важным является вопрос о хорошем выборе начального приближения (первоначальных значений ядер). Существует множество методов выбора начального приближения.
Наиболее простым способом решения этой задачи в случае, когда ядра являются точками того же пространства, что и объекты, является выбор в качестве начального приближения значений ядер значений объектов. Например первое ядро кладем равным первому объекту, второе – второму и т.д. К сожалению этот метод не работает когда пространство ядер и пространство объектов не совпадают. Далее будут приведены примеры классификаций, в которых пространства ядер и объектов различны.
Самым универсальным способом задания начального положения ядер является задание начального разбиения объектов на классы. При этом в начальном разбиении могут участвовать не все объекты. Далее решая задачу (4) получаем начальные значения ядер. Далее можно использовать метод динамических ядер.
^
Примеры видов классификации
В данном разделе описаны некоторые виды классификации и соответствующие им меры близости. Приведены формулы решения задачи (4) при использовании метода динамических ядер. Для других видов классификации решение задачи (4) строится аналогично.
^
Сферическая модель
Один вид классификации – сеть Кохонена на сфере был описан ранее. Получим формулы для решения задачи (4) при мере близости «минус скалярное произведение» (минус перед скалярным произведением нужен для того, чтобы решать задачу минимизации (1) и (4), поскольку, чем ближе векторы, тем больше скалярное произведение).
Обозначим через

![]() | (5) |
Дифференцируя (5) по каждой из координат ядра и по множителю Лагранжа λ, и приравнивая результат дифференцирования к нулю, получим следующую систему уравнений:
![]() | (6) |
Выразив из первых уравнений

![]() | (7) | |
| | |
![]() Рис. 8. Решение задачи методом динамических ядер |
На рис. 8. Приведено решение второго примера методом обучения сети Кохонена с уменьшением скорости с 0,5, а на рис. 9 - решение той же задачи методом динамических ядер. В качестве первоначального значения ядер выбраны два первых объекта.
![]() Рис. 9. Решение задачи с помощью обучения сети Кохонена со снижением скорости обучения с 0,5. График суммарного изменения разностей координат ядер. |
Пространственная модель
Эта модель описывает наиболее естественную классификацию. Нейрон пространственной сети Кохонена приведен в главе «Описание нейронных сетей». Ядра являются точками в пространстве объектов. Мера близости – квадрат обычного евклидова расстояния. Обучение сети Кохонена ведется непосредственно по формуле (2). Задача (4) имеет вид:
![]() | (8) |
Дифференцируя (8) по каждой координате ядра и приравнивая результат к нулю получаем следующую систему уравнений:

Преобразуя полученное выражение получаем
![]() | (9) |
где

^
Модель линейных зависимостей
Это первая модель, которая может быть решена методом динамических ядер, но не может быть получена с помощью обучения сети Кохонена, поскольку ядра не являются точками в пространстве объектов. Ядрами в данной модели являются прямые, а мерой близости – квадрат расстояния от точки (объекта) до прямой. Прямая в n-мерном пространстве задается парой векторов:




Продифференцируем целевую функцию по неизвестным

![]() | (10) |
Выразим из последнего уравнения в (10)

![]() | (11) |
В качестве








![]() | (12) |
Из первых двух уравнений (10) получаем формулы для определения остальных неизвестных:
![]() | (13) |
Поиск решения задачи (4) для данного вида классификации осуществляется по следующему алгоритму:
- Вычисляем
по формуле (12).
- Вычисляем t по первой формуле в (13).
- Вычисляем
по второй формуле в (13).
- Если изменение значения
превышает заданную точность, то переходим к шагу 2, в противном случае вычисления закончены.