Isbn 978-5-7262-1377 нейроинформатика 2011
Вид материала | Документы |
СодержаниеКлючевые слова Обучение линейного слоя RBFNN методом сопряженных Решение эллиптических краевых задач |
- Isbn 978-5-7262-1377 нейроинформатика 2011, 136.96kb.
- Isbn 978-5-7262-1377 нейроинформатика 2011, 143.59kb.
- Isbn 978-5-7262-1377 нейроинформатика 2011, 97.16kb.
- Isbn 978-5-7262-1375 нейроинформатика 2011, 127.94kb.
- Isbn 978-5-7262-1375 нейроинформатика 2011, 25.66kb.
- Isbn 978-5-7262-1375 нейроинформатика 2011, 105.62kb.
- Isbn 978-5-7262-1226 нейроинформатика 2010, 142.85kb.
- Isbn 978-5-7262-1376 нейроинформатика 2011, 103.58kb.
- Isbn 978-5-7262-1375 нейроинформатика 2011, 79.42kb.
- Isbn 978-5-7262-1226 нейроинформатика 2010, 136.25kb.
ISBN 978-5-7262-1377-4. НЕЙРОИНФОРМАТИКА – 2011. Часть 3
Е.В. АРТЮХИНА, В.И. ГОРБАЧЕНКО
Пензенский государственный педагогический университет им. В. Г. Белинского
gorvi@mail.ru
МЕТОД СОПРЯЖЕННЫХ ГРАДИЕНТОВ ДЛЯ ЗАДАЧИ НАИМЕНЬШИХ КВАДРАТОВ И ЕГО ПРИМЕНЕНИЕ
ДЛЯ ОБУЧЕНИЯ ВЕСОВ РАДИАЛЬНЫХ БАЗИСНЫХ НЕЙРОННЫХ СЕТЕЙ ПРИ РЕШЕНИИ ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ
В ЧАСТНЫХ ПРОИЗВОДНЫХ1
Разработан модернизированный алгоритм обучения весов радиальных базисных нейронных сетей при решении дифференциальных уравнений в частных производных. Экспериментально показано, что данный алгоритм позволяет сократить время решения задачи по сравнению с алгоритмом сопряженных градиентов для минимизации квадратичного функционала.
Ключевые слова: радиальные базисные нейронные сети, метод сопряженных градиентов, метод наименьших квадратов
Введение
В последнее десятилетие в области решения краевых задач математической физики появилось перспективное направление, связанное с применением радиальных базисных нейронных сетей [1, 2, 3].
В работах авторов [4] разработан и исследован алгоритм обучения весов RBFNN на основе метода сопряженных градиентов, минимизирующий квадратичный функционал ошибки. Данный алгоритм обладает высокой вычислительной эффективностью, позволяет сократить время решения задачи на порядок по сравнению с методом доверительных областей, сокращение времени более значимое по сравнению с методом скорейшего спуска и градиентным методом с подбираемым коэффициентом обучения для весов.
Многие практически чрезвычайно важные классы реальных задач описываются как краевые задачи математической физики для неоднородных и нелинейных сред, например, реальная задача фильтрации нефти в неоднородном пласте [5]. Решение таких задач на RBFNN до настоящего времени не рассматривалось.
Целью данной работы является разработка и исследование модернизированного алгоритма обучения весов RBFNN для решения краевых задачи математической физики для неоднородных и нелинейных сред.
Обучение линейного слоя RBFNN методом сопряженных
градиентов для задачи наименьших квадратов
Рассмотрим обучение на примере уравнения Пуассона
,
, \* MERGEFORMAT ()
где – граница области; и – известные функции .
RBFNN выступает аппроксиматором функции решения
, \* MERGEFORMAT ()
где – число нейронов, – веса сети, – расстояние от точки до центра нейрона , – ширина нейрона .
Обучение сети сводится к настройке векторов параметров RBFNN (соответственно, весов, центров и ширины), минимизирующих функционал ошибки
, \* MERGEFORMAT ()
где – штрафной множитель, , – векторы невязки решения во внутренних и граничных контрольных точках соответственно.
, , \* MERGEFORMAT ()
где – матрица с элементами ; – матрица с элементами ; – вектор весов, и – количество внутренних и граничных контрольных точек; и – векторы, компоненты которых равны значениям функций и в контрольных точках.
Очевидно, что задача обучения RBFNN представляет собой нелинейную задачу наименьших квадратов [6, 7]. Вектор весов входят в функционал ошибки линейно, для обучения выходного слоя сети можно использовать алгоритм сопряженных градиентов. С учетом имеем
, \* MERGEFORMAT ()
где , . Из видно, что данная задача является задачей минимизации квадратического функционала с симметричной положительно определенной матрицей .
Функционал, используемый в линейном методе наименьших квадратов, содержит симметричную положительно определенную матрицу Грама. В случае обучения RBFNN для решения краевых задач получаем матрицу , отличающуюся от матрицы Грама.
Алгоритм минимизации квадратичного функционала эквивалентен решению системы линейных алгебраических уравнений , или
. \* MERGEFORMAT ()
Известно, что обучение RBFNN является плохо обусловленной задачей [8]. Модифицируем метод сопряженных градиентов минимизации функционала , основываясь на идеях метода сопряженных градиентов для метода наименьших квадратов (CGLS – Conjugate Gradient Method for Least-Squares) [7, 9].
За основу возьмем алгоритм метода сопряженных градиентов, минимизации квадратичного функционала [4], формально заменив матрицу на , вектор – на . Чтобы не использовать плохо обусловленную матрицу , учтем, что невязка системы равна
\* MERGEFORMAT ()
Учтем также свойство скалярных произведений:
Получим выражения для невязок с учетом , и .
,
,
.
Тогда метод сопряженных градиентов минимизации функционала примет вид.
На "нулевой" итерации выполняются подготовительные действия:
1. Полагается .
2. По заданному начальному приближению весов вычисляется невязки и
3. В качестве направления движения выбирается
На первой и следующих итерациях выполняются следующие действия:
4. Вычисляется номер текущей итерации .
5. Находится новое приближение решения где .
6. Вычисляются новые невязки
7. Проверяется условие окончания итерационного процесса, например, . Если условие выполняется, то – конец итерационного процесса, иначе – переход на следующий шаг алгоритма.
8. Определяется новое направление движения
где .
9. Переход на шаг 4.
10. Конец алгоритма.
Экспериментальное исследование проводилось на примере модельной задачи , для , . Данная задача имеет аналитическое решение , для оценки погрешности решения рассчитывалась относительная среднеквадратическая погрешность решения , где – аналитическое решение в точке. Для обучения центров и ширины можно использовать различные алгоритмы обучения, в данной работе применялся простейший алгоритм градиентного спуска с подбираемым коэффициентом скорости обучения. Алгоритм совместного обучения весов, центров и ширины строится путем чередования нескольких циклов обучения весов с несколькими циклами обучения центров и ширины. Для обеспечения обобщающей способности RBFNN необходимо соблюдать при обучении соотношение между оптимальным количеством нейронов и количеством контрольных точек . Большое количество контрольных точек ведет к увеличению времени решения задачи. Эксперименты показали, что многократная случайная генерация относительно небольшого числа контрольных точек внутри и на границе области решения компенсирует нарушение пропорции.
Рис. 1. Сравнение алгоритмов
Эксперименты проводились при следующих условиях. Число нейронов равно 64. Число внутренних контрольных точек равно 100, число граничных контрольных точек равно 124. Нейроны первоначально располагались на квадратной сетке, включающей область решения и один слой законтурных точек. Контрольные точки располагались случайным образом равномерно внутри области решения, на каждой стороне границы и в углах области. В процессе исследования приведенных алгоритмов получены следующие результаты: достигнуто значение относительной среднеквадратической погрешности решения 0,0005, что лучше, чем 0,005 в [1], абсолютная погрешность по сравнению с аналитическим решением не превышает 0,00003.
В процессе исследования разработанного алгоритма получены следующие результаты в сравнении с алгоритмом сопряженных градиентов для минимизации квадратичного функционала.
Результаты экспериментов показывают, что разработанный алгоритм превосходит по эффективности алгоритм сопряженных градиентов для минимизации квадратичного функционала обучения весов RBFNN.
Решение эллиптических краевых задач
в неоднородной середе
Рассмотрим уравнение, описывающее процессы в неоднородной среде, на примере задачи Дирихле для двумерного уравнения эллиптического типа
, \* MERGEFORMAT ()
Для нахождения , определяем функционал ошибки как сумму квадратов невязок, получаемых при подстановке и производных в уравнение и в граничные условия
\* MERGEFORMAT ()
где , – некоторые фиксированные дискретные точки, и – количество внутренних и граничных контрольных точек, – штрафной множитель.
В случае линейной задачи с зависимостью от координат получаем
Учитывая представление решения в форме и вид базисных функций, получаем:
\* MERGEFORMAT ()
Введем обозначения, невязка во внутренних контрольных точках
, \* MERGEFORMAT ()
где ,
тогда вектор невязки о внутренних контрольных точках имеет вид , где – матрица с элементами , – вектор с элементами .
Вектор невязки в граничных контрольных точках равен , где – матрица с элементами , – вектор с элементами .
В матрично-векторной формулировке функционал ошибки примет вид:
Будем использовать градиентный алгоритм обучения для минимизации квадратичного функционала для нахождения весов линейного слоя сети RBFNN. Для обучения нелинейных параметров центров и ширины градиентный алгоритм обучения, приведем формулы для расчета компонентов градиента функционала по параметрам сети. Так как веса входят линейно в функционал ошибки, то для обучения сети можно использовать предлагаемый авторами алгоритм.
Для экспериментального исследования рассмотрим задачу Дирихле для двумерного уравнения эллиптического типа , где , , функция зависит от координат области решения: Данная задача имеет аналитическое решение: .
Экспериментальное исследование проводилось на RBFNN со следующими параметрами: число нейронов , число внутренних контрольных точек , число граничных контрольных точек , коэффициент обучения ширины и центров нейронов и , штрафной множитель . В результате эксперимента получены следующие результаты. Средняя относительная погрешность на сетке 0,0008. Число внешних итераций – 18. Общее число итераций – 900. Число различных контрольных точек 3964. Время решения задачи сократилось в 2 раза по сравнению с алгоритмом сопряженных градиентов для минимизации квадратичного функционала [4].
Решение нелинейных эллиптических краевых задач
математической физики
Рассмотрим решение нелинейной краевой задачи , с зависимостью функции от решения Получаем:
Если решать данную задачу рассмотренным ранее методом, то есть путем минимизации функционала ошибки , то веса сети будут входить нелинейно в функционал ошибки, что затруднит процесс обучения сети. Предлагается решать задачу, фиксируя значение на каждой итерации, т.о. мы приходим к решению задачи , с итерационным уточнением-пересчетом функции
Решение данной задачи может быть представлено в виде следующего алгоритма:
- Инициализируется RBFNN.
- Генерируются координаты контрольных точек.
- Вычисляется функция решения .
- Фиксируются значения функции .
- Производится обучение RBFNN при фиксированном значении то есть решается задача где .
- Рассчитывается функционал ошибки , проверяется условие окончания итерационного процесса, если условие выполнено, то конец итерационного алгоритма, иначе переход на шаг 2.
Для экспериментального исследования разработанного алгоритма решалась модельная задача, отражающая особенности решения основных классов уравнений в частных производных и имеющая аналитическое решение что удобно для проверки получаемых результатов
,
где , . Задача решалась в квадрате с граничными условиями первого рода . Экспериментальные исследования показали эффективность разработанных алгоритмов, средняя относительная погрешность по сравнению с аналитическим решением не превышает 0,0095.
Разработаны и экспериментально исследованы нейросетевые алгоритмы моделирования физических полей в неоднородных и нелинейных средах. Эксперименты на модельных задачах показали эффективность разработанных алгоритмов.
Заключение
Применительно к обучению весов радиальных базисных нейронных сетей разработан и исследован метод сопряженных градиентов для задачи наименьших квадратов. Экспериментальные исследования при решении дифференциальных уравнений в частных производных, включая эллиптические задачи для неоднородных сред и нелинейные эллиптические задачи, показали его высокую эффективность, что выражается в сокращении времени обучения.
Список литературы
1. Numerical solution of elliptic partial differential equation using radial basis function neural networks / L. Jianyu, L. Siwei, Q. Yingjiana, H. Yapinga // Neural Networks. – 2003. – 16(5/6). – P. 729 – 734.
2. Тархов, Д.А. Нейронные сети. Модели и алгоритмы. – М.: Радиотехника, 2005. – 256 с.
3. Васильев А.Н. Нейросетевое моделирование в математической физике // Нейрокомпьютеры. Разработка и применение. – 2009. № 5. С. 25–38.
4. Артюхин В.В., Артюхина Е.В., Горбаченко В.И. Радиально-базисные нейронные сети для решения краевых задач бессеточными методами // Научная сессия НИЯУ МИФИ-2010. XII Всероссийская научно-техническая конференция «Нейроинформатика-2010»: Сборник научных трудов. В 2-х частях. Ч.2. М.: НИЯУ МИФИ, 2010. С. 237–247.
5. Азиз Х. Математическое моделирование пластовых систем / Х. Азиз, Э. Сеттари. – Ижевск: РХД, 2004. 416 с.
6. Дэннис Дж. Численные методы безусловной оптимизации и решения нелинейных уравнений / Дж. мл. Дэннис, Р. Шнабель. – М.: Мир, 1988. 440 с.
7. Dahlquist G. Numerical Mathematics and Scientific Computation. Vol. 2, 3/ G. Dahlquist, A. Bjoeck. – SIAM, Philadelphia. 1999. 673 p.
8. Хайкин С. Нейронные сети: полный курс. – М.: Вильямс, 2006. 1104 с.
9. Vorst van der, H. Iterative Krylov Methods for Large Linear Systems. – Cambridge: Cambridge University Press, 2003. 232 p.
1 Работа выполнена по тематическому плану научно-исследовательских работ Пензенского государственного педагогического университета, проводимых по заданию Федерального агентства по образованию.
УДК 004.032.26(06) Нейронные сети