Читайте данную работу прямо на сайте или скачайте

Теорема о линейной сходимости градиентного метода с постоянным шагом

Доклад по математическим методам в экономике

ДВГУ

Теорема о линейной сходимости градиентного метода с постоянным шагом.

Пусть выполнены словия: функция f ограничена снизу, непрерывно дифференцируема и fТ довлетворяет словию Липшица и, кроме того, f дважды непрерывно дифференцируема и сильно выпукла с константой l. Тогда при a Î (0, 2/L) градиентный метод с шагом a сходится со скоростью геометрической прогрессии со знаменателем q = max{|1 - al|, |1 - aL |}:

||xⁿ - x*|| £ qⁿ||x⁰ - x*||.

Д о к з т е л ь с т в о. Решение x* = argmin f(x) существует и единственно в силу теорем 1) и 2)[1]. Для функции F(x) = f ¢(x) воспользуемся аналогом формулы Ньютона Ч Лейбница

F(y) = F(x) +

1

0

F ¢[x + s(y - x)](y- x) ds,

или, для x = x* и y = xⁿ, учитывая, что f ¢(x*) = Q,

f ¢(xⁿ) =

1

0

f ¢¢[x* + s(xⁿ - x*)](xⁿ - x*) ds

(здесь воспользовались 3)[2]). Далее, в силу тверждения 4)[3] f ¢¢(x) £ L при всех x Î R^m. Кроме того (в силу 5)[4]), по условию f ¢¢(x) ³ l при тех же x. Поэтому, так как

l||h||² £ (f ¢¢[x* + s(xⁿ -x*)]h, h) £ L ||h||²,

выполнено неравенство

l||h||² £

æ
è

1

0

f ¢¢[x* + s(xⁿ -x*)]ds

ö
ø

h, h

ö
ø

£ L ||h||².

(10)

Интеграл, стоящий в этом неравенстве, определяет линейный (симметричный в силу симметричности f) оператор на R^m, обозначим его Lⁿ. Неравенство (10) означает, что l £ Lⁿ £ L. В силу (9) градиентный метод (4) записывается в виде

xⁿ⁺¹ = xⁿ - aLⁿ(xⁿ - x*).

Но тогда

||xⁿ⁺¹ - xⁿ|| = ||xⁿ - x* -aLⁿ(xⁿ - x*)|| =

= ||(I - aLⁿ)(xⁿ - x*)|| £ ||I - aLⁿ|| ||xⁿ - x*||.

Спектр s(I - aLⁿ) оператора I - aLⁿ состоит из чисел вида s_i = 1 -al_i, где l_i Î s(Lⁿ). В силу (10) и неравенств l £ l_i £ L,

1 - al ³ s_i ³ 1 - aL,

и следовательно

||I - aLⁿ|| £ max{|1 -al|, |1 - aL |} = q.

Таким образом,

||xⁿ⁺¹ - xⁿ|| £ q||xⁿ - x*||.

Из этого неравенства вытекает тверждение даннойа теоремы.

Оптимальный выбор шага.

Константа q, характеризующая скорость сходимости метода, зависит от шага a. Нетрудно видеть, что величина

q = q(a) = max{|1 - al|, |1 - aL |}

минимальна, если шаг a выбирается из словия |1 - al| = |1 - aL | (см. рис. 1), т. е. если a = a* = 2/(l+ L). При таком выборе шага оценка сходимости будет наилучшей и будет характеризоваться величиной

q = q* =

L - l

L + l

Рис. 1.

В качестве l и L могут выступать равномерные по x оценки сверху и снизу собственных значений оператора f ¢¢(x). Если l << L, то q* 1 и метод сходится очень медленно. Геометрически случай l << L соответствует функциям с сильно вытянутыми линиями ровня (см. рис. 2). Простейшим примером такой функции может служить функция на R², задаваемая формулой

f(x₁, x₂) = lx²₁+ L x²₂с l << L.

Рис. 2.

Поведение итераций градиентного метода для этой функции изображено на рис. 2 - они, быстро спустившись на "дно оврага", затем медленно "зигзагообразно" приближаются к точке минимума. Число m = L/l (характеризующее разброс собственных значений оператора f ¢¢(x)) называют числом обусловленности функции f. Если m >> 1, то функции называют плохо обусловленными или овражными. Для таких функций градиентный метод сходится медленно.

Но даже для хорошо обусловленных функций проблема выбора шага нетривиальна в силу отсутствия априорной информации о минимизируемой функции. Если шаг выбирается малым (чтобы гарантировать сходимость), то метод сходится медленно. величение же шага (с целью скорения сходимости) может привести к расходимости метода.

[1] а1) Теорема единственности для строго выпуклой функции.

Задача f(x) о min , со строго выпуклой функцией не может иметь более одного решения.

2) Теорема о разрешимости для сильно выпуклой функции.

Задач f(x) о min, с дифференцируемой сильно выпуклой функцией разрешима.

[2]а 3) [f ¢(x)]¢ = f ¢¢(x). Поясним: здесь [f ¢(x)]¢ - производная функции x о f ¢(x), действующей из R^m в R^m, f ¢¢(x) Ч вторая производная функции f: R^m о R^m.

[3] а4) Пусть F: R^m оR^k дифференцируема. Тогда F довлетворяет условию Липшица с константой L, в том и только том случае, если ||F ¢(x)|| £ L при всех xа ( существует и обратное тверждение).

[4]а 5) f Î C² сильно выпукла с константой c в том и только том случае, если f ¢¢(x) ³ c при всех x Î R^m.

Blog

Читайте данную работу прямо на сайте или скачайте

Теорема о линейной сходимости градиентного метода с постоянным шагом