勾配降下法の収束

μ強凸

ある関数 が以下を満たすとき、μ強凸であるという。

ここで、は凸性の強さを表している。

L平滑

ある関数 が以下を満たすとき、L平滑であるという。

勾配の変化が入力の変化の変化の定数倍で抑えられる性質を持つ。 近接した点の勾配は互いに近接している。

勾配降下法の収束

とする。 また関数 は微分可能な凸関数とする。 関数 がL平滑で、ステップサイズが であるとき、以下が成立する。

収束速度がステップ数についてとなる。 また、誤差を以下にするためには、回の更新が必要となる。

μ強凸な誤差関数に対する勾配降下法の収束

とする。 また関数 は微分可能な凸関数とする。 関数 がμ強凸()かつL平滑()で、 であるとき、以下が成立する。

収束速度はステップ数 、収束係数 に対して、。 誤差を 以下にするには、 回の更新で良い。

つまり、μ強凸である方が収束が高速。 回帰やridge回帰は強凸かつL平滑で、ロジスティック回帰はL平滑だが強凸ではない。 また、LassoやSVMはL平滑ではない。

学習率

学習率は小さすぎると収束が遅くなり、大きすぎると収束は早いが最適解周辺で振動する。 また、非常に大きいと発散してしまう。

更新回数が増加するにつれて学習率を小さくしたり、更新量が減少するにつれて学習率を小さくさせるようなスケジューリングができる。 しかし、適切な学習率を理論的に決定することは困難で、問題ごとにチューニングしなければならない。