はじめに 機械学習のコードを書いているエンジニアの方はoptimizerに何を選べばいいか迷ったことがあると思います。 とりあえず有名なモデルでよく使われているAdamやAdamWをよく考えずに選んでいませんか。 本記事ではそれぞれのoptimizerのパラメータ更新式の定性的な意味について、最急降下法からAdamWまでの変遷とともに説明したいと思います。 optimizerの発展の流れ 最急降下法 まずは、最も基本的なパラメータ更新手法である、最急降下法について軽くおさらいする。 パラメータ更新式 \bm{G}_t = \nabla f(\bm{\theta}_{t-1}) \bm{\theta}_t = \bm{\theta}_{t-1} - \gamma \bm{G}_t ここで\gammaは学習率。 トレーニングデータに対する損失f(\bm{\theta})を最小化するパラメータ\