Adam

AdaGrad는 매개변수마다 적응정도 조정을, Momentum은 바닥을 구르는 듯한 진행을 한다.
Adam은 이 두 기법을 융합하면 어떻게 될까라는 생각에서 출발한 기법이다. 두 기법의 특징에다가 하이퍼파라미터의 편향보정이 진행되기도 한다.
자세한 내용은 원 논문에서 확인하고, 실제 진행되는 모습을 SGD의 단점에서 사용한 함수로 비교해보자.

그림에서 볼 수 있듯이, Momentum처럼 그릇 바닥을 구르듯 움직이지만 Momentum보다 공의 흔들림이 적음을 알 수 있다. 이는 학습의 갱신 정도를 적응적으로 조정하기 때문에 얻는 혜택이라 할 수 있다.

댓글

이 블로그의 인기 게시물

Loss Function

Backpropagation

SGD = Stochastic Gradient Descent