Momentum

8월 28, 2017

운동량을 뜻하는 단어가 의미하는 바와 같이, 모멘텀 기법은 아래의 수식과 같이 공이 그릇의 바닥을 구르는 듯한 움직임을 보여준다.
$$ v \gets \alpha v - \eta \frac{\partial L}{\partial W} \\ W \gets W + v $$ SGD와 마찬가지로 W는 가중치 매개변수, L은 손실함수, $\eta$는 학습률이다. 새로나오는 변수중 v는 속도(velocity)고, $\alpha$로 속도의 크기를 설정해줌으로써 물체가 아무런 힘을 받지 않을 때도 서서히 하강시키게 된다. 보통 $\alpha$값은 0.9등의 값으로 설정한다.
SGD의 단점에서 예를 든 함수와 비교하며 변수의 변화에 따라 Momentum이 어떤식으로 학습하는지 알아보자.