AdaGrad

신경망 학습에 있어서 학습률은 중요한 값이다. AdaGrad는 이 학습률을 학습진행에 따라 서서히 낮추어 가며 학습하는 방법이다.
각각의 매개변수에 적응적으로(adaptive) 학습률을 조정하면서 학습을 진행한다. 수식은 아래와 같다.
$$ h \gets h + \frac{\partial L}{\partial W} \bigodot \frac{\partial L}{\partial W} \\ W \gets W - \eta \frac{1}{\sqrt{h + \epsilon}}\frac{\partial L}{\partial W} $$ $\epsilon$은 0으로 나눔을 방지하기 위한 변수며 h라는 변수는 학습률의 조정을 위해 생긴 변수다. h는 매 학습마다 기존 기울기값을 계속해서 곱해 더해준다.($\bigodot$ : 행렬의 원소별 곱셈)
그러면 h값의 크기는 기울기가 큰 만큼 커지고, 이 커진 h를 학습률에 곱해줘서 학습률의 크기를 줄여준다. 결론적으로
매개변수 중 많이 움직인(=크게 갱신된) 원소는 학습률이 낮아진다.
단, 이 방법을 통해 무한히 학습한다면 h값이 계속 증가해(기울기 제곱값은 항상 양수고, 양수를 계속해서 더해가므로) 갱신량이 0이되어 더이상 진행이 안 되는 경우가 생긴다. 이를 해결하기 위한 방법이 RMSprop이다.
그럼 실제로 어떻게 진행되는지 알아보기위해 SGD의 단점에서 사용한 함수와 비교해보자.

그림에서 알 수 있듯이, y축 방향은 기울기가 커서 처음에는 크게 움직이지만 이에 비례해 갱신 정도도 큰 폭으로 작아지게 조정된다.
따라서 y축 방향으로 갱신 정도가 빠르게 약해지고, SGD와는 달리 지그재그 움직임이 줄어든다.
실제로 기울기의 변화정도를 비교하면 다음과 같다. 왼쪽이 x축 방향의 기울기 값이고, 오른쪽이 y축 방향의 기울기 값이다.

기울기의 변화 정도가 y가 더 큼을 알 수 있다.

댓글

이 블로그의 인기 게시물

Loss Function

Backpropagation

SGD = Stochastic Gradient Descent