블록체인 및 암호화폐 수업

수업 주소: dpnm.postech.ac.kr/cs490u 온라인 수업 주소: http://www.postechx.kr/ko/school/2018fall/courseware/50562 2018년 2학기 수업강좌 수업링크 20130116 컴퓨터공학과 박병윤

네트워크 수업

교수님 사이트 주소 : http://dpnm.postech.ac.kr/cs353/ 수업사이트 주소 : http://www.postechx.kr/ko/school/2018spring/courseware/37584 20130116 컴퓨터공학과 박병윤

오버피팅 억제법

신경망 학습을 하다보면 오버피팅이 일어날 수 있다. 오버피팅이란 신경망이 훈련 데이터에만 지나치게 적응되어 그 외의 데이터에는 제대로 대응하지 못하는 상태를 말한다. 오버피팅은 주로 매개변수가 많고 표현력이 높은 모델 훈련 데이터가 적은 경우 위 경우에 일어난다. 이를 방지하기 위한 방법을 알아보자. 가중치 감소 가중치 매개변수의 값이 작아지도록 학습하는 방법이다. 오버피팅은 가중치 매개변수의 값이 클 때 발생하는 경우가 많기때문에, 학습 과정에서 큰 가중치에 대해서는 그에 상응하는 페널티를 적용해 오버피팅을 억제시키겠다는 것이다. 그럼 어떻게 작게 만들 수 있을까? 우선 초기값을 아예 작게 만드는 방법을 생각해 볼 수 있다. 그렇다고 아예 0으로 설정해버리면 학습이 되지 않는다.(정확히는 가중치들을 다 같은 값으로 설정하는 경우) 왜냐하면 오차역전파법 에서 가중치의 값들이 똑같이 갱신되기 때문이다.(*연산과 +연산에 있어서 역으로 미분값이 전파될 때를 생각하면 알 수 있다.) 따라서 초깃값을 무작위로 설정해 줘야 하고 이를 위해 다음과 같이 표준편차가 0.1, 0.01과 같은 정규분포를 사용해 초기화 한다. 간단한 가중치 초기화하는 코드를 보자. def __init__(self, input_size, hidden_size, output_size, weight_init_std=0.01): # 가중치 초기화 self.params = {} self.params['W1'] = weight_init_std * np.random.randn(input_size, hidden_size) self.params['b1'] = np.zeros(hidden_size) self.params['W2'] = weight_init_std * np.random.randn(hidden_size, output_size) self.params[

RMSprop

이미지
AdaGrad 방법에서 h값이 계속커지는 것을 방지하기 위해, h를 계속 더하는 것이 아니라 지수이동평균 (EMA = Exponential Moving Average) 으로 바꾼다. 무슨뜻이냐 하면, 과거의 모든 기울기를 계속해서 균일하게 더해가는 것이 아닌 과거의 기울기는 서서히 잊고 새로운 기울기 정보를 크게 반영하겠다는 것이다. 식을 보며 이해해 보자. $$ h \gets \gamma h + (1-\gamma)\frac{\partial L}{\partial W} \bigodot \frac{\partial L}{\partial W} \\ W \gets W - \eta \frac{1}{\sqrt{h + \epsilon}}\frac{\partial L}{\partial W} $$ AdaGrad와 비교하면 크게 달라진것이 없어보인다. 차이점은 $\gamma$라는 변수가 새로 보이는 것이다. 이를 decay rate라고 부르며 보통 이 값은 0.9나 0.99등의 값으로 설정하는데, 연산되는 위치를 살펴보면 우선 기존의 h값에 곱해짐을 알 수 있다. 이 값이 1미만임을 생각해보면, 이를통해 과거의 기울기를 잊고자 함을 수식으로 구현했다고 볼 수 있다. 그리고 기울기값에 $1-\gamma$값을 곱하며 새로운 기울기 정보를 반영해나간다. 그러면 SGD 의 단점에서 다룬 함수로 비교해보자. 사실 AdaGrad방법과 큰 차이가 보이지 않는다. 애초에 AdaGrad가 갱신량이 0이 될때의 문제점을 개선하기 위한 알고리즘이니까, 차이를 느끼기 어렵긴 하다. AdaGrad와 비교해 갱신량이 줄어도 계속해서 진행됨을 시각적으로 더 보고 싶으면 이 블로그 의 애니메이션을 보면 좋을 것 같다.

Adam

이미지
AdaGrad 는 매개변수마다 적응정도 조정을, Momentum 은 바닥을 구르는 듯한 진행을 한다. Adam은 이 두 기법을 융합하면 어떻게 될까라는 생각에서 출발한 기법이다. 두 기법의 특징에다가 하이퍼파라미터의 편향보정이 진행되기도 한다. 자세한 내용은 원 논문 에서 확인하고, 실제 진행되는 모습을 SGD 의 단점에서 사용한 함수로 비교해보자. 그림에서 볼 수 있듯이, Momentum처럼 그릇 바닥을 구르듯 움직이지만 Momentum보다 공의 흔들림이 적음을 알 수 있다. 이는 학습의 갱신 정도를 적응적으로 조정하기 때문에 얻는 혜택이라 할 수 있다.

AdaGrad

이미지
신경망 학습에 있어서 학습률은 중요한 값이다. AdaGrad는 이 학습률을 학습진행에 따라 서서히 낮추어 가며 학습하는 방법이다. 각각의 매개변수에 적응적으로(adaptive) 학습률을 조정하면서 학습을 진행한다. 수식은 아래와 같다. $$ h \gets h + \frac{\partial L}{\partial W} \bigodot \frac{\partial L}{\partial W} \\ W \gets W - \eta \frac{1}{\sqrt{h + \epsilon}}\frac{\partial L}{\partial W} $$ $\epsilon$은 0으로 나눔을 방지하기 위한 변수며 h라는 변수는 학습률의 조정을 위해 생긴 변수다. h는 매 학습마다 기존 기울기값을 계속해서 곱해 더해준다.($\bigodot$ : 행렬의 원소별 곱셈) 그러면 h값의 크기는 기울기가 큰 만큼 커지고, 이 커진 h를 학습률에 곱해줘서 학습률의 크기를 줄여준다. 결론적으로 매개변수 중 많이 움직인(=크게 갱신된) 원소는 학습률이 낮아진다. 단, 이 방법을 통해 무한히 학습한다면 h값이 계속 증가해(기울기 제곱값은 항상 양수고, 양수를 계속해서 더해가므로) 갱신량이 0이되어 더이상 진행이 안 되는 경우가 생긴다. 이를 해결하기 위한 방법이 RMSprop 이다. 그럼 실제로 어떻게 진행되는지 알아보기위해 SGD 의 단점에서 사용한 함수와 비교해보자. 그림에서 알 수 있듯이, y축 방향은 기울기가 커서 처음에는 크게 움직이지만 이에 비례해 갱신 정도도 큰 폭으로 작아지게 조정된다. 따라서 y축 방향으로 갱신 정도가 빠르게 약해지고, SGD와는 달리 지그재그 움직임이 줄어든다. 실제로 기울기의 변화정도를 비교하면 다음과 같다. 왼쪽이 x축 방향의 기울기 값이고, 오른쪽이 y축 방향의 기울기 값이다. 기울기의 변화 정도가 y가 더 큼을 알 수 있다.

Momentum

이미지
운동량을 뜻하는 단어가 의미하는 바와 같이, 모멘텀 기법은 아래의 수식과 같이 공이 그릇의 바닥을 구르는 듯한 움직임을 보여준다. $$ v \gets \alpha v - \eta \frac{\partial L}{\partial W} \\ W \gets W + v $$ SGD와 마찬가지로 W는 가중치 매개변수, L은 손실함수, $\eta$는 학습률이다. 새로나오는 변수중 v는 속도(velocity)고, $\alpha$로 속도의 크기를 설정해줌으로써 물체가 아무런 힘을 받지 않을 때도 서서히 하강시키게 된다. 보통 $\alpha$값은 0.9등의 값으로 설정한다. SGD 의 단점에서 예를 든 함수와 비교하며 변수의 변화에 따라 Momentum이 어떤식으로 학습하는지 알아보자. $\eta : 0.1, \alpha : 0.9$, 반복횟수 30회 위와 같이 지면을 따라 구르듯이 진행함을 알 수 있다. 그런데 여기서 최솟값인 0.0을 지나서 계속 굴러지나가는(?) 모습이 보이는데, 반복 횟수를 높여 그냥 지나가버리는지 아니면 다시 최솟값을 향해 굴러오는지 확인해보자. 우선 현재 최솟값부근을 확대하면 아래와 같다. $\eta : 0.1, \alpha : 0.9$, 반복횟수 60회 최솟값을 향해 잘 굴러옴을 알 수 있다. 확대해서 보면 아래와 같다. 이번엔 속도의 크기를 낮춰보자. $\eta : 0.1, \alpha : 0.8$, 반복횟수 60회 속도크기가 0.9일때와 비교해보면, 진행방향이 아래-위가 바뀔때의 위치가 작아졌음을 볼 수 있다. 즉, 이 $\alpha$값이 작을수록 조금씩만 진행된다고 할 수 있다. 이번에는 크기를 키워보자. $\eta : 0.1, \alpha : 1$, 반복횟수 60회 1로 설정하니 학습이 거의 이루어지지 않아 보인다. 실제로 반복횟수를 훨씬 더 큰 값으로 하면 아래와 같이 확연히 알 수 있다. 그렇다면 1보다 커지면 어떻게 되는지 알아보자. $\eta : 0.1, \alpha : 1.1$ 위에서