오차역전파법. 풀어쓰자면 Backward Propagation Of Errors 라고 할 수 있다. 즉, 오차를 역으로(반대방향으로) 전파하는 방법이다. 오차역전파법은 계산 그래프로 이해해 볼 수 있다. 계산 그래프 계산 과정을 그래프로 나타낸 것. 이곳 에서 볼 수 있듯이 계산 그래프의 흐름은 일반적으로 아래와 같다. 간단하게 나타내면 연산식($+,*$ 같은 간단한 연산부터 $\sqrt{x+\epsilon},**2$ 같은 연산까지)이 각각의 Node가 되고, Edge는 변수혹은 노드들의 국소적 계산 결과가 된다. 이렇게 국소적 계산을 하는 계산 그래프를 사용하면 역전파를 통해 미분을 효율적으로 계산할 수 있다. 위와 같이 연산식에 따른 역전파는 상류의 역전파값에 국소적 미분값을 곱해서 하류로 흘려보낸다. 이렇게 국소적 미분값을 곱해서 흘림으로써, 위에 간단하게 나타낸 그림에서 마지막 $x$로의 역전파 값을 보면 $\partial{z}$와 $\partial{t}$가 사라져 $$\frac{\partial z}{\partial x} \text{ : x에 대한 z의 미분} $$ 을 구할 수 있다. 같은 방식으로 $t$에 대한$z$의 미분값도 구할 수 있다. 즉, "중간 결과값들에 대한 최종결과값의 미분"을 구할 수 있다는 것이고, 이를 신경망에 적용해 생각해보면 각 층마다의 가중치와 편향값에 대한 손실 함수의 미분값이 구해진다는 것이다. 어파인 = Affine 계층 신경망의 순전파 때 수행하는 행렬의 내적을 어파인 변환 = Affine Transformation 이라고 한다. 어파인 계층은 이 어파인 변환을 수행하는 처리를 말한다. 순전파 : 입력x와 가중치 W의 내적 후 편향을 더해준다.(numpy 브로드캐스트) 역전파 : 가중치의 미분값에는 전치행렬을 사용하고, 편향의 미분값은 상류의 미분흐름의 총합으로 구해준다. 입력 데이터가 텐서(4차원 데이터)인 경우도 고려해서 파이썬으로 구현하면 다음과 같다. cl...
AdaGrad 방법에서 h값이 계속커지는 것을 방지하기 위해, h를 계속 더하는 것이 아니라 지수이동평균 (EMA = Exponential Moving Average) 으로 바꾼다. 무슨뜻이냐 하면, 과거의 모든 기울기를 계속해서 균일하게 더해가는 것이 아닌 과거의 기울기는 서서히 잊고 새로운 기울기 정보를 크게 반영하겠다는 것이다. 식을 보며 이해해 보자. $$ h \gets \gamma h + (1-\gamma)\frac{\partial L}{\partial W} \bigodot \frac{\partial L}{\partial W} \\ W \gets W - \eta \frac{1}{\sqrt{h + \epsilon}}\frac{\partial L}{\partial W} $$ AdaGrad와 비교하면 크게 달라진것이 없어보인다. 차이점은 $\gamma$라는 변수가 새로 보이는 것이다. 이를 decay rate라고 부르며 보통 이 값은 0.9나 0.99등의 값으로 설정하는데, 연산되는 위치를 살펴보면 우선 기존의 h값에 곱해짐을 알 수 있다. 이 값이 1미만임을 생각해보면, 이를통해 과거의 기울기를 잊고자 함을 수식으로 구현했다고 볼 수 있다. 그리고 기울기값에 $1-\gamma$값을 곱하며 새로운 기울기 정보를 반영해나간다. 그러면 SGD 의 단점에서 다룬 함수로 비교해보자. 사실 AdaGrad방법과 큰 차이가 보이지 않는다. 애초에 AdaGrad가 갱신량이 0이 될때의 문제점을 개선하기 위한 알고리즘이니까, 차이를 느끼기 어렵긴 하다. AdaGrad와 비교해 갱신량이 줄어도 계속해서 진행됨을 시각적으로 더 보고 싶으면 이 블로그 의 애니메이션을 보면 좋을 것 같다.
신경망 학습에서 '확률적으로 무작위로 골라낸 데이터'에 대해 수행하는 경사 하강법. 신경망 학습에서는 데이터를 미니배치로 무작위로 선정해서 학습하므로, SGD라 지칭함. 경사법 = Gradient Method 현 위치에서 기울어진 방향으로 일정 거리만큼 이동함. 그 뒤 이동한 부분에서 다시 기울기를 구하고, 또 그 기울어진 방향으로 이동을 반복함. 이런 방법으로 함수의 값을 줄여나가거나(경사 하강법) 늘려나가며(경사 상승법) 기울기가 0인 지점을 찾음. 이 방법의 경우, 복잡한 함수일 때 고원 = plateau 이라는 평평한 곳으로 파고들며 학습이 진행되지 않는 정체기에 빠질 수 있음. 또한 기울기가 0인 곳은 최솟값이나 최댓값 뿐만 아니라 극솟값/극댓값/안장점 이 될 수도 있음. 경사 하강법 = Gradient Descent Method 경사법 중 최솟값을 찾는 방법. 일반적으로 신경망 분야에서는 경사법이 경사 하강법으로 등장함(손실 함수의 최솟값을 찾아야 하므로) 매개변수의 갱신과정은 아래와 같음.($h$,$b$ : 가중치, 편향과 같은 매개변수, $\eta$ : 학습률 = learning rate, $f$ : 손실 함수) $$ w = w - \eta\frac{\partial f}{\partial w} \\ b = h - \eta\frac{\partial f}{\partial b} $$ 여기서 학습률이란 갱신하는 양으로, 한 번의 학습으로 얼마만큼 학습해야 하는지를 정함. 일반적으로 0.01, 0.001과 같이 미리 특정 값으로 정함. 이 학습률이 너무 크거나 작으면 목표하고자 하는 곳에 도달할 수 없음. 파이썬 구현 수치 미분 구현(numerical_gradient 함수)은 이곳 참조. def gradient_descent(f, init_x, lr=0.01, step_num=100): x = init_x x_history = [] # 학습에 따른 변화 정도를 보기위해 값 저장 f...
댓글
댓글 쓰기