손실 함수 = Loss Function 신경망 성능의 '나쁨'을 나타내는 지표. 즉, 현재의 신경망이 훈련 데이터를 얼마나 잘 처리하지 못하는지를 나타냄. 이러한 '나쁨'을 최소로 하는 것은 사실상 '좋음'을 최대로 하는 것과 같으므로, 신경망 학습에서는 손실 함수값이 작아지는 방향으로 학습하게 됨. 신경망 학습에서는 최적의 매개변수(가중치, 편향)을 탐색할 때 손실함수의 값을 가능한 한 작게 하는 매개변수 값을 찾음. 찾을 때는 매개변수의 미분(=기울기)을 계산하고, 이 계산값을 단서로 새로 매개변수 값을 갱신해나감. 자세히 말하면 '가중치 매개변수에 대한 손실 함수의 미분=가중치 매개변수의 값을 아주 조금 변화시켰을 때, 손실 함수의 변하는 정도'임. 따라서 이 값이 음수 : 가중치 매개변수를 양의 방향으로 변화(=값 증가)시켜 손실 함수의 값을 줄임. 양수 : 가중치 매개변수를 음의 방향으로 변화(=값 감소)시켜 손실 함수의 값을 줄임. 굳이 손실 함수를 쓰는 이유는, 정확도를 지표로 하면 매개변수의 미분이 대부분의 장소에서 0이 되기 때문임. 정확도라는 것은 전체 중 얼마나 정확히 인식했냐이므로, 예를 들어 100장이 전체일 때는 32%, 33%와 같은 값만 같게 됨. 따라서 32%상황에서 매개변수를 조금 변화시켜도 32.0234%같이 안 되고 여전히 32%이거나(이 경우 미분이 0), 33%같이 큰 값으로(=불연속적으로) 값이 변화하므로 최적의 매개변수 값을 찾기에 적합하지 않음. 딥러닝에 자주쓰이는 손실함수에는 다음과 같은 함수들이 있음. 평균 제곱 오차 = MSE(Mean Squared Error) $$ E = \frac{1}{n}\sum_{k=1}^n (y_k-t_k)^2 \qquad y_k\text{ : 신경망의 출력, } t_k\text{ : 정답 레이블, } n\text{ : 데이터의 차원 수} $$ 특징 수치예측에 많이 사용됨. 파이썬 구현
오차역전파법. 풀어쓰자면 Backward Propagation Of Errors 라고 할 수 있다. 즉, 오차를 역으로(반대방향으로) 전파하는 방법이다. 오차역전파법은 계산 그래프로 이해해 볼 수 있다. 계산 그래프 계산 과정을 그래프로 나타낸 것. 이곳 에서 볼 수 있듯이 계산 그래프의 흐름은 일반적으로 아래와 같다. 간단하게 나타내면 연산식($+,*$ 같은 간단한 연산부터 $\sqrt{x+\epsilon},**2$ 같은 연산까지)이 각각의 Node가 되고, Edge는 변수혹은 노드들의 국소적 계산 결과가 된다. 이렇게 국소적 계산을 하는 계산 그래프를 사용하면 역전파를 통해 미분을 효율적으로 계산할 수 있다. 위와 같이 연산식에 따른 역전파는 상류의 역전파값에 국소적 미분값을 곱해서 하류로 흘려보낸다. 이렇게 국소적 미분값을 곱해서 흘림으로써, 위에 간단하게 나타낸 그림에서 마지막 $x$로의 역전파 값을 보면 $\partial{z}$와 $\partial{t}$가 사라져 $$\frac{\partial z}{\partial x} \text{ : x에 대한 z의 미분} $$ 을 구할 수 있다. 같은 방식으로 $t$에 대한$z$의 미분값도 구할 수 있다. 즉, "중간 결과값들에 대한 최종결과값의 미분"을 구할 수 있다는 것이고, 이를 신경망에 적용해 생각해보면 각 층마다의 가중치와 편향값에 대한 손실 함수의 미분값이 구해진다는 것이다. 어파인 = Affine 계층 신경망의 순전파 때 수행하는 행렬의 내적을 어파인 변환 = Affine Transformation 이라고 한다. 어파인 계층은 이 어파인 변환을 수행하는 처리를 말한다. 순전파 : 입력x와 가중치 W의 내적 후 편향을 더해준다.(numpy 브로드캐스트) 역전파 : 가중치의 미분값에는 전치행렬을 사용하고, 편향의 미분값은 상류의 미분흐름의 총합으로 구해준다. 입력 데이터가 텐서(4차원 데이터)인 경우도 고려해서 파이썬으로 구현하면 다음과 같다. cl
신경망 학습에서 '확률적으로 무작위로 골라낸 데이터'에 대해 수행하는 경사 하강법. 신경망 학습에서는 데이터를 미니배치로 무작위로 선정해서 학습하므로, SGD라 지칭함. 경사법 = Gradient Method 현 위치에서 기울어진 방향으로 일정 거리만큼 이동함. 그 뒤 이동한 부분에서 다시 기울기를 구하고, 또 그 기울어진 방향으로 이동을 반복함. 이런 방법으로 함수의 값을 줄여나가거나(경사 하강법) 늘려나가며(경사 상승법) 기울기가 0인 지점을 찾음. 이 방법의 경우, 복잡한 함수일 때 고원 = plateau 이라는 평평한 곳으로 파고들며 학습이 진행되지 않는 정체기에 빠질 수 있음. 또한 기울기가 0인 곳은 최솟값이나 최댓값 뿐만 아니라 극솟값/극댓값/안장점 이 될 수도 있음. 경사 하강법 = Gradient Descent Method 경사법 중 최솟값을 찾는 방법. 일반적으로 신경망 분야에서는 경사법이 경사 하강법으로 등장함(손실 함수의 최솟값을 찾아야 하므로) 매개변수의 갱신과정은 아래와 같음.($h$,$b$ : 가중치, 편향과 같은 매개변수, $\eta$ : 학습률 = learning rate, $f$ : 손실 함수) $$ w = w - \eta\frac{\partial f}{\partial w} \\ b = h - \eta\frac{\partial f}{\partial b} $$ 여기서 학습률이란 갱신하는 양으로, 한 번의 학습으로 얼마만큼 학습해야 하는지를 정함. 일반적으로 0.01, 0.001과 같이 미리 특정 값으로 정함. 이 학습률이 너무 크거나 작으면 목표하고자 하는 곳에 도달할 수 없음. 파이썬 구현 수치 미분 구현(numerical_gradient 함수)은 이곳 참조. def gradient_descent(f, init_x, lr=0.01, step_num=100): x = init_x x_history = [] # 학습에 따른 변화 정도를 보기위해 값 저장 f
댓글
댓글 쓰기