1. 계산 그래프 오차역전파를 이해하기 위해 계산 그래프를 사용한다. 계산 그래프의 이점은 다음과 같다. 전체 계산이 아무리 복잡해도, 각 노드에서는 단순한 계산에 집중하여 문제를 단순화할 수 있다. 중간 계산 결과를 보관할 수 있다. 역전파를 통해 미분을 효율적으로 계산할 수 있다. 2. 연쇄법칙 역전파는 국소적인 미분을 계산 그래프의 오른쪽에서 왼쪽으로 전달하면서 이루어진다. 국소적 미분을 전달하는 원리는 연쇄법칙(chain rule)에 따른 것이다. 연쇄법칙을 설명하려면 합성 함수부터 시작해야 한다. 합성 함수란 여러 함수로 구성된 함수이다. 예를들어 $y=(x+y)^2$는 $z=t^2$와 $t=x+y$ 두 개의 함수가 합성된 형태이다. 연쇄법칙은 합성 함수의 미분에 대한 성질이며, 합성 함수의 미..
1. 학습 알고리즘 신경망에는 매개변수(가중치, 편향)이 있고, 이를 데이터에 적응하도록 조정하는 과정을 학습이라고 한다. 학습은 다음과 같은 4단계로 수행된다. 1단계 : 미니배치 : 학습 데이터의 일부를 무작위로 가져온다. 선별된 데이터를 미니배치라고 한다. 2단계 : 기울기 산출 : 미니배치의 손실 함수 값을 줄이기 위해, 손실 함수에 대한 각 매개변수의 기울기를 구한다. 3단계 : 매개변수 갱신 : 가중치 매개변수를 기울기 방향으로 아주 조금 갱신한다. 4단계 : 1~3단계를 반복한다. 무작위 확률적으로 골라낸 데이터에 대해 수행하는 경사 하강법이므로, 이를 확률적 경사 하강법이라고 부른다. 2. 그라디언트를 구하는 방법 수치 미분 방식(아주 작은 차분으로 미분)으로 각각의 매개변수의 손실 함수에..
1. 기울기 손실 함수에 대한 모든 매개 변수의 편미분을 담은 벡터를 기울기(gradient)라고 한다. 기울기는 무엇을 의미할까? 위 그림은 기울기에 음수를 붙인 벡터를 시각화한 것이다. 기울기는 함수의 가장 낮은 장소(최솟값)을 가리킨다. 또한 가장 낮은 곳에서 멀어질수록 화살표의 크기가 커진다. 사실 화살표가 반드시 함수의 가장 낮은 장소를 가리킨다고 할 수 없다. 더 정확히 말하자면, 기울기가 가리키는 쪽은 각 장소에서 함수의 출력값을 가장 크게 줄이는 방향이다. 2. 경사 하강법 경사법은 현 위치에서 기울어진 방향으로 일정 거리만큼 이동하는 방법이다. 그 다음 이동을 마친 곳에서 마찬가지로 기울기를 구하고 또 일정 거리만큼 이동하기를 반복한다. 이렇게 하여 함수의 값을 점차 줄이는 것이 경사법이..
