1. 가중치 초기화의 중요성 신경망의 가중치를 어떻게 초기화할지에 따라 학습의 성패가 갈린다. 단순하게 모든 가중치를 0으로 초기화 해보자(정확히는 모든 가중치를 동일한 값으로 설정해보자). 이 신경망은 학습이 제대로 되지 않는다. 그 이유는 오차역전파에서 모든 가중치가 똑같은 값으로 갱신되기 때문이다. 예를들어 2층 신경망이 있다고 하자. 1층과 2층 사이에 모든 가중치가 0이라면, 순전파 때 두 번째 층의 뉴런에 모두 같은 값이 전달된다. 이는 역전파때 두 번째 층의 가중치가 모두 똑같이 갱신된다는 뜻이다. 이는 가중치를 여러 개 갖는 의미를 상실시킨다. 이렇듯 가중치가 고르게 되어버리는 상황을 방지하려면 가중치의 초깃값을 무작위로 설정해야 한다. 2. 은닉층의 활성화값 분포 은닉층의 활성화값(활성화..
1. 확률적 경사 하강법(SGD) SGD는 그라디언트의 방향으로 일정 거리만큼 가는 단순한 매개변수 갱신 방법이다. SGD는 단순하고 구현도 쉽지만, 문제에 따라서 비효율적인 경우가 있다. 아래와 같은 비등방성 함수에서 그렇다. 비등방성 함수란 각 지점에서의 기울기가 전체에서 한 점만을 가리키지 않는 함수라고 이해하면 된다. 함수의 최솟값을 가지는 좌표는 $(0, 0)$이지만, 대부분의 지점에서 기울기는 $(0, 0)$ 방향을 가리키지 않는다. 이 함수에 SGD를 적용해보자. 갱신 경로가 지그재그로, 비효율적인 탐색 결과를 볼 수 있다. 이런 함수에는 SGD 같이 무작정 기울어진 방향으로 진행하는 단순한 방식보다 더 영리한 방법이 필요하다. 또한 SGD가 지그재그로 탐색하는 근본 원인이 기울기 방향이 최..
1. 계산 그래프 오차역전파를 이해하기 위해 계산 그래프를 사용한다. 계산 그래프의 이점은 다음과 같다. 전체 계산이 아무리 복잡해도, 각 노드에서는 단순한 계산에 집중하여 문제를 단순화할 수 있다. 중간 계산 결과를 보관할 수 있다. 역전파를 통해 미분을 효율적으로 계산할 수 있다. 2. 연쇄법칙 역전파는 국소적인 미분을 계산 그래프의 오른쪽에서 왼쪽으로 전달하면서 이루어진다. 국소적 미분을 전달하는 원리는 연쇄법칙(chain rule)에 따른 것이다. 연쇄법칙을 설명하려면 합성 함수부터 시작해야 한다. 합성 함수란 여러 함수로 구성된 함수이다. 예를들어 $y=(x+y)^2$는 $z=t^2$와 $t=x+y$ 두 개의 함수가 합성된 형태이다. 연쇄법칙은 합성 함수의 미분에 대한 성질이며, 합성 함수의 미..