배치 정규화

티스토리 뷰

밑바닥부터 시작하는 딥러닝1

금복이 2023. 12. 9. 20:50

앞 절에선 가중치 초기화를 적절히 설정해서 각 층의 활성화값 분포를 적당히 퍼뜨려 원활한 학습을 유도했다. 이와 달리 배치 정규화는 각 층의 활성화값을 적당히 퍼뜨리도록 강제하는 기법이다.

배치 정규화의 장점은 아래와 같다.

배치 정규화는 그 이름과 같이, 학습 시 미니배치 단위로 정규화를 한다. 구체적으로는 한 배치안의 값의 분포를 평균이 0, 분산이 1이 되도록 정규화한다.

수식으로는 위와 같다. 이러한 변환을 활성화 함수의 앞 혹은 뒤에 삽입함으로써 데이터 분포가 덜 치우치게 강제한다. 배치 정규화를 활성화 함수의 앞과 뒤 중 어느 쪽에 삽입할 지에 대한 정답은 없다.

또, 배치 정규화 계층마다 정규화된 데이터에 대한 고유한 확대(scale)와 이동(shift) 변환을 수행한다.

$\gamma = 1,\beta = 0$부터 시작하고, 적합한 값으로 학습된다.

배치 정규화의 계산 그래프는 위와 같다.

배치 정규화는 일반적으로 학습을 진전시킨다. 가중치 초깃값의 표준편차를 다양하게 바꿔가며 학습 경과를 관찰해도, 배치 정규화를 적용한 경우(실선)이 거의 모든 경우에서 빠른 학습 속도를 보인다.

배치 정규화를 사용하면 학습이 빨라지며, 가중치 초깃값에 크게 의존하지 않아도 된다는 점을 기억하자.