
1. 배치(batch) 처리 배치 처리는 컴퓨터로 계산할 때 큰 이점을 준다. 두 가지 이유가 있다. 수치 계산 라이브러리 대부분이 큰 배열을 효율적으로 처리하게끔 최적화 되어있다. 느린 I/O를 통해 데이터를 읽는 횟수가 줄어, 빠른 CPU나 GPU로 순수 계산을 수행하는 비율이 높아진다. 2. 데이터 주도 학습 전통적인 기계학습에선 사람이 특징을 설계했지만, 신경망은 이미지에 포함된 중요한 특징까지도 기계가 스스로 학습한다. 그러므로 딥러닝을 종단간(end-to-end) 기계학습이라고 한다. 처음부터 끝까지 데이터에서 목표 결과를 사람의 개입 없이 얻는다는 뜻이다. 3. 손실 함수 신경망 학습에선 현재의 상태를 하나의 지표로 표현한다. 이 지표를 가장 좋게 만드는 가중치 매개변수 값을 탐색한다. 신경..

1. 신경망 앞장에서, AND, OR 게이트의 진리표를 보면 인간이 직접 적절한 가중치를 설정해야 했다. 신경망은 적절한 가중치 값을 데이터로부터 자동으로 학습한다. 본 장에선 신경망의 개요와, 신경망이 입력 데이터를 식별하는 처리 과정을 알아본다. 2. 활성화 함수 퍼셉트론의 동작을 간단히 요약하면 아래와 같다. $h(x)$와 같이 입력 신호의 총합을 출력 신호로 변환하는 함수를 활성화 함수라고 한다. 현재 $h(x)$는 0을 경계로 출력이 바뀌는 계단 함수이다. 그렇기에 퍼셉트론은 활성화 함수로 계단 함수를 이용한다. 다른 활성화 함수를 사용하는 것은 신경망으로 나아가는 길이다. 신경망에서 활성화 함수로 자주 이용했던 시그모이드 함수는 아래와 같다. 3. 시그모이드 함수와 계단 함수의 차이 가장 먼저..

https://02vec.tistory.com/2 트랜스포머 논문 이해하기 트랜스포머 인공지능 분야 전반에 걸쳐 범용적으로 사용되고 있는 아키텍처입니다. 본 리뷰는 Attention Is All You Need 논문에서 제안하는 트랜스포머 아키텍처의 구조, 동작 원리, 구현 디테일에 포 02vec.tistory.com 파이토치로 트랜스포머를 구현해봅시다. 리뷰 할 코드는 독일어를 영어로 번역하는 트랜스포머를 구현합니다. 먼저 torchtext와 spaCy를 설치합니다. torchtext는 각종 자연어 처리 도구를 제공하며, spaCy는 자연어 문장을 자동으로 토큰화 해주는 기능 등을 제공합니다. spaCy에서 영어 문장과 독일어 문장을 토큰화하는 tokenizer를 불러옵니다. "I am a gradua..