https://02vec.tistory.com/2 트랜스포머 논문 이해하기 트랜스포머 인공지능 분야 전반에 걸쳐 범용적으로 사용되고 있는 아키텍처입니다. 본 리뷰는 Attention Is All You Need 논문에서 제안하는 트랜스포머 아키텍처의 구조, 동작 원리, 구현 디테일에 포 02vec.tistory.com 파이토치로 트랜스포머를 구현해봅시다. 리뷰 할 코드는 독일어를 영어로 번역하는 트랜스포머를 구현합니다. 먼저 torchtext와 spaCy를 설치합니다. torchtext는 각종 자연어 처리 도구를 제공하며, spaCy는 자연어 문장을 자동으로 토큰화 해주는 기능 등을 제공합니다. spaCy에서 영어 문장과 독일어 문장을 토큰화하는 tokenizer를 불러옵니다. "I am a gradua..
트랜스포머 인공지능 분야 전반에 걸쳐 범용적으로 사용되고 있는 아키텍처입니다. 본 리뷰는 Attention Is All You Need 논문에서 제안하는 트랜스포머 아키텍처의 구조, 동작 원리, 구현 디테일에 포커스를 둡니다. 1. Abstract & Introduction 본 논문이 발표되기 이전에는 복잡한 CNN 또는 RNN로 구성된 인코더-디코더 구조의 모델이 기계 번역 태스크에서 우위를 점하고 있었습니다. SOTA는 인코더-디코더에 어텐션 매커니즘을 적용한 모델이었다고 합니다. 본 논문은 CNN과 RNN을 사용하지 않고 오직 어텐션 매커니즘으로만 이루어진 트랜스포머라는 아키텍처를 제안합니다. 트랜스포머의 이러한 구성은 계산을 더욱 병렬적으로 처리할 수 있게 하여 모델의 학습 시간을 매우 많이 줄였..