1. Abstract 본 논문은 특정 단어(예 : 숫자, 알파벳)에 대한 발음(오디오 모달리티)과 입모양(비디오 모달리티)의 표현을 잘 fusion하고, fusion된 표현을 인풋으로 받는 classifier를 학습하여 발음을 구분하는 태스크를 다룬다. 이 과정에서 fusion을 잘하기 위해 오토인코더를 도입한다. 피처 학습시 오디오와 비디오 모달리티가 주어졌다면, 모델에게 비디오 모달리티만 줘도 상대적으로 더 좋은 표현을 만든다. 모달리티 간의 공유(shared)된 표현을 어떻게 배우는지 보여준다. 이를 평가하기 위해 classifier를 오디오 모달리티로 학습시키고 테스트는 비디오 모달리티로 하거나, 그 반대로 실험을 한다. 2. Introduction 오디오, 비디오 표현을 fusion하여 발음을 ..
1. 배치(batch) 처리 배치 처리는 컴퓨터로 계산할 때 큰 이점을 준다. 두 가지 이유가 있다. 수치 계산 라이브러리 대부분이 큰 배열을 효율적으로 처리하게끔 최적화 되어있다. 느린 I/O를 통해 데이터를 읽는 횟수가 줄어, 빠른 CPU나 GPU로 순수 계산을 수행하는 비율이 높아진다. 2. 데이터 주도 학습 전통적인 기계학습에선 사람이 특징을 설계했지만, 신경망은 이미지에 포함된 중요한 특징까지도 기계가 스스로 학습한다. 그러므로 딥러닝을 종단간(end-to-end) 기계학습이라고 한다. 처음부터 끝까지 데이터에서 목표 결과를 사람의 개입 없이 얻는다는 뜻이다. 3. 손실 함수 신경망 학습에선 현재의 상태를 하나의 지표로 표현한다. 이 지표를 가장 좋게 만드는 가중치 매개변수 값을 탐색한다. 신경..
1. 신경망 앞장에서, AND, OR 게이트의 진리표를 보면 인간이 직접 적절한 가중치를 설정해야 했다. 신경망은 적절한 가중치 값을 데이터로부터 자동으로 학습한다. 본 장에선 신경망의 개요와, 신경망이 입력 데이터를 식별하는 처리 과정을 알아본다. 2. 활성화 함수 퍼셉트론의 동작을 간단히 요약하면 아래와 같다. $h(x)$와 같이 입력 신호의 총합을 출력 신호로 변환하는 함수를 활성화 함수라고 한다. 현재 $h(x)$는 0을 경계로 출력이 바뀌는 계단 함수이다. 그렇기에 퍼셉트론은 활성화 함수로 계단 함수를 이용한다. 다른 활성화 함수를 사용하는 것은 신경망으로 나아가는 길이다. 신경망에서 활성화 함수로 자주 이용했던 시그모이드 함수는 아래와 같다. 3. 시그모이드 함수와 계단 함수의 차이 가장 먼저..
1. 퍼셉트론의 정의 퍼셉트론(perceptron)은 1957년에 고안된 알고리즘이다. 퍼셉트론은 신경망의 기원이다. 퍼셉트론은 다수의 신호를 입력으로 받아 하나의 신호를 출력한다. 퍼셉트론 신호는 1 또는 0의 두 가지 값을 가진다. 위 그림은 입력으로 2개으 신호를 받은 퍼셉트론이다. 그림의 원을 뉴런 혹은 노드라고 부른다. 입력 신호가 뉴런에 보내질 때는 각각 고유한 가중치가 곱해진다. 가중치가 클수록 해당 신호가 그만큼 더 중요하다는 뜻이다. 뉴런에서 보내온 신호의 총합이 임계값을 넘어설 때만 1을 출력한다. 이를 뉴런이 활성화 되었다고 표현한다. 2. 퍼셉트론의 한계 퍼셉트론의 매개변수 값(가중치, 임계값)을 적절히 정하면 AND, NAND, OR 게이트를 구현할 수 있다. 하지만 두 입력값 중..
https://02vec.tistory.com/2 트랜스포머 논문 이해하기 트랜스포머 인공지능 분야 전반에 걸쳐 범용적으로 사용되고 있는 아키텍처입니다. 본 리뷰는 Attention Is All You Need 논문에서 제안하는 트랜스포머 아키텍처의 구조, 동작 원리, 구현 디테일에 포 02vec.tistory.com 파이토치로 트랜스포머를 구현해봅시다. 리뷰 할 코드는 독일어를 영어로 번역하는 트랜스포머를 구현합니다. 먼저 torchtext와 spaCy를 설치합니다. torchtext는 각종 자연어 처리 도구를 제공하며, spaCy는 자연어 문장을 자동으로 토큰화 해주는 기능 등을 제공합니다. spaCy에서 영어 문장과 독일어 문장을 토큰화하는 tokenizer를 불러옵니다. "I am a gradua..
트랜스포머 인공지능 분야 전반에 걸쳐 범용적으로 사용되고 있는 아키텍처입니다. 본 리뷰는 Attention Is All You Need 논문에서 제안하는 트랜스포머 아키텍처의 구조, 동작 원리, 구현 디테일에 포커스를 둡니다. 1. Abstract & Introduction 본 논문이 발표되기 이전에는 복잡한 CNN 또는 RNN로 구성된 인코더-디코더 구조의 모델이 기계 번역 태스크에서 우위를 점하고 있었습니다. SOTA는 인코더-디코더에 어텐션 매커니즘을 적용한 모델이었다고 합니다. 본 논문은 CNN과 RNN을 사용하지 않고 오직 어텐션 매커니즘으로만 이루어진 트랜스포머라는 아키텍처를 제안합니다. 트랜스포머의 이러한 구성은 계산을 더욱 병렬적으로 처리할 수 있게 하여 모델의 학습 시간을 매우 많이 줄였..