
Introduction Two mainstream architectures are widely used in previous work. Dual-stream : encode images and text separately. Modality interaction is handled by the cosine similarity of the image and text feature vectors. This architecture is effective for retrieval tasks, especially for masses of images and text Representative model : CLIP, ALIGN Limitation : Its shallow interaction is not enoug..

Introduction VLP 모델을 학습하는 방법은 fine-grained와 coarse-grained 라는 관점으로 구분될 수 있다. 두 방식 모두 한계가 존재한다. fine-grained approach : pre-trained object detector로 이미지에서 객체를 뽑아낸다. 이렇게하면 객체 간의 관계를 잘 표현할 수 없게된다. 예를들어, "man crossing the street"는 "man"과 "street"의 관계를 표현한다. object detector는 오직 "man"과 "street"에 해당하는 객체를 개별적으로 추출한다 coarse-grained approach : ViT의 patch embedding 방식을 생각하면 된다. 이렇게 하면 vision과 language 간의 ..

1. Introduction VLP의 MLM을 위한 마스킹 전략은 BERT의 마스킹 전략과 같다. 즉, 그냥 단어 토큰 중 랜덤으로 15%를 마스킹한다. 그러나 VLP에선 텍스트 뿐만 아니라 이미지도 고려할 수 있다. 즉, 이미지에서 정보를 얻어옴으로써 마스킹 된 단어가 원래 무슨 토큰이었는 지에 대한 모호함을 해소할 수 있다. Figure 1 예를 들어 Figure 1에서 마스킹 된 단어를 텍스트만 보고 맞춰보자. 당근을 먹을 수 있는 대상은 너무나 많기 때문에, 마스킹 되기 전에 어떤 단어였는지 알기가 매우 모호하다(e.g., 사람, 토끼, 호랑이, 기린). 하지만 문장과 매칭되는 이미지에는 호랑이가 존재한다. 이 정보를 가져옴으로써 모호함이 해소된다. 본 연구는 VLP MLM에서 BERT와 똑같은 ..

핵심 내용만 요약했다. Section 3. Transformers 이 섹션은 바닐라 트랜스포머, ViT, 멀티모달 트랜스포머에 대해 설명한다. 셀프 어텐션은 topological geometry space 상에서 fully-connected graph로 모델링 될 수 있다. 그에 반해 CNN은 정해진 grid space 에서만 align 되도록 제약된다(다른 딥러닝 모델도 이러한 제약이 있다). 트랜스포머는 본질적으로 더 범용적이고 유연한 모델링 공간을 갖는 것이다. 그래서 트랜스포머는 복잡한 멀티모달 태스크를 풀기에 적합한 잠재력을 가졌다. 3.1 Vianilla Transformer 트랜스포머에 대해선 이미 자세히 다룬 바가 있으므로 정리하지 않았다. 하지만 한 가지 짚고 넘어가야 할 쟁점이 있다. ..
2022년도에 나온 VLP 분야 서베이 논문이다. 여기서 말하는 VLP란 이미지, 텍스트를 동시에 입력으로 받는 모델을 사전학습 (주로 self-supervised) 시킨 후, 다양한 다운스트림 태스크(VQA, VCR, Visual grounding 등)에 파인튜닝하여 좋은 성능을 얻는 것에 초점을 둔 분야라고 이해하면 된다. 1. Introduction VLP model의 사전학습은 3단계로 이루어진다. 이미지와 텍스트 각각을 latent representation으로 인코딩한다. 두 모달리티를 상호작용 시키기 위한 모델 아키텍처를 디자인한다. VLP model를 사전학습시킬 태스크들을 고안한다. 사전 학습이 끝나면 다양한 다운스트림 태스크에 파인튜닝할 수 있다 (개인적으로 각 태스크에 파인튜닝을 하는..

1. Word embedding word2vec이 나오기 이전에는 단어를 one-hot encoded vector로 단순하게 표현했다. 이런 방법들은 단어 간의 의미적인 유사성같은 정보를 담지 못한다. 반면 word2vec은 의미가 비슷한 단어끼리 임베딩 공간 상에서 비슷한 위치에 자리잡도록 학습한다. 그러면 emb($\cdot$)를 각 단어의 word2vec 임베딩이라고 할 때, emb(king) - emb(man) + emb(woman) = emb(queen)과 같은 additive compositionality도 가질 수 있다. 어떻게 이렇게 잘 매핑된 임베딩을 학습할 수 있을까? word2vec은 분포 가설(distributional hypothesis) 하에 고안된 알고리즘이다. 분포 가설은 비..

1. Abstract Gated Multimodal Unit (GMU)를 소개한다. 이는 어느 딥러닝 모델이라도 내부에 쉽게 적용될 수 있는 유닛이며, 서로 다른 모달리티의 데이터의 조합으로 intermediate representation을 찾으려는 목적을 갖는다. Multiplicative gates를 이용하여 여러 모달리티가 GMU의 activation에 어떻게 영향을 끼칠지(기여할지)는 결정하는 법을 배운다. MM-IMDb라는 데이터셋을 공개했는데, 이는 저자들이 아는 한 가장 큰 멀티모달 영화 장르 예측 데이터셋이라고 한다. 2. Introduction과 Related work에 포함된 GMU의 특징 Input-dependent한 gate-activation 패턴을 배운다. 즉, 인풋의 특징에 ..

1. Abstract 본 논문은 특정 단어(예 : 숫자, 알파벳)에 대한 발음(오디오 모달리티)과 입모양(비디오 모달리티)의 표현을 잘 fusion하고, fusion된 표현을 인풋으로 받는 classifier를 학습하여 발음을 구분하는 태스크를 다룬다. 이 과정에서 fusion을 잘하기 위해 오토인코더를 도입한다. 피처 학습시 오디오와 비디오 모달리티가 주어졌다면, 모델에게 비디오 모달리티만 줘도 상대적으로 더 좋은 표현을 만든다. 모달리티 간의 공유(shared)된 표현을 어떻게 배우는지 보여준다. 이를 평가하기 위해 classifier를 오디오 모달리티로 학습시키고 테스트는 비디오 모달리티로 하거나, 그 반대로 실험을 한다. 2. Introduction 오디오, 비디오 표현을 fusion하여 발음을 ..

https://02vec.tistory.com/2 트랜스포머 논문 이해하기 트랜스포머 인공지능 분야 전반에 걸쳐 범용적으로 사용되고 있는 아키텍처입니다. 본 리뷰는 Attention Is All You Need 논문에서 제안하는 트랜스포머 아키텍처의 구조, 동작 원리, 구현 디테일에 포 02vec.tistory.com 파이토치로 트랜스포머를 구현해봅시다. 리뷰 할 코드는 독일어를 영어로 번역하는 트랜스포머를 구현합니다. 먼저 torchtext와 spaCy를 설치합니다. torchtext는 각종 자연어 처리 도구를 제공하며, spaCy는 자연어 문장을 자동으로 토큰화 해주는 기능 등을 제공합니다. spaCy에서 영어 문장과 독일어 문장을 토큰화하는 tokenizer를 불러옵니다. "I am a gradua..

트랜스포머 인공지능 분야 전반에 걸쳐 범용적으로 사용되고 있는 아키텍처입니다. 본 리뷰는 Attention Is All You Need 논문에서 제안하는 트랜스포머 아키텍처의 구조, 동작 원리, 구현 디테일에 포커스를 둡니다. 1. Abstract & Introduction본 논문이 발표되기 이전에는 복잡한 CNN 또는 RNN로 구성된 인코더-디코더 구조의 모델이 기계 번역 태스크에서 우위를 점하고 있었습니다. SOTA는 인코더-디코더에 어텐션 매커니즘을 적용한 모델이었다고 합니다. 본 논문은 CNN과 RNN을 사용하지 않고 오직 어텐션 매커니즘으로만 이루어진 트랜스포머라는 아키텍처를 제안합니다. 트랜스포머의 이러한 구성은 계산을 더욱 병렬적으로 처리할 수 있게 하여 모델의 학습 시간을 매우 많..