Introduction VLP 모델을 학습하는 방법은 fine-grained와 coarse-grained 라는 관점으로 구분될 수 있다. 두 방식 모두 한계가 존재한다. fine-grained approach : pre-trained object detector로 이미지에서 객체를 뽑아낸다. 이렇게하면 객체 간의 관계를 잘 표현할 수 없게된다. 예를들어, "man crossing the street"는 "man"과 "street"의 관계를 표현한다. object detector는 오직 "man"과 "street"에 해당하는 객체를 개별적으로 추출한다 coarse-grained approach : ViT의 patch embedding 방식을 생각하면 된다. 이렇게 하면 vision과 language 간의 ..
1. Introduction VLP의 MLM을 위한 마스킹 전략은 BERT의 마스킹 전략과 같다. 즉, 그냥 단어 토큰 중 랜덤으로 15%를 마스킹한다. 그러나 VLP에선 텍스트 뿐만 아니라 이미지도 고려할 수 있다. 즉, 이미지에서 정보를 얻어옴으로써 마스킹 된 단어가 원래 무슨 토큰이었는 지에 대한 모호함을 해소할 수 있다. Figure 1 예를 들어 Figure 1에서 마스킹 된 단어를 텍스트만 보고 맞춰보자. 당근을 먹을 수 있는 대상은 너무나 많기 때문에, 마스킹 되기 전에 어떤 단어였는지 알기가 매우 모호하다(e.g., 사람, 토끼, 호랑이, 기린). 하지만 문장과 매칭되는 이미지에는 호랑이가 존재한다. 이 정보를 가져옴으로써 모호함이 해소된다. 본 연구는 VLP MLM에서 BERT와 똑같은 ..
핵심 내용만 요약했다. Section 3. Transformers 이 섹션은 바닐라 트랜스포머, ViT, 멀티모달 트랜스포머에 대해 설명한다. 셀프 어텐션은 topological geometry space 상에서 fully-connected graph로 모델링 될 수 있다. 그에 반해 CNN은 정해진 grid space 에서만 align 되도록 제약된다(다른 딥러닝 모델도 이러한 제약이 있다). 트랜스포머는 본질적으로 더 범용적이고 유연한 모델링 공간을 갖는 것이다. 그래서 트랜스포머는 복잡한 멀티모달 태스크를 풀기에 적합한 잠재력을 가졌다. 3.1 Vianilla Transformer 트랜스포머에 대해선 이미 자세히 다룬 바가 있으므로 정리하지 않았다. 하지만 한 가지 짚고 넘어가야 할 쟁점이 있다. ..
2022년도에 나온 VLP 분야 서베이 논문이다. 여기서 말하는 VLP란 이미지, 텍스트를 동시에 입력으로 받는 모델을 사전학습 (주로 self-supervised) 시킨 후, 다양한 다운스트림 태스크(VQA, VCR, Visual grounding 등)에 파인튜닝하여 좋은 성능을 얻는 것에 초점을 둔 분야라고 이해하면 된다. 1. Introduction VLP model의 사전학습은 3단계로 이루어진다. 이미지와 텍스트 각각을 latent representation으로 인코딩한다. 두 모달리티를 상호작용 시키기 위한 모델 아키텍처를 디자인한다. VLP model를 사전학습시킬 태스크들을 고안한다. 사전 학습이 끝나면 다양한 다운스트림 태스크에 파인튜닝할 수 있다 (개인적으로 각 태스크에 파인튜닝을 하는..
1. Word embedding word2vec이 나오기 이전에는 단어를 one-hot encoded vector로 단순하게 표현했다. 이런 방법들은 단어 간의 의미적인 유사성같은 정보를 담지 못한다. 반면 word2vec은 의미가 비슷한 단어끼리 임베딩 공간 상에서 비슷한 위치에 자리잡도록 학습한다. 그러면 emb($\cdot$)를 각 단어의 word2vec 임베딩이라고 할 때, emb(king) - emb(man) + emb(woman) = emb(queen)과 같은 additive compositionality도 가질 수 있다. 어떻게 이렇게 잘 매핑된 임베딩을 학습할 수 있을까? word2vec은 분포 가설(distributional hypothesis) 하에 고안된 알고리즘이다. 분포 가설은 비..