Introduction Two mainstream architectures are widely used in previous work. Dual-stream : encode images and text separately. Modality interaction is handled by the cosine similarity of the image and text feature vectors. This architecture is effective for retrieval tasks, especially for masses of images and text Representative model : CLIP, ALIGN Limitation : Its shallow interaction is not enoug..
Introduction VLP 모델을 학습하는 방법은 fine-grained와 coarse-grained 라는 관점으로 구분될 수 있다. 두 방식 모두 한계가 존재한다. fine-grained approach : pre-trained object detector로 이미지에서 객체를 뽑아낸다. 이렇게하면 객체 간의 관계를 잘 표현할 수 없게된다. 예를들어, "man crossing the street"는 "man"과 "street"의 관계를 표현한다. object detector는 오직 "man"과 "street"에 해당하는 객체를 개별적으로 추출한다 coarse-grained approach : ViT의 patch embedding 방식을 생각하면 된다. 이렇게 하면 vision과 language 간의 ..
1. Introduction VLP의 MLM을 위한 마스킹 전략은 BERT의 마스킹 전략과 같다. 즉, 그냥 단어 토큰 중 랜덤으로 15%를 마스킹한다. 그러나 VLP에선 텍스트 뿐만 아니라 이미지도 고려할 수 있다. 즉, 이미지에서 정보를 얻어옴으로써 마스킹 된 단어가 원래 무슨 토큰이었는 지에 대한 모호함을 해소할 수 있다. Figure 1 예를 들어 Figure 1에서 마스킹 된 단어를 텍스트만 보고 맞춰보자. 당근을 먹을 수 있는 대상은 너무나 많기 때문에, 마스킹 되기 전에 어떤 단어였는지 알기가 매우 모호하다(e.g., 사람, 토끼, 호랑이, 기린). 하지만 문장과 매칭되는 이미지에는 호랑이가 존재한다. 이 정보를 가져옴으로써 모호함이 해소된다. 본 연구는 VLP MLM에서 BERT와 똑같은 ..
핵심 내용만 요약했다. Section 3. Transformers 이 섹션은 바닐라 트랜스포머, ViT, 멀티모달 트랜스포머에 대해 설명한다. 셀프 어텐션은 topological geometry space 상에서 fully-connected graph로 모델링 될 수 있다. 그에 반해 CNN은 정해진 grid space 에서만 align 되도록 제약된다(다른 딥러닝 모델도 이러한 제약이 있다). 트랜스포머는 본질적으로 더 범용적이고 유연한 모델링 공간을 갖는 것이다. 그래서 트랜스포머는 복잡한 멀티모달 태스크를 풀기에 적합한 잠재력을 가졌다. 3.1 Vianilla Transformer 트랜스포머에 대해선 이미 자세히 다룬 바가 있으므로 정리하지 않았다. 하지만 한 가지 짚고 넘어가야 할 쟁점이 있다. ..
2022년도에 나온 VLP 분야 서베이 논문이다. 여기서 말하는 VLP란 이미지, 텍스트를 동시에 입력으로 받는 모델을 사전학습 (주로 self-supervised) 시킨 후, 다양한 다운스트림 태스크(VQA, VCR, Visual grounding 등)에 파인튜닝하여 좋은 성능을 얻는 것에 초점을 둔 분야라고 이해하면 된다. 1. Introduction VLP model의 사전학습은 3단계로 이루어진다. 이미지와 텍스트 각각을 latent representation으로 인코딩한다. 두 모달리티를 상호작용 시키기 위한 모델 아키텍처를 디자인한다. VLP model를 사전학습시킬 태스크들을 고안한다. 사전 학습이 끝나면 다양한 다운스트림 태스크에 파인튜닝할 수 있다 (개인적으로 각 태스크에 파인튜닝을 하는..
1. Word embedding word2vec이 나오기 이전에는 단어를 one-hot encoded vector로 단순하게 표현했다. 이런 방법들은 단어 간의 의미적인 유사성같은 정보를 담지 못한다. 반면 word2vec은 의미가 비슷한 단어끼리 임베딩 공간 상에서 비슷한 위치에 자리잡도록 학습한다. 그러면 emb($\cdot$)를 각 단어의 word2vec 임베딩이라고 할 때, emb(king) - emb(man) + emb(woman) = emb(queen)과 같은 additive compositionality도 가질 수 있다. 어떻게 이렇게 잘 매핑된 임베딩을 학습할 수 있을까? word2vec은 분포 가설(distributional hypothesis) 하에 고안된 알고리즘이다. 분포 가설은 비..
1. Span Verb : A Set of vectors is said to span a space if the set of all their linear combinations is the space Noun : $span(v_{1}, v_{2}) = \{ c_{1} v_{1} + c_{2} v_{2}, \forall c_{1}, c_{2} \in \mathbb{R} \}$ Note : vectors that span a space are not necessarily independent Fact : columns of $A$ span $C(A)$, special solutions of $A$ span $N(A)$ 2. Basis A Basis of a space is a set of linearly ..
1. Rank The rank of matrix in the number of pivots ($r(A) = \# $ of pivots) Also defiend as the maximum number of linearly independent columns (will be discussed later) The rank of a matrix gives in a sense the true size of the matrix. Consider an $(m \times n)$ matrix $A$ whose rank is few than $m$. While $A \mathbf{x} = \mathbf{0}$ seems to have $m$ linear equations, $m-r$ out of $m$ equations..
1. Vector Spaces A set of vectors $V$ is called a vector space if it satisfies the following axioms $\mathbf{u} + \mathbf{v} = \mathbf{v} + \mathbf{u}, \mathbf{v} \in V$ $(\mathbf{u}+\mathbf{v})+\mathbf{w}=\mathbf{u}+(\mathbf{v}+\mathbf{w}), \forall \mathbf{u} \mathbf{v} \mathbf{w}$ There exists a zero vector $\mathbf{0} \in V$, such that $\mathbf{v} + \mathbf{0} = \mathbf{v}, \forall \mathbf{v}..
1. Abstract Gated Multimodal Unit (GMU)를 소개한다. 이는 어느 딥러닝 모델이라도 내부에 쉽게 적용될 수 있는 유닛이며, 서로 다른 모달리티의 데이터의 조합으로 intermediate representation을 찾으려는 목적을 갖는다. Multiplicative gates를 이용하여 여러 모달리티가 GMU의 activation에 어떻게 영향을 끼칠지(기여할지)는 결정하는 법을 배운다. MM-IMDb라는 데이터셋을 공개했는데, 이는 저자들이 아는 한 가장 큰 멀티모달 영화 장르 예측 데이터셋이라고 한다. 2. Introduction과 Related work에 포함된 GMU의 특징 Input-dependent한 gate-activation 패턴을 배운다. 즉, 인풋의 특징에 ..