Multimodal Learning with Transformers: A Survey (TPAMI 2023)

티스토리 뷰

논문 리뷰/멀티모달

Multimodal Learning with Transformers: A Survey (TPAMI 2023)

금복이 2024. 3. 21. 22:51

핵심 내용만 요약했다.

Section 3. Transformers

이 섹션은 바닐라 트랜스포머, ViT, 멀티모달 트랜스포머에 대해 설명한다.

셀프 어텐션은 topological geometry space 상에서 fully-connected graph로 모델링 될 수 있다. 그에 반해 CNN은 정해진 grid space 에서만 align 되도록 제약된다(다른 딥러닝 모델도 이러한 제약이 있다). 트랜스포머는 본질적으로 더 범용적이고 유연한 모델링 공간을 갖는 것이다. 그래서 트랜스포머는 복잡한 멀티모달 태스크를 풀기에 적합한 잠재력을 가졌다.

3.1 Vianilla Transformer

트랜스포머에 대해선 이미 자세히 다룬 바가 있으므로 정리하지 않았다.

하지만 한 가지 짚고 넘어가야 할 쟁점이 있다. 여러 딥러닝 모델 및 트랜스포머에선 normalization (batch, layer)을 사용한다. 그런데 post-normalization을 적용한 모델도 있고, pre-normalization을 적용한 모델도 있다. 트랜스포머는 post-normalization을 사용한다.

이를 수학적인 관점에서 바라보면, 사실 pre-normalization이 더 합리적이라는 해석이 도출된다. 이는 정규화는 프로젝션 연산 전에 수행돼야 한다는 행렬 이론 (예 : Gram-Schmidt process)의 기본 원리와 비슷하다. 그러나 아직까지 더 깊은 이론적인 연구와 실험적인 검증이 필요한 쟁점이다.

3.3.2 Self-Attention Variants in Multimodal Context

cross-modal interactions (e.g., fusion, alignment)를 위한 self-attention variants를 소개한다. formulation의 간결함을 위해 모달리티 2개를 가정하고 설명한다. 하지만 앞으로 소개 할 모든 variants들은 모달리티가 몇 개인지에 상관없이 cross-modal interaction을 위해 사용 가능하다.

$X_{A}, X_{B}$를 각 모달리티의 raw inputs tokens, $Z_{(A)}, Z_{(B)}$를 그들의 token embeddings 으로 표시하자. 그리고 multi-modal intercation 후 도출된 토큰 임베딩을 $Z$라고 표현하자. $Tf(\cdot)$은 트랜스포머 레이어/블럭을 나타내는 기호이다.

(1) Early Summation

모든 모달리티의 토큰 임베딩을 element-wise 하게 더하고, 트랜스포머의 입력으로 준다. computational complexity를 증가시키지 않는다는 장점이 있지만, weight $\alpha$를 손수 조정해야 한다는 단점이 있다.

참고로, 토큰 임베딩에 포지셔널 임베딩을 element-wise 하게 더하는 것도 early summation이다. 논문엔 언급되지 않은 내용이지만, CMU Multimodal Machine Learning 강의에선 두 임베딩의 각 position이 의미적으로 같은 공간이어야 element-wise의 결과가 의미를 갖는다고 언급한다. 즉, 무조건 더한다고 해서 정보가 fused 된 임베딩을 얻는 것이 아니다.

(2) Early Concatenation

모든 모달리티의 토큰 임베딩을 그냥 이어붙여 하나의 sequence로 만든 후, 트랜스포머의 입력으로 준다. 토큰의 개수가 늘어나므로 computational complexity를 증가시킨다. 각 모달리티의 토큰은 다른 모달리티의 토큰에서 정보를 얻어 올 수 있으므로 context를 더 잘 고려한 인코딩을 할 수 있게 된다.

Early concatenation은 "all-attention" 또는 "Co-Transformer" 라고도 불린다.

(3) Hierarchical Attention (multi-stream to one-stream)

각 모달리티를 위한 트래스포머가 따로 존재하여, 일단 그것들로 토큰 임베딩을 인코딩한다. 그 결과를 모두 이어붙여서 multimodal-interaction을 위한 트랜스포머의 입력으로 준다. 이러한 hierarchical attention을 late interaction/fusion 이라고 부른다.

(4) Hierarchical Attention (one-stream to multi-stream)

multimodal-interaction을 먼저하여 얻은 임베딩을 각 모달리티를 위한 트랜스포머의 입력으로 주는 방식이다. 이 방법은 cross-modal interactions을 인식하는 와중에 각 모달리티 표현의 독립성을 보존한다.

'논문 리뷰 > 멀티모달' 카테고리의 다른 글

[ICML 2022] Multi-Grained Vision Language Pre-Training : Aligning Texts with Visual Concepts (X-VLM) (0)	2024.03.31
Data Efficient Masked Language Modeling for Vision and Language (EMNLP 2021) (0)	2024.03.22
A survey of Vision-Language Pre-Trained Models (2022) (0)	2024.03.14
[ICLR 2017] Gated Multimodal Units For Information Fusion (0)	2024.02.20
[ICML 2011] Multimodal Deep Learning (0)	2024.02.18

ainote

티스토리 뷰