ainote

Data Efficient Masked Language Modeling for Vision and Language (EMNLP 2021)

1. Introduction VLP의 MLM을 위한 마스킹 전략은 BERT의 마스킹 전략과 같다. 즉, 그냥 단어 토큰 중 랜덤으로 15%를 마스킹한다. 그러나 VLP에선 텍스트 뿐만 아니라 이미지도 고려할 수 있다. 즉, 이미지에서 정보를 얻어옴으로써 마스킹 된 단어가 원래 무슨 토큰이었는 지에 대한 모호함을 해소할 수 있다. Figure 1 예를 들어 Figure 1에서 마스킹 된 단어를 텍스트만 보고 맞춰보자. 당근을 먹을 수 있는 대상은 너무나 많기 때문에, 마스킹 되기 전에 어떤 단어였는지 알기가 매우 모호하다(e.g., 사람, 토끼, 호랑이, 기린). 하지만 문장과 매칭되는 이미지에는 호랑이가 존재한다. 이 정보를 가져옴으로써 모호함이 해소된다. 본 연구는 VLP MLM에서 BERT와 똑같은 ..

논문 리뷰/멀티모달 2024. 3. 22. 14:38

Multimodal Learning with Transformers: A Survey (TPAMI 2023)

핵심 내용만 요약했다. Section 3. Transformers 이 섹션은 바닐라 트랜스포머, ViT, 멀티모달 트랜스포머에 대해 설명한다. 셀프 어텐션은 topological geometry space 상에서 fully-connected graph로 모델링 될 수 있다. 그에 반해 CNN은 정해진 grid space 에서만 align 되도록 제약된다(다른 딥러닝 모델도 이러한 제약이 있다). 트랜스포머는 본질적으로 더 범용적이고 유연한 모델링 공간을 갖는 것이다. 그래서 트랜스포머는 복잡한 멀티모달 태스크를 풀기에 적합한 잠재력을 가졌다. 3.1 Vianilla Transformer 트랜스포머에 대해선 이미 자세히 다룬 바가 있으므로 정리하지 않았다. 하지만 한 가지 짚고 넘어가야 할 쟁점이 있다. ..

논문 리뷰/멀티모달 2024. 3. 21. 22:51

A survey of Vision-Language Pre-Trained Models (2022)

2022년도에 나온 VLP 분야 서베이 논문이다. 여기서 말하는 VLP란 이미지, 텍스트를 동시에 입력으로 받는 모델을 사전학습 (주로 self-supervised) 시킨 후, 다양한 다운스트림 태스크(VQA, VCR, Visual grounding 등)에 파인튜닝하여 좋은 성능을 얻는 것에 초점을 둔 분야라고 이해하면 된다. 1. Introduction VLP model의 사전학습은 3단계로 이루어진다. 이미지와 텍스트 각각을 latent representation으로 인코딩한다. 두 모달리티를 상호작용 시키기 위한 모델 아키텍처를 디자인한다. VLP model를 사전학습시킬 태스크들을 고안한다. 사전 학습이 끝나면 다양한 다운스트림 태스크에 파인튜닝할 수 있다 (개인적으로 각 태스크에 파인튜닝을 하는..

논문 리뷰/멀티모달 2024. 3. 14. 22:35

이전 1 2 3 4 5 ··· 21 다음

이전 다음

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

티스토리툴바