2022년도에 나온 VLP 분야 서베이 논문이다. 여기서 말하는 VLP란 이미지, 텍스트를 동시에 입력으로 받는 모델을 사전학습 (주로 self-supervised) 시킨 후, 다양한 다운스트림 태스크(VQA, VCR, Visual grounding 등)에 파인튜닝하여 좋은 성능을 얻는 것에 초점을 둔 분야라고 이해하면 된다. 1. Introduction VLP model의 사전학습은 3단계로 이루어진다. 이미지와 텍스트 각각을 latent representation으로 인코딩한다. 두 모달리티를 상호작용 시키기 위한 모델 아키텍처를 디자인한다. VLP model를 사전학습시킬 태스크들을 고안한다. 사전 학습이 끝나면 다양한 다운스트림 태스크에 파인튜닝할 수 있다 (개인적으로 각 태스크에 파인튜닝을 하는..
1. Abstract 본 논문은 특정 단어(예 : 숫자, 알파벳)에 대한 발음(오디오 모달리티)과 입모양(비디오 모달리티)의 표현을 잘 fusion하고, fusion된 표현을 인풋으로 받는 classifier를 학습하여 발음을 구분하는 태스크를 다룬다. 이 과정에서 fusion을 잘하기 위해 오토인코더를 도입한다. 피처 학습시 오디오와 비디오 모달리티가 주어졌다면, 모델에게 비디오 모달리티만 줘도 상대적으로 더 좋은 표현을 만든다. 모달리티 간의 공유(shared)된 표현을 어떻게 배우는지 보여준다. 이를 평가하기 위해 classifier를 오디오 모달리티로 학습시키고 테스트는 비디오 모달리티로 하거나, 그 반대로 실험을 한다. 2. Introduction 오디오, 비디오 표현을 fusion하여 발음을 ..