'2024/03/31 글 목록

[ICML 2022] Multi-Grained Vision Language Pre-Training : Aligning Texts with Visual Concepts (X-VLM)

Introduction VLP 모델을 학습하는 방법은 fine-grained와 coarse-grained 라는 관점으로 구분될 수 있다. 두 방식 모두 한계가 존재한다. fine-grained approach : pre-trained object detector로 이미지에서 객체를 뽑아낸다. 이렇게하면 객체 간의 관계를 잘 표현할 수 없게된다. 예를들어, "man crossing the street"는 "man"과 "street"의 관계를 표현한다. object detector는 오직 "man"과 "street"에 해당하는 객체를 개별적으로 추출한다 coarse-grained approach : ViT의 patch embedding 방식을 생각하면 된다. 이렇게 하면 vision과 language 간의 ..

논문 리뷰/멀티모달 2024. 3. 31. 13:59

이전 1 다음

이전 다음

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

ainote

티스토리툴바