'2024/03/21 글 목록

Multimodal Learning with Transformers: A Survey (TPAMI 2023)

핵심 내용만 요약했다. Section 3. Transformers 이 섹션은 바닐라 트랜스포머, ViT, 멀티모달 트랜스포머에 대해 설명한다. 셀프 어텐션은 topological geometry space 상에서 fully-connected graph로 모델링 될 수 있다. 그에 반해 CNN은 정해진 grid space 에서만 align 되도록 제약된다(다른 딥러닝 모델도 이러한 제약이 있다). 트랜스포머는 본질적으로 더 범용적이고 유연한 모델링 공간을 갖는 것이다. 그래서 트랜스포머는 복잡한 멀티모달 태스크를 풀기에 적합한 잠재력을 가졌다. 3.1 Vianilla Transformer 트랜스포머에 대해선 이미 자세히 다룬 바가 있으므로 정리하지 않았다. 하지만 한 가지 짚고 넘어가야 할 쟁점이 있다. ..

논문 리뷰/멀티모달 2024. 3. 21. 22:51

이전 1 다음

이전 다음

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

ainote

티스토리툴바