본문 바로가기 메뉴 바로가기

ainote

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

ainote

검색하기 폼
  • 분류 전체보기 (63)
    • 파이썬 머신러닝 완벽 가이드 (38)
    • 알고리즘 (3)
    • 논문 리뷰 (10)
      • 멀티모달 (7)
    • 선형대수학 (2)
    • 밑바닥부터 시작하는 딥러닝1 (9)
    • 알고리즘 문제풀이 (2)
    • 컴퓨터 공학 전공 (0)
      • 신호처리 (0)
      • 컴퓨터 구조 (0)
      • 데이터베이스 (0)
      • 운영체제 (0)
  • 방명록

ICML (1)
[ICML 2011] Multimodal Deep Learning

1. Abstract 본 논문은 특정 단어(예 : 숫자, 알파벳)에 대한 발음(오디오 모달리티)과 입모양(비디오 모달리티)의 표현을 잘 fusion하고, fusion된 표현을 인풋으로 받는 classifier를 학습하여 발음을 구분하는 태스크를 다룬다. 이 과정에서 fusion을 잘하기 위해 오토인코더를 도입한다. 피처 학습시 오디오와 비디오 모달리티가 주어졌다면, 모델에게 비디오 모달리티만 줘도 상대적으로 더 좋은 표현을 만든다. 모달리티 간의 공유(shared)된 표현을 어떻게 배우는지 보여준다. 이를 평가하기 위해 classifier를 오디오 모달리티로 학습시키고 테스트는 비디오 모달리티로 하거나, 그 반대로 실험을 한다. 2. Introduction 오디오, 비디오 표현을 fusion하여 발음을 ..

논문 리뷰/멀티모달 2024. 2. 18. 17:48
이전 1 다음
이전 다음
«   2025/11   »
일 월 화 수 목 금 토
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30

Blog is powered by Tistory / Designed by Tistory

티스토리툴바