1. Abstract 본 논문은 특정 단어(예 : 숫자, 알파벳)에 대한 발음(오디오 모달리티)과 입모양(비디오 모달리티)의 표현을 잘 fusion하고, fusion된 표현을 인풋으로 받는 classifier를 학습하여 발음을 구분하는 태스크를 다룬다. 이 과정에서 fusion을 잘하기 위해 오토인코더를 도입한다. 피처 학습시 오디오와 비디오 모달리티가 주어졌다면, 모델에게 비디오 모달리티만 줘도 상대적으로 더 좋은 표현을 만든다. 모달리티 간의 공유(shared)된 표현을 어떻게 배우는지 보여준다. 이를 평가하기 위해 classifier를 오디오 모달리티로 학습시키고 테스트는 비디오 모달리티로 하거나, 그 반대로 실험을 한다. 2. Introduction 오디오, 비디오 표현을 fusion하여 발음을 ..
1. 행렬과 벡터의 곱의 계산적 의미 \begin{align*} A{x}= \left[ \begin{array}{cccc} a_{11} & a_{12} & \ldots & a_{1n}\\ a_{21} & a_{22} & \ldots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots\\ a_{m1} & a_{m2} & \ldots & a_{mn} \end{array} \right] \left[ \begin{array}{c} x_1\\ x_2\\ \vdots\\ x_n \end{array} \right] = \left[ \begin{array}{c} a_{11}x_1+a_{12}x_2 + \cdots + a_{1n} x_n\\ a_{21}x_1+a_{22}x_2 + \cdots..
Linear Combination The set $\mathbb{R}^{n}$ or an infinite line can be represented as linear combinations of vectors Example 1 : $c\begin{bmatrix}1 \\ 0\end{bmatrix} + d\begin{bmatrix}0 \\ 1\end{bmatrix}$ spans $\mathbb{R}^2$ Example 2 : $c\begin{bmatrix}1 \\ 1\end{bmatrix} + d\begin{bmatrix}2 \\ 2\end{bmatrix}$ is an infinite line Lengths and Dot (Inner) Products Length : $\|v\| = \sqrt{v \cdot..