
트랜스포머 인공지능 분야 전반에 걸쳐 범용적으로 사용되고 있는 아키텍처입니다. 본 리뷰는 Attention Is All You Need 논문에서 제안하는 트랜스포머 아키텍처의 구조, 동작 원리, 구현 디테일에 포커스를 둡니다. 1. Abstract & Introduction본 논문이 발표되기 이전에는 복잡한 CNN 또는 RNN로 구성된 인코더-디코더 구조의 모델이 기계 번역 태스크에서 우위를 점하고 있었습니다. SOTA는 인코더-디코더에 어텐션 매커니즘을 적용한 모델이었다고 합니다. 본 논문은 CNN과 RNN을 사용하지 않고 오직 어텐션 매커니즘으로만 이루어진 트랜스포머라는 아키텍처를 제안합니다. 트랜스포머의 이러한 구성은 계산을 더욱 병렬적으로 처리할 수 있게 하여 모델의 학습 시간을 매우 많..

평균 이동(Mean Shift)은 K-평균과 유사하게 중심을 군집의 중심으로 지속적으로 움직이면서 군집화를 수행합니다. 하지만 K-평균이 소속된 데이터의 평균 거리 중심으로 중심을 이동시키는 데 반해, 평균 이동은 데이터가 모여있는 밀도가 가장 높은 곳으로 중심을 이동시킵니다. 평균 이동 군집화는 데이터의 분포도를 기반으로 군집의 중심점을 찾습니다. 정확히는, 확률 밀도 함수가 피크(peak)인 지점을 군집의 중심점으로 설정합니다. 일반적으로 주어진 모델의 확률 밀도 함수를 찾기 위해서 KDE(Kernel Density Estimation)를 이용합니다. KDE는 커널(kernel) 함수를 통해 어떤 변수의 확률 밀도 함수를 추정하는 대표적인 방법입니다. 관측된 데이터 각각에 커널 함수를 적용한 값을 모..

앞의 붓꽃 데이터 세트의 경우 결괏값에 품종을 뜻하는 타깃 레이블이 있었고, 군집화 결과를 이 레이블과 비교하여 군집화가 얼마나 잘 수행됐는지를 평가할 수 있었습니다. 하지만 대부분의 군집화 데이터 세트는 이렇게 비교할만한 타깃 레이블을 가지고 있지 않습니다. 군집화는 분류(Classification)과 유사해 보일 수 있으나 많이 다릅니다. 데이터 내에 숨어 있는 별도의 그룹을 찾아서 의미를 부여하거나, 같은 분류값이라도 그 안에서 더 세분화된 군집화를 진행할 수 있습니다. 또한. 서로 다른 분류 값의 데이터도 더 넓은 군집화 레벨화 등의 영역을 가집니다. 그렇다면 군집화가 잘 됐는지 평가할 수 있는 지표는 무엇이 있을까요? 비지도학습의 특성상 어떠한 지표라도 정확한 성능을 평가하긴 어렵습니다. 그럼에..