
대표적인 차원 축소 알고리즘인 PCA, LDA, SVD, NMF에 대해서 알아봅시다. 차원 축소는, 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것입니다. 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지므로 데이터들이 공간 상에 희소(sparse)하게 존재하게 됩니다. 수백 개 이상의 피처로 구성된 데이터의 경우 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어집니다. 또한 피처가 많으면 개별 피처간에 상관관계가 높을 가능성이 큽니다. 선형 회귀와 같은 선형 모델에서는 입력 변수 간의 상관관계가 높을 경우 다중 공서넝 문제가 발생하여 모델의 예측 성능이 저하됩니다. 데이터의 차원을 축소하면 더 직관적으로 데이터를 해석할 수..

캐글에서 제공하는 House Prices : Advanced Regression Techniques 데이터 세트를 이용해 회귀 분석을 더 심층적으로 알아봅시다. 79개의 변수로 구성된 이 데이터는 미국 아이오와 주의 에임스(Ames) 지방의 주택 가격 정보를 가지고 있습니다. 자전거 대여 예측 예제와 동일하게 RMSLE 값이 평가 지표로 제시되었습니다. 가격이 비싼 주택일수록 예측 결과 오류가 전체 오류에 미치는 비중이 높으므로 이것을 상쇄하기 위해 오류값을 로그로 변환한 RMSLE를 사용하는 것입니다. 본 실습에서는 많은 데이터 가공을 수행할 것이므로, 원본 DataFrame을 따로 보관해놓겠습니다. 타겟값은 맨 마지막 칼럼인 SalePrice입니다. 데이터 세트의 크기와 피처의 타입, Null이 있는..

캐글의 자전거 대여 수요(Bike Sharing Demand) 예측 경연에서 사용된 데이터를 이용해 선형 회귀와 트리 기반 회귀를 비교해봅시다. 해당 데이터는 2011년 1월 ~ 2012년 12월까지 날짜/시간, 기온, 습도, 풍속 등의 정보를 기반으로 1시간 간격 동안의 자전거 대여 횟수가 기재돼 있습니다. 데이터 세트의 주요 피처는 다음과 같습니다. 이 중 타겟값은 맨 마지막 피처인 count로 '대여 횟수'를 의미합니다. Columns 명 데이터 내용 Datetime 시간 (YYYY-MM-DD 00:00:00) Season 봄(1) 여름(2) 가을(3) 겨울(4) Holiday 공휴일(1) 그외(0) Workingday 근무일(1) 그외(0) Weather 아주깨끗한날씨(1) 약간의 안개와 구름(2..