
부스팅 알고리즘은 여러 개의 약한 학습기를 순차적으로 학습하고 예측하면서 잘못 예측한 데이터에 가중치를 부여해 오류를 개선합니다. 부스팅의 대표적인 구현으로 AdaBoost(Adaptive boosting)과 그라디언트 부스트가 있습니다. 에이다 부스트는 오류 데이터에 가중치를 부여하면서 부스팅을 수행합니다. 에이다 부스트의 동작 방식을 알아봅시다. +와 -로 마킹된 피처 데이터 세트가 있다고 합시다. Step 1에서, 첫 번째 학습기가 분류 기준1로 +와 -를 분류합니다. 동그라미로 표시된 데이터는 잘못 분류한 데이터입니다. Step 2에서 잘못 분류한 데이터에 대해 가중치를 부여합니다. Step 3에서 두 번째 학습기가 분류 기준2로 +와 -를 분류합니다. Step 4에서 두 번째 학습기가 잘못 분류..

앙상블 학습(Ensemble Learning)을 통한 분류는 여러 개의 분류기(Classifier)의 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법입니다. 앙상블 학습의 유형은 크게 보팅(Voting), 배깅(Bagging), 부스팅(Boosting)으로 나뉘며, 이 외에도 스태킹 등의 방법이 있습니다. 보팅은 서로 다른 알고리즘의 분류기를 결합 배깅은 같은 알고리즘의 분류기들이 각자 학습 데이터를 샘플링하여 학습한 뒤 보팅을 수행 대표적인 배깅으로는 랜덤 포레스트 알고리즘이 있습니다 위의 그림의 왼쪽이 보팅을, 오른쪽이 배깅을 도식화한 것입니다. 배깅에서 개별 분류기는 원본 학습 데이터에서 샘플링을 한 데이터로 학습을 합니다. 교차 검증이 데이터 세트 간에 중복을 허용하지 않는 것과 다르게..

결정 트리를 이용해 UCI 머신러닝 레포지토리에서 제공하는 사용자 행동 인식 데이터 세트에 대한 예측 분류를 수행해봅시다. 해당 데이터는 30명에게 스마트폰 센서를 부착시킨 뒤 여러 동작과 관련된 피처를 수집한 데이터입니다. 해당 피처를 바탕으로 어떤 동작인지를 예측해봅시다. features.txt 파일에는 각 피처의 인덱스와 이름이 공백을 기준으로 분리되어 있습니다. 해당 파일을 DataFrame 객체로 만들어봅시다. 피처는 총 561개인 것을 확인할 수 있습니다. 또한 피처 이름을 보면 인체의 움직임과 관련된 속성의 평균/표준편차가 X, Y, Z축에 따라 계산된 결과임을 알 수 있습니다. 주의해야 할 점은, 561개의 피처 중 중복되는 피처 이름이 있다는 사실입니다. 이후 피처 데이터 세트(dataf..