
분류를 수행하는 다양한 머신러닝 알고리즘이 있습니다(나이브 베이즈, 로지스틱 회귀, 결정 트리, 서포트 벡터 머신, 최소 근접 알고리즘, 신경망, 앙상블 등). 앙상블은 가장 각광을 받는 방법 중 하나입니다. 앙상블은 서로 같거나 다른 알고리즘을 결합하는 것입니다. 이미지, 영상, 음성, NLP 영역에서는 신경망에 기반한 딥러닝이 주류를 이루지만, 정형 데이터 분야에선 앙상블이 매우 높은 예측 성능을 보입니다. 앙상블은 일반적으로 배깅(Bagging)과 부스팅(Boosting) 방식으로 나뉩니다. 대표적인 배깅 알고리즘인 랜덤 포레스트는 준수한 예측 성능과 상대적으로 빠른 수행 시간, 유연성을 갖추어 많은 데이터 분석가들이 애용하는 알고리즘입니다. 하지만 최신 앙상블은 부스팅 방식을 주류로 발전되고 있습..

피마 인디언 당뇨병 데이터 세트를 이용해 당뇨병 여부를 판단하는 분류 모델을 학습시킨 뒤 지금까지 공부한 분류의 평가 지표들로 모델을 평가해봅시다. 피마 인디언 당뇨병 데이터 세트는 북아메리카 피마 지역의 원주민 Type-2 당뇨병 데이터 결과입니다. 데이터 세트는 아래의 피처로 구성돼 있습니다. Pregnancies(임신 횟수), Glucose(포도당 부하 검사 수치), BloddPressure(혈압), SkinThickness(삼두근 뒤 피하지방량), Insulin(혈청 인슐린), BMI(체질량지수), DiabetesPedigreeFunction(당뇨 내력 가중치), Age(나이), Outcome(당뇨 여부, 0/1). 전체 데이터 중 Negative(0)이 500개로 Positive(1)보다 상대적..

머신러닝 모델은 여러 가지 지표로 예측 성능을 평가할 수 있습니다. 성능 평가 지표(Evaluation Metric)은 일반적으로 분류 모델이냐 회귀 모델이냐에 따라 달라집니다. 회귀의 경우 대부분 실제값과 예측값의 오차 평균값에 기반합니다. 회귀의 평가 지표는 복잡하지 않으므로 추후에 알아보겠습니다. 분류 모델의 평가 방법도 일반적으로 정답 레이블과 예측 레이블이 얼마나 정확하고 오류가 적은지에 기반하지만, 단순히 이러한 정확도만 가지고 판단하면 잘못된 평가를 초래할 수 있습니다. 이제부터 분류 모델을 위한 성능 평가 지표를 알아보되, 이진 분류에 포커스를 맞추겠습니다. 이진 분류 모델을 평가할 때는 정확도보다 더 중요시 되는 평가 지표들이 존재합니다. 분류의 평가 지표로는 정확도(Accuracy), ..