사이킷런은 API 일관성이 매우 뛰어난 패키지입니다. 모델 학습을 위해 fit(), 예측을 위해 predict() 메서드를 제공합니다. 지도학습의 대표적인 두 축인 분류와 회귀의 다양한 알고리즘을 구현한 모든 사이킷런 클래스는 두 메서드만 가지고 학습 및 예측을 수행합니다. 분류 알고리즘을 구현한 클래스는 Classifier, 회귀 알고리즘을 구현한 클래스는 Regressor로 지칭합니다. 두 클래스를 합쳐서 Estimator 클래스라고 합니다. cross_val_score()와 같은 evaluation 함수 및 GridSearchCV와 같은 하이퍼 파라미터 튜닝 클래스의 경우 Estimator를 인자로 받아 API 내부에서 fit()과 predict()를 호출하여 평가 및 튜닝을 진행합니다. 비지도 학..
사이킷런(scikit-learn)은 파이썬 머신러닝 라이브러리입니다. 사이킷런을 이용하여 붓꽃의 품종을 분류(classification)하는 머신러닝 모델을 만들어봅시다. 붓꽃 데이터 세트는 꽃잎의 길이, 너비, 꽃받침의 길이, 너비 등의 피처를 갖습니다. 사이킷런 패키지 모듈명은 sklearn으로 시작합니다. 예를들어, sklearn.datasets 내의 모듈은 사이킷런에서 자체적으로 제공하는 데이터 세트 생성 모듈의 집합입니다. sklearn.tree 내의 모듈은 트리 기반 머신러닝 알고리즘을 구현한 클래스의 집합입니다. sklearn.model_selection은 학습/검증/예측 데이터로 데이터를 나누거나 최적 하이퍼 파라미터로 평가하기 위한 다양한 모듈의 집합입니다. 붓꽃 데이터 세트, 분류 알고..
판다스의 정렬, Aggregation 함수, GroupBy 메서드에 대해 알아봅시다. DataFrame, Series를 정렬하기 위해 sort_values() 메서드를 이용합니다. 핵심 파라미터로는 by, ascending, inplace가 있으며, by를 통해 정렬의 기준이 되는 칼럼을 지정합니다.ascending은 디폴트로 True(오름차순)입니다. DataFrame에서 min(), max(), sum(), count()와 같은 aggregation 메서드를 적용할 수 있습니다. DataFrame에서 이러한 메서드를 바로 호출할 경우 모든 칼럼에 대해 해당 연산을 수행합니다. 특히 count() 연산은 Null인 데이터를 연산에 포함시키지 않습니다. 특정 칼럼에만 연산을 적용시키기 위해서는 DataF..