티스토리 뷰
사이킷런은 API 일관성이 매우 뛰어난 패키지입니다. 모델 학습을 위해 fit(), 예측을 위해 predict() 메서드를 제공합니다. 지도학습의 대표적인 두 축인 분류와 회귀의 다양한 알고리즘을 구현한 모든 사이킷런 클래스는 두 메서드만 가지고 학습 및 예측을 수행합니다.
분류 알고리즘을 구현한 클래스는 Classifier, 회귀 알고리즘을 구현한 클래스는 Regressor로 지칭합니다. 두 클래스를 합쳐서 Estimator 클래스라고 합니다. cross_val_score()와 같은 evaluation 함수 및 GridSearchCV와 같은 하이퍼 파라미터 튜닝 클래스의 경우 Estimator를 인자로 받아 API 내부에서 fit()과 predict()를 호출하여 평가 및 튜닝을 진행합니다.
비지도 학습인 차원축소, 클러스터링, 피처 추출 등을 구현한 클래스 fit(), transform() 메서드가 있습니다. fit()은 입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 작업을 수행합니다. 그 후 실제 변환은 transform()으로 수행됩니다.
일반적으로 머신러닝 모델을 구축하는 주요 프로세스는 피처 전처리(가공, 변경, 추출) -> ML 알고리즘 학습/예측 수행 -> 모델 평가를 반복적으로 수행하는 것입니다.
사이킷런은 기본적으로 분류 및 회귀를 위한 몇 개의 데이터 세트를 제공합니다. 이는 일반적으로 딕셔너리 형태입니다.
key는 보통 data, target, target_name, feature_names, DESCR 입니다.

data, target은 넘파이 배열 타입이며, target_names, feature_names는 넘파이 배열 또는 파이썬 리스트입니다.

데이터 세트는 Bunch 타입이며, 이는 딕셔너리와 유사한 자료구조입니다.

데이터 세트의 key에는 어떤 것들이 있는지를 keys() 메서드를 호출하여 알아볼 수 있습니다. 각 데이터는 데이터세트.key 또는 데이터세트['key']로 받아오면 됩니다.
'파이썬 머신러닝 완벽 가이드' 카테고리의 다른 글
| 파이썬 머신러닝 완벽 가이드 : 데이터 전처리 (0) | 2023.04.29 |
|---|---|
| 파이썬 머신러닝 완벽 가이드 : 사이킷런 Model Selection 모듈 (0) | 2023.04.28 |
| 파이썬 머신러닝 완벽 가이드 : 사이킷런 - 붓꽃 품종 예측하기 (0) | 2023.04.28 |
| 파이썬 머신러닝 완벽 가이드 : Pandas (3) (0) | 2023.04.28 |
| 파이썬 머신러닝 완벽 가이드 : Pandas (2) (0) | 2023.04.06 |
