티스토리 뷰

사이킷런은 API 일관성이 매우 뛰어난 패키지입니다. 모델 학습을 위해 fit(), 예측을 위해 predict() 메서드를 제공합니다. 지도학습의 대표적인 두 축인 분류와 회귀의 다양한 알고리즘을 구현한 모든 사이킷런 클래스는 두 메서드만 가지고 학습 및 예측을 수행합니다.

 

 

 

분류 알고리즘을 구현한 클래스는 Classifier, 회귀 알고리즘을 구현한 클래스는 Regressor로 지칭합니다. 두 클래스를 합쳐서 Estimator 클래스라고 합니다. cross_val_score()와 같은 evaluation 함수 및 GridSearchCV와 같은 하이퍼 파라미터 튜닝 클래스의 경우 Estimator를 인자로 받아 API 내부에서 fit()과 predict()를 호출하여 평가 및 튜닝을 진행합니다.

 

 

 

비지도 학습인 차원축소, 클러스터링, 피처 추출 등을 구현한 클래스 fit(), transform() 메서드가 있습니다. fit()은 입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 작업을 수행합니다. 그 후 실제 변환은 transform()으로 수행됩니다.

 

 

 

일반적으로 머신러닝 모델을 구축하는 주요 프로세스는 피처 전처리(가공, 변경, 추출) -> ML 알고리즘 학습/예측 수행 -> 모델 평가를 반복적으로 수행하는 것입니다.

 

 

 

사이킷런은 기본적으로 분류 및 회귀를 위한 몇 개의 데이터 세트를 제공합니다. 이는 일반적으로 딕셔너리 형태입니다.

key는 보통 data, target, target_name, feature_names, DESCR 입니다.

 

 

 

 

 

 

data, target은 넘파이 배열 타입이며, target_names, feature_names는 넘파이 배열 또는 파이썬 리스트입니다. 

 

 

 

 

 

 

 

데이터 세트는 Bunch 타입이며, 이는 딕셔너리와 유사한 자료구조입니다.

 

 

 

 

 

 

 

데이터 세트의 key에는 어떤 것들이 있는지를 keys() 메서드를 호출하여 알아볼 수 있습니다. 각 데이터는 데이터세트.key 또는 데이터세트['key']로 받아오면 됩니다.

 

 

 

«   2025/11   »
1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30