
로지스틱 회귀는 선형 회귀 방식을 분류에 적용한 알고리즘입니다. 즉, 로지스틱 회귀는 분류 알고리즘입니다. 로지스틱 회귀가 선형 회귀와 다른 점은, 학습을 통해 선형 함수의 회귀 최적선을 찾는 것이 아니라 시그모이드(Sigmoid) 함수 최적선을 찾고, 시그모이드 함수의 반환 값을 확률로 간주하여 분류를 결정한다는 것입니다. 가령, 종양의 크기에 따라 악성 종양인지(1), 그렇지 않은지(0)를 회귀를 통해 1과 0의 값으로 예측한다고 해봅시다. 종양의 크기를 X축에, 악성 종양의 여부를 Y축에 나타낸다고 하면 데이터의 분포는 위와 같을 것입니다. 이를 단순 선형 회귀 모델로 예측한다면, 왼쪽 그림과 같을 것입니다. 하지만 이를 S자 커브 형태를 가지는 시그모이드 함수로 예측한다면 단순 선형 회귀 모델보다..

선형 회귀의 경우 하이퍼 파라미터 최적화 못지않게, 데이터 분포를 정규화하는 것과 인코딩이 하는 방법이 매우 중요합니다. 선형 모델은 일반적으로 피처와 타깃값의 관계가 선형적이라고 가정하고 최적의 선형함수를 찾아내 결괏값을 예측합니다. 또한, 선형 회귀 모델은 피처값과 타깃값의 분포가 정규 분포인 것을 매우 선호합니다. 특히 타깃값이 치우진 왜곡(Skew) 형태의 분포를 가지는 경우 예측 성능에 부정적인 영향을 끼칠 가능성이 높습니다. 피처값 역시 타깃값보다는 덜하지만 왜곡된 분포를 가질 경우 예측 성능에 부정적인 영향을 끼칩니다. 따라서 선형 회귀를 적용하기 전에 먼저 데이터 스케일링/정규화 작업을 수행하는 것이 일반적입니다. 하지만 해당 작업을 수행했다고 해서 무조건 예측 성능이 향상되는 것은 아닙니..

이전 실습에서 차수가 낮은 다항 회귀 모델은 과소적합이, 차수가 높은 다항 회귀 모델의 경우 회귀 계수가 매우 커짐과 동시에 과적합이 발생하는 것을 확인했습니다. 따라서 회귀 모델을 학습 데이터에 적절히 적합시키면서 회귀 계수가 기하급수적으로 커지는 것을 제어해야 합니다. 이전까지 선형 모델의 비용 함수는 RSS를 최소화하는, 즉 실제값과 예측값의 차이를 최소화하는 것만 고려했습니다. 그러다 보니 학습 데이터에 지나치게 맞추게 되고, 회귀 계수가 쉽게 커졌습니다. 이럴 경우 모델의 변동성이 심해지면서 테스트 데이터에 대해 예측 성능이 크게 저하되기 쉽습니다. 그러므로 비용 함수는 RSS를 최소화함과 동시에 과적합을 방지하기 위해 회귀 계수 값이 커지지 않도록 제어해야 합니다. 이를 만족하기 위해 비용 함..