[25.08.14.9AM 웨비나] 시티은행 AI 총괄이 말하는 AI로 금융산업을 이끄는 방법

Overfitting

Overfitting

과적합(Overfitting)은 머신러닝에서 흔히 발생하는 문제로, 모델이 학습 데이터의 패턴뿐만 아니라 노이즈나 이상치까지 지나치게 학습해버리는 현상입니다. 그 결과, 훈련 데이터에서는 높은 성능을 보이지만, 실제 새로운 데이터(검증용 또는 테스트 데이터)에서는 예측력이 떨어지게 됩니다.

 
주요 특징:

 

낮은 편향, 높은 분산 (Low Bias, High Variance)
훈련 데이터의 미세한 패턴과 노이즈까지 학습하여, 새로운 데이터에 대해서는 예측이 불안정하게 변동합니다.

• 일반화 성능 저하 (Poor Generalization)
훈련 데이터에만 특화되어, 실제 환경이나 테스트 데이터에서 성능이 급격히 낮아집니다.

• 복잡한 모델일수록 취약 (Complex Models More Prone)
딥러닝, 결정 트리(Decision Tree), 고차 다항 회귀 모델 등은 정규화(regularization)가 없다면 과적합 위험이 큽니다.

• 과적합의 징후 (Signs)
– 훈련 정확도는 매우 높은 반면, 검증 정확도는 낮음
– 훈련 손실은 계속 줄어드는데, 검증 손실은 정체되거나 오히려 증가함

• 탐지 및 방지 (Detection & Prevention)
교차 검증(cross-validation), 정규화(L1/L2), 드롭아웃(dropout), 얼리 스토핑(early stopping) 등 다양한 기법이 활용됩니다.

 

적용 사례 및 과적합이 문제가 되는 영역: 

 

• 예측 모델링 (Predictive Modeling)
과적합된 모델은 매출 예측, 이상 탐지(예: 사기 감지), 의료 진단 등의 실제 응용에서 잘못된 결과를 낼 수 있습니다.

• 대형 언어 모델(LLM) 및 자연어 처리(NLP)
훈련 데이터를 그대로 외워버려, 맥락에 맞지 않는 언어를 생성할 수 있습니다.

• 컴퓨터 비전 (Computer Vision)
배경 질감 같은 무의미한 특징에 의존하여, 실제 객체 인식을 실패할 수 있습니다.

• 시계열 예측 (Time-Series Forecasting)
과거 데이터에는 잘 맞지만, 급변하는 환경이나 노이즈가 많은 현실 데이터에는 취약합니다.

 
중요성

 

과적합된 모델은 겉보기에는 정확해 보일 수 있지만, 실제로는 신뢰할 수 없는 예측을 수행합니다. 따라서 과적합을 조기에 탐지하고 효과적으로 대응하는 것은, 실무에서 안정적이고 신뢰도 높은 AI 시스템을 구축하는 데 필수적인 과정입니다.