의사결정나무(Decision Tree)는 결정을 일련의 분기(이진 또는 다중 분기)로 모델링하는 머신러닝 알고리즘입니다.
내부 노드는 조건을, 가지(branch)는 그 조건의 결과를, 잎(leaf) 노드는 최종 예측 또는 분류 결과를 나타냅니다.
주요 특징:
• 트리 구조(Tree Structure)
- 노드(Node): 조건
- 가지(Branch): 조건의 결과
- 잎(Leaf): 최종 결정 또는 예측 값
• 해석 가능한 로직(Interpretable Logic)
- 시각화와 설명이 쉬운 화이트박스 모델로 분류됩니다.
• 데이터 유형 유연성(Data Type Flexibility)
수치형, 범주형 데이터를 모두 처리할 수 있습니다.
• 비선형 모델링(Non-Linear Modeling)
- 재귀적 분할을 통해 복잡한 패턴을 학습할 수 있습니다.
• 탐욕적 생성(Greedy Construction)
- ID3, CART, C4.5 등의 알고리즘을 사용해 불순도(impurity)를 최소화하는 방향으로 위에서 아래로 트리를 구성합니다.
활용 사례:
• 신용 평가(Credit Scoring): 금융 정보를 기반으로 대출 적격 여부 예측
• 의료 진단(Medical Diagnosis): 증상을 분류해 질병을 예측
• 이탈 예측(Churn Prediction): 고객 이탈 위험도 평가
• 사기 탐지(Fraud Detection): 이상 거래 탐지
• 특징 선택(Feature Selection): 분할 기준을 통해 중요한 입력 변수 파악
중요성
의사결정나무는 직관적이고 해석하기 쉬운 모델입니다.
다만 과적합(overfitting) 경향이 있어 단독으로 사용할 경우 일반화 성능이 제한될 수 있습니다.
그럼에도 불구하고, 의사결정나무는 랜덤 포레스트(Random Forest), 그래디언트 부스팅 트리(Gradient Boosted Trees) 같은 앙상블 모델의 기본 구성 요소로 활용되며, 실제 머신러닝 파이프라인에서 중요한 역할을 하고 있습니다.