Unsupervised Learning(비지도 학습)이란 정답(label) 없이 데이터의 패턴을 스스로 학습하는 머신러닝 방식입니다. Supervised Learning(지도 학습)과 달리 입력과 출력 쌍에 의존하지 않고, 데이터 내부의 숨겨진 구조나 군집, 관계를 찾아냅니다. 주로 라벨이 없거나 라벨링 비용이 높은 상황에서 활용됩니다.
주요 특징:
• 라벨 없음: 입력 데이터만으로 학습하며, 정답 정보는 주어지지 않음.
• 패턴 발견 중심: 군집, 연관성, 잠재 구조(latent structure)를 파악하는 데 집중함.
• 차원 축소 가능: PCA(주성분 분석) 등의 방법으로 정보를 보존하면서 데이터 복잡도를 줄임.
• 자율적 학습: 사람의 감독 없이 데이터에서 구조를 스스로 탐색함.
• 입력 기반 모델링: 데이터의 분포만을 기반으로 학습이 이루어짐.
활용 사례:
• 고객 세분화(Customer Segmentation): 구매 행동이나 인구통계를 기반으로 유사한 고객 그룹을 도출.
• 이상 탐지(Anomaly Detection): 금융 사기나 시스템 로그에서 비정상적 패턴을 식별.
• 토픽 모델링(Topic Modeling): 대규모 텍스트 데이터에서 주제나 키워드를 자동 추출.
• 추천 시스템(Recommendation Systems): 사용자 선호 분석을 기반으로 콘텐츠 추천.
• 데이터 전처리: 복잡한 데이터의 구조를 단순화해 이후 지도 학습에 활용 가능하게 만듦.
중요성
비지도 학습은 라벨이 없는 방대한 데이터를 이해하고 활용할 수 있게 해줍니다. 데이터 탐색, 자동화, 인사이트 도출을 가능하게 하며, 지도 학습 전 단계에서도 중요한 역할을 수행합니다. 따라서 데이터 기반 AI 개발의 확장성과 실용성을 높이는 핵심 방법론입니다.