3.2 비지도 학습
비지도 학습은 지도 학습처럼 레이블이 필요하지 않으며 정답이 없는 상태에서 훈련시키는 방식입니다. 비지도 학습에는 군집(clustering)과 차원 축소(dimensionality reduction)가 있습니다. 군집은 각 데이터의 유사성(거리)을 측정한 후 유사성이 높은(거리가 짧은) 데이터끼리 집단으로 분류하는 것입니다. 차원 축소는 차원을 나타내는 특성을 줄여서 데이터를 줄이는 방식입니다.
군집과 차원 축소 차이는 다음 표와 같습니다.
▼ 표 3-9 비지도 학습 군집과 차원 축소 비교
구분 |
군집 |
차원 축소 |
목표 |
데이터 그룹화 |
데이터 간소화 |
주요 알고리즘 |
K-평균 군집화(K-Means) |
주성분 분석(PCA) |
예시 |
사용자의 관심사에 따라 그룹화하여 마케팅에 활용 |
• 데이터 압축 • 중요한 속성 도출 |
Note ≡ | 군집, 군집화, 클러스터
통계학에서는 군집이라고 하며, 머신 러닝에서는 클러스터라고 합니다. 또한, 클러스터를 한국어로 바꾸면 군집화가 됩니다. 즉, 군집, 군집화, 클러스터는 같은 의미의 다른 표현입니다. 이 책에서는 군집, 군집화, 클러스터 용어를 혼용하여 사용하지만, 모두 동일한 의미로 이해하면 됩니다.
Note ≡ | 데이터 간 유사도(거리) 측정 방법
데이터 간 유사도(거리)를 측정하는 방법으로 유클리드 거리, 맨해튼 거리, 민코프스키 거리, 코사인 유사도 등이 있습니다.
각각에 대한 설명은 인공지능 수학 관련 도서를 참고하기 바랍니다.
그럼 비지도 학습의 알고리즘을 하나씩 살펴보겠습니다.