더북(TheBook)

3.2 비지도 학습

비지도 학습은 지도 학습처럼 레이블이 필요하지 않으며 정답이 없는 상태에서 훈련시키는 방식입니다. 비지도 학습에는 군집(clustering)과 차원 축소(dimensionality reduction)가 있습니다. 군집은 각 데이터의 유사성(거리)을 측정한 후 유사성이 높은(거리가 짧은) 데이터끼리 집단으로 분류하는 것입니다. 차원 축소는 차원을 나타내는 특성을 줄여서 데이터를 줄이는 방식입니다.

군집과 차원 축소 차이는 다음 표와 같습니다.

▼ 표 3-9 비지도 학습 군집과 차원 축소 비교

구분

군집

차원 축소

목표

데이터 그룹화

데이터 간소화

주요 알고리즘

K-평균 군집화(K-Means)

주성분 분석(PCA)

예시

사용자의 관심사에 따라

그룹화하여 마케팅에 활용

• 데이터 압축

• 중요한 속성 도출

Note ≡ | 군집, 군집화, 클러스터

통계학에서는 군집이라고 하며, 머신 러닝에서는 클러스터라고 합니다. 또한, 클러스터를 한국어로 바꾸면 군집화가 됩니다. 즉, 군집, 군집화, 클러스터는 같은 의미의 다른 표현입니다. 이 책에서는 군집, 군집화, 클러스터 용어를 혼용하여 사용하지만, 모두 동일한 의미로 이해하면 됩니다.

Note ≡ | 데이터 간 유사도(거리) 측정 방법

데이터 간 유사도(거리)를 측정하는 방법으로 유클리드 거리, 맨해튼 거리, 민코프스키 거리, 코사인 유사도 등이 있습니다.

각각에 대한 설명은 인공지능 수학 관련 도서를 참고하기 바랍니다.

그럼 비지도 학습의 알고리즘을 하나씩 살펴보겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.