더북(TheBook)

6.2 클러스터링 알고리즘 이해하기

비지도 학습에서 가장 간단하면서도 강력한 기법은 비슷한 패턴끼리 묶는 클러스터링 알고리즘입니다. 이는 우리가 풀려는 문제와 관련한 데이터의 특정 부분을 이해하는 데 사용합니다. 클러스터링 알고리즘은 주어진 데이터 안에서 자연스러운 묶음(그룹)을 탐색합니다. 특정한 목적이나 가정을 이용해 묶는 것이 아니기 때문에 비지도 학습 기법으로 분류됩니다.

클러스터링 알고리즘은 문제 공간에서 여러 데이터 포인트들이 형성하는 유사도를 활용해 그루핑(grouping)합니다. 그렇다면 유사도는 어떻게 계산할까요? 데이터 포인트 간 유사도를 계산하는 최적의 방식은 문제마다 다릅니다. 우리가 해결하려는 문제의 성격에 적합한 유사도 계산 방식을 선택해야 합니다. 이번 절에서 유사도를 계산하는 여러 방법을 알아봅시다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.