더북(TheBook)

클러스터링(clustering)은 가장 일반적인 머신 러닝으로 유용하게 사용된다. 예를 들어 마케팅 회사는 고객을 세분화할 수 있는 방법으로 클러스터링을 좋아한다. 이 장에서는 클러스터링에 대해 자세히 살펴보고, 클러스터링이 어떻게 작동하고 어디에 사용되는지 알아보겠다.

Note 머신 러닝의 클러스터링과 네트워크로 묶인 컴퓨터 클러스터를 혼동하지 마라.

 

 

8.1 클러스터링이란 무엇인가?

 

 

클러스터링을 한마디로 정의하면 ‘유사한 성격을 가진 개체를 묶어 그룹으로 구성하는 것’이다. 클러스터링은 사전에 훈련용 데이터가 없는 비지도 학습이다. 그림 8-1을 보면 확연히 구분되는 세 데이터 그룹이 있는데, 그룹 각각이 클러스터다.

▲ 그림 8-1 클러스터의 그래프 표현

 

클러스터링의 주요 목적은 주어진 데이터에서 구조를 찾는 것이다. 클러스터링은 알고리즘이 많은 만큼 사용할 수 있는 선택 범위가 넓다. 이런 점이 실험하기에 편리하다. 어떤 알고리즘을 선택해야 하는가? 때때로 코드를 모아 실행해보아야 한다. 우리는 이런 작업을 간단히 할 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.