11.2.2 가우시안 혼합 모델
가우시안 혼합 모델(Gaussian Mixture Model, GMM)은 이름 그대로 가우시안 분포(gaussian distribution)가 여러 개 혼합된 클러스터링 알고리즘입니다. 현실에 있는 복잡한 형태의 확률 분포를 다음 그림과 같이 가우시안 분포 K개를 혼합하여 표현하자는 것이 가우시안 혼합 분포(gaussian mixture distribution)입니다. 이때 K는 하이퍼파라미터입니다.
▲ 그림 11-10 가우시안 분포와 가우시안 혼합 분포
가우시안 혼합 모델을 이용한 분류는 주어진 데이터 xn에 대해 이 데이터가 어떤 가우시안 분포에 속하는지 찾는 것으로, 다음 수식을 사용합니다.
znk(znk∈{0,1})은 xn이 주어졌을 때 가우시안 혼합 모델의 K번째 가우시안 분포가 선택되면 1을 갖고, 아니면 0 값을 갖습니다. 즉, znk가 1이라는 의미는 xn이 K번째 가우시안 분포에 속한다는 것입니다. 다시 말해 가우시안 혼합 모델을 이용한 분류는 xn이 주어졌을 때, K개의 γ(znk)를 계산하여 가장 높은 값의 가우시안 분포를 선택하는 것이라고 할 수 있습니다.