더북(TheBook)

즉, PCA는 데이터 하나하나에 대한 성분을 분석하는 것이 아니라, 여러 데이터가 모여 하나의 분포를 이룰 때 이 분포의 주성분12을 분석하는 방법입니다.

예를 들어 코드는 간단하게 다음과 같이 구현할 수 있습니다.

pca = decomposition.PCA(n_components=1)
pca_x = pca.fit_transform(x_std)

result = pd.DataFrame(pca_x, columns=['dog'])
result['y-axis'] = 0.0
result['label'] = Y

sns.lmplot('dog', 'y-axis', data=result, fit_reg=False,
           scatter_kws={"s":50}, hue='label');

밀도 기반 군집 분석과 PCA 예제를 묶어서 진행해 보겠습니다. 밀도 기반 군집 분석을 이용하여 클러스터링을 진행하겠지만, 시각화를 위해 PCA를 사용해 보겠습니다. 이번 예제의 목표는 훈련 데이터를 정확하게 클러스터링하는 것입니다.

▲ 그림 3-42 밀도 기반 군집 분석과 PCA 예제

 

 


12 전체 데이터(독립 변수들)의 분산을 가장 잘 설명하는 성분이라고 할 수 있습니다. 예를 들어 전체 독립 변수가 네 개 있는데, 두 개의 변수로도 전체 데이터에 대한 분산을 충분히 설명할 수 있다면 두 개의 변수만 사용하겠다는 의미입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.