더북(TheBook)

분산 비율(variance ratio)을 이용해 PCA의 결과를 이해할 수 있습니다.

[in :]

print(pca.explained_variance_ratio_)

[out:]

[0.92461872 0.05306648 0.01710261 0.00521218]

분산 비율은 다음과 같이 해석할 수 있습니다.

PC1으로 네 가지 원본 특성을 대체하면, 원본 특성이 가진 분산의 92.4%를 PC1으로도 보존할 수 있습니다. 원본 분산이 100% 유지되는 것이 아니기 때문에 PC1을 통한 데이터는 원본 데이터의 근삿값이 됩니다.

PC1과 PC2를 이용해 원본 특성을 대체하면, 원본 분산을 5.3%만큼 더 보존할 수 있습니다.

PC1, PC2, PC3를 이용하면 추가로 1.7%의 원본 분산을 보존할 수 있습니다.

PC1, PC2, PC3, PC4를 모두 이용하면 원본 분산을 100% 보존할 수 있습니다(92.4 + 5.3 + 1.7 + 0.5). 그러나 4개의 원본 특성을 4개의 주성분으로 대체하는 것은 아무런 의미가 없습니다. 차원 수는 조금도 줄어들지 않았으니까요.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.