머신 러닝 교과서: 파이토치 편: 5.3.2 t-SNE를 사용한 데이터 시각화

여기에서 보듯이 t-SNE는 완벽하지는 않지만 서로 다른 숫자(클래스)를 잘 분리할 수 있습니다. 하이퍼파라미터를 조정하면 더 분리를 잘할 수 있습니다. 하지만 읽기 어려운 손글씨로 인해 어느 정도의 클래스 혼합은 피할 수 없을 수도 있습니다. 예를 들어 개별 이미지를 조사하면 숫자 3의 샘플이 실제로 숫자 9처럼 보이는 등 문제가 있습니다.

Note ≡ UMAP

또 다른 인기 있는 시각화 기법은 UMAP(Uniform Manifold Approximation and Projection)입니다. UMAP는 t-SNE와 비슷하게 좋은 결과를 만들 수 있지만(예를 들어 앞서 언급한 Kobak 및 Linderman 논문 참고), 일반적으로 더 빠르며 PCA와 비슷하게 새로운 데이터를 투영하는 데도 사용할 수 있으므로 머신 러닝 맥락으로 보면 차원 축소 기법으로 더 매력적입니다. 관심 있는 독자는 원본 논문¹⁶에서 UMAP에 대한 자세한 정보를 확인할 수 있습니다. 사이킷런과 호환되는 UMAP의 구현은 https://umap-learn.readthedocs.io에서 확인할 수 있습니다.

추천 도서와 신규 콘텐츠를 먼저 받아보세요