머신 러닝 교과서: 파이토치 편: 3.7 k-최근접 이웃: 게으른 학습 알고리즘

Note ≡ 메모리 기반 방식의 장단점

이런 메모리 기반 방식의 분류기는 수집된 새로운 훈련 데이터에 즉시 적응할 수 있는 것이 주요 장점입니다. 새로운 샘플을 분류하는 계산 복잡도는 단점입니다. 데이터셋의 차원(특성)이 적고 알고리즘이 훈련 데이터를 쿼리하는 데 효율적인 데이터 구조로 구현되어 있지 않다면 최악의 경우 훈련 데이터셋의 샘플 개수에 선형적으로 증가합니다. 이런 데이터 구조에는 사이킷런에서 제공하는 k-d 트리(https://en.wikipedia.org/wiki/K-d_tree)와 볼(ball) 트리(https://en.wikipedia.org/wiki/Ball_tree)가 있습니다.

또한, 데이터 쿼리를 위한 계산 비용 외에도 대용량 데이터셋은 한정된 저장 용량 측면에서 문제가 될 수 있습니다.

하지만 비교적 중소 규모의 데이터셋을 다루는 많은 경우 메모리 기반 방식은 우수한 예측 및 계산 성능을 제공하며 많은 실전 문제를 위한 좋은 선택이 될 수 있습니다. 최근접 이웃 방법을 사용한 최근 예로는 약물 표적(pharmaceutical drug target)의 속성을 예측하는 것(Machine Learning to Identify Flexibility Signatures of Class A GPCR Inhibition, Biomolecules, 2020, Joe Bemister-Buffington, Alex J. Wolf, Sebastian Raschka, and Leslie A. Kuhn, https://www.mdpi.com/2218-273X/10/3/454)과 최첨단 언어 모델(Efficient Nearest Neighbor Language Models, 2021, Junxian He, Graham Neubig, and Taylor Berg-Kirkpatrick, https://arxiv.org/abs/2109.04212)이 있습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.