벡터의 거리/유사도
벡터의 거리(distance)는 두 벡터 간 거리를 의미합니다. 예를 들어 개체 간(등산화와 썬크림)에 비슷한 정도를 나타낼 때는 벡터의 거리를 사용합니다. 그렇다면 거리는 왜 중요할까요? 거리는 일종의 유사도(similarity) 개념이기 때문입니다. 거리가 가까울수록 그 특성(feature)들이 비슷하다는 의미이기 때문에, 인공지능의 K-최근접 이웃 같은 알고리즘에서도 널리 사용합니다.
즉, 거리는 두 데이터가 얼마나 같은지를 나타내는 척도입니다. 거리를 어떻게 측정하느냐에 따라 데이터의 유사도 정도가 달라질 수 있기 때문에 유사도 측정이 매우 중요합니다. 유사도를 측정하는 기법은 다음과 같이 다양하기 때문에 상황에 맞는 적절한 기법을 선택하는 것이 중요합니다.
그림 10-48 | 벡터 거리(유사도) 측정 기법
잠 깐 만 요
유클리드 거리, 맨해튼 거리, 코사인 거리는 인공지능에서 어떻게 활용할까요?
유클리드 거리, 맨해튼 거리, 코사인 거리는 추천 시스템 및 문서의 유사도를 구하는 데 사용합니다.
추천 시스템은 아이템이나 사용자 간 유사성 개념을 기반으로 동작합니다. 예를 들어 등산화를 구매한 고객에게 등산 장비를 추천하려고 물건(품) 사이의 유사성을 측정할 때 사용합니다.
또 자연어 처리 분야에서 사용하는 문서 간 유사도는 검색 엔진이나 클러스터링 모델에서 많이 사용합니다. 즉, 유사 단어 검색을 지원하거나 데이터 분류에서 문서의 유사도를 측정하는 데 사용합니다.