더북(TheBook)

유사도 검색에 대해 좀 더 자세히 살펴볼까요? 먼저 각 단어나 문서를 수치화된 숫자인 벡터로 변환합니다. 예를 들어 ‘사과’라는 단어는 [1, 0]이라는 벡터로, ‘수박’이라는 단어는 [1, 1]이라는 벡터로 표현할 수 있습니다. 여기서 첫 번째 숫자는 ‘과일’과 관련된 정도를, 두 번째 숫자는 ‘단맛’과 관련된 정도를 나타냅니다. 그런 다음, 이 벡터들 사이의 거리나 각도를 계산하여 두 단어가 얼마나 유사한지 측정합니다(벡터는 좌표에 표현할 수 있기 때문에 각도 계산이 가능합니다). 벡터가 가리키는 방향이 비슷하거나 거리가 가까울수록 두 단어가 유사하다는 의미입니다.

▲ 그림 3-6 벡터의 유사도

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.