유사도 계산
유사도를 계산하는 방법인 코사인 유사도와 유클리드 유사도(또는 유클리드 거리)를 좀 더 자세히 알아보겠습니다.
코사인 유사도
코사인 유사도는 두 벡터 간의 각도를 계산하여 그 유사성을 측정하는 방법인데, 개념이 어려우니 예시를 통해 다시 한번 알아보겠습니다. 진희와 은영이, 두 친구의 취미가 얼마나 비슷한지 코사인 유사도로 알아볼까요?
진희와 은영이의 취미가 얼마나 유사한지 알아보기 위해 ‘독서’와 ‘등산’이라는 두 취미를 점수로 매겨봅니다.
• 진희는 독서를 좋아해서 80점, 등산은 조금 좋아해서 50점을 줬습니다.
• 은영이는 독서도 좋아하고 등산도 꽤 좋아해서, 둘 다 60점을 줬습니다.
이제 독서와 등산을 각각의 축으로 하는 그래프에 표시합니다. 진희의 취미에 대해 독서 방향으로 80만큼, 등산 방향으로 50만큼 그립니다. 마찬가지로 은영이의 취미도 화살표로 그리면, 다음과 같은 그래프가 완성됩니다.