더북(TheBook)

5 유사도 분석하기

 

문의 내용을 보면 비슷한 주제는 비슷한 위치에 놓인다. 따라서 벡터화된 텍스트의 거리를 측정하면 어떤 텍스트가 가까운 위치에 있는지를 계산할 수 있다.

이 책에서는 첫 행의 ‘아빠 육아 휴직 장려금’과 비슷한 데이터를 정렬해 보겠다. 문의 내용을 확인하고 등장 빈도에 기반해, 코사인 유사도 알고리즘을 적용할 것이다.

코사인 유사도 알고리즘을 잠시 설명하면, 숫자로 변환한 단어 사이의 유사도를 측정하는 거리 척도로는 유클리드 거리(Euclidian distance)와 코사인 유사도(Cosine similarity), 자카드 유사도(Jaccard similarity) 등이 있다. 유클리드 거리와 코사인 유사도를 간략히 살펴보고, 코사인 유사도를 사용해 텍스트 간 거리를 측정하고 정렬해서 특정 텍스트와 거리가 가까운 내용을 알아보자.

먼저 유클리드 거리를 간략히 보자. 관측 쌍 p = p1,p2,p3,p4,p5......,pnq = q1,q2,q3,q4,q5......,qn인 점들 사이의 거리를 계산하는 유클리드 공식은 다음과 같다.

 

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.