더북(TheBook)

4.4.2 페이지랭크 알고리즘 구현하기

페이지랭크 알고리즘에서 가장 중요한 부분은 각 검색 결과, 또는 검색된 페이지의 중요도를 계산하는 최적의 방법을 찾는 것입니다. 특정한 페이지의 중요도를 0~1 사이의 숫자로 계산하기 위해 페이지랭크 알고리즘은 다음과 같은 두 가지 정보 컴포넌트를 활용합니다.

사용자가 입력한 검색어와 관련한 정보: 이 컴포넌트는 사용자가 입력한 검색어의 맥락과 검색된 페이지의 내용이 얼마나 서로 밀접하게 연관되어 있는지 추정합니다. 페이지의 내용은 페이지의 저자(author)라는 요소에 직접적인 영향을 받습니다.

사용자가 입력한 검색어와는 상관없는 정보: 이 컴포넌트는 페이지가 가진 링크, 조회 수, 이웃의 맥락에서 페이지가 가진 중요도를 정량화합니다. 웹 페이지들은 다양한 환경과 성격을 가지며 인터넷 전체를 아우르는 평가 기준을 확립하기 어렵기 때문에, 이 컴포넌트는 계산하기가 쉽지 않습니다.

파이썬에서 페이지랭크 알고리즘을 구현하려면 먼저 다음과 같은 라이브러리들을 불러와야 합니다.

[in :]

import numpy as np
import networkx as nx
import matplotlib.pyplot as plt
%matplotlib inline
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.