더북(TheBook)

웹 모델의 기반에는 그래프(graph)라고 하는 수학적 모델이 있는데, 그래프에 대해서는 이 책의 뒷부분(4.5절)에서 자세히 살펴볼 것이다. 그때까지 그래프를 처리하는 방법에 대한 설명은 미룬다. 대신 여기에서는 랜덤 서퍼의 행동을 자연스럽고 정확히 설명하는 통계적 모델에 관련된 계산을 위주로 살펴볼 것이다.

랜덤 서퍼 모델을 연구하려면 먼저 이 모델을 정확히 정의해야 한다. 모델의 핵심은 무작위로 이 페이지에서 저 페이지로 이동한다는 것이 무엇을 의미하는지 정의하는 것이다. 직관적으로 떠오르는 90-10 규칙은 새로운 페이지로 이동하는 방법을 모두 설명한다. 이 규칙은 랜덤 서퍼가 현재 페이지에 있는 링크(각 링크를 선택할 확률은 동일하다)를 무작위로 눌러 이동할 확률이 90%, 무작위로 페이지 주소를 입력(웹 전체에서 각 페이지를 선택할 확률은 동일하다)해 직접 이동할 확률이 10%라고 가정한다.

이 모델은 잘못되었다는 생각이 바로 들 것이다. 실제 웹 서퍼의 행동이 그렇게 단순하지 않다는 것을 다음과 같은 경험으로 알고 있기 때문이다.

• 링크나 페이지를 동일 확률로 선택하는 사람은 없다.

• 각 페이지를 입력해 바로 찾아갈 가능성은 별로 없다.

• 90대10(혹은 다른 비율이라도 마찬가지다)으로 이동 방법을 분할할 수 있다는 것은 그저 가정일 뿐이다.

• 이 모델은 [돌아가기] 버튼이나 북마크는 고려하지 않는다.

• 실제로 우리는 웹의 아주 작은 일부분만 돌아다닌다.

이런 결함이 있음에도 불구하고 이 모델은 컴퓨터 과학자들이 연구해 웹의 속성에 대해 아주 많은 것을 알 수 있게 해주기에 충분하다. 이 모델을 알아보기 위해 [그림 1.6.1]에서 간단한 사례를 생각해보자. 랜덤 서퍼가 어느 페이지를 가장 많이 방문할까?

웹을 사용하는 사람들은 랜덤 서퍼와 어느 정도 비슷하게 행동하므로 랜덤 서퍼의 운명을 이해하는 것은 웹 기반구조를 구축하고 웹 애플리케이션을 개발하는 사람들에게 뜨거운 관심사이다. 이 모델은 수십억 웹 사용자의 경험을 이해하는 도구이다. 이번 절에서는 1장에서 배운 기본적인 프로그래밍 도구를 이용해 이 모델과 이 모델이 미치는 영향에 대해 연구해보겠다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.