더북(TheBook)

웹 사용 로그 마이닝

사용자가 어느 페이지를 보고 있는지 알아내고, 관심을 가질 만한 페이지를 추천하는 작업은 이제 흔하다. 이런 종류의 데이터 분석은 사용자가 어느 페이지를 보는지 알아내는 메커니즘이 필요하다. 세션, 쿠키, 이전 로그인 정보를 사용하여 사용자의 움직임을 확인할 수 있다.

웹사이트 로그 파일에 접근할 수 있다면 정보를 분석할 수 있는 기회가 있다. 많은 회사가 구글 애널리틱스(google analytics)처럼 제공되는 서비스로 마이닝 로그를 저장하지만, 여러분 자신만의 분석을 사용하는 것이 더 가치가 있다.

예를 들어 기본적인 로그 파일은 기본적인 연관 규칙 학습을 실행할 수 있는 정보를 담고 있다. 아파치 CLF(Apache Common Log Format)를 보면 접속한 IP 주소와 접속하려던 파일을 알 수 있다.


86.78.88.189 - thisuserid [10/May/2014:13:55:59 -0700] "GET / myinterestingarticle.html HTTP/1.0" 200 2326

 

연관 규칙 학습으로 URL과 IP 주소를 뽑아내어 사용자가 관심을 가질 만한 관련 콘텐츠를 제안할 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.