더북(TheBook)

크롤링을 이용하는 방법도 이와 비슷합니다. 그림으로 이 과정의 흐름을 정리해 보겠습니다.

➊ 전체 페이지 수를 알아냅니다.

➋ 각 페이지에서 제공하는 데이터를 가져와 데이터프레임 형태로 만듭니다(페이지 수만큼 데이터프레임 생성).

➌ 각 페이지마다 생성된 데이터프레임을 모두 합쳐 하나의 데이터프레임으로 만듭니다.

▲ 그림 5-25 모든 웹 페이지의 데이터를 수집하는 과정

손으로 데이터를 수집할 때와 마찬가지로 크롤링을 이용할 때도 첫 페이지부터 마지막 페이지까지 모든 페이지에 있는 데이터를 DataFrame으로 변형한 후 하나로 합치는 작업을 수행합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.