더북(TheBook)

크롤링 및 가공에 필요한 패키지들을 import하고 크롤링할 대상이 되는 그림 5-23의 웹 페이지 주소를 BASE_URL에 저장하는 코드입니다.

▲ 그림 5-23 크롤링할 대상 페이지

그럼 본격적으로 크롤링하는 코드를 작성하기 전에 반대로 손으로 일일이 데이터를 수집한다고 상상해 보고 수집 과정을 떠올려 보겠습니다.

그림 5-24에 있는 모든 종목의 데이터를 수집하려면 첫 페이지부터 마지막 페이지까지 하나씩 차례로 클릭하여 정보를 모두 확인해야 합니다.

▲ 그림 5-24 시가총액 탭의 여러 웹 페이지

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.