쉽게 따라 만드는 파이썬 주식 자동매매 시스템: 5.3.1 데이터 크롤링

밑에서 세 번째 줄에 있는 res = requests.get 부분부터 살펴보겠습니다. requests.get(페이지 주소)를 호출하면 파이썬 코드로 인터넷 웹 브라우저에 나타나는 페이지 정보를 얻어 올 수 있습니다. 이 함수로 전달되는 매개변수가 페이지 주소가 되는데, 현재는 BASE_URL과 CODES[0]을 문자로 바꾼 str(CODES[0])을 합쳐 전달하고 있습니다. 그림 5-23에 나오는 페이지 주소가 https://finance.naver.com/sise/sise_market_sum.nhn?sosok=0이기 때문입니다.

상수 BASE_URL에는 https://finance.naver.com/sise/sise_market_sum.nhn?sosok=가 저장되어 있고 맨 마지막 sosok 다음에 전달되는 값(0:코스피, 1:코스닥)에 따라 코스피 종목과 코스닥 종목을 구분해서 보여 줍니다. 따라서 requests.get 함수에 전달하는 페이지 주소를 BASE_URL + str(CODES[0])처럼 구성하면 코스피 종목들만 나타나는 웹 페이지에 접속합니다.

URL을 이렇게 구성하고 requests.get 함수로 전달하면 URL에 해당하는 웹 페이지 정보를 받아 와 res에 저장하고 bs4를 이용하여 웹 페이지에 보이는 글자들을 가져올 수 있습니다. 이 결과를 print(page_soup) 코드를 통해 출력해 볼 수 있습니다.

그림 5-26은 앞 코드를 실행한 결과입니다.

▲ 그림 5-26 시가총액 페이지의 HTML을 가져온 모습

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.