쉽게 따라 만드는 파이썬 주식 자동매매 시스템: 5.3.1 데이터 크롤링

그럼 이 과정을 코드로 나타내면 다음과 같습니다.

make_up_universe.py

(...)
res = requests.get(BASE_URL + str(CODES[0]))
page_soup = BeautifulSoup(res.text, 'lxml')
print(page_soup)

total_page_num = page_soup.select_one('td.pgRR > a') ------ ‘맨뒤’에 해당하는 태그를 기준으로 전체 페이지 수 추출
print(total_page_num)
total_page_num = int(total_page_num.get('href').split('=')[-1])
print(total_page_num)

추가된 다음 코드는 HTML 정보가 담긴 page_soup에서 클래스가 pgRR인 <td> 태그 밑 <a> 태그를 하나만 선택(select_one)하겠다는 의미입니다. total_page_num 변수에는 해당 <a> 태그의 정보가 저장되어 있습니다.

total_page_num = page_soup.select_one('td.pgRR > a') ------ ‘맨뒤’에 해당하는 태그를 기준으로 전체 페이지 수 추출

따라서 첫 번째 출력 결과를 보면 다음과 같이 <a> 태그 정보가 나옵니다. 그럼 이 <a> 태그 정보가 담긴 total_page_num 변수에서 href 값에 포함된 page 값을 추출해야 합니다. 이 과정은 다음 코드를 이용합니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.