더북(TheBook)

Note ≡


지금까지 배운 크롤링 방법은 Naver Finance 페이지에서 우리에게 필요한 데이터가 포함된 요소의 클래스 정보를 알아내 이를 바탕으로 정보를 추출하는 방식이었습니다. 하지만 여기서 찾아 사용한 요소의 클래스명이 변경되면 그에 따라 코드도 변경되어야 합니다. 예를 들어 현재는 데이터 항목 정보(그림 5-32에서 선택 가능한 정보)를 담은 태그(div)의 클래스명이 subcnt_sise_item_top이기 때문에 다음 코드를 이용하여 크롤링할 수 있었습니다.

ipt_html = page_soup.select_one('div.subcnt_sise_item_top')

그러나 혹시 클래스명이 바뀌어 이 코드들이 동작하지 않을 때는 여기서 배운 것처럼 크롬(Chrome)에서 찾고자 하는 요소 위에서 마우스 오른쪽 버튼을 눌러 클래스명을 새로 알아내야 합니다. 이외에도 select_one 함수에 새로운 클래스명을 전달해야 하는 등 practice_crawling.py 소스를 변경해야 하는 일이 발생할 수도 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.