더북(TheBook)

BeautifulSoup 모듈은 HTML과 XML 문서를 파싱하고 읽고 변형하는 데 사용한다. 마크업 문자열, 마크업 파일, 웹에 있는 마크업 문서에 연결된 URL에서 BeautifulSoup 객체를 생성할 수 있다. BeautifulSoup4를 설치하지 않았다면 conda install BeautifulSoup4 명령어로 설치한다.1

 

Note

내려받은 예제 파일은 실행 폴더(아나콘다를 설치할 때 기본 값으로 설정했다면 C:\Users\사용자 이름 폴더가 실행 폴더다)에 복사해 두고 사용하면 따로 경로명을 설정하지 않아도 자동으로 인식한다. 경로명을 바꾸었다면 책의 모든 예제에 경로명을 넣어 주고 실습을 진행한다.

 

from bs4 import BeautifulSoup

from urllib.request import urlopen


# 문자열에서 soup을 생성한다.2

soup1 = BeautifulSoup("<HTML><HEAD><header></HEAD><body></HTML>")


# 로컬 파일에서 soup을 생성한다.3

soup2 = BeautifulSoup(open("myDoc.html"))


# 웹 문서에서 soup을 생성한다.

# urlopen()이 "http://"를 자동으로 추가하지 않는다는 것을 기억하자!

soup3 = BeautifulSoup(urlopen("http://www.networksciencelab.com/"))




1 역주 윈도에서는 윈도 명령 프롬프트(윈도 시작 메뉴에서 마우스 오른쪽 버튼 클릭 > 실행 > cmd 입력 후 실행)에서 명령어를 실행합니다. 자세한 내용은 부록 C를 참고합니다.

2 역주 이 코드를 처음 실행하면 경고 메시지를 표시할 수 있는데, 실습에는 무리가 없으므로 무시하고 진행합니다. 다시 실행하면 경고는 사라집니다.

3 역주 내려받은 myDoc.html 파일을 사용합니다. myDoc.html 파일을 실행 폴더에 넣어 두었다면 자동으로 인식됩니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.