더북(TheBook)

icon_cakewalk 해보자

이쯤 되면 여러분은 HTML, XML, CSV나 JSON 파일, 플레인 텍스트에서 귀중한 데이터를 추출하는 방법을 터득했을 것이다. HTML, XML 태그와 그 구조를 이해하고, 데이터에서 태그를 분리하며, (어느 정도) 단어를 정규화하는 방법을 배웠다. 지금까지 배운 것을 활용할 수 있고, 약간의 인내심이 필요한 연습문제들이 기다리고 있다. 도전해 보자.

 

끊어진 링크 탐지기(Broken Link Detector) ☆☆

웹 페이지의 URL을 입력받아 해당 웹 페이지에서 연결이 끊긴 링크 이름과 연결 대상을 출력하는 프로그램을 작성해 보자. 연습문제 목적에 따라 urllib.request.urlopen()으로 URL을 열 때 오류가 발생한다면 링크가 끊긴 것으로 인식한다.

 

위키피디아 마이너(Wikipedia Miner) ★★

미디어위키(MediaWiki)(위키피디아 프로젝트11)는 위키피디아 데이터와 메타데이터에 접근할 수 있는 JSON 기반 API를 제공한다. 제목이 ‘Data science’인 위키피디아 페이지에서 가장 많이 사용한 형태소를 출력하는 프로그램을 작성해 보자.




신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.