더북(TheBook)

실행 결과

사용자의 구글 드라이브에 data/petition.csv 다운로드 완료

 

데이터가 들어왔다면 petition.csv 파일을 판다스 데이터 프레임 형태로 읽는다.

df = pd.read_csv(f"{base_path}/petition.csv", index_col="article_id",
                        parse_dates=['start', 'end'])
df.shape

실행 결과

(377756, 7)

 

자신의 관심사에 맞는 단어로 데이터를 가져오려면 파이썬에서 re(정규식) 모듈에서 제공하는 match() 함수를 사용하면 된다. match() 함수는 문자열이 정규식에서 지정된 패턴과 일치하는지 확인하기 위해 처음부터 문자열을 검색한 후 일치하는 단어를 반환한다. 이 책에서는 ‘돌봄, 육아, 초등, 보육’ 등의 키워드가 들어 있는 타이틀을 추출해 보자. 추출하려는 단어가 여러 개이므로 ‘|’를 사용해 찾으려는 단어를 병렬로 나열하고, MULTILINE으로 옵션을 지정해 전체 라인에서 키워드가 있는 청원을 가져오게 했다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.