더북(TheBook)

위 코드를 실행해 개행 문자 및 국어 또는 영어가 아닌 문자를 제거하고 공백으로 대체했다. 이제 데이터를 분석할 때 더 쉽게 경향성을 발견할 수 있을 것이다. head(2)로 개행 문자가 모두 삭제됐는지 두 줄 정도만 확인해 보자.

content_text.head(2)

실행 결과

article_id

 

24

현정부에서 정규직 일자리를 늘리는 것에 찬성합니다 그런데 공공기관 비정규직들은 인...

36

문재인 대통령님과 각 정부 인사분들께 마음속 깊이 존경과 감사를 표합니다 대한민국...

 

각 article_id에 해당하는 문장이 한 줄로 표현되는 것을 확인할 수 있다. 이제 토큰별로 나누어 줄 차례다. apply() 함수를 사용해서 ‘content’ 전체에 띄어쓰기(공백)를 기준으로 토큰화해 준다.

tokens = content_text.apply(tokenizer.tokenize)
tokens[:3]
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.