위 코드를 실행해 개행 문자 및 국어 또는 영어가 아닌 문자를 제거하고 공백으로 대체했다. 이제 데이터를 분석할 때 더 쉽게 경향성을 발견할 수 있을 것이다. head(2)로 개행 문자가 모두 삭제됐는지 두 줄 정도만 확인해 보자.
content_text.head(2)
실행 결과
article_id |
|
24 |
현정부에서 정규직 일자리를 늘리는 것에 찬성합니다 그런데 공공기관 비정규직들은 인... |
36 |
문재인 대통령님과 각 정부 인사분들께 마음속 깊이 존경과 감사를 표합니다 대한민국... |
각 article_id에 해당하는 문장이 한 줄로 표현되는 것을 확인할 수 있다. 이제 토큰별로 나누어 줄 차례다. apply() 함수를 사용해서 ‘content’ 전체에 띄어쓰기(공백)를 기준으로 토큰화해 준다.
tokens = content_text.apply(tokenizer.tokenize) tokens[:3]