마찬가지로 content도 띄어쓰기를 기준으로 토큰을 나눈다.
tokened_content = tokenizer.tokenize(sample_content) tokened_content[:20]
실행 결과
['현정부에서', '정규직', '일자리를', '늘리는', '것에', '찬성합니다', '.', '그런데', '공공기관', '비정규직들은', '인맥으로', '들어온', '경우가', '많습니다', '.', '자질이', '안되는데도', '정규직이', '된다면', '그']