2 토큰화
관심사에 맞는 데이터를 가져왔다면, 띄어쓰기(공백)를 기준으로 나누어 준다. 앞에서 배웠듯이 이를 토큰화라고 한다. soynlp에서 제공하는 RegexTokenizer를 토크나이저로 사용하겠다.
from soynlp.tokenizer import RegexTokenizer tokenizer = RegexTokenizer() tokenizer
실행 결과
<soynlp.tokenizer._tokenizer.RegexTokenizer at 0x124aa7e48>
토큰된 결과를 tokened_title에 할당해서 보면 띄어쓰기를 기준으로 잘 나누어진 것을 확인할 수 있다.
tokened_title = tokenizer.tokenize(sample_title) tokened_title
실행 결과
['공공기관', '무조건적인', '정규직전환을', '반대합니다', '.']