더북(TheBook)

2 토큰화

 

관심사에 맞는 데이터를 가져왔다면, 띄어쓰기(공백)를 기준으로 나누어 준다. 앞에서 배웠듯이 이를 토큰화라고 한다. soynlp에서 제공하는 RegexTokenizer를 토크나이저로 사용하겠다.

from soynlp.tokenizer import RegexTokenizer
 
tokenizer = RegexTokenizer()
tokenizer

실행 결과

<soynlp.tokenizer._tokenizer.RegexTokenizer at 0x124aa7e48>

 

토큰된 결과를 tokened_title에 할당해서 보면 띄어쓰기를 기준으로 잘 나누어진 것을 확인할 수 있다.

tokened_title = tokenizer.tokenize(sample_title)
tokened_title

실행 결과

['공공기관', '무조건적인', '정규직전환을', '반대합니다', '.']
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.