모두의 한국어 텍스트 분석 with 파이썬: 2 토큰화

관심사에 맞는 데이터를 가져왔다면, 띄어쓰기(공백)를 기준으로 나누어 준다. 앞에서 배웠듯이 이를 토큰화라고 한다. soynlp에서 제공하는 RegexTokenizer를 토크나이저로 사용하겠다.

from soynlp.tokenizer import RegexTokenizer
 
tokenizer = RegexTokenizer()
tokenizer

실행 결과

<soynlp.tokenizer._tokenizer.RegexTokenizer at 0x124aa7e48>

토큰된 결과를 tokened_title에 할당해서 보면 띄어쓰기를 기준으로 잘 나누어진 것을 확인할 수 있다.

tokened_title = tokenizer.tokenize(sample_title)
tokened_title

실행 결과

['공공기관', '무조건적인', '정규직전환을', '반대합니다', '.']

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.