2 토큰화

     

    관심사에 맞는 데이터를 가져왔다면, 띄어쓰기(공백)를 기준으로 나누어 준다. 앞에서 배웠듯이 이를 토큰화라고 한다. soynlp에서 제공하는 RegexTokenizer를 토크나이저로 사용하겠다.

    from soynlp.tokenizer import RegexTokenizer
     
    tokenizer = RegexTokenizer()
    tokenizer

    실행 결과

    <soynlp.tokenizer._tokenizer.RegexTokenizer at 0x124aa7e48>

     

    토큰된 결과를 tokened_title에 할당해서 보면 띄어쓰기를 기준으로 잘 나누어진 것을 확인할 수 있다.

    tokened_title = tokenizer.tokenize(sample_title)
    tokened_title

    실행 결과

    ['공공기관', '무조건적인', '정규직전환을', '반대합니다', '.']
    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.