더북(TheBook)

다음은 자연어 처리에서 수행되는 주요 작업에 대해 간단히 설명하겠습니다.

토큰화(tokenization)는 문자열(문장, 문서)에서 처리할 수 있는 최소 단위인 토큰(token)을 분리하는 과정입니다. 여기서 토큰은 보통 단어(word), 서브워드(subword), 글자(character) 등으로 나뉩니다.

▼ 표 1-2 토큰화 예시

토큰화 유형

입력 문장

출력 토큰

단어 단위 토큰화

나는 오늘 학교에 갔다.

['나는', '오늘', '학교에', '갔다.']

문자 단위 토큰화

학교

['학', '교']

서브워드 토큰화

playing

['play', 'ing']

문장 단위 토큰화

안녕하세요? 오늘 날씨가 좋네요.

['안녕하세요?', '오늘 날씨가 좋네요.']

공백 기반 토큰화

나는 오늘 학교에 갔다.

['나는', '오늘', '학교에', '갔다.']

특수 기호 처리

안녕! 잘 지내니?

['안녕', '!', '잘', '지내니', '?']

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.