다음은 자연어 처리에서 수행되는 주요 작업에 대해 간단히 설명하겠습니다.
토큰화(tokenization)는 문자열(문장, 문서)에서 처리할 수 있는 최소 단위인 토큰(token)을 분리하는 과정입니다. 여기서 토큰은 보통 단어(word), 서브워드(subword), 글자(character) 등으로 나뉩니다.
▼ 표 1-2 토큰화 예시
|
토큰화 유형 |
입력 문장 |
출력 토큰 |
|
단어 단위 토큰화 |
나는 오늘 학교에 갔다. |
['나는', '오늘', '학교에', '갔다.'] |
|
문자 단위 토큰화 |
학교 |
['학', '교'] |
|
서브워드 토큰화 |
playing |
['play', 'ing'] |
|
문장 단위 토큰화 |
안녕하세요? 오늘 날씨가 좋네요. |
['안녕하세요?', '오늘 날씨가 좋네요.'] |
|
공백 기반 토큰화 |
나는 오늘 학교에 갔다. |
['나는', '오늘', '학교에', '갔다.'] |
|
특수 기호 처리 |
안녕! 잘 지내니? |
['안녕', '!', '잘', '지내니', '?'] |