밑바닥부터 만들면서 배우는 LLM: 2.2 텍스트 토큰화하기 -6

텍스트를 토큰 리스트로 분할하는 가장 좋은 방법은 무엇일까요? 이를 알아보기 위해 잠시 눈을 돌려 파이썬 정규 표현식(regular expression) 라이브러리인 re를 사용해 보겠습니다(나중에 사전 훈련된 토크나이저(tokenizer)를 사용할 것이므로 정규 표현식 문법을 배우거나 외울 필요는 없습니다).

간단한 텍스트 샘플에 re.split 명령을 사용해 보겠습니다. 다음과 같은 정규 표현식 문법을 사용하면 공백을 기준으로 텍스트를 분할할 수 있습니다.

import re
text = "Hello, world. This, is a test."
result = re.split(r'(\s)', text)
print(result)

개별 단어, 공백, 구두점 문자로 이루어진 리스트가 출력됩니다.

['Hello,', ' ', 'world.', ' ', 'This,', ' ', 'is', ' ', 'a', ' ', 'test.']

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.