밑바닥부터 만들면서 배우는 LLM: 2.2 텍스트 토큰화하기 -7

이런 간단한 토큰화 방법으로 샘플 텍스트를 개별 단어로 분할할 수 있습니다. 하지만 일부 단어는 여전히 구두점과 붙어 있어 이를 별도의 항목으로 분할해야 합니다. 또한 대문자는 소문자로 바꾸지 말아야 합니다. LLM이 고유 명사와 일반 명사를 구분하고, 문장 구조를 이해하고, 적절한 대문자를 섞어서 텍스트를 생성하는 데 도움이 되기 때문입니다.

공백(\s), 쉼표와 마침표([,.])를 분할하도록 정규 표현식을 수정해 보죠.

result = re.split(r'([,.]|\s)', text)
print(result)

이제 의도한 대로 단어와 구두점 문자가 별개의 항목으로 리스트에 들어간 것을 볼 수 있습니다.

['Hello', ',', '', ' ', 'world', '.', '', ' ', 'This', ',', '', ' ', 'is', ' ', 'a', ' ', 'test', '.', '']

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.