더북(TheBook)

남은 문제는 리스트에 여전히 공백이 포함되어 있다는 것입니다. 선택적으로 다음과 같이 중복된 공백 문자를 안전하게 제거할 수 있습니다.

result = [item for item in result if item.strip()]
print(result)

다음과 같이 공백이 없는 결과가 출력됩니다.

['Hello', ',', 'world', '.', 'This', ',', 'is', 'a', 'test', '.']

NOTE

간단한 토크나이저를 개발할 때 공백을 별도의 문자로 인코딩할지 아니면 삭제할지는 애플리케이션과 요구 사항에 따라 다릅니다. 공백을 삭제하면 메모리와 계산량이 줄어듭니다. 하지만 공백을 유지하면 텍스트의 정확한 구조에 민감한 모델을 훈련하는 데 도움이 될 수 있습니다(예를 들면 파이썬 코드는 들여쓰기와 공백에 민감합니다). 여기서는 토큰화된 출력을 간단하게 유지하기 위해 공백을 삭제합니다. 나중에 공백을 포함하는 토큰화 방법에 대해 알아보겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.