이 절에서 LLM 훈련을 위해 토큰화할 텍스트는 이디스 워튼(Edith Wharton)5의 단편 소설인 『The Verdict(심판)』입니다. 이 책은 퍼블릭 도메인(public domain)으로 배포되었기 때문에 LLM 훈련 작업에 사용할 수 있습니다. 텍스트가 위키문헌(Wikisource) 사이트에 공개(https://en.wikisource.org/wiki/The_Verdict)되어 있기 때문에 복사하여 텍스트 파일로 저장할 수 있습니다. 저는 이 텍스트를 the-verdict.txt 파일에 저장했습니다.
또는 책의 깃허브 저장소(https://bit.ly/3XJPOQ2)에서 the-verdict.txt 파일을 직접 다운로드할 수 있습니다.
import urllib.request
url = ("https://raw.githubusercontent.com/rickiepark/"
"llm-from-scratch/main/ch02/01_main-chapter-code/"
"the-verdict.txt")
file_path = "the-verdict.txt"
urllib.request.urlretrieve(url, file_path)