그런 다음 파이썬 표준 입력 도구로 the-verdict.txt 파일을 로드합니다.
코드 2-1 파이썬으로 단편 소설을 텍스트 샘플로 읽기
with open("the-verdict.txt", "r", encoding="utf-8") as f:
raw_text = f.read()
print("총 문자 개수:", len(raw_text))
print(raw_text[:99])
앞의 코드는 총 문자 개수와 함께, 내용 확인을 위해 파일의 처음 99개 문자를 출력합니다.
총 문자 개수: 20479 I HAD always thought Jack Gisburn rather a cheap genius--though a good fellow enough--so it was no
목표는 20,479 문자로 이루어진 이 단편 소설을 개별 단어와 특수 문자로 토큰화하는 것입니다. 그다음에 LLM 훈련을 위해 토큰을 임베딩으로 변환하겠습니다.