더북(TheBook)

슬라이딩 윈도를 사용해 훈련 데이터셋에서 그림 2-12와 같은 입력-타깃 쌍을 추출하는 데이터 로더(data loader)를 구현해 보죠. 먼저 BPE 토크나이저로 소설 『The Verdict』 전체를 토큰화합니다.

with open("the-verdict.txt", "r", encoding="utf-8") as f:
    raw_text = f.read()

enc_text = tokenizer.encode(raw_text)
print(len(enc_text))

이 코드를 실행하면 BPE 토크나이저를 적용한 후에 훈련 세트에 있는 총 토큰 개수인 5145를 반환합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.