더북(TheBook)

그럼 이 두 특수 토큰 <|unk|><|endoftext|>를 고유 단어 목록에 추가하여 어휘사전을 수정해 보죠.

all_tokens = sorted(list(set(preprocessed)))
all_tokens.extend(["<|endoftext|>", "<|unk|>"])
vocab = {token:integer for integer,token in enumerate(all_tokens)}

print(len(vocab.items()))