그럼 이 두 특수 토큰 <|unk|>와 <|endoftext|>를 고유 단어 목록에 추가하여 어휘사전을 수정해 보죠.
all_tokens = sorted(list(set(preprocessed)))
all_tokens.extend(["<|endoftext|>", "<|unk|>"])
vocab = {token:integer for integer,token in enumerate(all_tokens)}
print(len(vocab.items()))