더북(TheBook)

그럼 이 두 특수 토큰 <|unk|><|endoftext|>를 고유 단어 목록에 추가하여 어휘사전을 수정해 보죠.

all_tokens = sorted(list(set(preprocessed)))
all_tokens.extend(["<|endoftext|>", "<|unk|>"])
vocab = {token:integer for integer,token in enumerate(all_tokens)}

print(len(vocab.items()))
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.