밑바닥부터 만들면서 배우는 LLM: 2.4 특수 문맥 토큰 추가하기 -2

그럼 이 두 특수 토큰 <|unk|>와 <|endoftext|>를 고유 단어 목록에 추가하여 어휘사전을 수정해 보죠.

all_tokens = sorted(list(set(preprocessed)))
all_tokens.extend(["<|endoftext|>", "<|unk|>"])
vocab = {token:integer for integer,token in enumerate(all_tokens)}

print(len(vocab.items()))

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.