더북(TheBook)

토큰화를 진행하기 위해 버트 토크나이저를 내려받습니다.

코드 10-45 버트 토크나이저 내려받기

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') ------ ①
model = BertForSequenceClassification.from_pretrained('bert-base-uncased') ------ ②
model.to(device)

① 예제에서는 버트 모델 중 ‘bert-base-uncased’를 사용했지만 한국어를 사용하기 위해서는 ‘bert-base-multilingual-cased’를 사용하는 것이 맞습니다(기본은 영어에 사용되도록 만들어졌습니다). ‘bert-base-multilingual-cased’의 경우에는 100개 이상의 언어를 적용할 수 있는 모델입니다. ‘bert-base-multilingual-cased’는 ‘10.3 한국어 임베딩’에서 사용합니다.

참고로 ‘bert-base-uncased’ 모델은 버트의 가장 기본적인 모델을 의미하며, uncased는 모든 문장을 소문자로 대체하겠다는 것입니다. 또한, BertTokenizer.from_pretrained는 사전 훈련된 버트의 토크나이저를 사용하겠다는 의미입니다.

② 데이터를 분류하기 위해 버트 모델을 내려받습니다. 토크나이저처럼 사전 훈련된 버트 모델을 명시해야 합니다. 즉, 버트 모델을 생성하는 단계입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.