10.3 한국어 임베딩
지금까지 영어에 대한 임베딩을 진행했는데, 한국어에 대한 임베딩도 영어와 동일합니다. 얼마나 동일한지 코드로 직접 확인해 보겠습니다. 예를 들어 ‘10.2.2 버트’에서 사용했던 데이터셋과 사전 훈련된 버트 모델 ‘bert-base-multilingual-cased’를 사용해서 한국어 임베딩을 확인해 보겠습니다.
먼저 필요한 라이브러리를 호출합니다.
코드 10-52 라이브러리 불러오기
import torch
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased') ------ 한국어를 위한 버트 토크나이저 ‘bert-base-multilingual-cased’를 내려받습니다.
사전 훈련된 버트 토크나이저 ‘bert-base-multilingual-cased’를 내려받은 결과는 다음과 같습니다.
Downloading: 996k/996k [00:01<00:00, 100% 1.05MB/s] Downloading: 929.0/29.0 [00:00<00:00, 100% 400B/s] Downloading: 91.96M/1.96M [00:01<00:00, 100% 1.44MB/s] Downloading: 9625/625 [00:00<00:00, 100% 9.40kB/s]