더북(TheBook)

10.3 한국어 임베딩

지금까지 영어에 대한 임베딩을 진행했는데, 한국어에 대한 임베딩도 영어와 동일합니다. 얼마나 동일한지 코드로 직접 확인해 보겠습니다. 예를 들어 ‘10.2.2 버트’에서 사용했던 데이터셋과 사전 훈련된 버트 모델 ‘bert-base-multilingual-cased’를 사용해서 한국어 임베딩을 확인해 보겠습니다.

먼저 필요한 라이브러리를 호출합니다.

코드 10-52 라이브러리 불러오기

import torch
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased') ------ 한국어를 위한 버트 토크나이저 ‘bert-base-multilingual-cased’를 내려받습니다.

사전 훈련된 버트 토크나이저 ‘bert-base-multilingual-cased’를 내려받은 결과는 다음과 같습니다.

Downloading:                             996k/996k [00:01<00:00,
100% 1.05MB/s]

Downloading:                                 929.0/29.0 [00:00<00:00,
100% 400B/s]

Downloading:                             91.96M/1.96M [00:01<00:00,
100% 1.44MB/s]

Downloading:                                 9625/625 [00:00<00:00,
100% 9.40kB/s]
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.