① hub.KerasLayer에서 버트 모델을 가져온 후 버트 임베딩 레이어를 생성합니다. 이때 매개변수 trainable이 False로 설정되어 있기 때문에 버트 임베딩은 학습하지 않습니다. 이 예제에서 주의해야 할 점은 BertTokenizer만 사용한다는 것입니다. 즉, 여기에서는 버트 임베딩을 사용하지 않고 있다는 것에 주의해야 합니다.
이제 버트 토크나이저(BertTokenizer)가 실제로 작동하는지 살펴보겠습니다. 이를 위해 다음과 같이 임의의 문장을 토큰화해 보겠습니다.
코드 10-48 임의의 문장 토큰화
tokenizer.tokenize("don't be so judgmental")
다음은 임의의 문장을 토큰화한 결과입니다.
['don', "'", 't', 'be', 'so', 'judgment', '##al']
텍스트가 성공적으로 토큰화되었음을 알 수 있습니다.
버트 토크나이저(BertTokenizer) 객체의 convert_tokens_to_ids()를 사용하여 토큰의 ID를 가져올 수도 있습니다.
코드 10-49 토큰의 ID 반환
tokenizer.convert_tokens_to_ids(tokenizer.tokenize("don't be so judgmental"))