내용을 확인해 보니 부정적인 리뷰처럼 보입니다. 해당 레이블 값을 출력하여 검증해 보겠습니다.
코드 10-46 긍정/부정 리뷰 확인
print(y[10])
코드를 실행하면 다음과 같이 출력됩니다. 0이 출력되는 것으로 보아 부정적인 리뷰임을 확인할 수 있습니다.
0
이제 데이터를 전처리했으니 버트를 이용한 모델을 만들 준비가 되었습니다.
입력 값으로 텍스트 리뷰를 사용하려면 토큰화를 먼저 진행해야 합니다. 토큰화는 문장을 개별 단어로 나누는 것으로, 텍스트의 토큰화를 위해 bert.bert_tokenization.FullTokenizer를 사용합니다.
코드 10-47 텍스트의 토큰화
BertTokenizer = bert.bert_tokenization.FullTokenizer ------ bert.bert_tokenization 모듈의 FullTokenizer 클래스를 사용하여 객체를 만듭니다.
bert_layer = hub.KerasLayer("https://tfhub.dev/tensorflow/bert_en_uncased_L-12_H-768_A-12/1", trainable=False) ------ ①
vocabulary_file = bert_layer.resolved_object.vocab_file.asset_path.numpy() ------ 넘파이 배열 형식의 BERT 어휘 파일을 만듭니다.
to_lower_case = bert_layer.resolved_object.do_lower_case.numpy() ------ 텍스트를 소문자로 설정합니다.
tokenizer = BertTokenizer(vocabulary_file, to_lower_case) ------ vocabulary_file 및 to_lower_case 변수를 BertTokenizer 객체에 전달합니다.