더북(TheBook)

텐서플로 2에서 버트용 라이브러리를 사용하려고 다음 명령을 실행합니다.

> pip install bert-for-tf2
> pip install sentencepiece

판다스 데이터프레임(Pandas dataframe)read_csv() 메서드를 사용하여 IMDB Dataset.csv 데이터셋5을 메모리로 로딩합니다.

코드 10-41 라이브러리 호출 및 데이터셋 준비

import tensorflow as tf
import tensorflow_hub as hub
from tensorflow.keras import layers
import bert
import pandas as pd

movie_reviews = pd.read_csv("..chap10\data\IMDB Dataset.csv")
movie_reviews.isnull().values.any() ------ 데이터셋(movie_reviews)에서 어떤 항목이 NaN을 가지고 있는지 확인
movie_reviews.shape

그러면 다음과 같이 movie_reviews 데이터셋에 대한 형태를 보여 줍니다. 출력 결과를 보면 행 5만 개와 칼럼 두 개로 구성된 것을 확인할 수 있습니다.

(50000, 2)

 

 


  5 이 데이터셋은 ‘ACL-HLT2011’의 논문 “Learning Word Vectors for Sentiment Analysis”(http://www.aclweb.org/anthology/P11-1015)에 사용된 대형 영화 리뷰 데이터셋입니다(https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews). 내려받은 예제 파일의 data 폴더에 압축 파일로 저장되어 있습니다. 압축을 해제한 후 data 폴더에 넣어 사용해 주세요.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.