텐서플로 2에서 버트용 라이브러리를 사용하려고 다음 명령을 실행합니다.

    > pip install bert-for-tf2
    > pip install sentencepiece

    판다스 데이터프레임(Pandas dataframe)read_csv() 메서드를 사용하여 IMDB Dataset.csv 데이터셋5을 메모리로 로딩합니다.

    코드 10-41 라이브러리 호출 및 데이터셋 준비

    import tensorflow as tf
    import tensorflow_hub as hub
    from tensorflow.keras import layers
    import bert
    import pandas as pd
    
    movie_reviews = pd.read_csv("..chap10\data\IMDB Dataset.csv")
    movie_reviews.isnull().values.any() ------ 데이터셋(movie_reviews)에서 어떤 항목이 NaN을 가지고 있는지 확인
    movie_reviews.shape

    그러면 다음과 같이 movie_reviews 데이터셋에 대한 형태를 보여 줍니다. 출력 결과를 보면 행 5만 개와 칼럼 두 개로 구성된 것을 확인할 수 있습니다.

    (50000, 2)

     

     


      5 이 데이터셋은 ‘ACL-HLT2011’의 논문 “Learning Word Vectors for Sentiment Analysis”(http://www.aclweb.org/anthology/P11-1015)에 사용된 대형 영화 리뷰 데이터셋입니다(https://www.kaggle.com/lakshmi25npathi/imdb-dataset-of-50k-movie-reviews). 내려받은 예제 파일의 data 폴더에 압축 파일로 저장되어 있습니다. 압축을 해제한 후 data 폴더에 넣어 사용해 주세요.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.