다음은 데이터셋의 열에 대한 이름을 반환한 출력 결과입니다.
['review' 'sentiment']
실제로 IMDB Dataset.csv 파일을 열어 보면 review와 sentiment 열이 두 개 있습니다.
sentiment 열에 대한 고윳값을 확인해 봅시다.
코드 10-43 sentiment 열에 대한 고윳값 확인
movie_reviews.sentiment.unique()
코드를 실행하면 다음과 같이 sentiment 열에 대한 고윳값을 출력합니다.
array(['positive', 'negative'], dtype=object)
review(리뷰) 열에는 텍스트가 포함되고 sentiment(감정) 열에는 감정(positive, negative)이 포함되어 있습니다. 감정 열에는 텍스트 형식의 값 중에서 긍정과 부정을 나타내는 positive와 negative로 채워져 있습니다.
감정 열에 포함된 positive와 negative에 대해 숫자로 바꾸어 주는 작업이 필요합니다. 앞서 계속 언급했지만 딥러닝 알고리즘은 숫자 형태만 인식합니다. 출력 값이 두 개(positive, negative)뿐이므로 1과 0으로 변환할 수 있습니다. 다음 스크립트는 긍정적인 감정을 1로 변환하고, 부정적인 감정을 0으로 변환합니다.