더북(TheBook)

다음은 데이터셋의 열에 대한 이름을 반환한 출력 결과입니다.

['review' 'sentiment']

실제로 IMDB Dataset.csv 파일을 열어 보면 reviewsentiment 열이 두 개 있습니다.

sentiment 열에 대한 고윳값을 확인해 봅시다.

코드 10-43 sentiment 열에 대한 고윳값 확인

movie_reviews.sentiment.unique()

코드를 실행하면 다음과 같이 sentiment 열에 대한 고윳값을 출력합니다.

array(['positive', 'negative'], dtype=object)

review(리뷰) 열에는 텍스트가 포함되고 sentiment(감정) 열에는 감정(positive, negative)이 포함되어 있습니다. 감정 열에는 텍스트 형식의 값 중에서 긍정과 부정을 나타내는 positivenegative로 채워져 있습니다.

감정 열에 포함된 positivenegative에 대해 숫자로 바꾸어 주는 작업이 필요합니다. 앞서 계속 언급했지만 딥러닝 알고리즘은 숫자 형태만 인식합니다. 출력 값이 두 개(positive, negative)뿐이므로 1과 0으로 변환할 수 있습니다. 다음 스크립트는 긍정적인 감정을 1로 변환하고, 부정적인 감정을 0으로 변환합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.