더북(TheBook)

다음은 워드 임베딩이 적용된 데이터셋 결과입니다.

 

이제 훈련과 테스트 용도로 데이터셋을 분리할 텐데 예제에서는 사이킷런을 사용합니다. 데이터 분리는 사이킷런뿐만 아니라 파이토치의 random_split()을 사용할 수도 있습니다. 하지만 random_split()을 사용할 경우 데이터셋의 인덱스를 텐서 형태로 반환하기 때문에 인덱스가 아닌 데이터를 이용해야 하는 이번 예제와 맞지 않아 사이킷런을 사용합니다.

코드 11-4 데이터셋 분리

from sklearn.model_selection import train_test_split

x, y = train_test_split(data, test_size=0.2, random_state=123)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.