더북(TheBook)

2 학습/시험 데이터 세트 분리하기

 

위 과정에서 문제가 발견되지 않는다면 학습 데이터 세트와 시험 데이터 세트로 분리한다. 먼저 정답 레이블(label)값을 설정한다.

label_name = "분류"

이어서 독립 변수(X, 문제)와 종속 변수(y, 정답)를 나눠 학습 데이터 세트와 시험 데이터 세트로 분리한다.

X = df["문서"]
y = df[label_name]
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.