모두의 한국어 텍스트 분석 with 파이썬: 5 학습 세트와 시험 세트 만들기

◼︎ 학습 데이터 세트 만들기

이 책에서는 5,109개의 70%인 3,576개를 학습 데이터로 사용하겠다.

split_count = int(df.shape[0] * 0.7)
split_count

실행 결과

split_count 변수를 기준으로 7:3의 비율로 데이터를 나눈다.

df_train = df[:split_count].copy()
df_train.shape

실행 결과

(3576, 11)

나눈 뒤에는 head()와 tail()로 내용을 확인한다. head()나 tail()의 기본값은 5개이나, 그 이상 충분히 확인하는 것이 좋다. 이 책에서는 한 줄의 행이 한 페이지 이상 길게 나열되는 문제 때문에 가장 뒤에 2줄만 출력되도록 명시적으로 괄호 안에 2를 넣었다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.