◼︎ 학습 데이터 세트 만들기
이 책에서는 5,109개의 70%인 3,576개를 학습 데이터로 사용하겠다.
split_count = int(df.shape[0] * 0.7) split_count
실행 결과
3576
split_count 변수를 기준으로 7:3의 비율로 데이터를 나눈다.
df_train = df[:split_count].copy() df_train.shape
실행 결과
(3576, 11)
나눈 뒤에는 head()와 tail()로 내용을 확인한다. head()나 tail()의 기본값은 5개이나, 그 이상 충분히 확인하는 것이 좋다. 이 책에서는 한 줄의 행이 한 페이지 이상 길게 나열되는 문제 때문에 가장 뒤에 2줄만 출력되도록 명시적으로 괄호 안에 2를 넣었다.