더북(TheBook)

2 정답값 빈도수 확인

 

이번에는 학습 데이터 세트에서 제공하는 정답값의 빈도수를 구해서 예측해야 하는 값의 빈도수가 비슷한지 아니면 차이가 있는지를 확인해 보자. 시험 데이터(test)는 topic이 결측치(missing value, 데이터에 값이 없는 것을 말하며 6.3.3절에서 자세히 설명한다)이므로 빈도수에 포함되지 않는다.

# test는 topic이 결측치이므로 빈도수에 포함되지 않는다.
df["topic_idx"].value_counts()

실행 결과

4.0

7629

2.0

7362

5.0

6933

6.0

6751

1.0

6222

3.0

5933

0.0

4824

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.