2 정답값 빈도수 확인
이번에는 학습 데이터 세트에서 제공하는 정답값의 빈도수를 구해서 예측해야 하는 값의 빈도수가 비슷한지 아니면 차이가 있는지를 확인해 보자. 시험 데이터(test)는 topic이 결측치(missing value, 데이터에 값이 없는 것을 말하며 6.3.3절에서 자세히 설명한다)이므로 빈도수에 포함되지 않는다.
# test는 topic이 결측치이므로 빈도수에 포함되지 않는다. df["topic_idx"].value_counts()
실행 결과
4.0 |
7629 |
2.0 |
7362 |
5.0 |
6933 |
6.0 |
6751 |
1.0 |
6222 |
3.0 |
5933 |
0.0 |
4824 |