더북(TheBook)

정답 분포 확인

컴페티션의 궁극적인 목표는 가장 높은 점수를 올리는 것입니다. 주어진 평가 방법에 따라 점수를 책정할 때 사용되는 것은 검증 셋으로 추론한 정답 레이블(target)입니다. 일반적으로 검증 셋은 훈련 셋의 샘플링으로 만들어지므로, 훈련 셋과 검증 셋은 비슷한 분포를 지닙니다. 그렇기에 훈련 셋의 각 피처가 어떻게 분포해 있는지 한번 체크해보는 것이 좋습니다(그림 7-6 참고).

가장 먼저 정답 레이블인 타깃(target)의 분포를 살펴보겠습니다.

df_train_main = df_train[main_cols]
df_train_main["target_binary"] = df_train_main["target"].map(
    lambda x: 1 if x > 0.5 else 0
)
>>> print(df_train_main["target"].describe())
count   1.804874e+06
mean    1.030173e-01
std     1.970757e-01
min     0.000000e+00
25%     0.000000e+00
50%     0.000000e+00
75%     1.666667e-01
max     1.000000e+00
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.