더북(TheBook)
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 7))
sns.countplot(x="target_binary", data=df_train_main, ax=ax1)
sns.kdeplot(df_train_main.loc[df_train_main["target"] > 0, "target"], ax=ax2)
ax2.set_ylabel("ratio[%]")
ax2.set_xlabel("Toxcity")
plt.show()

Description에서 설명했듯이 검증 셋의 타깃은 0.5를 기준으로 0 또는 1로 변환되어 있으니, 훈련 셋도 마찬가지 방법으로 변환하여 살펴보면 그림 7-6의 왼쪽 그래프처럼 나타납니다. 훈련 셋의 타깃은 절반 이상이 0이기 때문에 타깃 레이블의 전체 분포를 그리면 너무 0에 치우쳐진 그래프가 나와 보기 불편합니다. 그래서 조금이라도 타깃 수치가 있는 것의 분포를 따로 살펴보면 그림 7-6의 오른쪽 그래프와 같이 나옵니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.