더북(TheBook)

데이터셋 구성 체크

훈련 셋에 들어 있는 수많은 피처가 어떻게 분포해 있는지 체크해보겠습니다. 해당 피처들은 기본적으로 주어지는 id와 comment_text를 제외하고는 훈련 셋에만 존재하는 열(Columns)이며, 각 열은 주어진 텍스트에 대한 추가 정보를 가지고 있습니다. 훈련 셋의 열이 너무 많으니 Description의 내용을 토대로 몇 가지 범주로 나눠보겠습니다(표 7-2 참고).

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.