데이터셋 구성 체크
훈련 셋에 들어 있는 수많은 피처가 어떻게 분포해 있는지 체크해보겠습니다. 해당 피처들은 기본적으로 주어지는 id와 comment_text를 제외하고는 훈련 셋에만 존재하는 열(Columns)이며, 각 열은 주어진 텍스트에 대한 추가 정보를 가지고 있습니다. 훈련 셋의 열이 너무 많으니 Description의 내용을 토대로 몇 가지 범주로 나눠보겠습니다(표 7-2 참고).
데이터셋 구성 체크
훈련 셋에 들어 있는 수많은 피처가 어떻게 분포해 있는지 체크해보겠습니다. 해당 피처들은 기본적으로 주어지는 id와 comment_text를 제외하고는 훈련 셋에만 존재하는 열(Columns)이며, 각 열은 주어진 텍스트에 대한 추가 정보를 가지고 있습니다. 훈련 셋의 열이 너무 많으니 Description의 내용을 토대로 몇 가지 범주로 나눠보겠습니다(표 7-2 참고).