모두의 한국어 텍스트 분석 with 파이썬: 2 이진 분류 대상 정하기

답변 여부(answered)에 대해 분류하기에는 표준편차가 너무 크고 모수가 적으므로, 투표수(votes)로 분석하겠다. 그 전에 답변 대상 데이터가 있는지 확인해 보자.

df.loc[df['answered'] == 1].shape

실행 결과

(0, 8)

20만 건 이상 투표한 데이터는 모두 제외했으므로, votes에서 답변 대상인 건은 0으로 잘 출력된다. 이제 도수 분포표를 시각화한 히스토그램(histogram)을 그려서 데이터의 분포를 확인해 보자.

%matplotlib inline 
df['votes'].plot.hist()

실행 결과

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.