더북(TheBook)

3 결측치가 있는지 확인하기

 

결측치란 말 그대로 데이터에 값이 없는 것을 말한다. 결측치는 사용하는 프로그래밍 언어마다 여러 가지로 표현되는데 머신러닝 알고리즘 내부에서 결측치를 연산할 수 없기 때문에 오류가 발생한다. 따라서 데이터를 볼 때는 항상 결측치를 주의해야 한다. 머신러닝 알고리즘으로 모델을 만들 때는 dropna()를 통해 결측치를 제거하거나 0과 같은 작은 숫자로 대체하기도 한다.

isnull().sum()으로 N/A인 행, 즉 결측치가 있는지 요약해 확인해 본다. 때로는 이미 결측치가 0이나 다른 숫자로 대체해서 들어가 있을 수도 있으므로 주의하자.

petitions.isnull().sum()

실행 결과

start       0
end         0
answered    0
votes       0
category    0
title       0
content     1

 

content 변수에만 1이 있고 나머지는 모두 0인 것으로 보아 분석 대상 국민청원 데이터에는 결측치가 거의 없음을 알 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.