더북(TheBook)
>>> # 모든 열이 NaN일 때만 행을 삭제합니다
>>> # 여기에서는 모든 값이 NaN인 행이 없기 때문에 전체 배열이 반환됩니다)
>>> df.dropna(how='all')
     A    B    C    D
0  1.0  2.0  3.0  4.0
1  5.0  6.0  NaN  8.0
2 10.0 11.0 12.0  NaN
>>> # NaN이 아닌 값이 네 개보다 작은 행을 삭제합니다
>>> df.dropna(thresh=4)
     A    B    C    D
0  1.0  2.0  3.0  4.0
>>> # 특정 열에 NaN이 있는 행만 삭제합니다(여기에서는 'C'열)4
>>> df.dropna(subset=['C'])
     A    B    C   D
0  1.0  2.0  3.0 4.0
2 10.0 11.0 12.0 NaN

누락된 데이터를 제거하는 것이 간단해 보이지만 단점도 있습니다. 예를 들어 너무 많은 데이터를 제거하면 안정된 분석이 불가능할 수 있습니다. 또는 너무 많은 특성 열을 제거하면 분류기가 클래스를 구분하는 데 필요한 중요한 정보를 잃을 위험이 있습니다. 다음 절에서 누락된 값을 다루는 데 아주 널리 사용되는 방법 중 하나인 보간(interpolation) 기법을 살펴보겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.