더북(TheBook)

다음으로 결측치를 해당 열의 평균값으로 채워 보겠습니다.

코드 9-14 결측치를 평균으로 채우기

df['x'].fillna(df['x'].mean(), inplace=True)
print(df)

다음은 결측치를 평균으로 채운 출력 결과입니다. x열에 대해 평균값(500.0)으로 NaN 값이 채워져 있는 것을 확인할 수 있습니다.

   Unnamed: 0      id  tissue  class  class2      x       y      r
0           0  mdb000       C   CIRC       N  535.0  4 75.0  192.0
1           1  mdb001       A   CIRA       N  433.0   268.0   58.0
2           2  mdb002       A   CIRA       I  500.0     NaN    NaN
3           3  mdb003       C   CIRC       B  500.0     NaN    NaN
4           4  mdb004       F   CIRF       I  488.0   145.0   29.0
5           5  mdb005       F   CIRF       B  544.0   178.0   26.0

이외에도 다음 방법들로 결측치를 처리할 수 있습니다.

데이터에 하나라도 NaN 값이 있을 때 행 전체를 삭제

데이터가 거의 없는 특성(열)은 특성(열) 자체를 삭제

최빈값 혹은 평균값으로 NaN 값을 대체

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.