결측치가 많은 항목은 1,460개의 샘플 중에서 1,453개나 비어 있을 만큼 빠진 곳이 많은 것을 확인할 수 있습니다.
이제 모델을 만들기 위해 데이터를 전처리하겠습니다. 먼저 12.3절에서 소개되었던 판다스의 get_dummies() 함수를 이용해 카테고리형 변수를 0과 1로 이루어진 변수로 바꾸어 줍니다.
= pd.get_dummies(df)그리고 결측치를 채워 줍니다. 결측치를 채워 주는 함수는 판다스의 fillna()입니다. 괄호 안에 df.mean()을 넣어 주면 평균값으로 채워 줍니다.
fillna( .mean())= .
TIP
특정한 값으로 대체하려면 fillna() 함수의 괄호 안에 해당 값을 적으면 됩니다. 예를 들어 결측치를 모두 0으로 바꾸려면 fillna(0)이 됩니다. dropna()를 사용하면 결측치가 있는 속성을 제거해 줍니다. 이때 dropna(how='any')는 결측치가 하나라도 있으면 삭제하라는 의미이고, dropna(how='all')은 모든 값이 결측치일 때 삭제하라는 의미입니다.