4.1 누락된 데이터 다루기
실제 애플리케이션에서는 여러 가지 이유로 훈련 샘플에 하나 이상의 값이 누락된 경우가 드물지 않습니다. 데이터 수집 과정에 오류가 있거나 어떤 측정 방법은 적용이 불가능할 수 있습니다. 또는 설문에서 특정 필드가 그냥 비워져 있을 수도 있습니다. 일반적으로 누락된 값은 데이터 테이블에 빈 공간이나 예약된 문자열로 채워집니다. 숫자가 아니라는 의미(not a number)의 NaN이나 NULL(관계형 데이터베이스에서 모르는 값을 지칭하는 데 주로 사용)과 같은 값을 사용합니다. 안타깝게도 대부분의 수치 계산 라이브러리는 누락된 값을 다룰 수 없거나 단순히 이를 무시했을 때 예상치 못한 결과를 만듭니다. 분석을 더 진행하기 전에 누락된 값을 처리하는 것이 중요합니다.
이 절에서 데이터셋에서 샘플을 제거하거나 다른 샘플이나 특성에서 누락된 값을 대체하는 실용적인 몇 가지 기법을 살펴보겠습니다.