더북(TheBook)

7.3 EDA

앞서 Overview와 데이터 소개에서는 표면적으로 알 수 있는 데이터의 특성을 알아봤습니다. 하지만 이것만으로는 데이터가 가진 디테일한 특성을 모두 확인할 수 없습니다. EDA(Exploratory Data Analysis) 즉, 탐색적 데이터 분석은 데이터를 하나하나 뜯어보면서 주어진 데이터의 통계적 특성을 알아보고, 데이터의 품질(Quality)을 체크하고, 데이터 Description을 읽었을 때 생긴 호기심과 궁금증을 검증해보는 단계라고 할 수 있습니다. 말하자면 데이터를 세세한 부분까지 이해하는 과정인 것이죠.

EDA 과정에서 발생한 결과가 데이터 분석에 직접 사용되지 않을 수 있지만, 여기서 알게 된 경험과 인사이트가 전처리 과정, 모델을 설계하고 학습하는 과정에 간접적으로도 영향을 끼치기 때문에, 많은 캐글러가 본격적인 작업에 앞서 꼭 거치는 단계입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.