더북(TheBook)

좀 더 자세히 살펴보면 다음 작업을 수행하게 됩니다.

 

그림 1-4 | 데이터 수집 가공, 분석 과정 상세

 

데이터 수집: 데이터베이스, 웹, 문서 파일 등에서 데이터를 가져오는 과정입니다.

데이터 정리: 분석하기 쉽게 정돈된 데이터(tidy data)로 만드는 과정입니다. 데이터를 분석하기 전에 미리 정리한다고 하여 전처리(pre-processing)라고도 합니다.

데이터 변형, 시각화, 이해하기: 이 책에서 가장 많이 다룰 내용입니다. 데이터를 분석 주제에 맞게 사용할 수 있도록 정리하는 작업(변형)을 포함하여, 데이터가 무엇을 말하는지 그래프로 그리고 확인하며(시각화) 결과를 해석합니다(이해하기). 이 과정에서 데이터를 분석에 적합하게 만들어 분석 기법을 적용하는 모델링을 진행할 수도 있습니다. 또 최종적으로 의미를 도출할 때까지 이 과정을 반복할 수 있습니다.

의사소통: 도출된 결과를 다른 사람에게 전달하고 공유합니다.

 

앞서 상세한 데이터 분석 과정은 ‘데이터 과학 프로젝트’ 과정이기도 합니다. 데이터 분석의 각 과정에는 매우 많은 이론과 기법이 있습니다. 이런 이론과 기법을 단기간에 모두 익히는 것은 굉장히 어려운 일입니다. 머리말에서도 밝혔듯이 이 책이 의도한 바는 이런 내용들을 처음부터 끝까지 모두 익히려는 것이 아닙니다. 그렇기에 이 책에서는 제시한 ‘데이터 처리하기 → 그려 보기 → 이해하기’ 과정으로 데이터 분석을 진행하겠습니다. 간략하지만 주요 분석 과정이 포함되도록 진행할 것입니다.

 

그렇다면 데이터를 분석할 때 왜 이런 과정을 거쳐야 할까요? 답은 이 책에 있습니다. 지금까지 언급한 내용이 무슨 말인지 감이 오지 않는 독자도 있을 것입니다. 하지만 너무 걱정할 것은 없습니다. 이 책은 앞서 언급한 데이터 분석 과정을 자세하고 쉽게 설명할 것이기 때문입니다. 책 내용을 하나씩 따라 하다 보면 지금까지 한 말이 무슨 의미인지 알게 될 것입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.