잠깐만요
기초 통계 이론과 통계적 가설 검정
9장을 학습하기 전에 간단히 기초 통계 이론과 통계적 가설 검정을 살펴보겠습니다. R은 데이터 분석, 그중에서도 통계 분석에 특화된 프로그램입니다. 통계와 분석은 서로 떼려야 뗄 수 없는 관계입니다. 통계를 알아야 할 수 있는 깊이 있는 분석들이 존재하기 때문입니다. 이 책에서는 고급 통계를 알지 못하더라도 진행할 수 있는 분석 기법을 위주로 다룹니다.
‘9장. 더 맛있는 요리하기: 멤버십 기획 프로젝트’에서는 좀 더 발전된 통계 분석 기법과 데이터 마이닝을 다루려고 합니다. 그러려면 기초 통계 이론과 통계적 가설 검정의 내용을 알아야 합니다. 기초 산수 능력만으로도 알 수 있도록 쉽게 설명할 예정이니 미리 어렵다고 겁내지 마세요. 하지만 읽다가 내용이 어렵게 느껴진다면 일단은 넘어가도 좋습니다. 9장에서 분석을 진행해 보고 이론을 학습해도 괜찮으니까요.
통계 분석은 크게 기술 통계(descriptive statistics)와 추론 통계(inferential statistics)로 나눌 수 있습니다.
• 기술 통계는 숫자들의 특성을 전체적으로 파악할 수 있도록 요약하고 묘사하는 통계 기법입니다. 우리가 지금까지 실습한 대부분의 내용이 기술 통계에 속한다고 할 수 있습니다. 인구 조사나 학생들의 성적 평균값 등이 기술 통계에 속합니다.
• 추론 통계는 숫자를 요약하는 것에서 더 나아가, 숫자를 기반으로 어떤 값이 발생할 확률을 계산하는 통계 기법입니다. 어떤 값이란 사건, 이벤트라고도 할 수 있습니다. 즉, 사건이 일어날 것을 확률로 예측하는 기법입니다. 보험 사고 발생 횟수 예측, 신약 유효성 검정 등이 추론 통계에 속합니다.
실무나 비즈니스 상황에서 대부분은 기술 통계만으로도 정리가 가능하지만, 경우에 따라서는 추론 통계를 요구하기도 합니다. 기술 통계와 추론 통계를 같이 익혀야 하는 이유입니다.
추론 통계를 간단히 알아보겠습니다. 먼저 가장 기본이 되는 분포8인 정규분포를 알아보겠습니다. 정규분포를 알기 전에 먼저 평균, 편차, 분산, 표준편차를 알아야 합니다.
8 일정 범위에 흩어져 있는 정도를 의미합니다. 분포를 이용하여 현상을 확인하고 예측할 수 있습니다.