6.6 핵심 요약
1. 상관분석
- 두 변수의 선형적인 관계를 확인할 수 있으며, -1~1 사이의 값을 갖는다.
- 예를 들어 아버지와 딸의 키, 소득과 지출, 흡연량과 폐암, 공정 온도와 강도 등의 관계를 살펴보기 위해 사용된다.
- 귀무 가설은 두 변수의 선형적 관계가 없음(상관관계=0)이고, 대립 가설은 두 변수의 선형적 관계가 있음(상관관계≠0)이다.
2. 분산분석(ANOVA, Analysis of variance)
- 영국의 통계학자 피셔가 고안한 분석 기법으로 농업 연구에서 처음 사용되었으며, 사회과학, 공학, 의학 등 다양한 분야에 폭넓게 적용된다.
- 세 집단 이상의 평균을 비교할 때 사용하며, 분산을 계산하는 방식처럼 편차들의 제곱합을 해당 자유도로 나누어서 얻는 값을 이용한다. 요인 수준별 평균의 차이로 판단한다.
- 독립 변수는 범주형 자료(categorical data), 종속 변수는 연속형 자료(continuous data)를 사용한다.
- 분산분석은 관측값의 전체제곱합(Total Sum of Squares)을 비교하려는 요인 수준(factor level) 간 차이에 의해서 발생하는 처리제곱합(Treatment Sum of Squares)과 그외 요인에 의한 오차제곱합(Error Sum of Squares)으로 나누어 분석한다.
SST = SSTR + SSE