머신 러닝을 위한 수학 with 파이썬, R: 6.2.1 일원 분산분석

자료의 모든 값과 전체 자료의 평균의 차이를 제곱하여 합한 전체제곱합(SST), 자료를 요인의 수준별로 나눈 다음 각 요인의 수준별 평균과 전체 자료의 평균의 차이를 제곱하여 합한 처리제곱합(SSTR), 개별 자료의 값과 개별 자료가 속한 요인의 수준별 평균의 차이를 제곱하여 합한 오차제곱합(SSE)으로 구분할 수 있다.

여기서 SST를 자료가 갖는 변동량 혹은 어떤 정보의 총량이라고 하면 SSTR은 요인의 수준별 평균과 전체 자료의 평균의 차이를 알려주는 정보가 되고, SSE는 요인의 수준별 평균과 전체 자료의 평균의 차이인 SSTR로 설명되지 않는 부분을 얘기해준다. 당연히 SSTR이 클수록 자료의 전체 정보를 요인으로 잘 설명할 수 있다. 이렇게 계산된 값들을 일목요연하게 정리한 표를 일원 분산분석표(one-way ANOVA table)라고 하며 다음 표 6-2처럼 나타낸다.

▼ 표 6-2 일원 분산분석표

	제곱합 (Sum of Squares)	자유도 (Degrees of Freedom)	평균 제곱 (Mean Squared Error)	F 통계량 (F statistics)
처리	SSTR	r - 1	MSTR	MSTR/MSE
오차	SSE	nT - r	MSE
전체	SST	nT - 1

표 6-2에서 MSTR(평균처리제곱)은 SSTR을 요인 수준별로 속하는 자유도(각 요인에 속하는 자료의 개수 - 1)로 나눠준 일종의 평균이고, MSE(평균오차제곱)도 오차에 대해 같은 방식으로 계산했다. MSTR과 MSE은 분산과 유사하게 계산된다. F 통계량으로 요인 수준 간 평균을 검정하게 되는데, MSTR이 커지면 MSE은 작아지며, F 통계량 값은 커진다. 즉, 요인 수준이 설명하는 정도가 커지면 F 통계량도 커지고, 반면 요인이 자료의 변동을 잘 설명하지 못해서 오차 부분이 커지면 F 통계량은 작아진다.

귀무 가설: μ₁ = μ₂ =… = μ_r
대립 가설(모든 μ_i는 같지 않다): i = 1, 2, …, r

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.