더북(TheBook)

04 | 분할표

분할표Contingency Table는 명목형Categorical 또는 순서형Ordinal 데이터의 도수frequency를 표 형태로 기록한 것이다. 분할표가 작성되면 카이 제곱 검정Chi Square Test으로 변수 간에 의존 관계가 있는지를 독립성 검정으로, 도수가 특정 분포를 따르는지를 적합도 검정Goodness of Fit으로 살펴볼 수 있다.

<Note> 명목형, 순서형 데이터

명목형 데이터는 가능한 값이 제한되어 있고 종종 고정되어 있는 변수를 의미한다. 예를 들면, 국가명, 혈액형 등이다.

순서형 데이터는 값의 순서를 숫자로 저장한 변수다. 예를 들어, 설문 조사에서 제품 만족도를 조사하면서 응답을 매우 만족, 만족, 보통, 불만족, 매우 불만족으로 받을 수 있다. 이들 응답은 각각 5(매우 만족), 4(만족), 3(보통), 2(불만족), 1(매우 불만족)로 저장할 수 있는데, 이때 큰 값은 더 큰 만족을 의미한다. 하지만 이 값들 간에 비례적 관계는 존재하지 않는다. 예를 들어, 5는 2보다 큰 값이므로 더 만족한다는 의미지만 2.5배(5 / 2 = 2.5) 더 만족한다는 의미는 아니다.

분할표가 사용되는 한 가지 경우는 기계 학습으로 데이터의 양성Positive, 음성Negative을 예측할 때다. 예를 들어, 이메일 텍스트를 보고 해당 이메일이 스팸인지 아닌지를 예측하는 경우를 생각해보자. 이때 두 가지 변수는 예측값(모델로 스팸인지를 판단한 결과)과 실제 값(실제로 해당 이메일이 스팸인지 여부)이다. 이런 실험에서 분할표의 모양은 다음과 같다.

예측 - 스팸

예측 - 스팸 아님

실제 - 스팸

a

b

실제 - 스팸 아님

c

d

표에서 a는 주어진 이메일이 실제로 스팸일 때 모델의 예측 결과도 스팸인 경우의 수다. b는 실제로 스팸인데 예측은 스팸이 아니라고 된 경우다. c와 d도 유사하게 해석할 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.