더북(TheBook)

이번 장에서는 상관분석과 분산분석에 대해 살펴보겠다. 상관분석은 두 변수의 선형적인 관계를 확인하며 -1~+1 사이의 값을 갖는다. 상관분석에 대해 가설 검정을 할 수 있는데, 이때 귀무 가설은 두 변수의 선형적 관계가 없음(상관관계=0)이고, 대립 가설은 두 변수의 선형적 관계가 있음(상관관계≠0)을 의미한다. 분산분석은 여러 집단 이상의 평균을 비교할 때 사용되며, 분산을 계산할 때처럼 편차의 제곱합을 해당 자유도로 나누어서 요인의 수준별 평균 차이를 사용한다. 상관분석과 분산분석은 그 자체만으로도 좋은 데이터 분석 기법으로 우리 주변의 많은 부분에 적용할 수 있다. 이 두 기법은 추후 선형 회귀 분석으로 확장되기도 하고, 많은 머신 러닝 알고리즘에서도 약방의 감초처럼 활용된다. 머신 러닝, 딥러닝과 같은 유행하는 기법을 적용하기에 앞서, 상관분석과 분산분석부터 시작해보자.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.