이번 장에서는 상관분석과 분산분석에 대해 살펴보겠다. 상관분석은 두 변수의 선형적인 관계를 확인하며 -1~+1 사이의 값을 갖는다. 상관분석에 대해 가설 검정을 할 수 있는데, 이때 귀무 가설은 두 변수의 선형적 관계가 없음(상관관계=0)이고, 대립 가설은 두 변수의 선형적 관계가 있음(상관관계≠0)을 의미한다. 분산분석은 여러 집단 이상의 평균을 비교할 때 사용되며, 분산을 계산할 때처럼 편차의 제곱합을 해당 자유도로 나누어서 요인의 수준별 평균 차이를 사용한다. 상관분석과 분산분석은 그 자체만으로도 좋은 데이터 분석 기법으로 우리 주변의 많은 부분에 적용할 수 있다. 이 두 기법은 추후 선형 회귀 분석으로 확장되기도 하고, 많은 머신 러닝 알고리즘에서도 약방의 감초처럼 활용된다. 머신 러닝, 딥러닝과 같은 유행하는 기법을 적용하기에 앞서, 상관분석과 분산분석부터 시작해보자.