3.4.2 슬랙 변수를 사용하여 비선형 분류 문제 다루기
최대 마진 분류 이면에 있는 수학 개념에 너무 깊이 들어가지 않겠습니다. 1995년 블라드미르 바프닉(Vladimir Vapnik)이 소개한 슬랙 변수 ξ 만 간략히 소개하겠습니다. 이를 소프트 마진 분류(soft margin classification)라고 합니다.21 슬랙 변수는 선형적으로 구분되지 않는 데이터에서 선형 제약 조건을 완화할 필요가 있기 때문에 도입되었습니다. 이를 통해 적절히 비용을 손해 보면서 분류 오차가 있는 상황에서 최적화 알고리즘이 수렴합니다.
양수 값인 슬랙 변수를 선형 제약 조건에 더하면 됩니다.
여기서 N은 데이터셋에 있는 샘플 개수입니다. (제약 조건하에서) 최소화할 새로운 목적 함수는 다음과 같습니다.
변수 C를 통해 분류 오차에 대한 비용을 조정할 수 있습니다. C 값이 크면 오차에 대한 비용이 커집니다. C 값이 작으면 분류 오차에 덜 엄격해집니다. 매개변수 C를 사용하여 마진 폭을 제어할 수 있고, 결국 그림 3-10과 같이 편향 -분산의 트레이드오프를 조정합니다.
▲ 그림 3-10 C 값에 따라 달라지는 SVM의 결정 경계와 마진
이 개념은 규제와 관련이 있습니다. 이전 절에서 언급한 것처럼 규제가 있는 로지스틱 회귀 모델은 C 값을 줄이면 편향이 늘고 모델 분산이 줄어듭니다.
21 역주 이전 절에서 소개한 슬랙 변수가 없는 경우를 하드 마진(hard-margin) 분류라고도 합니다.