더북(TheBook)

선형 분류기

한 개체가 어느 그룹에 속하는지 결정하려면 선형 분류기(linear classifiers)를 사용하여 개체들의 위치를 알아내고 정확한 분리선(초평면(hyperplane))을 확인해야 한다. 선의 한쪽 면에 개체가 속한 그룹이 있고, 반대편에는 다른 그룹이 있어야 한다(이론상으로는 그렇다. 사는 게 항상 이론대로 되는 것은 아니다. 뒷부분에서 더 자세히 이야기하겠다). 모든 오리가 한 줄로 줄지어 서있다고 가정하고 그룹을 둘로 분리한다.

그림 7-3처럼 눈으로는 간단해 보이지만, 우리는 수학적으로 계산해야 한다. 분류할 개체는 점(point)이라고 하며, 모든 점에는 여러 특성(set of features)이 있다.

▲ 그림 7-3 초평면이 있는 선형 분류

 

그래프의 각 점에는 x축 값과 y축 값이 있다. 분류점(classification point)은 다음과 같이 계산된다.

 

a, b, c 값으로 선을 정의한다. 이 값들은 우리가 선택하며 최적으로 맞출 때(확실하게 분리)까지 조정해야 한다. 하지만 우리의 관심사는 결과다. 함수의 결과가 양(+)의 값이면 +1을 돌려주고, 다른 카테고리에 속하면 -1을 돌려주어 점이 어느 카테고리에 속하는지 알려주는 함수가 필요하다. 함수의 결괏값(+1 또는 -1)은 분류하려는 모든 점에 대해 정확해야 한다.

정확히 분류된 훈련용 데이터 파일이 있어야 함수가 정확한지 아닌지 판단할 수 있다는 점을 잊지 마라. 이런 접근 방식이 지도 학습 방법이다. 이 단계는 선이 꼭 맞는 최적 공간을 알기 위해 필요하다. 집합을 구분하는 선에서 멀리 떨어진 점일수록 어느 집합에 속하는지 확실히 알 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.