더북(TheBook)

3.2.1 이진 분류

간단한 이진 분류부터 시작해 보죠. 어떤 데이터가 주어지면 ‘예/아니요’ 결정을 내려야 합니다. 흥미로운 예를 들기 위해 피싱 웹 사이트 데이터셋16을 사용하겠습니다. 웹 페이지와 URL에 대한 특성이 주어지면 이 웹 페이지가 피싱(민감한 사용자 정보를 가로챌 목적으로 다른 사이트를 가장하는 것)에 사용되는지를 예측하는 작업입니다.

이 데이터셋은 30개의 특성을 가지고 있습니다. 두 개(-1과 1) 또는 세 개(-1, 0, 1)의 속성으로 이루어진 특성입니다. 보스턴 주택 데이터셋에서 했던 것처럼 개별 특성을 모두 나열하지 않고 대표적인 몇 개의 특성을 살펴보겠습니다.

HAVING_IP_ADDRESS: IP 주소를 도메인 이름 대신 사용하는지 여부(이진 값: {-1, 1})

SHORTENING_SERVICE: URL 단축 서비스를 사용하는지 여부(이진 값: {-1, 1})

SSLFINAL_STATE: 1) URL이 HTTPS를 사용하고 인증 기관을 신뢰할 수 있는지, 2) HTTPS를 사용하지만 신뢰할 수 있는 인증 기관이 아닌지, 3) HTTPS를 사용하지 않는지(세 개의 값: {-1, 0, 1})

이 데이터셋은 약 5,500개의 훈련 샘플과 비슷한 개수의 테스트 샘플로 이루어져 있습니다. 훈련 세트에는 약 45%의 샘플이 양성(positive)(진짜 피싱 웹 페이지)입니다.17 양성 샘플의 비율은 테스트 세트도 비슷합니다.

이런 데이터셋이 가장 작업하기 쉬운 형태입니다. 데이터에 있는 특성이 이미 일정한 범위에 있어서 보스턴 주택 데이터셋처럼 평균과 표준 편차를 사용해 정규화할 필요가 없습니다. 또한, 특성 개수와 가능한 예측(여기서는 ‘예, 아니요’ 두 개)에 비해 비교적 훈련 샘플 개수가 많습니다. 이는 전체적으로 작업할 수 있는 데이터셋의 상태를 검사하는 데 좋습니다. 데이터를 조사하는 데 많은 시간을 들인다면 중복된 정보가 있는지 알기 위해 특성 간의 상관관계를 검사할 수 있습니다. 하지만 이는 신경망 모델이 감내할 수 있는 부분입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.