7.1.1 지도 학습 구조 소개
지도 학습 알고리즘을 상세히 알아보기 전에 먼저 지도 학습에 관한 기본 용어를 짚고 넘어갑시다.
▼ 표 7-1 지도 학습 용어
용어 |
설명 |
타깃 변수(target variable) |
우리가 모델을 통해 예측하고 싶은 변수를 타깃 변수라고 합니다. |
라벨(label) |
예측하려는 변수가 카테고리형 변수라면 이를 라벨이라고 합니다. |
특성(feature) |
라벨을 예측하는 데 사용하는 입력 변수들을 특성이라고 합니다. |
특성 엔지니어링(feature engineering) |
선택한 지도 학습 알고리즘을 위해 특성들을 변환하는 과정을 특성 엔지니어링이라고 합니다. |
특성 벡터 (feature vector) |
지도 학습 알고리즘에 데이터를 입력하기 전에 사용할 특성들을 결합해 둔 자료 구조를 특성 벡터라고 합니다. |
과거 데이터(historical data) |
타깃 변수와 특성들의 관계를 학습하기 위해 모은 과거의 데이터를 말합니다. 과거 데이터는 사례(example)들로 구성됩니다. |
훈련/테스트 데이터(training/testing data) |
사례가 담긴 과거 데이터를 두 부분으로 나눕니다. 큰 부분을 훈련 데이터, 작은 부분을 테스트 데이터라고 합니다. |
모델(model) |
타깃 변수와 특성 간의 관계를 가장 잘 포착한 수학적 공식입니다. |
훈련(training) |
훈련 데이터로 모델을 학습하는 과정입니다. |
테스트(testing) |
테스트 데이터로 훈련된 모델의 품질을 평가하는 과정입니다. |
예측(prediction) |
모델을 이용해 타깃 변수를 예측합니다. |
주의 ≡
훈련이 완료된 지도 학습 모델은 입력 특성을 이용해 타깃 변수를 예측할 수 있습니다.