더북(TheBook)

7.1.1 지도 학습 구조 소개

지도 학습 알고리즘을 상세히 알아보기 전에 먼저 지도 학습에 관한 기본 용어를 짚고 넘어갑시다.

▼ 표 7-1 지도 학습 용어

용어

설명

타깃 변수(target variable)

우리가 모델을 통해 예측하고 싶은 변수를 타깃 변수라고 합니다.

라벨(label)

예측하려는 변수가 카테고리형 변수라면 이를 라벨이라고 합니다.

특성(feature)

라벨을 예측하는 데 사용하는 입력 변수들을 특성이라고 합니다.

특성 엔지니어링(feature engineering)

선택한 지도 학습 알고리즘을 위해 특성들을 변환하는 과정을 특성 엔지니어링이라고 합니다.

특성 벡터

(feature vector)

지도 학습 알고리즘에 데이터를 입력하기 전에 사용할 특성들을 결합해 둔 자료 구조를 특성 벡터라고 합니다.

과거 데이터(historical data)

타깃 변수와 특성들의 관계를 학습하기 위해 모은 과거의 데이터를 말합니다. 과거 데이터는 사례(example)들로 구성됩니다.

훈련/테스트 데이터(training/testing data)

사례가 담긴 과거 데이터를 두 부분으로 나눕니다. 큰 부분을 훈련 데이터, 작은 부분을 테스트 데이터라고 합니다.

모델(model)

타깃 변수와 특성 간의 관계를 가장 잘 포착한 수학적 공식입니다.

훈련(training)

훈련 데이터로 모델을 학습하는 과정입니다.

테스트(testing)

테스트 데이터로 훈련된 모델의 품질을 평가하는 과정입니다.

예측(prediction)

모델을 이용해 타깃 변수를 예측합니다.

주의 ≡

훈련이 완료된 지도 학습 모델은 입력 특성을 이용해 타깃 변수를 예측할 수 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.