1.3.2 머신 러닝 용어
머신 러닝은 여러 연구 분야의 과학자들이 관여하기 때문에 분야가 방대하고 관련된 학문이 많습니다. 이 과정에서 많은 용어와 개념이 재발견되거나 재정의되었고 이미 알고 있는 내용이 다른 이름으로 등장하기도 합니다. 다음 목록에서 이 책과 다른 머신 러닝 책을 읽을 때 자주 등장하는 용어와 동의어를 정리했습니다.
• 훈련 샘플: 데이터셋을 나타내는 테이블의 행. 동의어로는 관측(observation), 레코드(record), 인스턴스(instance), 예시(example)가 있습니다(대부분의 경우 샘플은 훈련 예시의 집합을 의미합니다).9
• 훈련: 모델 피팅(fitting). 모수 모델(parametric model)의 경우 파라미터 추정(parameter estimation)과 비슷합니다.
• 특성(x): 데이터 테이블이나 데이터 행렬의 열. 동의어로는 예측 변수(predictor variable), 변수, 입력, 속성(attribute), 공변량(covariate)이 있습니다.
• 타깃(y): 동의어로는 결과(outcome), 출력(output), 반응 변수, 종속 변수(dependent variable), (클래스) 레이블(label), 정답(ground truth)이 있습니다.
• 손실 함수(loss function): 종종 비용 함수(cost function)와 동의어로 사용합니다. 일부 자료에서는 손실 함수를 하나의 데이터 포인트에 대해 측정한 손실로 사용하고, 비용 함수는 전체 데이터셋에 대해 계산한 손실(평균 또는 합)로 사용합니다.