훈련 데이터셋에는 b개의 사례가, 테스트 데이터셋에는 c개의 사례가 있다고 하겠습니다. 개별 훈련 사례는 (X, y)로 표현할 수 있습니다.
훈련 데이터셋에 있는 개별 훈련 사례는 위첨자를 이용해 표현하며, 라벨이 있는 데이터셋은 다음과 같이 표기합니다.
D = {(X(1),y(1)), (X(2),y(2)), ..... , (X(d),y(d))}
전체 데이터셋은 Dtrain과 Dtest로 나눌 수 있으며, 훈련 데이터셋은 다음과 같이 표기할 수 있습니다. 위첨자를 유의하세요.
Dtrain = {(X(1),y(1)), (X(2),y(2)), ..... , (X(b),y(b))}
모델 훈련의 목적은 훈련 사례의 예측값을 실젯값에 최대한 가까워지게 하는 것입니다. 수식으로 표현하자면 ý(i)≈ y(i)(1 ≤ i ≤ b)와 같습니다.
테스트 데이터셋도 다음과 같이 표기합니다.
Dtest = {(X(1),y(1)), (X(2),y(2)), ..... , (X(c),y(c))}
타깃 변수의 값은 다음과 같이 벡터 Y로 표기합니다.
Y ={ y(1), y(2), ... }