더북(TheBook)

훈련 데이터셋에는 b개의 사례가, 테스트 데이터셋에는 c개의 사례가 있다고 하겠습니다. 개별 훈련 사례는 (X, y)로 표현할 수 있습니다.

훈련 데이터셋에 있는 개별 훈련 사례는 위첨자를 이용해 표현하며, 라벨이 있는 데이터셋은 다음과 같이 표기합니다.

D = {(X(1),y(1)), (X(2),y(2)), ..... , (X(d),y(d))}

전체 데이터셋은 Dtrain과 Dtest로 나눌 수 있으며, 훈련 데이터셋은 다음과 같이 표기할 수 있습니다. 위첨자를 유의하세요.

Dtrain = {(X(1),y(1)), (X(2),y(2)), ..... , (X(b),y(b))}

모델 훈련의 목적은 훈련 사례의 예측값을 실젯값에 최대한 가까워지게 하는 것입니다. 수식으로 표현하자면 ý(i)≈ y(i)(1 ≤ ib)와 같습니다.

테스트 데이터셋도 다음과 같이 표기합니다.

Dtest = {(X(1),y(1)), (X(2),y(2)), ..... , (X(c),y(c))}

타깃 변수의 값은 다음과 같이 벡터 Y로 표기합니다.

Y ={ y(1), y(2), ... }

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.