다음은 머신러닝 기법을 다루는 데 필요한 몇 가지 기호입니다.
▼ 표 7-2 머신러닝 관련 기호
변수 |
의미 |
y |
실제 라벨 |
ý |
예측 라벨 |
d |
전체 사례 개수 |
b |
훈련 사례 개수 |
c |
테스트 사례 개수 |
이러한 기호들을 실제로 어떻게 사용하는지 알아봅시다.
앞에서 설명한 것처럼 특성 벡터는 모든 특성이 담긴 자료 구조입니다.
전체 특성 개수가 n이고 훈련 사례 개수가 b라고 하겠습니다. X_train은 훈련 특성 벡터입니다. 각 사례는 훈련 특성 벡터의 행(row)으로 표현됩니다.
훈련 데이터셋이 b개의 사례로 구성되어 있다면 X_train도 b개의 행을 갖고, 훈련 데이터셋의 변수가 n개라면 훈련 특성 벡터도 n개의 열을 가집니다. 종합하면 다음 그림처럼 훈련 데이터셋의 차원은 n × b입니다.
▲ 그림 7-1 훈련 데이터셋의 차원