더북(TheBook)

다음은 머신러닝 기법을 다루는 데 필요한 몇 가지 기호입니다.

▼ 표 7-2 머신러닝 관련 기호

변수

의미

y

실제 라벨

ý

예측 라벨

d

전체 사례 개수

b

훈련 사례 개수

c

테스트 사례 개수

이러한 기호들을 실제로 어떻게 사용하는지 알아봅시다.

앞에서 설명한 것처럼 특성 벡터는 모든 특성이 담긴 자료 구조입니다.

전체 특성 개수가 n이고 훈련 사례 개수가 b라고 하겠습니다. X_train은 훈련 특성 벡터입니다. 각 사례는 훈련 특성 벡터의 행(row)으로 표현됩니다.

훈련 데이터셋이 b개의 사례로 구성되어 있다면 X_trainb개의 행을 갖고, 훈련 데이터셋의 변수가 n개라면 훈련 특성 벡터도 n개의 열을 가집니다. 종합하면 다음 그림처럼 훈련 데이터셋의 차원은 n × b입니다.

▲ 그림 7-1 훈련 데이터셋의 차원

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.