다음은 머신러닝 기법을 다루는 데 필요한 몇 가지 기호입니다.

    ▼ 표 7-2 머신러닝 관련 기호

    변수

    의미

    y

    실제 라벨

    ý

    예측 라벨

    d

    전체 사례 개수

    b

    훈련 사례 개수

    c

    테스트 사례 개수

    이러한 기호들을 실제로 어떻게 사용하는지 알아봅시다.

    앞에서 설명한 것처럼 특성 벡터는 모든 특성이 담긴 자료 구조입니다.

    전체 특성 개수가 n이고 훈련 사례 개수가 b라고 하겠습니다. X_train은 훈련 특성 벡터입니다. 각 사례는 훈련 특성 벡터의 행(row)으로 표현됩니다.

    훈련 데이터셋이 b개의 사례로 구성되어 있다면 X_trainb개의 행을 갖고, 훈련 데이터셋의 변수가 n개라면 훈련 특성 벡터도 n개의 열을 가집니다. 종합하면 다음 그림처럼 훈련 데이터셋의 차원은 n × b입니다.

    ▲ 그림 7-1 훈련 데이터셋의 차원

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.