표 3-1은 iris 데이터셋과 연관된 조각들을 담고 있습니다. 제가 사용한 일반 표현과 축약어를 살펴보세요. 이러한 용어를 일관되게 사용하도록 노력하겠습니다. 아마도 다른 책이나 블로그, 기사나 토크를 보면 용어를 조금씩 다르게 사용한 것을 볼 수 있습니다. 너무 걱정하지 마세요. 용어가 조금씩 달라도 의미는 매우 비슷합니다. 그래도 머신 러닝에서 새로운 것을 배울 때는 용어를 잘 정립하고 들어가는 것이 좋습니다.
▼ 표 3-1 파이썬 변수와 iris 데이터 컴포넌트의 관계
iris 파이썬 변수 |
기호 |
뜻 |
iris |
Dall |
(전체) 데이터셋 |
iris.data |
Dftrs |
훈련과 테스트 특성 |
iris.target |
Dtgt |
훈련과 테스트 타깃 |
iris_train_ftrs |
Dtrain |
훈련 특성 |
iris_test_ftrs |
Dtest |
테스트 특성 |
iris_train_tgt |
Dtraintgt |
훈련 타깃 |
iris_test_tgt |
Dtesttgt |
테스트 타깃 |
표에서 조금 아쉬운 점은 iris.data가 모든 입력 특성을 의미한다는 것입니다. 그러나 이는 scikit-learn이 선택한 용어입니다. 안타깝게도 파이썬 변수명 data는 수학적 표현 x와 같은 의미로 사용됩니다. 둘 다 일반적인 구분자입니다. data는 그 이름처럼 어떤 형태의 정보를 지칭합니다. 따라서 scikit-learn이 iris.data에서 data를 특정한 의미로 사용하고 있지만, 필자는 조금 더 특정한 구분자인 Dftrs를 사용하여 전체 데이터셋의 특성을 지칭하도록 하겠습니다.