더북(TheBook)

표 3-1은 iris 데이터셋과 연관된 조각들을 담고 있습니다. 제가 사용한 일반 표현과 축약어를 살펴보세요. 이러한 용어를 일관되게 사용하도록 노력하겠습니다. 아마도 다른 책이나 블로그, 기사나 토크를 보면 용어를 조금씩 다르게 사용한 것을 볼 수 있습니다. 너무 걱정하지 마세요. 용어가 조금씩 달라도 의미는 매우 비슷합니다. 그래도 머신 러닝에서 새로운 것을 배울 때는 용어를 잘 정립하고 들어가는 것이 좋습니다.

▼ 표 3-1 파이썬 변수와 iris 데이터 컴포넌트의 관계

iris 파이썬 변수

기호

iris

Dall

(전체) 데이터셋

iris.data

Dftrs

훈련과 테스트 특성

iris.target

Dtgt

훈련과 테스트 타깃

iris_train_ftrs

Dtrain

훈련 특성

iris_test_ftrs

Dtest

테스트 특성

iris_train_tgt

Dtraintgt

훈련 타깃

iris_test_tgt

Dtesttgt

테스트 타깃

표에서 조금 아쉬운 점은 iris.data가 모든 입력 특성을 의미한다는 것입니다. 그러나 이는 scikit-learn이 선택한 용어입니다. 안타깝게도 파이썬 변수명 data는 수학적 표현 x와 같은 의미로 사용됩니다. 둘 다 일반적인 구분자입니다. data는 그 이름처럼 어떤 형태의 정보를 지칭합니다. 따라서 scikit-learn이 iris.data에서 data를 특정한 의미로 사용하고 있지만, 필자는 조금 더 특정한 구분자인 Dftrs를 사용하여 전체 데이터셋의 특성을 지칭하도록 하겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.