머신 러닝 교과서: 파이토치 편: 6.1.1 위스콘신 유방암 데이터셋

3. 클래스 레이블(진단 결과)을 배열 y에 인코딩하면 악성(malignant) 종양은 클래스 1로 표현되고 양성(benign) 종양은 클래스 0으로 각각 표현됩니다. 두 개의 더미 클래스 레이블 샘플로 LabelEncoder 객체의 transform 메서드를 호출해서 이 매핑을 다시 확인해 보죠.

>>> le.transform(['M', 'B'])
array([1, 0])

4. 다음 절에서 첫 번째 모델 파이프라인을 구성하기 전에 데이터셋을 훈련 데이터셋(전체 데이터의 80%)과 별도의 테스트 데이터셋(전체 데이터의 20%)으로 나눕니다.

>>> from sklearn.model_selection import train_test_split
>>> X_train, X_test, y_train, y_test = \
>>>     train_test_split(X, y,
...                      test_size=0.20,
...                      stratify=y,
...                      random_state=1)

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.