더북(TheBook)

타이타닉 전체 데이터 중 분석에 필요한 데이터(칼럼)만 추출하여 전처리합니다.

코드 3-10 데이터 전처리

df = df[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Survived']] ------ 승객의 생존 여부를 예측하려고 ‘Pclass’, ‘Sex’, ‘Age’, ‘SibSp’, ‘Parch’, ‘Fare’ 사용
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1}) ------ 성별을 나타내는 ‘sex’ 를 0 또는 1의 정수 값으로 변환
df = df.dropna() ------ 값이 없는 데이터 삭제 
X = df.drop('Survived', axis=1) 
y = df['Survived'] ------ ‘Survived’ 값을 예측 레이블로 사용

훈련과 테스트 데이터셋으로 분리합니다.

코드 3-11 훈련과 테스트 데이터셋으로 분리

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)

사이킷런에서 제공하는 결정 트리 라이브러리를 이용하여 모델을 생성합니다.

코드 3-12 결정 트리 모델 생성

from sklearn import tree
model = tree.DecisionTreeClassifier()
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.