더북(TheBook)

06 | 또 다른 특징의 발견

지금까지 rpart, ctree를 사용한 모델링을 수행했고 그 결과 survived에 대한 예측 정확도가 0.808에서 0.812로 향상되는 것을 봤다. 그리고 분류 Y를 예측하기 위한 변수인 데이터의 특징(피처)feature으로는 pclass, sex, age, sibsp, parch, fare, embarked처럼 데이터에 직접 주어진 속성을 사용해왔다.

이제 생각해볼 수 있는 성능 향상 기법은 데이터에 숨겨진 또 다른 특징을 발견하는 것이다. 이 절에서 생각해볼 아이디어는 ‘가족’이다. 혹시 부모가 사망한 경우 보호자가 없어진 자식의 사망률이 더 낮아지지는 않았을까? 또는 자식이 있는 부모의 경우 자식을 살리기 위해 부모가 희생하지는 않았을까? 반대로 젊은 자녀가 나이든 부모를 구하기 위해 희생하지는 않았을까? 이런 점들을 생각해보면 가족 단위로 데이터를 묶어서 모델링하는 것이 의미 있어 보인다.

이러한 연관 관계를 표현하기 위해 데이터에 가족 단위 식별 번호인 family_id를 부여하고, 한 사람의 생존 가능성을 평가할 때 다른 가족 구성원의 생사 여부를 고려하는 모델을 만들어보자.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.