11장 타이타닉 데이터를 사용한 기계 학습 실습
이 장에서는 타이타닉호의 생존자 데이터로부터 각 탑승자의 생존 여부를
예측하는 기계 학습 모델을 만드는 사례를 살펴본다. 이를 통해 이 책에서
설명한 내용을 종합적으로 복습하고 좀 더 복잡한 R 코드를 작성하는 방법을
연습해볼 것이다.
타이타닉 데이터는 데이터양이 많지 않고 데이터의 의미도 이해하기 쉬우며,
처리할 데이터의 포맷도 비교적 간단하다. 그래서인지 기계 학습 대회
사이트인 kaggle.com에서도 기계 학습을 위한 학습 자료[1]로 제시되어
있기도 하다. 이 장을 학습하고 난 뒤 kaggle에서 직접 자신의 알고리즘으로
다른 사람들과 경쟁해보는 것도 재미있는 경험이 될 것이다.
이 장에서 설명할 대략의 흐름은 다음과 같다. 타이타닉호 승선자 데이터를
다운로드한 뒤 이를 기계 학습 알고리즘 실행에 적합한 형태로 변환한다.
다음으로 데이터의 대략적인 모습을 살펴보고, 여러 알고리즘을 적용해
생존자 예측을 수행해본다. 마지막으로 성능을 개선할 수 있는 다양한
아이디어를 추가해 모델을 개선한다.
01 타이타닉 데이터 형식
02 데이터 불러오기
03 데이터 탐색
04 평가 메트릭
05 의사 결정 나무 모델
06 또 다른 특징의 발견
07 교차 검증의 병렬화