더북(TheBook)

11장 타이타닉 데이터를 사용한 기계 학습 실습

이 장에서는 타이타닉호의 생존자 데이터로부터 각 탑승자의 생존 여부를 예측하는 기계 학습 모델을 만드는 사례를 살펴본다. 이를 통해 이 책에서 설명한 내용을 종합적으로 복습하고 좀 더 복잡한 R 코드를 작성하는 방법을 연습해볼 것이다. 타이타닉 데이터는 데이터양이 많지 않고 데이터의 의미도 이해하기 쉬우며, 처리할 데이터의 포맷도 비교적 간단하다. 그래서인지 기계 학습 대회 사이트인 kaggle.com에서도 기계 학습을 위한 학습 자료[1]로 제시되어 있기도 하다. 이 장을 학습하고 난 뒤 kaggle에서 직접 자신의 알고리즘으로 다른 사람들과 경쟁해보는 것도 재미있는 경험이 될 것이다. 이 장에서 설명할 대략의 흐름은 다음과 같다. 타이타닉호 승선자 데이터를 다운로드한 뒤 이를 기계 학습 알고리즘 실행에 적합한 형태로 변환한다. 다음으로 데이터의 대략적인 모습을 살펴보고, 여러 알고리즘을 적용해 생존자 예측을 수행해본다. 마지막으로 성능을 개선할 수 있는 다양한 아이디어를 추가해 모델을 개선한다.

01  타이타닉 데이터 형식

02  데이터 불러오기

03  데이터 탐색

04  평가 메트릭

05  의사 결정 나무 모델

06  또 다른 특징의 발견

07  교차 검증의 병렬화

08  더 나은 알고리즘의 개발

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.