더북(TheBook)

팩터 데이터 타입의 차트에는 모자이크 플롯을 사용할 수 있다. pclass, sex에 따라 생존 여부가 어떻게 달라지는지 살펴보자.

> mosaicplot(survived ~ pclass + sex, data=data, color=TRUE,
+            main="pclass and sex")

그림 11-3에 실행 결과를 보였다. pclass가 3, 성별이 male인 경우(즉, 3등석 남성) 사망자가 가장 많고 pclass가 1, 성별은 female(1등석 여성)인 경우 사망자가 가장 적은 것을 볼 수 있다. 그러나 이 값은 탑승자 대비 사망률이 아니라 단순한 사망 또는 생존자 수임에 유의하기 바란다.

그림 11-3 mosaicplot( )의 실행 결과
그림 11-3 mosaicplot( )의 실행 결과

만약 pclass, sex별 생존율과 사망률을 보고 싶다면 분할표를 사용할 수 있다. 탑승자 수는 다음과 같이 구한다.

> xtabs(~ sex + pclass, data=data)
        pclass
sex        1   2   3
  female 118  83 174
  male   140 143 403

생존자 수는 survived 컬럼의 값이 “survived”인 행의 수다.

> xtabs(survived == "survived" ~ sex + pclass, data=data)
        pclass
sex        1  2  3
  female 115 75 84
  male    44 21 66

편리하게도 xtabs( )은 연산자를 지원한다. 따라서 두 결과를 조합해 생존율을 구할 수 있다.

> xtabs(survived == "survived" ~ sex + pclass, data=data) / xtabs( ~ sex + pclass, data=data)
          pclass
sex          1     2     3
  female 0.975 0.904 0.483
  male   0.314 0.147 0.164

지금까지 살펴본 다양한 방법을 활용해 데이터가 어떤 모습을 보이고 있는지, 주어진 데이터로부터 어떻게 하면 탑승객의 생존 여부를 잘 추정할 수 있을지 살펴보기 바란다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.