CASE 연산자로 age 칼럼을 10대 이하부터 70대 이상까지 구분해 연령대별 생존자 수와 사망자 수를 구했습니다.
결과를 보면 20대와 70대 이상 사망자가 많습니다. 좀 이상하지 않나요? 일반적인 상황에서는 연령이 높을수록 사망자가 많죠. 고령층은 지병이나 노화 때문에 젊은 층보다 사망률이 높다고 추측할 수 있죠. 하지만 타이타닉호는 사고로 침몰했습니다. 사고로 인한 사망자가 연령대가 높다고 해서 많을 수 있을까요? 또한 결과에서 70대 이상 탑승 인원이 다른 연령대보다 많은 편인데, 타이타닉호 사고는 1912년에 발생했습니다. 20세기 초는 평균 수명이 지금보다 현저히 낮았을 텐데 70대 이상이 다른 연령층보다 많다는 것도 좀 이해되지 않습니다.
다음 쿼리를 한번 실행해 보죠.
코드 12-26
SELECT age, COUNT(*)
FROM titanic
GROUP BY age
ORDER BY 1;
실행결과