12.2.2 데이터 정제하기
앞에서 생성한 titanic_data 테이블을 조회해 보겠습니다.
코드 12-21
SELECT *
FROM titanic_data;
실행결과
결과를 보면 데이터 정제가 필요한 대상이 몇 개 보입니다. 먼저 survived 칼럼은 생존 여부를 나타내는데 0은 사망, 1은 생존을 뜻하죠. 따라서 데이터를 분석하기 쉽게 0과 1 대신 사망과 생존으로 변경하겠습니다. gender 칼럼도 영문으로 되어 있으니 남성과 여성으로 변경합니다. embarked 칼럼은 타이타닉호의 탑승 항구를 의미하는데, 알파벳이니 이 칼럼도 표 12-3을 참조해 우리말로 변경합니다.
데이터 정제 대상을 정리하면 다음과 같습니다.
▼ 표 12-4 titanic_data 테이블의 데이터 정제 내역
대상 칼럼 |
변경 값 |
survived |
0 → 사망 1 → 생존 |
gender |
Male → 남성 female → 여성 |
embarked |
C → 프랑스 셰르부르 Q → 아일랜드 퀸즈타운 S → 영국 사우샘프턴 |