더북(TheBook)

12.2.2 데이터 정제하기

앞에서 생성한 titanic_data 테이블을 조회해 보겠습니다.

코드 12-21

SELECT *
  FROM titanic_data;

실행결과

결과를 보면 데이터 정제가 필요한 대상이 몇 개 보입니다. 먼저 survived 칼럼은 생존 여부를 나타내는데 0은 사망, 1은 생존을 뜻하죠. 따라서 데이터를 분석하기 쉽게 0과 1 대신 사망과 생존으로 변경하겠습니다. gender 칼럼도 영문으로 되어 있으니 남성과 여성으로 변경합니다. embarked 칼럼은 타이타닉호의 탑승 항구를 의미하는데, 알파벳이니 이 칼럼도 표 12-3을 참조해 우리말로 변경합니다.

데이터 정제 대상을 정리하면 다음과 같습니다.

▼ 표 12-4 titanic_data 테이블의 데이터 정제 내역

대상 칼럼

변경 값

survived

0 → 사망

1 → 생존

gender

Male → 남성

female → 여성

embarked

C → 프랑스 셰르부르

Q → 아일랜드 퀸즈타운

S → 영국 사우샘프턴

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.