모두의 데이터 분석 with 파이썬: 1 지하철 시간대별 이용 현황 데이터 정제하기

실행 결과를 살펴보니 헤더(header) 데이터가 2개의 행으로 이루어진 것을 알 수 있습니다. 첫 번째 행에는 사용월, 호선명, 역 ID, 역 이름 그리고 AM 4:00부터 다음 날 AM 3:00까지의 시간이 1시간 단위로 구분되어 있네요. 두 번째 행에서는 공백('') 네 개와 승차와 하차가 번갈아 나옵니다. 그런데 이 두 줄의 데이터는 분석에 직접적인 영향을 주지 않으므로 next() 함수로 제외시키겠습니다. 그리고 이후 이어지는 각 행의 4번 인덱스부터 마지막까지의 데이터는 정수로 바꿔보겠습니다. Unit 11에서는 for 반복문을 사용했었는데 이번에는 map() 함수를 사용해서 데이터를 한꺼번에 정수형으로 바꿔봅시다.

next(data)
next(data)
for row in data :
    row[4:] = map(int, row[4:])
    print(row)

실행 결과

['2018-08', '1호선', '0150', '서울역', 838, 42, 11692, 8631, 14030, 49163, 39205, 109430, 79162, 234939, 60617, 159840, 65512, 87504, 83998, 77992, 94356, 84074, 95114, 84591, 79701, 80728, 108804, 81198, 113754, 86239, 159234, 92065, 244115, 103327, 138351, 77226, 97955, 55318, 93604, 46929, 70655, 35907, 35980, 19417, 3847, 7378, 3, 421, 0, 0, 0, 0]
(생략)

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.