모두의 데이터 분석 with 파이썬
초보자와 비전공자를 위한 가장 쉬운 데이터 분석 입문서!
“서울이 가장 더웠던 날은 언제였을까?” “우리 동네에는 남성과 여성 중 어떤 성별이 더 많이 살고 있을까?” ”출근 시간대 사람들이 가장 많이 타고 내리는 역은 어디일까?“데이터 분석의 시작은 관심 있는 데이터에 호기심을 가지는 것부터다. 이 책은 기온, 인구, 대중교통 같은 공공데이터를 활용한 데이터 분석 프로젝트를 진행한다. 데이터 다운로드부터 정제, 문제 해결 방법 구상, 파이썬 코드로 구현까지 차근차근 진행하면서, 초보자가 데이터 분석의 성공적인 첫걸음을 내딛도록 도와준다. 이어서 막대그래프 그리기, 파이 차트 그리기, 버블 차트 그리기 같은 다양한 시각화 방법부터 numpy, pandas 같은 라이브러리 활용법까지 다룬다. 최소한의 파이썬 문법만을 사용하여 설명하므로 프로그래밍 경험이 적은 사람도 충분히 따라 할 수 있다. 이제 데이터 분석 전문가가 아니어도, 자신의 업무에서, 일생생활 속에서, 다양한 데이터를 스스로 분석하여 가치를 얻는 즐거움을 경험해 보자!
목차
- • 첫째 마당 • 기온 공공데이터
- UNIT 01 기온 데이터 분석 시작하기
- 1 기온 공공데이터 살펴보기
- 2 CSV 파일이란
- 3 데이터 분석에 필요한 환경 만들기
- UNIT 02 서울의 기온 데이터 분석하기
- 1 CSV 파일에서 데이터 읽어오기
- ■ CSV 파일 다운로드
- ■ 주피터 노트북 실행하기
- 2 데이터 출력하기
- 3 헤더 저장하기
- 4 기온 공공데이터에 질문하기
- UNIT 03 서울이 가장 더웠던 날은 언제였을까
- 1 질문 다듬기
- 2 문제 해결 방법 구상하기
- 3 파이썬 코드로 구현하기
- • 둘째 마당 • 데이터 시각화 기초
- UNIT 04 기본 그래프 그리기
- 1 ‘matplotlib 라이브러리’란?
- 2 기본 그래프 그리기
- 3 그래프에 옵션 추가하기
- ■ 그래프에 제목 넣기
- ■ 그래프에 범례 넣기
- ■ 그래프 색상 바꾸기
- ■ 그래프 선 모양 바꾸기
- ■ 마커 모양 바꾸기
- UNIT 05 내 생일의 기온 변화를 그래프로 그리기
- 1 데이터에 질문하기
- ■ 데이터 읽어오기
- ■ 데이터 리스트에 저장하기
- 2 데이터 시각화하기
- 3 날짜 데이터 추출하기
- UNIT 06 기온 데이터를 다양하게 시각화하기
- 1 데이터에 질문하기
- 2 히스토그램
- ■ hist( ) 함수
- ■ 주사위 시뮬레이션
- 3 기온 데이터를 히스토그램으로 표현하기
- 4 기온 데이터를 상자 그림으로 표현하기
- • 셋째 마당 • 인구 공공데이터
- UNIT 07 우리 동네 인구 구조 시각화하기
- 1 인구 공공데이터 내려받기
- 2 인구 데이터 살펴보고 질문하기
- 3 우리 동네 인구 구조 시각화하기
- UNIT 08 인구 구조를 다양한 형태로 시각화하기
- 1 막대그래프 그리기
- ■ bar( ) 함수
- ■ barh( ) 함수
- 2 항아리 모양 그래프 그리기
- ■ 데이터 수집하기
- ■ 데이터 시각화하기
- UNIT 09 우리 동네 인구 구조를 파이 차트로 나타내기
- 1 제주도에는 여성의 비율이 더 높을까
- 2 혈액형 비율 표현하기
- ■ pie( ) 함수
- ■ 동그란 원 그리기
- ■ 레이블 추가하기
- ■ 비율 및 범례 표시하기
- ■ 색 및 돌출 효과 정하기
- 3 제주도의 성별 인구 비율 표현하기
- UNIT 10 우리 동네 인구 구조를 산점도로 나타내기
- 1 꺾은선 그래프로 표현하기
- 2 막대그래프로 표현하기
- 3 산점도로 표현하기
- 4 scatter( ) 함수로 표현하기
- 5 버블 차트로 표현하기
- 6 제주도의 연령대별 성별 비율을 산점도로 표현하기
- • 넷째 마당 • 대중교통 데이터 프로젝트
- UNIT 11 대중교통 데이터 시각화하기
- 1 대중교통 데이터 내려받기
- 2 지하철 유무임별 이용현황 데이터 정제하기
- 3 유임 승차 비율이 가장 높은 역은 어디일까
- 4 유무임 승하차 인원이 가장 많은 역은 어디일까
- 5 모든 역의 유무임 승하차 비율은 어떻게 될까
- UNIT 12 지하철 시간대별 데이터 시각화하기
- 1 지하철 시간대별 이용 현황 데이터 정제하기
- 2 출근 시간대 사람들이 가장 많이 타고 내리는 역은 어디일까
- 3 밤 11시에 사람들이 가장 많이 타는 역은 어디일까
- 4 시간대별로 사람들이 가장 많이 타고 내리는 역은 어디일까
- 5 모든 지하철역에서 시간대별 승하차 인원을 모두 더하면
- • 다섯째 마당 • 파이썬 데이터 분석 라이브러리를 활용한 프로젝트
- UNIT 13 숫자 데이터를 쉽게 다루게 돕는 numpy 라이브러리
- 1 matplotlib 홈페이지
- 2 numpy 라이브러리 시작하기
- 3 numpy 라이브러리를 활용해 그래프 그리기
- 4 numpy array 생성하기
- 5 numpy array의 다양한 활용
- UNIT 14 numpy를 활용한 나만의 프로젝트 만들기
- 1 관심 있는 데이터 찾기
- 2 데이터 살펴보며 질문하기
- 3 질문을 명확한 문제로 정의하기
- 4 알고리즘 설계하기
- 5 알고리즘을 코드로 표현하기
- ■ 1 | 데이터를 읽어온다.
- ■ 2 | 궁금한 지역의 이름을 입력받는다.
- ■ 3 | 궁금한 지역의 인구 구조를 저장한다.
- ■ 4 | 궁금한 지역의 인구 구조와 가장 비슷한 인구 구조를 가진 지역 찾기
- ■ 5 | 가장 비슷한 곳의 인구 구조와 궁금한 지역의 인구 구조를 시각화한다.
- UNIT 15 테이블 형태의 데이터를 쉽게 다루도록 도와주는 pandas 라이브러리
- 1 위키피디아 데이터 엑셀로 저장하기
- 2 pandas란
- 3 데이터 프레임 기초
- 4 pandas로 인구 구조 분석하기
- ■ 1 | 데이터 읽어오기
- ■ 2~3 | 궁금한 지역 이름 입력받고 해당 지역의 인구 구조 저장하기
- ■ 4~5 | 궁금한 지역의 인구 구조와 가장 비슷한 인구 구조를 가진 지역 시각화하기
- 부록 파이썬 병아리반
- 1 출력과 입력 그리고 변수
- ■ print( ) 함수로 출력하기
- ■ 변수
- ■ input( ) 함수로 문자열 값 입력받기
- 2 연산자 사용하기
- ■ 산술 연산자(arithmetic operator)
- ■ 비교 연산자(comparison operator)
- ■ 논리 연산자(logical operator)
- 3 함수 불러오기
- 4 반복과 선택
- ■ for 반복문
- ■ if 조건문
- 5 순서 있는 저장 공간 리스트
- ■ 리스트에 저장된 위치(index)로 값에 접근하기(indexing)
- ■ 리스트에 저장된 위치로 데이터의 일부 자르기(slicing)
- ■ 리스트에 값 추가하기