1.2.1 Pandas
데이터 분석 과정에서는 대량의 데이터를 수집하고 정제하는 작업이 필수입니다. 다양한 출처에서 데이터를 통합하거나 불필요한 데이터를 제거하는 등 여러 작업을 수행해야 합니다. Pandas를 사용하면 이러한 작업을 효율적으로 처리할 수 있습니다. 특히 대용량 데이터를 다룰 때는 엑셀 같은 스프레드시트 프로그램보다 Pandas가 훨씬 빠르고 유연합니다.
Pandas는 파이썬을 기반으로 한 데이터 처리 및 분석 라이브러리입니다. 데이터를 테이블 형태로 다루는 데 최적화되어 대용량 데이터를 효율적으로 처리할 수 있습니다. 테이블 형태는 엑셀처럼 행과 열로 구성된 데이터를 의미합니다.
Pandas는 다음과 같은 특징이 있습니다.
1. 데이터 구조 제공
Pandas는 시리즈와 데이터프레임이라는 두 가지 주요 데이터 구조를 제공합니다.
• 시리즈(Series): 파이썬의 리스트와 유사한 1차원 데이터 구조로, 인덱스와 값으로 구성됩니다.
• 데이터프레임(DataFrame): 행(row)과 열(column)로 구성된 2차원 데이터 구조로, 테이블 형태의 데이터를 다룹니다.