4.1.1 테이블 형태 데이터에서 누락된 값 식별
누락된 값을 다루는 기법들을 설명하기 전에 이해를 돕기 위해 CSV로부터 간단한 예제 데이터셋을 만들어 보죠.
>>> import pandas as pd
>>> from io import StringIO
>>> csv_data = \
... '''A,B,C,D
... 1.0.2.0.3.0.4.0
... 5.0.6.0,,..0
... 10.0.11.0.12.0,'''
>>> # 파이썬 2.7을 사용하는 경우
>>> # 다음과 같이 문자열을 유니코드로 변환해야 합니다
>>> # csv_data = unicode(csv_data)
>>> df = pd.read_csv(StringIO(csv_data))
>>> df
A B C D
0 1.0 2.0 3.0 4.0
1 5.0 6.0 NaN 8.0
2 10.0 11.0 12.0 NaN
앞 코드에서 read_csv 함수를 사용하여 CSV 포맷의 데이터를 판다스 DataFrame으로 읽어 들입니다. 두 개의 누락된 값은 NaN으로 바뀌었습니다. 예제를 위해 StringIO 함수를 사용했습니다. 이 함수를 사용하면 하드 디스크에 있는 일반 CSV 파일처럼 csv_data에 저장된 문자열을 읽어 판다스 DataFrame으로 변환할 수 있습니다.