머신 러닝 교과서 with 파이썬, 사이킷런, 텐서플로(개정 3판): 4.1.1 테이블 형태 데이터에서 누락된 값 식별

4.1.1 테이블 형태 데이터에서 누락된 값 식별

누락된 값을 다루는 기법들을 설명하기 전에 이해를 돕기 위해 CSV로부터 간단한 예제 데이터셋을 만들어 보죠.

>>> import pandas as pd
>>> from io import StringIO

>>> csv_data = \
... '''A,B,C,D
... 1.0.2.0.3.0.4.0
... 5.0.6.0,,..0
... 10.0.11.0.12.0,'''
>>> # 파이썬 2.7을 사용하는 경우
>>> # 다음과 같이 문자열을 유니코드로 변환해야 합니다
>>> # csv_data = unicode(csv_data)
>>> df = pd.read_csv(StringIO(csv_data))
>>> df
      A     B     C   D
0   1.0   2.0   3.0  4.0
1   5.0   6.0   NaN  8.0
2  10.0  11.0  12.0  NaN

앞 코드에서 read_csv 함수를 사용하여 CSV 포맷의 데이터를 판다스 DataFrame으로 읽어 들입니다. 두 개의 누락된 값은 NaN으로 바뀌었습니다. 예제를 위해 StringIO 함수를 사용했습니다. 이 함수를 사용하면 하드 디스크에 있는 일반 CSV 파일처럼 csv_data에 저장된 문자열을 읽어 판다스 DataFrame으로 변환할 수 있습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.