4.1.1 테이블 형태 데이터에서 누락된 값 식별

    누락된 값을 다루는 기법들을 설명하기 전에 이해를 돕기 위해 CSV로부터 간단한 예제 데이터셋을 만들어 보죠.

    >>> import pandas as pd
    >>> from io import StringIO
    
    >>> csv_data = \
    ... '''A,B,C,D
    ... 1.0.2.0.3.0.4.0
    ... 5.0.6.0,,..0
    ... 10.0.11.0.12.0,'''
    >>> # 파이썬 2.7을 사용하는 경우
    >>> # 다음과 같이 문자열을 유니코드로 변환해야 합니다
    >>> # csv_data = unicode(csv_data)
    >>> df = pd.read_csv(StringIO(csv_data))
    >>> df
          A     B     C   D
    0   1.0   2.0   3.0  4.0
    1   5.0   6.0   NaN  8.0
    2  10.0  11.0  12.0  NaN

    앞 코드에서 read_csv 함수를 사용하여 CSV 포맷의 데이터를 판다스 DataFrame으로 읽어 들입니다. 두 개의 누락된 값은 NaN으로 바뀌었습니다. 예제를 위해 StringIO 함수를 사용했습니다. 이 함수를 사용하면 하드 디스크에 있는 일반 CSV 파일처럼 csv_data에 저장된 문자열을 읽어 판다스 DataFrame으로 변환할 수 있습니다.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.