캐글 메달리스트가 알려주는 캐글 노하우: 7.3 EDA

Raw 데이터 간단히 훑어보기

누구나 데이터를 처음 접하면 자연스럽게 하는 행동이 있습니다. 그냥 무작정 눈으로 살펴보는 것이죠. 정말 간단한 행동이지만 모든 분석 과정의 시작이 되는, 데이터에 대한 호기심을 가장 많이 불러일으킬 수 있는 과정입니다.

# 텍스트 데이터를 표시할 때 생략이 없도록 설정
pd.set_option("display.max_colwidth", -1)
  
df_train.head(10)[["id", "target", "comment_text"]]  # 데이터셋의 처음 10개
df_train.sample(10)[["id", "target", "comment_text"]] # 데이터셋 행 중 10개 랜덤 샘플

판다스 라이브러리로 데이터를 로드한 후 head 함수로 처음 n개의 데이터를 확인하고, sample 함수로 데이터에 존재하는 다양한 케이스를 랜덤으로 확인합니다. 그 옆에 함께 보고 싶은 열을 선택해서 같이 확인할 수 있습니다. 처음 데이터를 확인하기 위해 가장 보편적으로 쓰는 방법입니다.

이러한 방법으로 텍스트와 그 타깃값을 눈으로 보면서 텍스트와 타깃값 사이에 어떠한 연관성이 있는지 살펴볼 수 있고 텍스트에 특수문자, 이모티콘 URL, 또는 생각하지 못한 이상한 글자는 없는지 등 데이터의 품질을 체크할 수 있습니다. 이를 토대로 앞으로 분석을 진행할 태스크를 어떻게 진행해야 할지 미리 계획을 세울 수도 있습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.