더북(TheBook)

1 라이브러리와 데이터 불러오기

 

판다스, 넘파이로 분석하고 맷플롯립과 시본으로 시각화할 것이다. 임포트되어 있지 않다면 다음 코드로 임포트한다.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

판다스 데이터 프레임 형태로 수집한 데이터 세트를 불러온 뒤, shape로 데이터의 행과 열의 수를 미리 확인한다.

df = pd.read_csv("https://bit.ly/seoul-120-text-csv")
df.shape

실행 결과

(2645, 5)

 

제목과 내용을 합쳐서 문서라는 파생 변수를 만들고, head()로 미리 보기를 해서 데이터가 잘 들어왔는지 확인한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.