1 라이브러리와 데이터 불러오기
판다스, 넘파이로 분석하고 맷플롯립과 시본으로 시각화할 것이다. 임포트되어 있지 않다면 다음 코드로 임포트한다.
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns
판다스 데이터 프레임 형태로 수집한 데이터 세트를 불러온 뒤, shape로 데이터의 행과 열의 수를 미리 확인한다.
df = pd.read_csv("https://bit.ly/seoul-120-text-csv") df.shape
실행 결과
(2645, 5)
제목과 내용을 합쳐서 문서라는 파생 변수를 만들고, head()로 미리 보기를 해서 데이터가 잘 들어왔는지 확인한다.