더북(TheBook)

이번에는 정규표현식을 사용해 ‘파이썬|공공데이터|판다스’라는 텍스트가 들어간 데이터를 찾아보자. 판다스의 string Accessor에서 제공하는 contains를 사용하면 내부에 정규표현식을 사용해 원하는 키워드가 들어간 텍스트를 찾을 수 있다.

df_python = df[df["text"].str.contains("파이썬|공공데이터|판다스")].copy()
df_python.shape

실행 결과

(429, 20)

 

댓글에 특정 키워드가 포함되었는지 여부를 이진 형태로 만든다. 특정 키워드가 댓글에 있으면 1(True), 없으면 0(False)으로 표시한다. 그런 다음 1의 빈도수를 더하면 해당 키워드의 등장 빈도수를 구할 수 있다. search_keyword의 행을 가져와서 빈도수를 sum()으로 모두 더해 해당 키워드의 등장 빈도수를 세어 보자.

df[search_keyword].sum().sort_values(ascending=False)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.