더북(TheBook)

3개의 ngram과 빈도수로 역순 정렬하면 빈도수가 높고 ngram 수가 많은 순으로 정렬된다. 여기서 drop_duplicates로 첫 번째 강의만 남기고 나머지 중복은 삭제한다.

print(df_freq_T.shape)
df_course = df_freq_T.drop_duplicates(["course_find", "freq"], keep="first")
print(df_course.shape)

실행 결과

(2000, 3)
(1441, 3)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.