3개의 ngram과 빈도수로 역순 정렬하면 빈도수가 높고 ngram 수가 많은 순으로 정렬된다. 여기서 drop_duplicates로 첫 번째 강의만 남기고 나머지 중복은 삭제한다.
print(df_freq_T.shape) df_course = df_freq_T.drop_duplicates(["course_find", "freq"], keep="first") print(df_course.shape)
실행 결과
(2000, 3) (1441, 3)