더북(TheBook)

LESSON 03
데이터 전처리

1 중복된 글 제거하기

 

온라인으로 수집한 데이터는 다양한 이유로 중복 생성될 수 있다. 웹사이트에서 전송 버튼을 여러 번 누르거나, 새로 고침을 하거나, 네트워크나 UX 관련 오류 문제가 발생하기도 한다. 중복 데이터가 있으면 빈도 분석이 제대로 되지 않기 때문에 중복 입력값을 제거하자.

판다스에서 제공하는 drop_duplicates로 전체 데이터의 중복을 제거해 보겠다. drop_duplicates()를 사용하면 전체 열의 중복을 제거하기 때문에 빈도수 중복을 방지하기 위해 다음과 같이 drop_duplicates(["text"], keep="last")를 사용해 마지막 글을 남긴다. 첫 번째를 남기고 싶다면 drop_duplicates(["text"], keep="first")를, 모두 제거하려면 drop_duplicates(["text"], keep=False)를 사용하면 된다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.