더북(TheBook)
print(df.shape)
df = df.drop_duplicates(["text"], keep="last")
print(df.shape)

실행 결과

(2449, 1)
(2411, 1)

 

전처리할 때는 원본을 따로 보존하는 것을 추천한다. 원본과 전처리 결과를 비교해 볼 수 있기 때문이다. 따라서 전처리 전에 다음과 같이 origin_text라는 열에 원본을 복사해 둔다.

df["origin_text"] = df["text"]
df.head()
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.