print(df.shape) df = df.drop_duplicates(["text"], keep="last") print(df.shape)
실행 결과
(2449, 1) (2411, 1)
전처리할 때는 원본을 따로 보존하는 것을 추천한다. 원본과 전처리 결과를 비교해 볼 수 있기 때문이다. 따라서 전처리 전에 다음과 같이 origin_text라는 열에 원본을 복사해 둔다.
df["origin_text"] = df["text"] df.head()