더북(TheBook)

◼︎ 중복 데이터 제거하기

다양한 이유로 데이터가 중복되는 경우가 생길 수 있다. 예를 들어 설문조사를 중복으로 남기거나, 프로그래밍이나 네트워크 오류로 입력 데이터가 중복으로 들어올 수도 있다. 의도하지 않게 데이터가 중복됐다면 다음 방법으로 중복된 행을 제거할 수 있다.

 

 

기본값으로 실행하면 행끼리의 값이 모두 같아야 제거된다.

특정 행을 지정하면 특정 행에 해당하는 값만 제거한다.

keep = 'first', 'last', False 등과 같은 매개 변수를 사용하면 중복된 데이터 중 어느 것(앞의 것? 뒤의 것?)을 삭제할지 고를 수 있다.

 

다음은 유일값 한 개만 남기고 나머지 중복은 제거하는 코드다. keep='last'를 사용하면 뒤의 값을 남기고 앞에 중복되는 값은 삭제된다. 따라서 중복이 있었던 6, 9, 12는 뒤의 값이 남고 앞에 중복되는 값은 삭제됐다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.