더북(TheBook)

1.3 중복 파일 찾아내기

지금까지 배운 내용을 조금 더 실용적인 예제를 통해 활용해보자. 디렉터리 하나에 많은 수의 JPEG 이미지 파일이 있고, 그중 중복되는 이미지가 있는지 확인하려고 한다.

icon_folder chapter01 > detecting_duplicate_files

$ ls
image001.jpg  image005.jpg  image009.jpg  image013.jpg  image017.jpg
image002.jpg  image006.jpg  image010.jpg  image014.jpg  image018.jpg
...

파이프라인을 사용해 중복되는 이미지를 확인할 수 있다. 이를 위해서는 md5sum이라는 새로운 명령이 필요하다. 이 명령은 파일의 내용으로부터 체크섬(checksum)이라고 하는 32개 문자 길이의 문자열을 생성한다.

$ md5sum image001.jpg
146b163929b6533f02e91bdf21cb9563  image001.jpg
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.