1.3 중복 파일 찾아내기
지금까지 배운 내용을 조금 더 실용적인 예제를 통해 활용해보자. 디렉터리 하나에 많은 수의 JPEG 이미지 파일이 있고, 그중 중복되는 이미지가 있는지 확인하려고 한다.
chapter01 > detecting_duplicate_files
$ ls
image001.jpg image005.jpg image009.jpg image013.jpg image017.jpg
image002.jpg image006.jpg image010.jpg image014.jpg image018.jpg
...
파이프라인을 사용해 중복되는 이미지를 확인할 수 있다. 이를 위해서는 md5sum이라는 새로운 명령이 필요하다. 이 명령은 파일의 내용으로부터 체크섬(checksum)이라고 하는 32개 문자 길이의 문자열을 생성한다.
$ md5sum image001.jpg
146b163929b6533f02e91bdf21cb9563 image001.jpg