더북(TheBook)

손실 압축(lossy compression)은 불필요한 것으로 여겨지는 정보를 감지하고 이를 정보 손실 없이 제거하여 저장공간을 줄인다. 예를 들어, JPEG 이미지는 MPEG-4 비디오나 MP3 음악 파일처럼 원본 이미지에 손실이 발생하는 압축이다. MP3 오디오 파일은 대부분 사람의 귀로는 판별할 수 없지만, 원본 파일보다 훨씬 큰 손실이 있을 수 있다.

어떻게 압축하는지 알기 위해 더 오래된 인코딩에서 정보를 어떻게 표현했는지 살펴보자. 표 3-3에서 1836년에 새뮤얼 모스(Samuel F. B. Morse)와 조셉 헨리(Joseph Henry), 알프레드 베일(Alfred Vail)이 텔레그래프(telegraph)로 메시지를 전송하려고 개발한 모스 부호(Morse code)(이것은 실제 모스 부호의 현대판이며 원래 모스 부호는 조금 다르다)를 볼 수 있다. 모스 부호는 점과 선으로 문자와 숫자를 인코딩한다. 이를 살펴보면 모든 문자에 같은 수의 점과 숫자를 사용하지 않는다. 베일은 다양한 문자를 표현하고자 사용 빈도가 높은 문자는 더 적은 비트로 인코딩을, 사용 빈도가 낮은 문자는 더 긴 비트로 인코딩하는 아이디어를 냈다. 이러한 방식으로 하면 전반적으로 점과 선의 수는 감소한다. 그래서 베일은 문자들의 빈도를 알아내려고 그가 사는 마을인 뉴저지 모리스타운(Morristown, New Jersey)의 신문사를 방문했다. 그곳에서 그는 식자공(compositor)이 사용하는 식자판 안의 문자들을 세었다. 사용 빈도가 높은 문자는 텍스트에 더 많이 등장하므로 식자판에 더 많이 있을 것이라고 봤다. 표 3-3은 문자들의 빈도를 보여준다. 이를 보면 베일과 식자공들이 일을 잘했다는 것을 확인할 수 있다.

▼ 표 3-3 문자별 모스 부호와 사용 빈도

문자

모스 부호

사용 빈도

문자

모스 부호

사용 빈도

문자

모스 부호

사용 빈도

문자

모스 부호

A

.-

8.04%

J

.---

0.16%

S

...

6.51%

2

..---

B

-...

1.48%

K

-.-

0.54%

T

-

9.28%

3

...--

C

-.-.

3.34%

L

.-..

4.07%

U

..-

2.73%

4

....-

D

-..

3.82%

M

--

2.51%

V

...-

1.05%

5

.....

E

.

12.49%

N

-.

7.23%

W

.--

1.68%

6

-....

F

..-.

2.4%

O

---

7.64%

X

-..-

0.23%

7

--...

G

--.

1.87%

P

.--.

2.14%

Y

-.--

1.66%

8

---..

H

....

5.05%

Q

--.-

0.12%

Z

--..

0.09%

9

----.

I

..

7.57%

R

.-.

6.28%

1

.----

 

0

-----

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.