더북(TheBook)

어떤 긴 파일 전체를 읽어서 문자열로 만들기는 쉽다. 하지만 그렇게 긴 문자열을 조작하는 일은 귀찮기 마련이다. 이럴 때 긴 문자열을 작은 부분 문자열로 많이 나누면 편리하다. 흔히 텍스트 문서를 단락별로 처리하거나, 새줄 문자를 기준으로 긴 문자열을 나누곤 한다(이렇게 나누는 이유는 한 줄에 하나씩 데이터 뭉치(이를 레코드(record)라고 부른다)가 담긴 파일에서 각 레코드를 처리하기 위해서다). 같은 단어가 중복해 나타나는 위치를 찾는 것도 유용한 기능 중 하나다. 예를 들어 누군가의 수상 소감을 받아 적은 스크립트에서 ‘말하자면’ 같은 불필요한 단어가 사용된 부분을 찾아서 제거한 후 인터넷에 올릴 수도 있다.

생각해 보자

10대들의 은어를 조사하기 위해 데이터를 조금 모았다. 그 데이터는 다음과 같은 형식의 큰 문자열이다.

#0001: gr8 lets meet up 2day
#0002: hey did u get my txt?
#0003: ty, pls check for me
...

이 데이터가 큰 문자열 하나로 되어 있다고 가정하자. 이 데이터를 분석하기 더 좋게 만들려면 어떤 단계를 밟아야 할까?

| 답 |

1단계. 큰 데이터 문자열의 여러 줄을 별도의 문자열로 만든다.

2단계. 흔히 쓰는 줄임말을 적절한 말로 바꾼다(예: pls → please).

3단계. 각 단어의 빈도를 계산해서 가장 흔히 쓰는 줄임말을 보고한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.