더북(TheBook)

UNIT 16
자연어 처리하기

DATA SCIENCE FOR EVERYONE icon_day

 

경험에 비추어 보았을 때, 사용 가능한 모든 데이터의 80% 가량은 비정형적이다. 비정형 데이터에는 소리, 영상, 이미지(이 책에서는 다루지 않는다)와 자연어로 된 텍스트9가 있다. 자연어로 된 텍스트에는 태그, 구분자, 데이터 타입도 없지만, 풍부한 정보를 담고 있을 수 있다. 자연어 텍스트를 분석해서 특정 단어를 사용했는지, 얼마나 자주 사용했는지, 어떤 종류의 텍스트인지(텍스트 분류), 긍정적이거나 부정적인 메시지를 담고 있는지(감성 분석), 누가 혹은 무엇을 언급했는지(내용 추출) 등 다양한 분야의 정보를 얻을 수 있다. 1~2개의 텍스트는 직접 읽을 수 있지만, 대규모의 텍스트 분석은 자동화된 자연어 처리(NLP, Natural Language Processing)가 필요하다.

상당수 NLP 기능은 파이썬의 nltk(natural language toolkit) 모듈에 구현되어 있다. 이 모듈은 코퍼스, 함수와 알고리즘으로 구성된다.




신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.