3다른 텍스트 처리 방식
고급 NLP 방법을 논의하는 것은 이 책의 범위를 벗어나지만, 여러분의 흥미를 돋우려고 몇 가지 옵션을 간단히 알아보겠다.
◼︎ 세그먼테이션(segmentation) : 중국어처럼 단어 사이에 구문적 경계가 없는 텍스트에서 단어 경계를 인식하는 기법이다. 세그먼테이션은 연속적인 문자나 숫자에도 적용할 수 있다(예를 들어 연속적인 구매 기록이나 DNA 파편 등).
◼︎ 텍스트 분류(text classification) : 카테고리와 분류 기준을 설정하고 텍스트를 분류한다. 텍스트 분류의 대표적인 예는 감성 분석으로 일반적으로 감정이 담긴 단어의 빈도를 기반으로 분류한다.
◼︎ 대상 추출(entity extraction) : 설정 값에 부합하는 단어나 구문을 탐지하는데, 보통 인명, 지명, 법인 이름, 제품 이름이나 브랜드 등을 대상으로 한다.
◼︎ 잠재적 의미 색인(latent semantic indexing) : 특이 값 분해(SVD, Singular Value Decomposition)를 사용해 비정형 텍스트 뭉치에서 등장하는 표현과 콘셉트 간의 관계를 규명한다. SVD는 통계학에서는 주성분 분석(PCA, Principal Component Analysis)으로 알려져 있다.
* 자연어 사람들이 일상적으로 쓰는 언어로, 인공적으로 만든 언어와 구분해 부르는 개념
* 자연어 처리 사람들이 쓰는 보통 언어를 컴퓨터에 인식시켜서 처리하는 일
* 불용어 제외어라고도 하며, 색인 작성이나 인터넷 검색 등에 사용하지 않는 언어
* 특이 값 분해 선형대수에서 실수나 복소수 행렬의 인수분해를 말하는 것으로, 행렬의 역행렬을 잘 구할 수 없을 때 유용
* 주성분 분석 통계 데이터를 분석하는 하나의 기법으로 고차원의 데이터를 저차원의 데이터로 환원시킴. 예를 들어 어떤 개체를 설명하는데 x종의 데이터가 있다고 한다면 x종을 가장 적은 특성으로 정리하는 기법