더북(TheBook)

 

3다른 텍스트 처리 방식

 

고급 NLP 방법을 논의하는 것은 이 책의 범위를 벗어나지만, 여러분의 흥미를 돋우려고 몇 가지 옵션을 간단히 알아보겠다.

 

◼︎ 세그먼테이션(segmentation) : 중국어처럼 단어 사이에 구문적 경계가 없는 텍스트에서 단어 경계를 인식하는 기법이다. 세그먼테이션은 연속적인 문자나 숫자에도 적용할 수 있다(예를 들어 연속적인 구매 기록이나 DNA 파편 등).

◼︎ 텍스트 분류(text classification) : 카테고리와 분류 기준을 설정하고 텍스트를 분류한다. 텍스트 분류의 대표적인 예는 감성 분석으로 일반적으로 감정이 담긴 단어의 빈도를 기반으로 분류한다.

◼︎ 대상 추출(entity extraction) : 설정 값에 부합하는 단어나 구문을 탐지하는데, 보통 인명, 지명, 법인 이름, 제품 이름이나 브랜드 등을 대상으로 한다.

◼︎ 잠재적 의미 색인(latent semantic indexing) : 특이 값 분해(SVD, Singular Value Decomposition)를 사용해 비정형 텍스트 뭉치에서 등장하는 표현과 콘셉트 간의 관계를 규명한다. SVD는 통계학에서는 주성분 분석(PCA, Principal Component Analysis)으로 알려져 있다.

 


* 자연어 사람들이 일상적으로 쓰는 언어로, 인공적으로 만든 언어와 구분해 부르는 개념

* 자연어 처리 사람들이 쓰는 보통 언어를 컴퓨터에 인식시켜서 처리하는 일

* 불용어 제외어라고도 하며, 색인 작성이나 인터넷 검색 등에 사용하지 않는 언어

* 특이 값 분해 선형대수에서 실수나 복소수 행렬의 인수분해를 말하는 것으로, 행렬의 역행렬을 잘 구할 수 없을 때 유용

* 주성분 분석 통계 데이터를 분석하는 하나의 기법으로 고차원의 데이터를 저차원의 데이터로 환원시킴. 예를 들어 어떤 개체를 설명하는데 x종의 데이터가 있다고 한다면 x종을 가장 적은 특성으로 정리하는 기법

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.