더북(TheBook)

여기에서 사용되는 품사 의미는 다음과 같습니다.

VBZ: 동사, 동명사 또는 현재 분사

PRP: 인칭 대명사(PP)

JJ: 형용사

VBG: 동사, 동명사 또는 현재 분사

NNS: 명사, 복수형

CC: 등위 접속사

 

 

자연어 처리 과정

자연어는 인간 언어입니다. 인간 언어는 컴퓨터가 이해할 수 없기 때문에 컴퓨터가 이해할 수 있는 언어로 바꾸고 원하는 결과를 얻기까지 크게 네 단계를 거칩니다.

첫 번째로 인간 언어인 자연어가 입력 텍스트로 들어오게 됩니다. 이때 인간 언어가 다양하듯 처리 방식이 조금씩 다르며, 현재는 영어에 대한 처리 방법들이 잘 알려져 있습니다.

두 번째로는 입력된 텍스트에 대한 전처리 과정이 필요합니다.

세 번째로 전처리가 끝난 단어들을 임베딩합니다. 즉, 단어를 벡터로 변환하는 방법으로 ‘10장 자연어 처리를 위한 임베딩’에서 자세히 다룹니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.