여기에서 사용되는 품사 의미는 다음과 같습니다.
• VBZ: 동사, 동명사 또는 현재 분사
• PRP: 인칭 대명사(PP)
• JJ: 형용사
• VBG: 동사, 동명사 또는 현재 분사
• NNS: 명사, 복수형
• CC: 등위 접속사
자연어 처리 과정
자연어는 인간 언어입니다. 인간 언어는 컴퓨터가 이해할 수 없기 때문에 컴퓨터가 이해할 수 있는 언어로 바꾸고 원하는 결과를 얻기까지 크게 네 단계를 거칩니다.
첫 번째로 인간 언어인 자연어가 입력 텍스트로 들어오게 됩니다. 이때 인간 언어가 다양하듯 처리 방식이 조금씩 다르며, 현재는 영어에 대한 처리 방법들이 잘 알려져 있습니다.
두 번째로는 입력된 텍스트에 대한 전처리 과정이 필요합니다.
세 번째로 전처리가 끝난 단어들을 임베딩합니다. 즉, 단어를 벡터로 변환하는 방법으로 ‘10장 자연어 처리를 위한 임베딩’에서 자세히 다룹니다.