더북(TheBook)

애플의 시리(siri), 구글의 어시스턴트(assistant), 아마존의 알렉사(alexa)나 네이버의 클로바(clova)까지 AI 비서라고 불리는 대화형 인공지능이 서로 경쟁하고 있습니다. 업무를 도와주고 삶의 질을 높여 주는 인공지능 비서 서비스를 누구나 사용하는 시대가 왔습니다. 스마트폰이나 스피커, 앱 같은 형태로 보급되는 인공지능 비서가 갖추어야 할 필수 능력은 사람의 언어를 이해하는 것입니다. 문장을 듣고 무엇을 의미하는지 알아야 서비스를 제공해 줄 수 있기 때문이지요. 이 장에서는 이러한 능력을 만들어 주는 자연어 처리(Natural Language Processing, NLP)의 기본을 배울 것입니다. 자연어란 우리가 평소에 말하는 음성이나 텍스트를 의미합니다. 즉, 자연어 처리는 이러한 음성이나 텍스트를 컴퓨터가 인식하고 처리하는 것이지요.

컴퓨터를 이용해 인간의 말을 알아듣는 연구는 딥러닝이 나오기 이전부터 계속되어 왔습니다. 하지만 언어의 규칙은 컴퓨터의 규칙과 달리 쉽게 해결되지 않는 여러 문제를 안고 있었는데, 딥러닝이 등장하면서 자연어 처리 연구가 활발해지기 시작했습니다. 이는 대용량 데이터를 학습할 수 있는 딥러닝의 속성 때문입니다. 즉, 비교적 쉽게 얻을 수 있는 자연어 데이터를 지속적으로 입력해 끊임없이 학습하는 것이 가능해졌기 때문이지요.

텍스트 자료를 모았다고 해서 이를 딥러닝에 그대로 입력할 수 있는 것은 아닙니다. 컴퓨터 알고리즘은 수치로 된 데이터만 이해할 뿐 텍스트는 이해할 수 없기 때문입니다. 따라서 텍스트를 정제하는 전처리 과정이 꼭 필요합니다. 여기서는 자연어 처리를 위해 텍스트를 전처리하는 과정부터 알아보겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.