더북(TheBook)

초기 자연어 처리 기술

자연어 처리의 시작은 기계 번역(machine translation) 연구로 볼 수 있습니다. 제2차 세계대전 이후, 미국과 소련 간 치열한 정보 경쟁 속에서 외국어 문헌을 자동으로 번역하려는 필요성이 대두되었고, 이를 계기로 기계 번역 연구가 본격적으로 시작되었습니다.

1954년, IBM과 조지타운(Georgetown) 대학이 공동으로 진행한 Georgetown-IBM experiment에서 러시아어 문장을 영어로 자동 번역하는 시스템을 시연해 큰 주목을 받았습니다. 이후 기계 번역은 자연어 처리의 핵심 연구 분야로 빠르게 자리 잡았습니다.

초기 기계 번역 연구는 주로 규칙 기반 접근법(rule-based approach)에 의존했습니다. 이는 언어학적 규칙과 사전을 활용해 문장을 분석하고 번역하는 방식이었습니다. 문장을 단어와 문장 단위로 구분하는 작업 역시 규칙에 기반해 이루어졌습니다. 비록 오늘날 사용하는 ‘토큰화’나 ‘형태소 분석’이라는 용어들이 명확히 정의되지는 않았지만, 이와 같은 텍스트 분할 작업은 초기 자연어 처리 시스템에서 중요한 역할을 했습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.