더북(TheBook)

구문 규칙의 두 번째 유형은 토큰을 결합하는 방식이다. 3 + = 3이라는 등식은 올바르지 않은데 +와 =이 올바른 토큰이라 해도 토큰을 연이어 쓸 수 없기 때문이다. 마찬가지로 화학식에서 아래 첨자는 원소 이름 뒤에 쓰지 원소 앞에 쓰지 않는다.

이 문$장은 잘못된 토*큰을 갖지만 잘 @구조화되어 있다.* 이 문장은 모두 유효한 토큰으로 되어 있지만, 잘못된 구조를 갖고 있다.

영어로 된 문장을 읽거나 형식 언어에서 문장을 읽는다면 구조를 파악해야 한다. 자연 언어에서는 무의식적으로 구조를 파악하고 있다. 이렇게 구조를 파악하는 과정을 파싱(parsing)이라고 한다.

형식 언어와 자연 언어는 토큰, 구조, 구문 같은 공통 특성도 많지만, 다음과 같이 몇 가지 차이점도 있다.

모호성

자연 언어는 애매모호함(ambiguity)으로 가득하고, 사람들은 맥락에서 짐작하거나 다른 정보를 사용해 이를 파악한다. 형식 언어는 거의 또는 완전하게 모호함을 제거하는 쪽으로 고안되었으며, 이는 문장이 맥락과 관계없이 정확하게 한 가지 의미만 갖는다는 것을 의미한다.

 


 

* 역주 원문은 This is @ well-structured Engli$h sentence with invalid t*kens in it.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.