3. 정규화(normalization)
정규화는 텍스트 데이터를 일관된 형식으로 변환하는 작업으로, 모델이 패턴을 쉽게 인식하도록 돕습니다. 주요 작업은 다음과 같습니다.
▪ 소문자 변환: 텍스트를 모두 소문자로 변환해 대소문자에 따른 중복을 제거합니다. 예를 들어 The와 the는 같은 의미이지만, 대소문자를 구분한다면 서로 다른 토큰으로 인식될 수 있습니다.
▪ 불필요한 문장 부호 제거: 쉼표, 느낌표 등 불필요한 문장 부호를 제거하거나, 필요한 경우 특정 패턴으로 대체합니다. 이는 모델이 문장 부호의 의미보다는 텍스트 내용에 집중하게 합니다.
▪ 공백과 특수 문자 처리: 여러 공백을 하나로 줄이거나, 의미 없는 특수 문자를 제거합니다. 이러한 작업은 텍스트의 일관성을 유지하고, 모델이 필요 없는 정보를 학습하지 않도록 합니다.