생성형 AI 완전 정복: 2.2.3 LLM 훈련 과정: 데이터 수집, 전처리, 훈련 -8

3. 정규화(normalization)

정규화는 텍스트 데이터를 일관된 형식으로 변환하는 작업으로, 모델이 패턴을 쉽게 인식하도록 돕습니다. 주요 작업은 다음과 같습니다.

▪ 소문자 변환: 텍스트를 모두 소문자로 변환해 대소문자에 따른 중복을 제거합니다. 예를 들어 The와 the는 같은 의미이지만, 대소문자를 구분한다면 서로 다른 토큰으로 인식될 수 있습니다.

▪ 불필요한 문장 부호 제거: 쉼표, 느낌표 등 불필요한 문장 부호를 제거하거나, 필요한 경우 특정 패턴으로 대체합니다. 이는 모델이 문장 부호의 의미보다는 텍스트 내용에 집중하게 합니다.

▪ 공백과 특수 문자 처리: 여러 공백을 하나로 줄이거나, 의미 없는 특수 문자를 제거합니다. 이러한 작업은 텍스트의 일관성을 유지하고, 모델이 필요 없는 정보를 학습하지 않도록 합니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.