더북(TheBook)

LESSON 06
문자 전처리하기

단어 가방 모형은 단어를 띄어쓰기 같은 기준으로 나누어 벡터화하므로, 대소문자나 숫자 등에 따라 중복된 단어 사전이 생성되기도 한다. 단어 사전이 너무 많아지면 학습 속도가 오래 걸리거나 과적합이 발생할 수 있다. 간단히 말해 과적합은 불필요하지만 자주 나오는 단어를 모델이 중요하게 여기고 학습하는 것이다. 이런 경우 특정 단어를 중심으로 학습이 끝나면, 시험 데이터에 새로운 단어가 있을 때 예측력이 떨어지는 주요한 요인이 된다. 따라서 전처리 단계에서 불필요한 단어를 제거해 모델의 성능이 올려 줘야 한다.

전처리 방법으로는 불필요한 문자를 제거하거나, 형태소 분석기를 사용해 불필요한 조사를 제거하거나, 형태소를 표기해서 같은 단어지만 다른 의미를 갖는 단어를 구분해 줄 수도 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.