더북(TheBook)

전처리 순서

전처리할 때 신경 써야 하는 부분 중 하나가 바로 전처리 순서입니다. 무심코 적용한 전처리가 다른 전처리와 범위가 겹쳐서 원했던 결과가 나오지 않거나 잘못 적용될 가능성이 있기 때문입니다. 예를 들면 데이터셋은 영어 문장이 기본이지만, unidecode의 마지막 예시를 보면 특이하게 한글 문장도 있습니다. 이를 unidecode로 해석하면 한글을 소리 나는 대로 변환해버립니다. 뿐만 아니라, 만약 unidecode로 변환하기 전에 특수문자를 모두 소거하는 전처리를 적용하면 이 글자들은 모두 사라져버립니다. 이렇게 변환되는 것이 옳은지 한번 따져볼 필요가 있습니다. 만약 이 과정으로 데이터 품질이 나빠질 것 같다면 과정을 처리하기 전에 해당하는 문자를 제거하는 것도 좋은 방법입니다.

이렇듯 전처리를 적용할 때 각각의 전처리 방법이 다른 전처리에 영향을 끼칠 수 있기 때문에 좋은 전처리를 위해서는 여러 번 시행착오를 거쳐야 합니다. 이번 솔루션에서는 다음 함수의 순서로 전처리를 진행합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.