7.4.1 전처리
EDA를 통해 알고 싶었던 내용을 어느 정도 충족했다면, 이제는 데이터 학습의 바로 전 단계인 전처리(Preprocessing)를 할 차례입니다. EDA 과정에서 사용하지 않기로 결정된 피처를 제거하거나, NULL 값 및 비어 있는 값(Empty)을 없애거나, 텍스트 내부의 필요 없는 특수문자 따위를 제거하는 등 모델 학습을 진행하는 데 걸림돌이 되는 부분을 사전에 제거하여 깨끗하게 만드는 단계입니다. 특히 이 대회의 데이터는 사람이 작성한 댓글을 추출한 데이터라서 형식과 내용이 천차만별이므로, 주어진 데이터를 원하는 대로 전처리하는 방법을 숙지해야 합니다.
텍스트 데이터를 머신러닝 모델에 적용할 때는 텍스트의 길이도 중요합니다. 텍스트가 너무 긴 경우 모델 학습을 위해 만든 데이터셋의 용량이 커질 뿐 아니라, 학습 시간에도 꽤 많은 영향을 주기 때문에, 가능한 한 필요 없는 단어나 구문을 지우는 것이 바람직합니다. EDA에서 raw 데이터를 찬찬히 살펴봤을 때 전처리해야 할 몇 가지 후보군을 보았을 겁니다. 그때 생각했던 것을 바탕으로 모델 학습 전에 데이터를 깨끗하게 만드는 작업을 거치겠습니다. 다음에 나오는 예시는 제가 EDA를 바탕으로 지웠으면 하는 것들을 나열한 것입니다. 따라서 사람마다 이 과정은 달라질 수 있습니다.