# 전처리 함수
def preprocess(df):
url_pattern = r"https?://\S+|www\.\S+"
df["comment_text"] = df["comment_text"].str.replace(url_pattern, " ")
# apply unidecode
df["comment_text"] = df["comment_text"].map(unidecode.unidecode)
# apply lower
df["comment_text"] = df["comment_text"].str.lower()
return df
다음 단계에서는 학습에 사용할 모델을 소개할 텐데요. 자연어 처리는 보통 모델 학습 전에 텍스트 데이터를 토큰이라는 단위로 쪼갠 다음 모델에 입력 값으로 넣습니다. 이 작업이 어떤 방식이냐에 따라 전처리의 영향력이 조금 달라질 수 있습니다.