캐글 메달리스트가 알려주는 캐글 노하우: 7.4.1 전처리

# 전처리 함수
def preprocess(df):
    url_pattern = r"https?://\S+|www\.\S+"
    df["comment_text"] = df["comment_text"].str.replace(url_pattern, " ")

    # apply unidecode
    df["comment_text"] = df["comment_text"].map(unidecode.unidecode)

    # apply lower
    df["comment_text"] = df["comment_text"].str.lower()

    return df

다음 단계에서는 학습에 사용할 모델을 소개할 텐데요. 자연어 처리는 보통 모델 학습 전에 텍스트 데이터를 토큰이라는 단위로 쪼갠 다음 모델에 입력 값으로 넣습니다. 이 작업이 어떤 방식이냐에 따라 전처리의 영향력이 조금 달라질 수 있습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.