1 숫자 제거
숫자는 학습과 예측에 중요한 역할을 하기 때문에 충분히 이해한 뒤 사용 여부를 결정해야 한다. 이번 예제에서는 숫자에 큰 의미가 없으므로 제외하겠다.
import re # 익명함수인 lambda를 사용해 전처리할 수도 있지만 # Series.str.replace로 쓸 수도 있다. # df["title"] = df["title"].map(lambda x : re.sub("[0-9]", "", x)) df["title"] = df["title"].str.replace("[0-9]", "", regex=True)