unidecode
이 라이브러리는 주어진 텍스트의 유니코드 문자를 모두 ASCII 문자 형태로 변환해줍니다. 우리 눈에는 똑같은 영어 단어로 보이지만 실제로는 범용적으로 쓰는 영어 코드가 아닐 수 있습니다. 특히 댓글 데이터에는 사람들의 창의적인 문자 사용 형태가 보이기도 합니다.
import unidecode
# unicode 변환
decode_text = df_train["comment_text"].map(unidecode.unidecode)
# 변환된 케이스 찾기
index_has_unicode = df_train["comment_text"] != decode_text
text_has_unicode = df_train.loc[index_has_unicode, "comment_text"]
# 샘플 테스트
sample = text_has_unicode.loc[[1684233, 1045553]]
>>> for row in sample:
>>> print(f"original:\n {row}")
>>> print("\n")
>>> print(f"unidecode:\n {unidecode.unidecode(row)}\n")
>>> print("-------------------------------\n")