더북(TheBook)

unidecode

이 라이브러리는 주어진 텍스트의 유니코드 문자를 모두 ASCII 문자 형태로 변환해줍니다. 우리 눈에는 똑같은 영어 단어로 보이지만 실제로는 범용적으로 쓰는 영어 코드가 아닐 수 있습니다. 특히 댓글 데이터에는 사람들의 창의적인 문자 사용 형태가 보이기도 합니다.

import unidecode

# unicode 변환
decode_text = df_train["comment_text"].map(unidecode.unidecode)

# 변환된 케이스 찾기
index_has_unicode = df_train["comment_text"] != decode_text
text_has_unicode = df_train.loc[index_has_unicode, "comment_text"]

# 샘플 테스트
sample = text_has_unicode.loc[[1684233, 1045553]]

>>> for row in sample:
>>>    print(f"original:\n {row}")
>>>    print("\n")
>>>    print(f"unidecode:\n {unidecode.unidecode(row)}\n")
>>>    print("-------------------------------\n")

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.