더북(TheBook)
unidecode:
 kaenada Canada
- Justin Trudeau -
(중략)
--jwiseutaeng teurwido (Justin Trudeau)  --
kaenadaeseo daemacowa marihwana, mayageul geumjihaeya habnida.
yiyagpume ireon seongbuni deuleogal ddaeeneun bandeusi heogadoen jepumeul sayonghaeya habnida.

-------------------------------

위 예시처럼 비슷한 영어 단어지만 다른 코드를 가지고 있는 문자를 범용적인 ASCII 문자로 변환해주고, 특수한 이모티콘을 없애버리거나 다른 특수문자로 바꿔버립니다. 이 변환 과정 후에 원래 우리에게 친숙했던 문자를 가지고 또 다른 작업을 할 수 있는 것이지요.

현재 솔루션에 적용한 전처리는 가짓수도 많지 않고 꽤 간단하지만, 이외에도 전처리 방법은 정말 다양합니다. 다른 사람이 올린 캐글 노트북을 탐험해보면 EDA로 얻은 인사이트를 바탕으로 텍스트에 적용한 전처리 방법이 많이 공유되어 있습니다. 모든 상황에서 필수적인 전처리는 없습니다. 데이터의 형태와 데이터가 만들어진 배경에 따라서 적용해야 할 방법이 다를 수 있기 때문에 다양하게 경험해보는 것이 중요합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.