더북(TheBook)

3 문자 길이 확인

 

길이가 긴 텍스트는 의미를 학습하기에 충분하고, 길이가 짧으면 불충분할 것이다. 그래서 전처리할 때 문자 길이도 확인하는 습관을 가지면 좋다. 때로는 학습이 끝난 후 성능 향상을 위한 계획을 세울 때 단어 빈도 또는 문자 길이 등을 유용하게 사용하기도 한다.

그럼, 학습과 예측에 사용할 글자의 빈도와 단어의 빈도수를 확인해 보자. 먼저, 다음과 같이 문자, 단어 빈도수의 파생 변수를 만든다.

 

음절 길이(len)와 단어 빈도(word_count) 등의 빈도수를 다음과 같이 데이터 프레임에 넣는다.

 

 

len()으로 낱글자의 길이를 센다.

split()을 사용해 공백을 기준으로 한 어절(토큰)의 길이를 센다.

중복 없이 등장하는 어절의 길이는 집합형인 set를 사용한다. set는 중복을 허용하지 않기 때문에 split()한 어절의 set를 len()으로 세면 중복을 제외한 유일 어절의 길이를 알 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.