더북(TheBook)

사용할 수 있는 매개 변수는 다음과 같다.

 

num_words: 단어 빈도에 따라 유지할 최대 단어 수. 가장 일반적인 단어만 유지된다.

filters: 각 원소가 텍스트에서 필터링될 문자인 문자열. 기본값은 문자를 제외한 모든 구두점, 탭, 줄바꿈이다.

lower: 부울. 텍스트를 소문자로 변환할지 여부다.

split: str. 단어 분할을 위한 구분 기호다.

char_level: True면 모든 문자가 토큰으로 처리된다.

oov_token: 주어진 경우 word_index에 추가되고 text_to_sequence를 호출하는 중간에 목록에 없는 단어를 대체하는 데 사용된다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.