코드 7-7 데이터셋 전처리 적용
import string
for example in train_data.examples:
text = [x.lower() for x in vars(example)['text']] ------ 소문자로 변경
text = [x.replace("<br","") for x in text] ------ “<br”을 “ ”(공백)으로 변경
text = [''.join(c for c in s if c not in string.punctuation) for s in text] ------ 구두점 제거
text = [s for s in text if s] ------ 공백 제거
vars(example)['text'] = text
훈련 데이터셋을 훈련과 검증 용도로 분리합니다.
코드 7-8 훈련과 검증 데이터셋 분리
import random
train_data, valid_data = train_data.split(random_state=random.seed(0), split_ratio=0.8) ------ ①