더북(TheBook)

코드 7-7 데이터셋 전처리 적용

import string

for example in train_data.examples:
    text = [x.lower() for x in vars(example)['text']] ------ 소문자로 변경
    text = [x.replace("<br","") for x in text] ------ “<br”을 “ ”(공백)으로 변경
    text = [''.join(c for c in s if c not in string.punctuation) for s in text] ------ 구두점 제거
    text = [s for s in text if s] ------ 공백 제거
    vars(example)['text'] = text

훈련 데이터셋을 훈련과 검증 용도로 분리합니다.

코드 7-8 훈련과 검증 데이터셋 분리

import random
train_data, valid_data = train_data.split(random_state=random.seed(0), split_ratio=0.8) ------ ①
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.