더북(TheBook)

데이터를 호출했으니 훈련에 용이하도록 데이터셋에 대한 전처리를 진행해 봅시다.

코드 10-42 데이터셋 전처리

def preprocess_text(sen):
    sentence = remove_tags(sen) ------ html 태그 삭제
    sentence = re.sub('[^a-zA-Z]', ' ', sentence) ------ 구두점(punctuation) 및 숫자(number) 제거, 문자(a~z, A~Z)가 아닌 것 제거
    sentence = re.sub(r"\s+[a-zA-Z]\s+", ' ', sentence) ------ 단일 문자 제거( a)
    sentence = re.sub(r'\s+', ' ', sentence) ------ 두 개 이상의 공백 제거
    return sentence

TAG_RE = re.compile(r'<[^>]+>') ------ 정규 표현식(<[^>]+>)을 컴파일
def remove_tags(text):
    return TAG_RE.sub('', text)

reviews = []
sentences = list(movie_reviews['review'])
for sen in sentences:
    reviews.append(preprocess_text(sen)) ------ 모든 텍스트 리뷰 데이터를 preprocess_text 함수에 적용

print(movie_reviews.columns.values) ------ 데이터셋의 열에 대한 이름 반환
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.