데이터를 호출했으니 훈련에 용이하도록 데이터셋에 대한 전처리를 진행해 봅시다.

    코드 10-42 데이터셋 전처리

    def preprocess_text(sen):
        sentence = remove_tags(sen) ------ html 태그 삭제
        sentence = re.sub('[^a-zA-Z]', ' ', sentence) ------ 구두점(punctuation) 및 숫자(number) 제거, 문자(a~z, A~Z)가 아닌 것 제거
        sentence = re.sub(r"\s+[a-zA-Z]\s+", ' ', sentence) ------ 단일 문자 제거( a)
        sentence = re.sub(r'\s+', ' ', sentence) ------ 두 개 이상의 공백 제거
        return sentence
    
    TAG_RE = re.compile(r'<[^>]+>') ------ 정규 표현식(<[^>]+>)을 컴파일
    def remove_tags(text):
        return TAG_RE.sub('', text)
    
    reviews = []
    sentences = list(movie_reviews['review'])
    for sen in sentences:
        reviews.append(preprocess_text(sen)) ------ 모든 텍스트 리뷰 데이터를 preprocess_text 함수에 적용
    
    print(movie_reviews.columns.values) ------ 데이터셋의 열에 대한 이름 반환
    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.