데이터를 호출했으니 훈련에 용이하도록 데이터셋에 대한 전처리를 진행해 봅시다.
코드 10-42 데이터셋 전처리
def preprocess_text(sen):
sentence = remove_tags(sen) ------ html 태그 삭제
sentence = re.sub('[^a-zA-Z]', ' ', sentence) ------ 구두점(punctuation) 및 숫자(number) 제거, 문자(a~z, A~Z)가 아닌 것 제거
sentence = re.sub(r"\s+[a-zA-Z]\s+", ' ', sentence) ------ 단일 문자 제거(예 a)
sentence = re.sub(r'\s+', ' ', sentence) ------ 두 개 이상의 공백 제거
return sentence
TAG_RE = re.compile(r'<[^>]+>') ------ 정규 표현식(<[^>]+>)을 컴파일
def remove_tags(text):
return TAG_RE.sub('', text)
reviews = []
sentences = list(movie_reviews['review'])
for sen in sentences:
reviews.append(preprocess_text(sen)) ------ 모든 텍스트 리뷰 데이터를 preprocess_text 함수에 적용
print(movie_reviews.columns.values) ------ 데이터셋의 열에 대한 이름 반환