더북(TheBook)

3 텍스트 데이터 전처리

 

워드클라우드를 그리기 전에 전처리해 준다. 줄을 바꾸기 위해 사용된 개행 문자는 시각화할 때 불필요한 정보이므로 제거한다(정규표현식(regular expression)에서는 \n이 개행 문자(enter)를 의미한다. 윈도우에서는 ₩으로 보일 수 있다). 그 외에 한글과 영문자가 아닌 불필요한 문자들도 삭제한다.

그러면 다음을 사용해 순서대로 코드를 작성해 보자.

 

1 | str.replace() 메서드: 시리즈의 각 문자열에서 하위 문자열을 대체하는 데 사용한다. "[^ㅎ-ㅏ-힣-가-ㅣa-zA-Z]"는 대체할 패턴으로 한글과 영문자 알파벳의 대문자와 소문자 전체를 의미한다.

2 | " ": 일치 항목을 대체하는 데 사용할 문자열이다. 앞에서 찾은 개행 문자와 한글과 알파벳을 제외한 문자는 공백 문자로 치환한다.

3 | regex=True: 위에서 지정한 정규식 패턴을 사용할 것임을 지정한다. 이를 통해 각 문자열에 지정된 변환을 수행하고 새 시리즈는 content_text 변수에 다시 할당된다.

content_text = care['content'].str.replace("\\\\n", " ", regex=True)
content_text = content_text.str.replace("[^-ㅎㅏ-ㅣ가- a-zA-Z]", " ", regex=True)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.