더북(TheBook)

◼︎ 양끝 공백 제거하기

만약 단어에 공백이 포함되어 있다면 같은 값이라도 여러 값이 중복으로 생기게 된다. 예를 들어 " 버스 "처럼 공백이 포함된 문자가 있다면 "버스"와 같은 단어지만 값이 중복된다. 중복 값은 빈도수 표현, 단어 사전 등의 처리 결과에 영향을 미치기 때문에 제거해야 한다.

공백 문자는 눈에 잘 띄지 않기 때문에 전처리 과정에서 간과하기 쉬우므로, 무조건 전처리해야 하는 부분이라고 생각해야 실수를 줄일 수 있다. 제거 방식은 다른 문자열 처리와 마찬가지로 str.메서드() 형식을 사용한다.

 

str.strip(): 양끝 공백 제거하기

df_doc["문서"].str.strip()

실행 결과

0

코로나 상생지원금 문의입니다.

1

지하철 운행시간 문의입니다.

2

버스 운행시간 문의입니다.

3

사회적 거리두기로 인한 영업시간 안내입니다.

4

Bus 운행시간 문의입니다.

5

Taxi 승강장 문의입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.