◼︎ 양끝 공백 제거하기
만약 단어에 공백이 포함되어 있다면 같은 값이라도 여러 값이 중복으로 생기게 된다. 예를 들어 " 버스 "처럼 공백이 포함된 문자가 있다면 "버스"와 같은 단어지만 값이 중복된다. 중복 값은 빈도수 표현, 단어 사전 등의 처리 결과에 영향을 미치기 때문에 제거해야 한다.
공백 문자는 눈에 잘 띄지 않기 때문에 전처리 과정에서 간과하기 쉬우므로, 무조건 전처리해야 하는 부분이라고 생각해야 실수를 줄일 수 있다. 제거 방식은 다른 문자열 처리와 마찬가지로 str.메서드() 형식을 사용한다.
• str.strip(): 양끝 공백 제거하기
df_doc["문서"].str.strip()
실행 결과
0 |
코로나 상생지원금 문의입니다. |
1 |
지하철 운행시간 문의입니다. |
2 |
버스 운행시간 문의입니다. |
3 |
사회적 거리두기로 인한 영업시간 안내입니다. |
4 |
Bus 운행시간 문의입니다. |
5 |
Taxi 승강장 문의입니다. |