◼︎ 어절 나누기
공백(띄어쓰기)을 기준으로 어절을 나눌 때는 다음 형식을 사용한다.
• Series.str.split(): 어절 나누기
Series.str.split()은 판다스의 주요 문자열 처리 방식으로 쉽게 문장을 나눌 수 있어서 널리 사용되고 있다. 다음 코드와 같이 괄호 안에 아무것도 넣지 않으면 기본값인 공백(띄어쓰기)을 기준으로 문장을 나눈다.
# 공백(띄어쓰기)을 기준으로 어절 나누기 df_doc["문서"].str.split()
실행 결과
0 |
[코로나, 상생지원금, 문의입니다.] |
1 |
[지하철, 운행시간, 문의입니다.] |
2 |
[버스, 운행시간, 문의입니다.] |
3 |
[사회적, 거리두기로, 인한, 영업시간, 안내입니다.] |
4 |
[Bus, 운행시간, 문의입니다.] |
5 |
[Taxi, 승강장, 문의입니다.] |