더북(TheBook)

◼︎ 어절 나누기

공백(띄어쓰기)을 기준으로 어절을 나눌 때는 다음 형식을 사용한다.

 

Series.str.split(): 어절 나누기

 

Series.str.split()은 판다스의 주요 문자열 처리 방식으로 쉽게 문장을 나눌 수 있어서 널리 사용되고 있다. 다음 코드와 같이 괄호 안에 아무것도 넣지 않으면 기본값인 공백(띄어쓰기)을 기준으로 문장을 나눈다.

# 공백(띄어쓰기)을 기준으로 어절 나누기
df_doc["문서"].str.split()

실행 결과

0

[코로나, 상생지원금, 문의입니다.]

1

[지하철, 운행시간, 문의입니다.]

2

[버스, 운행시간, 문의입니다.]

3

[사회적, 거리두기로, 인한, 영업시간, 안내입니다.]

4

[Bus, 운행시간, 문의입니다.]

5

[Taxi, 승강장, 문의입니다.]

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.