이제 판다스로 시리즈 형태의 문자열 데이터를 다뤄 보겠다. 문자열 전처리에 사용되는 대소문자 변경하기, 양끝 공백 제거하기, 어절 나누기, 특정 문자 찾기, 문자열 바꾸기 기능을 살펴볼 것이다.
우선 실습을 위해 예시 문장을 몇 개 만들어서 document에 담아 둔다. 그런 다음 document를 pd 데이터 프레임 안에 괄호로 감싸서 변수 df_doc에 할당한다. 첫 행에 "문서"라는 제목도 설정했다.
document = ["코로나 상생지원금 문의입니다.", " 지하철 운행시간 문의입니다.", "버스 운행시간 문의입니다. ", "사회적 거리두기로 인한 영업시간 안내입니다.", "Bus 운행시간 문의입니다.", " Taxi 승강장 문의입니다."] df_doc = pd.DataFrame(document, columns=["문서"]) df_doc
실행 결과
|
문서 |
0 |
코로나 상생지원금 문의입니다. |
1 |
지하철 운행시간 문의입니다. |
2 |
버스 운행시간 문의입니다. |
3 |
사회적 거리두기로 인한 영업시간 안내입니다. |
4 |
Bus 운행시간 문의입니다. |
5 |
Taxi 승강장 문의입니다. |