더북(TheBook)

이제 판다스로 시리즈 형태의 문자열 데이터를 다뤄 보겠다. 문자열 전처리에 사용되는 대소문자 변경하기, 양끝 공백 제거하기, 어절 나누기, 특정 문자 찾기, 문자열 바꾸기 기능을 살펴볼 것이다.

우선 실습을 위해 예시 문장을 몇 개 만들어서 document에 담아 둔다. 그런 다음 document를 pd 데이터 프레임 안에 괄호로 감싸서 변수 df_doc에 할당한다. 첫 행에 "문서"라는 제목도 설정했다.

document = ["코로나 상생지원금 문의입니다.",
            " 지하철 운행시간 문의입니다.",
            "버스 운행시간 문의입니다. ",
            "사회적 거리두기로 인한 영업시간 안내입니다.",
            "Bus 운행시간 문의입니다.",
            " Taxi 승강장 문의입니다."]

df_doc = pd.DataFrame(document, columns=["문서"])
df_doc

실행 결과

 

문서

0

코로나 상생지원금 문의입니다.

1

지하철 운행시간 문의입니다.

2

버스 운행시간 문의입니다.

3

사회적 거리두기로 인한 영업시간 안내입니다.

4

Bus 운행시간 문의입니다.

5

Taxi 승강장 문의입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.