더북(TheBook)

◼︎ 대소문자 변경하기

영어로 된 문서를 다루거나 한국어 사이에 알파벳이 포함되어 있을 때가 있다. 파이썬은 대소문자를 구분하기 때문에 대소문자를 변경해 줘야 한다. 대소문자를 변경해 주지 않으면 ‘good’이라는 단어와 ‘Good’이라는 단어가 있을 때 하나는 전체 소문자, 하나는 첫 글자 대문자라는 이유로 서로 다른 단어로 취급한다. 그러면 단어 빈도 분석이 제대로 되지 않고, 단어 사전을 만들 때도 대소문자만 다른 중복 단어가 여러 개 생기게 된다.

따라서 중복 단어를 줄이기 위해 대문자 또는 소문자로 일괄 변경해 분석하는 것이 좋다. 변경할 때는 Series.str.메서드() 형식을 사용한다.

 

Series.str.upper(): 소문자를 대문자로 일괄 변경

Series.str.lower(): 대문자를 소문자로 일괄 변경

 

다음은 대문자로 또는 소문자로 일괄 변경하는 코드다. 첫 글자만 대문자로 되어 있던 Bus와 Taxi가 Series.str.upper()로 변경한 후에는 모두 대문자인 BUS, TAXI로, Series.str.lower()로 변경한 후에는 모두 소문자인 bus, taxi로 변경된 것을 확인할 수 있다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.