모두의 데이터 과학 with 파이썬: 2 정규화

5. 원형 추출(lemmatization) : 더 느리고 더 보수적인 형태소 추출 메커니즘이다. WordNetLemmatizer는 WordNet이 계산한 형태소를 참조해 문장에서 단어나 표현을 인식한다(원형 추출기를 사용하려면 인터넷에 연결해야 한다). lemmatize(word) 함수는 단어의 원형을 반환한다.

lemmatizer = nltk.WordNetLemmatizer()

lemmatizer.lemmatize("wonderful")

>>>

'wonderful'

정규화 과정의 일부는 아니지만, 품사 태깅(POS tagging)은 텍스트 처리에서 매우 중요한 단계다. nltk.pos_tag(text)는 텍스트(단어의 리스트)에 있는 모든 단어에 품사를 할당한다. 반환되는 값은 튜플의 리스트인데, 튜플의 첫 번째 요소는 원래 단어고 두 번째 요소는 품사다.

# 형용사와 명사

nltk.pos_tag(["beautiful", "world"])

>>>

[('beautiful', 'JJ'), ('world', 'NN')]

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.