더북(TheBook)
# 단어 사전을 확인해 보면 {"단어": 인덱스 번호}로 되어 있음을 알 수 있다.
cvect.vocabulary_

실행 결과

{'코로나': 7,
 '거리두기와': 0,
 '상생지원금': 2,
 '문의입니다': 1,
 '지하철': 6,
 '운행시간과': 5,
 '요금': 4,
 '승강장': 3,
 '택시': 8}

 

get_feature_names_out()을 사용하면 dtm이라는 변수로 쓰인 단어-문서 행렬에 등장하는 순서대로 단어 사전을 반환한다.

vocab = cvect.get_feature_names_out()
vocab

실행 결과

array(['거리두기와', '문의입니다', '상생지원금', '승강장', '요금', '운행시간과', '지하철', '코로나', '택시'], dtype=object)
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.