더북(TheBook)

특징 추출(feature extraction)은 언어 데이터를 머신러닝 모델이 학습할 수 있도록, 중요한 특성을 수치화하는 과정입니다. 예를 들어 단어의 빈도나 TF-IDF(Term Frequency-Inverse Document Frequency)와 같은 통계적 특징을 추출해 모델의 입력으로 사용합니다.

▼ 표 1-5 특징 추출 예시

특징 추출 유형

설명

입력 문장

추출된 특징

단어 빈도

단어가 등장하는 빈도를 기반으로 특징 추출

자연어 처리는 재미있다. 자연어는 유용하다

{'자연어': 2, '처리': 1, '재미있다': 1, '유용하다': 1}

TF-IDF

단어의 빈도와 문서 간 역빈도를 결합해 중요 단어 추출

자연어 처리는 재미있다. 자연어는 유용하다

자연어(2)와 같은 자주 등장하는 단어는 낮은 가중치, 재미있다(1)와 같은 특이 단어는 높은 가중치

N-그램(N-gram)

연속된 n개의 단어를 묶어 특징 추출

나는 자연어 처리를 공부한다

바이그램: ['나는 자연어', '자연어 처리를', '처리를 공부한다']

단어 임베딩

단어를 의미적으로 수치화하여 특징 학습

나는 자연어 처리를 좋아한다

'자연어' → [0.21, 0.52, ...], '처리' → [0.35, 0.47, ...]

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.