특징 추출(feature extraction)은 언어 데이터를 머신러닝 모델이 학습할 수 있도록, 중요한 특성을 수치화하는 과정입니다. 예를 들어 단어의 빈도나 TF-IDF(Term Frequency-Inverse Document Frequency)와 같은 통계적 특징을 추출해 모델의 입력으로 사용합니다.
▼ 표 1-5 특징 추출 예시
|
특징 추출 유형 |
설명 |
입력 문장 |
추출된 특징 |
|
단어 빈도 |
단어가 등장하는 빈도를 기반으로 특징 추출 |
자연어 처리는 재미있다. 자연어는 유용하다 |
{'자연어': 2, '처리': 1, '재미있다': 1, '유용하다': 1} |
|
TF-IDF |
단어의 빈도와 문서 간 역빈도를 결합해 중요 단어 추출 |
자연어 처리는 재미있다. 자연어는 유용하다 |
자연어(2)와 같은 자주 등장하는 단어는 낮은 가중치, 재미있다(1)와 같은 특이 단어는 높은 가중치 |
|
N-그램(N-gram) |
연속된 n개의 단어를 묶어 특징 추출 |
나는 자연어 처리를 공부한다 |
바이그램: ['나는 자연어', '자연어 처리를', '처리를 공부한다'] |
|
단어 임베딩 |
단어를 의미적으로 수치화하여 특징 학습 |
나는 자연어 처리를 좋아한다 |
'자연어' → [0.21, 0.52, ...], '처리' → [0.35, 0.47, ...] |