생성형 AI 완전 정복: 1.2.4 생성형 AI 기술의 발전 -29

특징 추출(feature extraction)은 언어 데이터를 머신러닝 모델이 학습할 수 있도록, 중요한 특성을 수치화하는 과정입니다. 예를 들어 단어의 빈도나 TF-IDF(Term Frequency-Inverse Document Frequency)와 같은 통계적 특징을 추출해 모델의 입력으로 사용합니다.

▼ 표 1-5 특징 추출 예시

특징 추출 유형	설명	입력 문장	추출된 특징
단어 빈도	단어가 등장하는 빈도를 기반으로 특징 추출	자연어 처리는 재미있다. 자연어는 유용하다	{'자연어': 2, '처리': 1, '재미있다': 1, '유용하다': 1}
TF-IDF	단어의 빈도와 문서 간 역빈도를 결합해 중요 단어 추출	자연어 처리는 재미있다. 자연어는 유용하다	자연어(2)와 같은 자주 등장하는 단어는 낮은 가중치, 재미있다(1)와 같은 특이 단어는 높은 가중치
N-그램(N-gram)	연속된 n개의 단어를 묶어 특징 추출	나는 자연어 처리를 공부한다	바이그램: ['나는 자연어', '자연어 처리를', '처리를 공부한다']
단어 임베딩	단어를 의미적으로 수치화하여 특징 학습	나는 자연어 처리를 좋아한다	'자연어' → [0.21, 0.52, ...], '처리' → [0.35, 0.47, ...]

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.