1.2.1 벡터란?
벡터는 숫자의 집합(리스트 또는 배열)으로, 데이터를 수학적으로 표현하는 방식입니다. 특히 자연어 처리(NLP, Natural Language Processing) 및 머신러닝에서 벡터는 텍스트, 이미지, 오디오 등의 데이터를 수치화하여 기계가 이해할 수 있도록 변환하는 데 사용됩니다.
RAG 검색 과정에서 텍스트를 벡터로 변환하는 이유는 더욱 정교하게 의미적으로 유사한 문서를 검색하기 위해서입니다. 기존의 키워드 기반 검색 방식(TF-IDF, BM25 등)은 단순히 문서 내 키워드의 빈도수를 활용하여 검색하지만, 벡터 검색은 문장의 의미를 벡터 공간에서 수학적으로 비교하여 의미적으로 더 가까운 문서를 찾아낼 수 있다는 장점을 가집니다.

▲ 그림 1-4 벡터 검색