더북(TheBook)

[RAG에 사용할 수 있는 문서]

JSON, CSV 등의 구조화된 데이터

PDF, DOCX 등의 문서 파일

데이터베이스(SQL, NoSQL)

웹사이트 크롤링3 데이터

 

LLM이 더 정확하고 신뢰성 있는 답변을 생성할 수 있도록, 체계적이고 구조화된 방식으로 데이터를 저장하는 것이 핵심입니다. 이를 위해 OpenAI의 text-embedding-ada-002 같은 임베딩 모델을 사용하여 텍스트를 벡터로 변환한 후 FAISS, Pinecone, Weaviate, Chroma 같은 벡터 데이터베이스(벡터 저장소)에 저장할 수 있습니다. 벡터 데이터베이스에 대해서는 1.2.3절에서 자세히 배웁니다.

 

(2) 벡터 검색

사용자의 질문을 벡터 형태로 변환하여 검색하는 기술을 의미합니다. 기존의 키워드 검색 방식과 달리, 벡터 검색은 문서의 의미적 유사성을 고려하여 더욱 정교한 검색 결과를 제공할 수 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.