더북(TheBook)

3.3.1 데이터

RAG에서 사용할 수 있는 데이터는 특별히 정해진 형식이 없습니다. CSV, JSON, PDF 등과 같은 파일 형식도 가능하고, 오라클과 같은 데이터베이스도 가능합니다. 중요한 것은 데이터의 형식이 아니라 규범, 규제를 고려하는 것입니다. 특히 사용하려는 데이터에 개인정보가 포함되어 있는지, 저작권법 침해에 해당되는지를 확인해야 합니다. 또한 외부에서 얻은 데이터를 상업적 용도로 사용할 경우, 데이터의 소유권을 가진 개인이나 기관으로부터 적절한 사용 권한을 획득해야 합니다.

이렇게 획득한 데이터는 크게 두 가지 방법으로 사용할 수 있습니다.

시맨틱 검색

벡터 검색

 

시맨틱 검색은 이미 앞에서 살펴봤으니 여기서는 벡터 검색에 대해 집중적으로 알아보겠습니다. 벡터 검색을 위해서는 임베딩이라는 개념을 먼저 이해해야 합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.