더북(TheBook)

document의 단어들은 다음과 같이 임베딩 처리됩니다.

실행 결과

CreateEmbeddingResponse(data=[Embedding(embedding=[-0.025099867954850197, -0.019271383062005043, -0.007503656204789877, -0.01672401651740074, -0.007787466049194336, 0.0280348788946867, -0.005880402401089668, 0.0039110383950173855, -0.00293500954285264, 0.006724909879267216,
--중간 생략--
0.006888267584145069, -0.01740266941487789], index=3, object='embedding')], model='text-embedding-ada-002-v2', object='list', usage=Usage(prompt_tokens=23, total_tokens=23))

그런데 결과에서 볼 수 있듯이 ‘중간 생략’을 할 정도로 벡터로 변환된 내용이 상당히 많은데요. 그렇다면 이것을 어딘가에 저장해두어야 한다는 의미겠죠? 그것도 아무 데이터베이스에 저장할 수는 없고, 벡터 데이터베이스에 해야 합니다.

바로 이어서 벡터 데이터베이스에 대해 알아보겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.