더북(TheBook)

2. 학습을 위해 과도한 비용이 발생합니다. LLM은 말 그대로 거대 언어 모델이기 때문에 여기에 추가 학습을 시키기 위해서는 LLM을 만드는 회사뿐만 아니라, 이것을 파인튜닝하겠다는 회사 역시 GPU가 필요합니다. 하지만 이 훈련만을 위해 GPU를 구매할 수 없으니, 클라우드 자원을 활용해야 할 텐데요. 그 비용이 과도하게 높습니다.

3. 데이터 준비가 어렵습니다. 파인튜닝을 위해서는 데이터를 ‘질문-답변’ 세트 형식으로 준비해야 하는데, 기존에 보유된 데이터가 이런 형식으로 정리되어 있지 않은 경우가 대부분입니다. 따라서 파인튜닝을 하고자 할 때에는 누군가가 데이터를 ‘질문-답변’ 세트로 변경해야 합니다. 그런데 생각해보세요. 업무 데이터라면 이것을 IT 직원이 할 수 있을까요? 예를 들어 보험 심사 데이터를 ‘질문-답변’ 세트로 구분을 한다고 가정했을 때, 질문에 대한 답변을 검증할 수 있는 사람은 누구일까요? 바로 심사를 담당하는 사람들 아닐까요? 즉, 질문에 대한 답변 검증은 그 업무를 해본 사람만이 알 수 있습니다. 그러니 이런 데이터를 준비하기 위해서는 IT 인력뿐만 아니라 해당 업무의 전문가도 필요합니다.

 

그래서 LLM의 경우는 파인튜닝보다 RAG를 더 선호하는 편입니다. RAG에 대해서는 이어서 바로 알아보겠습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.