2.2.3 LLM 훈련 과정: 데이터 수집, 전처리, 훈련
데이터 수집
LLM이 뛰어난 성능을 발휘하기 위해서는 방대한 텍스트 데이터가 필요합니다. 데이터는 모델이 언어의 구조, 문맥, 어휘, 문법 등을 학습하는 데 필수이며, 다양한 주제와 스타일의 데이터는 여러 상황에 대한 적응력을 높여 줍니다. 특히 최신 정보와 트렌드를 반영한 데이터는 더욱 현실적인 응답을 생성하는 데 도움이 됩니다.
LLM 훈련에 사용되는 데이터는 여러 출처에서 수집됩니다. 주요 데이터 출처는 다음과 같습니다.
• 웹 크롤링: 인터넷에 공개된 웹 페이지에서 텍스트를 자동으로 수집하는 방법입니다. 이 방법은 대규모 데이터를 빠르게 확보할 수 있는 장점이 있지만, 저작권 문제도 고려해야 합니다.
• 공공 데이터베이스: 정부 기관, 연구소, 학술 단체 등이 제공하는 공공 데이터베이스에서 데이터를 수집할 수 있습니다. 이러한 데이터는 신뢰성이 높고, 특정 분야에 특화된 정보를 제공할 수 있습니다.