생성형 AI 완전 정복: 2.2.3 LLM 훈련 과정: 데이터 수집, 전처리, 훈련 -6

1. 데이터 정제(data cleaning)

데이터 정제는 원시 데이터에서 불필요하거나 오류가 있는 부분을 제거하는 작업입니다. 이 과정에서 다루는 주요 작업은 다음과 같습니다.

▪ 중복 제거: 동일한 내용이 반복되는 중복 데이터를 제거하여 데이터셋의 유효성을 높입니다. 중복 데이터는 모델이 같은 정보를 여러 번 학습하도록 하여 학습 효율성을 떨어뜨릴 수 있습니다.

▪ 오류 수정: 철자 오류, 잘못된 구문, 비정상적인 문장 구조를 수정하거나 제거합니다. 잘못된 데이터가 모델에 입력되면 모델이 이러한 오류를 학습해 잘못된 결과를 생성할 수 있습니다.

▪ 불완전 데이터 처리: 누락된 값이나 불완전한 데이터를 처리합니다. 이는 데이터를 삭제하거나 평균값, 중간값 등을 사용해 채워 넣는 방식으로 해결할 수 있습니다. 불완전한 데이터가 많으면 모델의 성능에 악영향을 미칠 수 있습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.