딥러닝 파이토치 교과서: 10.2.2 버트(BERT)

① 주어진 데이터셋은 다음과 같습니다.

id document label
5686145 당시 대박쳤던 영화..괜찮다!! 1
8392466 억지스러운 시나리오..지루한 전개.. 1편 보다 못한 구성등.. 2편은 안나오는게 나았다..망작..배우들이 영화보는 눈이 없어서 안타깝다. 0
3398398 ㅋㅋㅋㅋㅋㅋㅋㅋ 반도 안되는 영화 0
2504572 이 영화가 평점이 높은 이유를 모르겠어..ㅡ.ㅡ:: 0
1747519 평생 기억할만한 영화,정상적인 소재는 아니지만 1
9972054 요즘 상황 보고 이 영화가 생각났다. 1
10226361 많을 것을 생각하게 만드는 영화입니다.마지막에 사람들이 짐승으로 보이고 아수라가 사람같아 보였습니다. 1

따라서 self.df.iloc[idx, 1]처럼 인덱스를 1번부터 사용하는 것은 id는 사용하지 않고, document와 label만 사용하겠다는 의미입니다.

이제 배치 크기만큼 데이터를 메모리로 불러오기 위해 데이터셋을 데이터로더에 전달합니다. 메모리로 불러올 때는 훈련, 검증, 테스트 용도로 분리해서 가져옵니다.

코드 10-44 데이터셋의 데이터를 데이터로더로 전달

train_dataset = Datasets(train_df)
train_loader = DataLoader(train_dataset, batch_size=2, shuffle=True, num_workers=0)

valid_dataset = Datasets(valid_df)
valid_loader = DataLoader(valid_dataset, batch_size=2, shuffle=True, num_workers=0)

test_dataset = Datasets(test_df)
test_loader = DataLoader(test_dataset, batch_size=2, shuffle=True, num_workers=0)

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.