다음 그림은 테스트 용도의 데이터셋 열 개를 출력한 결과입니다.
▲ 그림 6-4 테스트 데이터셋의 이미지
기본적인 데이터셋 준비가 완료되었습니다. 이제부터 모델 학습을 위한 구체적인 단계들이 시작될 텐데 순서는 다음과 같습니다. 먼저 데이터셋2에는 학습할 데이터의 경로를 정의하고 그 경로에서 데이터를 읽어 옵니다. 데이터셋 크기가 클 수 있으므로 __init__에서 전체 데이터를 읽어 오는 것이 아니라 경로만 저장해 놓고, __getitem__ 메서드에서 이미지를 읽어 옵니다. 즉, 데이터를 어디에서 가져올지 결정합니다. 이후 데이터로더에서 데이터셋의 데이터를 메모리로 불러오는데, 한꺼번에 전체 데이터를 불러오는 것이 아니라 배치 크기만큼 분할하여 가져옵니다.
이번에 살펴볼 DogvsCatDataset() 클래스는 데이터를 불러오는 방법을 정의합니다. 이번 예제의 목적은 다수의 개와 고양이 이미지가 포함된 데이터에서 이들을 예측하는 것입니다. 따라서 레이블(정답) 이미지에서 고양이와 개가 포함될 확률을 코드로 구현합니다. 예를 들어 고양이가 있는 이미지의 레이블은 0이 되고, 개가 있는 이미지의 레이블은 1이 되도록 코드를 구현합니다.