더북(TheBook)

torchtext.legacy.data에서 제공하는 Field는 데이터 전처리를 위해 사용되며 여기에서 사용되는 파라미터는 다음과 같습니다.

lower: 대문자를 모두 소문자로 변경합니다. 기본값은 false입니다.

fix_length: 고정된 길이의 데이터를 얻을 수 있습니다. 여기에서는 데이터의 길이를 200으로 고정했으며 200보다 짧다면 패딩 작업(padding)을 통해 200으로 맞추어 줍니다.

batch_first: 신경망에 입력되는 텐서의 첫 번째 차원 값이 배치 크기(batch _ size)가 되도록 합니다. 기본값은 false입니다. 모델의 네트워크로 입력되는 데이터는 [시퀀스 길이, 배치 크기, 은닉층의 뉴런 개수]([seq_len, batch_size, hidden_size])의 형태입니다. 이때 batch_first=True로 설정한다면 [배치 크기, 시퀀스 길이, 은닉층의 뉴런 개수]([batch_size, seq_len, hidden_size]) 형태로 변경됩니다. 참고로 은닉층의 입력 데이터는 batch_first=True 옵션과는 무관하게 [은닉층 개수, 배치 크기, 은닉층의 뉴런 개수]([num_layers, batch, hidden_size])입니다. 파이토치는 각 계층별 데이터의 형태를 맞추는 것에서 시작하여 끝날 정도로 중요합니다. 따라서 입력층, 은닉층의 데이터들에 대해 각각의 숫자가 의미하는 것을 이해해야 합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.