이제 집중해서 살펴보아야 할 GRU 셀에 대한 네트워크입니다. LSTM 셀과 크게 다르지 않지만 차이점 위주로 설명하겠습니다.

    코드 7-57 GRU 셀 네트워크

    class GRUCell(nn.Module):
        def __init__(self, input_size, hidden_size, bias=True):
            super(GRUCell, self).__init__()
            self.input_size = input_size
            self.hidden_size = hidden_size
            self.bias = bias
            self.x2h = nn.Linear(input_size, 3 * hidden_size, bias=bias) ------ ①
            self.h2h = nn.Linear(hidden_size, 3 * hidden_size, bias=bias)
            self.reset_parameters()
    
        def reset_parameters(self): ------ 파라미터를 초기화
            std = 1.0 / math.sqrt(self.hidden_size)
            for w in self.parameters():
                w.data.uniform_(-std, std)
    
        def forward(self, x, hidden):
            x = x.view(-1, x.size(1))
    
            gate_x = self.x2h(x) ------ LSTM 셀에서는 gates를 x2h+h2h로 정의했지만 GRU 셀에서는 개별적인 상태를 유지합니다.
            gate_h = self.h2h(hidden)
            gate_x = gate_x.squeeze()
            gate_h = gate_h.squeeze()
    
            i_r, i_i, i_n = gate_x.chunk(3, 1) ------ 총 세 개의 게이트(망각, 입력, 새로운 게이트)를 위해 세 개로 쪼갭니다.
            h_r, h_i, h_n = gate_h.chunk(3, 1)
    
            resetgate = F.sigmoid(i_r + h_r)
            inputgate = F.sigmoid(i_i + h_i)
            newgate = F.tanh(i_n + (resetgate * h_n)) ------ ‘새로운 게이트’는 탄젠트 활성화 함수가 적용된 게이트
    
            hy = newgate + inputgate * (hidden - newgate)
            return hy
    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.