더북(TheBook)

모델 구조

먼저 LSTM 모델의 경우 Glove와 Fasttext(Crawl)의 사전 학습 워드 임베딩을 각각 불러온 뒤16 이를 병합하여 사용했습니다. 그리고 LSTM을 학습시킬 때 임베딩 부분의 가중치가 변경되지 않도록 required_grad = False로 설정합니다. LSTM 모델 구조는 다음 코드와 같습니다.

입력 데이터가 두 개의 LSTM 층을 통과한 뒤 그 결과 벡터의 최댓값 풀링(Max pool)과 평균값 풀링(Mean pool)을 각각 구합니다. 두 개의 풀링 벡터를 병합(Concatenate)한 다음, 층을 더 쌓기 위해 은닉층과 활성화 함수(Linear + Relu)를 통과시키고 레이어를 통과하기 전 정보가 더해지도록 잔차 연결(Skip connection)의 형태를 구성합니다. 마지막으로 악성 여부를 나타내는 타깃(Label)과 더불어 서브 타깃(Subtype targets)에 대한 에러도 계산할 수 있도록 총 두 가지 출력을 만들어냅니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.