더북(TheBook)

1.3.3 알고리즘

하드웨어와 데이터에 이어 2000년대 후반까지는 매우 깊은 심층 신경망을 훈련시킬 수 있는 안정적인 방법을 찾지 못했습니다. 이런 이유로 하나 또는 2개의 층만 사용하는 매우 얕은 신경망만 가능했습니다. SVM과 랜덤 포레스트처럼 잘 훈련된 얕은 학습 방법에 비해 크게 빛을 보지 못했습니다. 깊게 쌓은 층을 통과해서 그레이디언트(gradient)22를 전파하는 것이 가장 문제였습니다. 신경망을 훈련하기 위한 피드백 신호가 층이 늘어남에 따라 희미해지기 때문입니다.

2009~2010년경에 몇 가지 간단하지만 중요한 알고리즘이 개선되면서 그레이디언트를 더 잘 전파되게 만들어 주었고 상황이 바뀌었습니다.

신경망의 층에 더 잘 맞는 활성화 함수(activation function)23

층별 사전 훈련(pretraining)을 불필요하게 만든 가중치 초기화(weight initialization) 방법24

RMSProp과 Adam 같은 더 좋은 최적화 방법

이런 기술의 향상으로 10개 이상의 층을 가진 모델을 훈련시킬 수 있게 되었을 때 비로소 딥러닝이 빛을 발하기 시작했습니다.

2014~2016년 사이에 그레이디언트를 더욱 잘 전파할 수 있는 배치 정규화(batch normalization), 잔차 연결(residual connection), 깊이별 분리 합성곱(depthwise separable convolution) 같은 고급 기술들이 개발되었습니다.

오늘날에는 어떤 깊이의 모델이라도 밑바닥부터 훈련할 수 있습니다. 이로 인해 매우 큰 모델의 사용이 가능해졌습니다. 이런 모델은 상당한 표현 능력, 즉 매우 풍부한 가설 공간을 가집니다. 이런 극도의 확장성은 현대 딥러닝의 특징 중 하나입니다. 수십 개의 층과 수천만 개의 파라미터를 가진 모델 구조가 컴퓨터 비전(예를 들어 ResNet, Inception, Xception)과 자연어 처리(예를 들어 BERT, GPT-3, XLNet 같은 트랜스포머(transformer) 기반의 대규모 모델) 분야에 중요한 발전을 가져왔습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.