더북(TheBook)

알고리즘 발전

하드웨어와 데이터 외에도 2000년대 후반까지 매우 깊은 심층 신경망을 훈련하기 위한 안전한 방법을 몰랐습니다. 결과적으로 신경망은 한 개 또는 두 개의 표현 층만 사용해 여전히 상당히 얕았습니다. 따라서 SVM과 랜덤 포레스트 같은 더 세련된 얕은 학습에 비해 크게 빛을 발하지 못했습니다. 주요 문제는 깊게 쌓인 층을 통과해 그레이디언트를 전파하는 것이었습니다. 층의 개수가 늘어남에 따라 신경망을 훈련하기 위해 사용하는 피드백 신호가 희미해지기 때문입니다.

2009년에서 2010년 사이에 변화가 일어났습니다. 간단하지만 중요한 여러 알고리즘 개선이 등장하면서 그레이디언트를 더 잘 전파하게 되었습니다.

신경망 층을 위한 더 나은 활성화 함수(예를 들면 렐루(rectified linear unit, relu))

더 나은 가중치 초기화 방법(예를 들면 글로럿 초기화(Glorot initialization))

더 나은 최적화 방법(예를 들면 RMSProp와 ADAM 옵티마이저(optimizer))

이런 개선 사항으로 열 개 또는 그 이상의 층을 가진 모델을 훈련할 수 있을 때 딥러닝이 빛을 내기 시작했습니다. 결국 2014, 2015, 2016년에 배치 정규화(batch normalization), 잔차 연결(residual connection), 깊이별 분리 합성곱(depthwise separable convolution)과 같은 그레이디언트 전파를 돕는 더 고급화된 방법들이 개발되었습니다. 요즘에는 수천 개 층을 가진 모델을 처음부터 훈련할 수 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.