더북(TheBook)

2.4 신경망의 엔진: 그래디언트 기반 최적화

 

이전 절에서 보았듯이 첫 번째 신경망 예제에 있는 각 층은 입력 데이터를 다음과 같이 변환합니다.

output = relu(dot(W, input) + b)

 

이 식에서 텐서 Wb는 층의 속성처럼 볼 수 있습니다. 가중치(weight) 또는 훈련되는 파라미터(trainable parameter)라고 부릅니다(각각 커널(kernel)25과 편향(bias)이라고 부르기도 합니다). 이런 가중치에는 훈련 데이터를 신경망에 노출시켜서 학습된 정보가 담겨 있습니다.

초기에는 가중치 행렬이 작은 난수로 채워져 있습니다(무작위 초기화(random initialization) 단계라고 부릅니다). 물론 Wb가 난수일 때 relu(dot(W, input) + b)가 유용한 어떤 표현을 만들 것이라고 기대할 수는 없습니다. 즉 의미 없는 표현이 만들어집니다. 하지만 이는 시작 단계일 뿐입니다. 그다음에는 피드백 신호에 기초하여 가중치가 점진적으로 조정될 것입니다. 이런 점진적인 조정 또는 훈련(training)이 머신 러닝 학습의 핵심입니다.

25 역주 커널은 여러 가지 의미로 사용됩니다. 1장에서는 서포트 벡터 머신의 커널 함수, 5장에서는 합성곱 신경망의 필터를 지칭합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.