2.4 신경망의 엔진: 그레이디언트 기반 최적화
이전 절에서 보았듯이 첫 번째 모델 예제에 있는 각 층은 입력 데이터를 다음과 같이 변환합니다.
output = relu(dot(W, input) + b)
이 식에서 텐서 W와 b는 층의 속성처럼 볼 수 있습니다. 가중치(weight) 또는 훈련되는 파라미터(trainable parameter)라고 부릅니다(각각 커널(kernel)23과 편향(bias)이라고 부르기도 합니다). 이런 가중치에는 훈련 데이터를 모델에 노출시켜서 학습된 정보가 담겨 있습니다.
초기에는 가중치 행렬이 작은 난수로 채워져 있습니다(무작위 초기화(random initialization) 단계라고 부릅니다). 물론 W와 b가 난수일 때 relu(dot(W, input) + b)가 유용한 어떤 표현을 만들 것이라고 기대할 수는 없습니다. 즉, 의미 없는 표현이 만들어집니다. 하지만 이는 시작 단계일 뿐입니다. 그다음에는 피드백 신호에 기초하여 가중치가 점진적으로 조정될 것입니다. 이런 점진적인 조정 또는 훈련(training)이 머신 러닝 학습의 핵심입니다.