더북(TheBook)


학습 속도(학습률)가 무엇인가요?

옵티마이저에서 등장하는 학습률을 이해하기 위해서는 앞에서 설명드린 경사 하강법을 다시 한번 떠올려 봅시다. 경사 하강법은 모델의 오차가 가장 작아지는 가중치의 값을 찾아가는 방법입니다. 그러기 위해서 미분의 개념을 사용합니다. 이때 오차가 작아지는 방향으로 가중치의 값을 이동하는데, 한 번에 얼마 정도의 크기로 이동하는지를 결정하는 것이 바로 학습률의 개념입니다.


베타 값은 무엇인가요?

옵티마이저에는 다양한 종류가 있습니다. 그 예로 SGD, 모멘텀, adagrad 등과 같이 말이죠. adam 옵티마이저도 그 하나로서, 어떠한 방법으로 경사 하강법을 사용하는지에 따라 그 종류가 달라집니다. adam 옵티마이저는 다른 옵티마이저에 비해 그 성능이 높다고 알려져 있습니다. adam 옵티마이저를 사용할 때 사용자가 옵티마이저의 세부 값을 수정할 수 있으며, 그 값이 바로 베타1, 베타2입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.