더북(TheBook)

2.5 연습 문제

1. 2.1절에 있는 하드 코딩된 시간 예측 문제를 고른 이유는 데이터가 거의 선형이기 때문입니다. 다른 데이터셋은 훈련하는 동안 손실 표면과 동역학이 다릅니다. 자신만의 데이터로 바꾸어 모델이 어떻게 동작하는지 살펴볼 수 있습니다. 모델이 어느 정도 흥미로운 수준에 수렴하려면 학습률, 초기화, 정규화를 바꾸어야 할 수 있습니다.

 

2. 2.3.5절에서 정규화의 중요성과 입력 데이터를 평균이 0이고 단위 분산을 갖도록 정규화하는 방법을 설명했습니다. 이 예에서 정규화를 제거하고 모델이 훈련하지 못하는지 확인해 보세요. 또 정규화 과정을 수정하여 평균이 0이 아닌 다른 값이나 조금 더 낮은 표준 편차를 가지도록 만들어 보세요. 어떤 정규화는 모델 훈련에 유효하지만 어떤 경우에는 모델이 수렴하지 못하게 만듭니다.

 

3. 보스턴 주택 가격 데이터셋의 일부 특성이 다른 것보다 타깃을 예측하는 데 유용하다고 알려져 있습니다. 일부 특성은 주택 가격을 예측하는 데 유용한 정보를 제공하지 않는다는 점에서 잡음에 불과합니다. 하나만 남기고 모든 특성을 제거한다면 어떤 특성을 남겨야 할까요? 두 개의 특성을 남겨야 한다면 어떻게 특성을 선택할 수 있을까요? 보스턴 주택 예제의 코드를 사용해 이 문제를 탐구해 보세요.

 

4. 어떻게 경사 하강법이 무작위한 방법보다 나은 방법으로 가중치를 업데이트하여 모델을 최적화하는지 설명해 보세요.

 

5. 보스턴 주택 예제는 절댓값 크기순으로 상위 다섯 개의 가중치를 출력합니다. 작은 가중치와 연관된 특성을 출력하도록 코드를 수정해 보세요. 이 가중치는 왜 작은지 상상할 수 있나요? 누군가가 왜 이 가중치의 값이 작은지 물어보면 설명할 수 있나요? 가중치를 해석하는 방법에 대해 주의해야 할 점은 무엇인가요?

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.