더북(TheBook)

2.4.3 모델 해석 가능성에 대한 주의 사항

그림 2-13에 있는 가중치는 한 가지 이야기를 말해 줍니다. 이 결과를 보고 모델이 ‘평균적인 방의 개수’ 특성이 가격과 양의 상관관계를 가지는 것을 학습했다고 말하거나, 절댓값 크기가 작기 때문에 표시되지 않은 오래된 주택 비율이 처음 다섯 개의 특성보다 중요도가 낮다고 말할 수 있습니다. 사람은 이야기를 좋아하기 때문에 이를 크게 받아들이고 수치가 뒷받침하는 것보다 더 많은 것을 말해 준다고 상상하는 것이 일반적입니다. 예를 들어 이런 종류의 분석이 실패하는 한 가지 경우는 두 입력 특성이 강한 상관관계를 가질 때입니다.

우연히 동일한 특성이 두 번 포함된 가상의 사례를 생각해 보죠. 이를 FEAT1과 FEAT2라고 부르겠습니다. 두 특성에 대해 학습된 가중치는 10과 -5입니다. FEAT1을 증가시키면 출력이 커지고 FEAT2는 그 반대라고 말하기 쉽습니다. 하지만 이 특성들이 동일하기 때문에 가중치가 반대여도 모델은 정확히 동일한 값을 출력합니다.

또 다른 주의 사항은 상관관계와 인과관계의 차이입니다. 지붕이 얼마나 젖었는지를 바탕으로 얼마나 많은 비가 내렸는지 예측하는 간단한 모델을 생각해 보죠. 지붕이 젖은 정도를 측정했다면 아마도 지난 시간에 얼마나 많은 비가 내렸는지 예측할 수 있습니다. 하지만 센서에 물이 튀었을 때도 비가 내렸다고 판단할 수 있습니다!

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.