더북(TheBook)

4.7 요약

누락된 데이터를 다루는 유용한 방법을 살펴보면서 이 장을 시작했습니다. 머신 러닝 알고리즘에 데이터를 주입하기 전에 범주형 변수를 올바르게 인코딩해야 합니다. 순서가 있는 것과 없는 특성 값을 정수 표현으로 매핑하는 법을 배웠습니다.

모델 복잡도를 감소시킴으로써 과대적합을 피하는 데 도움이 되는 L1 규제에 대해 설명했습니다. 관련 없는 특성을 제거하는 다른 방법으로는 순차 특성 선택 알고리즘을 사용하여 데이터셋에서 의미 있는 특성을 선택했습니다.

다음 장에서 차원 축소, 즉 특성 추출에 관한 또 다른 유용한 방법을 배울 것입니다. 특성 선택에서처럼 특성을 완전히 제거하는 대신 저차원 부분 공간으로 특성을 압축합니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.