머신 러닝을 다루는 기술 with 파이썬, 사이킷런: 1.8.2 참고 사항

CRISP-DM에 대해 말하자면, 포스터 프로보스트(Foster Provost)와 톰 포셋(Tom Fawcett)은 머신 러닝과 조직에서의 그 역할을 깊이 파고드는 <비즈니스를 위한 데이터 과학(Data Science for Business Understanding)>(한빛미디어, 2014)이라는 책을 썼습니다. 주제가 비즈니스에 집중되어 있기는 하지만, 더 큰 시스템이나 조직에서 머신 러닝 시스템을 적용할 때 참고할 수 있는 가치 있는 조언을 많이 얻을 수 있습니다. 또 이 책은 기술적인 내용도 상세하게 설명합니다. 일독을 권합니다.

현실 세계 데이터는 처리하기 어렵습니다. 여기에는 몇 가지 원인이 있습니다. 이 중 하나는 결측치입니다. 데이터 기록이 무작위로 빠져 있거나, 다른 결측치와 어떤 연관성이 있거나, 데이터 수집 과정에 문제가 있어 제대로 된 샘플을 구하지 못했을 수 있습니다. 결측치 성격에 따라 이를 채워 넣는 방법이 달라집니다.

사회과학을 전공한 독자들은 제가 왜 명목형 변수, 순위 변수, 간격 변수와 비율 변수를 자세히 설명하지 않았는지 궁금할 것입니다. 여기에는 두 가지 이유가 있습니다. 첫째, 이러한 식으로 타입을 쪼개면 몇 가지 중요한 점을 놓칠 수 있습니다. 인터넷에서 ‘level of measurement(측정 척도)’를 검색해 보세요. 둘째, 우리가 사용할 모델링 기법들은 범주형 데이터를 정렬 여부에 관계없이 수치형 데이터로 바꾸고 나서 이후 작업을 실행합니다. 따라서 타입이 다르더라도 처리 방식은 근본적으로 동일합니다. 순서형 회귀 모델처럼 범주의 순서 정보를 사용하는 기법도 있지만, 이 책에서는 다루지 않습니다.

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.