더북(TheBook)

이 코드를 실행하면 그림 1-1과 같이 출력되는데, 데이터 스케일링 전후의 결과를 보여 주고 있습니다. 왼쪽에 보이는 데이터 스케일링 이전의 그림은 데이터가 너무 편협하게 분포되어 있고 그래프 간 차이가 심합니다. 하지만 오른쪽에 보이는 데이터 스케일링 이후의 그림은 데이터가 0을 중심으로 모여 있고 그래프 간 차이도 심하지 않습니다.

 

그림 1-1 | 원본 데이터와 스케일링 이후의 데이터

 

데이터 스케일링을 마치고 데이터를 75:25의 비율로 학습셋과 테스트셋으로 나누었습니다. 이제 알고리즘을 테스트할 준비가 되었습니다.

앞으로 배울 열 가지 알고리즘은 모두 사이킷런(Scikit-learn)을 이용해 실습할 것입니다. 사이킷런은 다양한 머신 러닝 알고리즘을 손쉽게 이용할 수 있도록 해 주는 유명한 파이썬 오픈 소스 라이브러리입니다.1 사이킷런을 이용하는 기본 순서는 다음과 같습니다.

 

1 | 사이킷런 라이브러리에서 적절한 알고리즘을 불러온다.

2 | fit() 함수로 학습한다.

3 | predict() 함수로 예측한다.

 

이 세 가지 절차를 통해 수많은 알고리즘을 손쉽게 적용할 수 있으며, 여기에 교차 검증 과정(13.5절 참조) 등을 거치면 좋은 모델을 만들 수 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.