다음은 출력(output)에 대한 데이터 분포를 파이 차트를 이용하여 살펴보는 코드입니다.
코드 2-3 예제 데이터셋 분포
plot_size = plt.rcParams["figure.figsize"]
plot_size [0] = 8
plot_size [1] = 6
plt.rcParams["figure.figsize"] = plot_size
cars.output.value_counts().plot(kind='pie', autopct='%0.05f%%', colors=['lightblue', 'lightgreen', 'orange', 'pink'], explode=(0.05,0.05,0.05,0.05))
다음 그림은 예제 데이터셋 분포 출력 결과입니다.
▲ 그림 2-20 예제 데이터셋 분포 결과
결과에 따르면 대부분의 자동차(70%)는 허용 불가능한 상태에 있고 20%만 허용 가능한 수준입니다. 즉, 양호한 상태의 자동차 비율이 매우 낮은 것을 볼 수 있습니다. 예제 데이터 정보를 확인했으니 본격적으로 데이터에 대한 전처리를 해 봅시다.