더북(TheBook)

 

11장 데이터 다루기

Deep Learning for everyone icon_day

 

실습 데이터 피마 인디언 당뇨병 예측 : dataset/pima-indians-diabetes.csv

 

 

 

1딥러닝과 데이터

 

세월이 흐르면서 쌓인 방대한 데이터, 이 ‘빅데이터’는 분명히 머신러닝과 딥러 닝으로 하여금 사람에 버금가는 판단과 지능을 가질 수 있게끔 했습니다. 하지만 데이터의 양이 많다고 해서 무조건 좋은 결과를 얻을 수 있는 것은 아닙니다. 데이터의 양보다 훨씬 중요한 것은, ‘필요한’ 데이터가 얼마나 많은가입니다. 그리고 준비된 데이터가 우리가 사용하려는 머신러닝과 딥러닝에 얼마나 효율적으로 사용되게끔 가공됐는지가 역시 중요합니다.

머신러닝 프로젝트의 성공과 실패는 얼마나 좋은 데이터를 가지고 시작하느냐에 영향을 많이 받습니다. 여기서 좋은 데이터란 내가 알아내고자 하는 정보를 잘 담고 있는 데이터를 말합니다. 한쪽으로 치우치지 않고, 불필요한 정보를 가지 고 있지 않으며, 왜곡되지 않은 데이터여야 합니다. 그리고 이를 위해 머신러닝, 딥러닝 개발자들은 데이터를 들여다 보고 분석할 수 있어야 합니다. 내가 이루고 싶은 목적에 맞춰 가능한 한 많은 정보를 모았다면 이를 머신러닝과 딥러닝에서 사용할 수 있게 잘 정제된 데이터 형식으로 바꿔야 합니다. 이 작업은 모든 머신 러닝 프로젝트의 첫 단추이자 가장 중요한 작업입니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.