11장 데이터 다루기
Deep Learning for everyone
⦿ 예제 소스 https://github.com/taehojo/deeplearning → 11장. 데이터 다루기 [구글 코랩 실행하기]
⦿ 바로 가기 https://bit.ly/dl3-ch11
1 딥러닝과 데이터
세월이 흐르면서 쌓인 방대한 데이터를 빅데이터라고 합니다. 이 ‘빅데이터’는 분명히 머신 러닝과 딥러닝으로 하여금 사람에 버금가는 판단과 지능을 가질 수 있게끔 했습니다. 하지만 데이터양이 많다고 해서 무조건 좋은 결과를 얻을 수 있는 것은 아닙니다. 데이터양도 중요하지만, 그 안에 ‘필요한’ 데이터가 얼마나 있는가도 중요하기 때문입니다. 그리고 준비된 데이터가 우리가 사용하려는 머신 러닝과 딥러닝에 얼마나 효율적으로 사용되게끔 가공되었는지 역시 중요합니다.
머신 러닝 프로젝트의 성공과 실패는 얼마나 좋은 데이터를 가지고 시작하느냐에 영향을 많이 받습니다. 여기서 좋은 데이터란 한쪽으로 치우치지 않고, 불필요한 정보가 대량으로 포함되어 있지 않으며, 왜곡되지 않은 데이터를 의미합니다. 이러한 데이터를 만들기 위해 머신 러닝, 딥러닝 개발자들은 데이터를 직접 들여다보고 분석할 수 있어야 합니다. 내가 이루고 싶은 목적에 맞추어 가능한 한 많은 정보를 모았다면 이를 머신 러닝과 딥러닝에서 사용할 수 있게 잘 정제된 데이터 형식으로 바꾸어야 합니다. 이 작업은 모든 머신 러닝, 딥러닝 프로젝트의 첫 단추이자 가장 중요한 작업입니다.
지금부터 데이터 분석에 가장 많이 사용하는 파이썬 라이브러리인 판다스(pandas)와 맷플롯립(matplotlib) 등을 사용해 우리가 다룰 데이터가 어떤 내용을 담고 있는지 확인하면서 딥러닝의 핵심 기술들을 하나씩 구현해 보겠습니다.