데이터 과학으로 처리되는 빅데이터는 크기(Volume), 다양성(Variety), 속도(Velocity)라는 3V로 정의할 수 있다.
- 크기: 활용 대상이 되는 데이터의 크기를 의미한다. 물론, 데이터 크기는 지금도 급증하고 있어서 빅데이터가 되기 위한 크기를 정의하기는 쉽지 않다. 또한, 크기에 대해서는 산업별, 영역별, 지역별로 인식 차이가 있으며 때로는 언론에서 간혹 언급하는 PB(petabytes)나 ZB(zettabytes)보다 적은 크기의 데이터도 빅데이터로 고려하는 경우도 있다.
Note ≡ 데이터 크기 단위
• 1,024GB(기가바이트) = 1TB(테라바이트)
• 1,024TB(테라바이트) = 1PB(페타바이트)
• 1,024PB(페타바이트) = 1EB(엑사바이트)
• 1,024EB(엑사바이트) = 1ZB(제타바이트)
- 다양성: 빅데이터는 다양한 형태를 가진다는 특징이 있다. 데이터 형태는 크게 세 가지로 구분할 수 있다. CSV 파일이나 관계형 데이터베이스 같이 구조화되어 있는 정형 데이터와 JSON 형태의 반정형 데이터, 그리고 구조화되어 있지 않은 비정형 데이터로 구분한다. 이와 같은 데이터의 다양성은 빅데이터가 생성되는 다양한 출처에서 기인한다.
- 속도: 빅데이터는 빠르게 생성되며, 이러한 생성 속도도 특성으로 고려할 수 있다. 온라인 게임처럼 실시간으로 생성되는 데이터나 동영상 같은 스트리밍 데이터도 빅데이터 영역에 포함되므로 데이터의 생성 속도는 중요하게 고려된다. 빠르게 생성되는 빅데이터에 대한 신속한 처리와 분석도 큰 이슈가 된다.
앞의 정의에서 볼 수 있듯이 빅데이터는 본질적으로 ‘데이터’이고, 그렇기에 빅데이터를 잘 이해하고 활용하려면 데이터 과학이 중요하다. 그리고 데이터의 크기보다 중요한 것은 새로운 데이터 소스를 발굴하고, 처리와 분석 방법을 통해 새로운 통찰력을 찾는 기회를 만들어가는 것이다.