더북(TheBook)

1.4 데이터와 변수의 이해

이번 절에서는 우리의 주요 관심 대상인 데이터가 과연 무엇이며, 어떻게 이해할 수 있는지를 차근차근 살펴보겠다. 데이터는 어떠한 값의 모음이라고 볼 수 있다. 이때 값이 어떻게 모여 있는지에 따라 크게 정형 데이터, 반정형 데이터, 비정형 데이터로 나눌 수 있다. 데이터 과학에서는 이 중에서 정형 데이터를 많이 사용하며, 반정형 데이터나 비정형 데이터를 다룬다 하더라도 결국은 정형화하여 분석한다. 여기서 말하는 정형 데이터는 행과 열이 있는 형태로 값을 모아 놓은 데이터를 의미하는데, 다음 설명으로 이해해보자.

▲ 그림 1-23 이동 통신사를 이용하는 고객 10명

특정 이동 통신사를 이용하는 고객이 10명 있다고 하자. 이 고객들을 자세히 알기 위해 1:1로 만나서 이야기 나누는 방법을 고려했다. 그렇지만 이 방법은 만나야 할 고객이 많아지면 사용하기가 쉽지 않다. 그다음으로 고려할 수 있는 방법은 고객에게 알고 싶은 몇 가지 값을 미리 정한 후 그 기준에 대한 값을 측정하고 기록하는 것이다. 첫 번째 방법보다 고객을 깊이 이해하기는 분명 어려울 수 있지만, 다수에 대해서 측정한 값을 이해하기에는 훨씬 효율적일 것이다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.