UNIT 01
데이터 종류
“고기인가 채소인가?”
요리에 사용할 수 있는 재료는 매우 다양합니다. 돼지고기, 소고기, 생선 등 육류와 어류를 비롯하여 배추, 오이, 양파 등 채소류와 사과, 토마토1, 바나나 등 과일류가 다양하게 있습니다. 또 종류에 따라 쓰임새도 다릅니다. 데이터도 마찬가지입니다. 우리가 만들려는 미트볼 파스타도 미트볼용 소고기와 토마토, 마늘, 양파 등 육류, 채소류, 과일류로 구분할 수 있습니다.
요리를 하려면 재료가 필요하듯이 데이터 분석을 하려면 데이터가 있어야 합니다. 그런데 우리가 무심하게 말하는 데이터란 무엇일까요? 데이터는 의미 있는 정보를 가진 모든 값입니다. 여러분의 나이, 키, 몸무게도 데이터고 성별과 다니는 학교, 직장도 데이터입니다. 기업에서는 상품 정보나 인적 사항, 매출 정보 등이 데이터입니다.
요리 재료를 육류, 채소류, 과일류로 분류할 수 있듯이 데이터도 특성에 따라 몇 가지 종류로 분류할 수 있습니다. 데이터 종류를 구분해서 사용하면 데이터 분석 작업을 좀 더 쉽게 할 수 있습니다(실무에서는 데이터 분석을 할 때 원천 데이터의 데이터 종류와 형태, 구조를 정리하는 데 시간이 많이 걸립니다). 이런 데이터의 종류를 자료형, 데이터형, 데이터 타입(datatype)이라고 하는데, 이 책에서는 자료형으로만 칭하겠습니다.2
1 토마토는 채소이지만 이 책에서는 데이터 분석 예시를 위해 과일로 분류하겠습니다.
2 엄밀하게 말하면 자료형(data type)과 클래스(class)는 의미가 다르지만 이 책에서는 이해하기 쉽도록 class() 함수 분류 기준으로 자료형을 정리합니다.