Note ≡ | 자료 유형
데이터 형태에 따라 다음과 같은 유형으로 구분할 수 있습니다.
▼ 표 3-11 자료 유형
데이터 형태 |
설명 |
예시 |
수치형 자료 |
관측된 값이 수치로 측정되는 자료 |
키, 몸무게, 시험 성적 |
연속형 자료 |
값이 연속적인 자료 |
키, 몸무게 |
이산형 자료 |
셀 수 있는 자료 |
자동차 사고 |
범주형 자료 |
관측 결과가 몇 개의 범주 또는 항목의 형태로 나타나는 자료 |
성별(남, 여), 선호도(좋다, 싫다) |
순위형 자료 |
범주 간에 순서 의미가 있는 자료 |
‘매우 좋다’, ‘좋다’, ‘그저 그렇다’, ‘싫다’, ‘매우 싫다’ 다섯 가지 범주가 주어졌을 때, 이 범주에는 순서가 있음 |
명목형 자료 |
범주 간에 순서 의미가 없는 자료 |
혈액형 |
데이터 형태에 따라 연속형 데이터와 명목형 데이터로 분류합니다.
코드 3-31 연속형 데이터와 명목형 데이터로 분류
categorical_features = ['Channel', 'Region'] ------ 명목형 데이터
continuous_features = ['Fresh', 'Milk', 'Grocery', 'Frozen', 'Detergents_Paper', 'Delicassen'] ------ 연속형 데이터
for col in categorical_features:
dummies = pd.get_dummies(data[col], prefix=col) ------ 명목형 데이터는 판다스의 get_dummies() 메서드를 사용하여 숫자(0과 1)로 변환
data = pd.concat([data, dummies], axis=1)
data.drop(col, axis=1, inplace=True)
data.head()