더북(TheBook)

Note ≡ | 자료 유형

데이터 형태에 따라 다음과 같은 유형으로 구분할 수 있습니다.

▼ 표 3-11 자료 유형

데이터 형태

설명

예시

수치형 자료

관측된 값이 수치로 측정되는 자료

키, 몸무게, 시험 성적

연속형 자료

값이 연속적인 자료

키, 몸무게

이산형 자료

셀 수 있는 자료

자동차 사고

범주형 자료

관측 결과가 몇 개의 범주 또는 항목의 형태로 나타나는 자료

성별(남, 여), 선호도(좋다, 싫다)

순위형 자료

범주 간에 순서 의미가 있는 자료

‘매우 좋다’, ‘좋다’, ‘그저 그렇다’, ‘싫다’, ‘매우 싫다’ 다섯 가지 범주가 주어졌을 때, 이 범주에는 순서가 있음

명목형 자료

범주 간에 순서 의미가 없는 자료

혈액형

데이터 형태에 따라 연속형 데이터와 명목형 데이터로 분류합니다.

코드 3-31 연속형 데이터와 명목형 데이터로 분류

categorical_features = ['Channel', 'Region'] ------ 명목형 데이터
continuous_features = ['Fresh', 'Milk', 'Grocery', 'Frozen', 'Detergents_Paper', 'Delicassen'] ------ 연속형 데이터

for col in categorical_features:
    dummies = pd.get_dummies(data[col], prefix=col) ------ 명목형 데이터는 판다스의 get_dummies() 메서드를 사용하여 숫자(0과 1)로 변환
    data = pd.concat([data, dummies], axis=1) 
    data.drop(col, axis=1, inplace=True) 
data.head()
신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.