딥러닝 파이토치 교과서: 3.2.1 K-평균 군집화

Note ≡ | 자료 유형

데이터 형태에 따라 다음과 같은 유형으로 구분할 수 있습니다.

▼ 표 3-11 자료 유형

데이터 형태	설명	예시
수치형 자료	관측된 값이 수치로 측정되는 자료	키, 몸무게, 시험 성적
연속형 자료	값이 연속적인 자료	키, 몸무게
이산형 자료	셀 수 있는 자료	자동차 사고
범주형 자료	관측 결과가 몇 개의 범주 또는 항목의 형태로 나타나는 자료	성별(남, 여), 선호도(좋다, 싫다)
순위형 자료	범주 간에 순서 의미가 있는 자료	‘매우 좋다’, ‘좋다’, ‘그저 그렇다’, ‘싫다’, ‘매우 싫다’ 다섯 가지 범주가 주어졌을 때, 이 범주에는 순서가 있음
명목형 자료	범주 간에 순서 의미가 없는 자료	혈액형

데이터 형태에 따라 연속형 데이터와 명목형 데이터로 분류합니다.

코드 3-31 연속형 데이터와 명목형 데이터로 분류

categorical_features = ['Channel', 'Region'] ------ 명목형 데이터
continuous_features = ['Fresh', 'Milk', 'Grocery', 'Frozen', 'Detergents_Paper', 'Delicassen'] ------ 연속형 데이터

for col in categorical_features:
    dummies = pd.get_dummies(data[col], prefix=col) ------ 명목형 데이터는 판다스의 get_dummies() 메서드를 사용하여 숫자(0과 1)로 변환
    data = pd.concat([data, dummies], axis=1) 
    data.drop(col, axis=1, inplace=True) 
data.head()

신간 소식 구독하기

뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.