2.3.1 보스턴 주택 데이터셋

    보스턴 주택 데이터셋16은 1970년대 후반 매사추세츠주의 보스턴과 인근 지역에서 수집한 500개의 간단한 부동산 데이터이며, 수십 년 동안 입문 통계와 머신 러닝 문제를 위한 표준 데이터셋으로 사용되었습니다.17 이 데이터셋에 있는 독립적인 레코드는 보스턴 인근 지역에 대한 수치 측정값을 담고 있습니다. 예를 들어 주택 크기, 가장 가까운 고속도로까지의 인접성, 해안가 여부 등입니다. 표 2-1은 순서대로 정렬한 특성과 각 특성의 평균값을 보여 줍니다.

    ▼ 표 2-1 보스턴 주택 데이터셋의 특성

    인덱스

    짧은 특성 이름

    특성 설명

    평균값

    범위(최대 – 최소)

    0

    CRIM

    범죄율

    3.62

    88.9

    1

    ZN

    25,000평방피트가 넘는 주거용 토지 비율

    11.4

    100

    2

    INDUS

    도시에서 비소매업 지역 비율

    11.2

    27.3

    3

    CHAS

    찰스 강 인접 여부

    0.0694

    1

    4

    NOX

    일산화질소 농도(10ppm당)

    0.555

    0.49

    5

    RM

    주택 평균 방 개수

    6.28

    5.2

    6

    AGE

    1940년 이전에 지어진 자가 주택 비율

    68.6

    97.1

    7

    DIS

    다섯 개 보스턴 고용 센터까지의 가중치가 적용된 거리

    3.80

    11.0

    8

    RAD

    방사형 고속도로까지의 접근성 지수

    9.55

    23.0

    9

    TAX

    10만 달러당 세율

    408.0

    524.0

    10

    PTRATIO

    학생-교사 비율

    18.5

    9.40

    11

    LSTAT

    고등학교 교육을 받지 못한 남성 근로자의 비율

    12.7

    36.2

    12

    MEDV

    자가 주택의 중간 가격(1,000달러 단위)

    22.5

    45

    이 절에서 다른 모든 입력 특성이 주어졌을 때 주택의 중간 가격(MEDV)을 추정하는 학습 시스템을 만들고, 훈련하고, 평가해 보겠습니다. 이를 측정 가능한 주변 속성에서 부동산 가격을 추정하는 시스템으로 생각할 수 있습니다.

    신간 소식 구독하기
    뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.