더북(TheBook)

2.3.1 보스턴 주택 데이터셋

보스턴 주택 데이터셋16은 1970년대 후반 매사추세츠주의 보스턴과 인근 지역에서 수집한 500개의 간단한 부동산 데이터이며, 수십 년 동안 입문 통계와 머신 러닝 문제를 위한 표준 데이터셋으로 사용되었습니다.17 이 데이터셋에 있는 독립적인 레코드는 보스턴 인근 지역에 대한 수치 측정값을 담고 있습니다. 예를 들어 주택 크기, 가장 가까운 고속도로까지의 인접성, 해안가 여부 등입니다. 표 2-1은 순서대로 정렬한 특성과 각 특성의 평균값을 보여 줍니다.

▼ 표 2-1 보스턴 주택 데이터셋의 특성

인덱스

짧은 특성 이름

특성 설명

평균값

범위(최대 – 최소)

0

CRIM

범죄율

3.62

88.9

1

ZN

25,000평방피트가 넘는 주거용 토지 비율

11.4

100

2

INDUS

도시에서 비소매업 지역 비율

11.2

27.3

3

CHAS

찰스 강 인접 여부

0.0694

1

4

NOX

일산화질소 농도(10ppm당)

0.555

0.49

5

RM

주택 평균 방 개수

6.28

5.2

6

AGE

1940년 이전에 지어진 자가 주택 비율

68.6

97.1

7

DIS

다섯 개 보스턴 고용 센터까지의 가중치가 적용된 거리

3.80

11.0

8

RAD

방사형 고속도로까지의 접근성 지수

9.55

23.0

9

TAX

10만 달러당 세율

408.0

524.0

10

PTRATIO

학생-교사 비율

18.5

9.40

11

LSTAT

고등학교 교육을 받지 못한 남성 근로자의 비율

12.7

36.2

12

MEDV

자가 주택의 중간 가격(1,000달러 단위)

22.5

45

이 절에서 다른 모든 입력 특성이 주어졌을 때 주택의 중간 가격(MEDV)을 추정하는 학습 시스템을 만들고, 훈련하고, 평가해 보겠습니다. 이를 측정 가능한 주변 속성에서 부동산 가격을 추정하는 시스템으로 생각할 수 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.