2.3.1 보스턴 주택 데이터셋
보스턴 주택 데이터셋16은 1970년대 후반 매사추세츠주의 보스턴과 인근 지역에서 수집한 500개의 간단한 부동산 데이터이며, 수십 년 동안 입문 통계와 머신 러닝 문제를 위한 표준 데이터셋으로 사용되었습니다.17 이 데이터셋에 있는 독립적인 레코드는 보스턴 인근 지역에 대한 수치 측정값을 담고 있습니다. 예를 들어 주택 크기, 가장 가까운 고속도로까지의 인접성, 해안가 여부 등입니다. 표 2-1은 순서대로 정렬한 특성과 각 특성의 평균값을 보여 줍니다.
▼ 표 2-1 보스턴 주택 데이터셋의 특성
인덱스 |
짧은 특성 이름 |
특성 설명 |
평균값 |
범위(최대 – 최소) |
0 |
CRIM |
범죄율 |
3.62 |
88.9 |
1 |
ZN |
25,000평방피트가 넘는 주거용 토지 비율 |
11.4 |
100 |
2 |
INDUS |
도시에서 비소매업 지역 비율 |
11.2 |
27.3 |
3 |
CHAS |
찰스 강 인접 여부 |
0.0694 |
1 |
4 |
NOX |
일산화질소 농도(10ppm당) |
0.555 |
0.49 |
5 |
RM |
주택 평균 방 개수 |
6.28 |
5.2 |
6 |
AGE |
1940년 이전에 지어진 자가 주택 비율 |
68.6 |
97.1 |
7 |
DIS |
다섯 개 보스턴 고용 센터까지의 가중치가 적용된 거리 |
3.80 |
11.0 |
8 |
RAD |
방사형 고속도로까지의 접근성 지수 |
9.55 |
23.0 |
9 |
TAX |
10만 달러당 세율 |
408.0 |
524.0 |
10 |
PTRATIO |
학생-교사 비율 |
18.5 |
9.40 |
11 |
LSTAT |
고등학교 교육을 받지 못한 남성 근로자의 비율 |
12.7 |
36.2 |
12 |
MEDV |
자가 주택의 중간 가격(1,000달러 단위) |
22.5 |
45 |
이 절에서 다른 모든 입력 특성이 주어졌을 때 주택의 중간 가격(MEDV)을 추정하는 학습 시스템을 만들고, 훈련하고, 평가해 보겠습니다. 이를 측정 가능한 주변 속성에서 부동산 가격을 추정하는 시스템으로 생각할 수 있습니다.