더북(TheBook)

2.3.3 보스턴 주택 데이터 얻기

코드 2-1에 있는 첫 번째 프로젝트에서는 데이터를 자바스크립트 배열로 하드 코딩하고 이를 tf.tensor2d() 함수를 사용해 텐서로 바꾸었습니다. 하드 코딩 방식은 작은 예제에서는 괜찮지만 애플리케이션이 커지면 적용하기 어렵습니다. 일반적으로 자바스크립트 개발자들은 어떤 URL(또는 로컬)에서 직렬화된 형태로 저장된 데이터를 찾습니다. 예를 들어, 보스턴 주택 데이터는 다음과 같은 구글 클라우드 URL에 CSV 포맷으로 무료로 공개되어 있습니다.

이 데이터는 미리 훈련 세트와 테스트 세트로 랜덤하게 샘플을 나누어 놓았습니다. 샘플의 2/3는 훈련 세트로 사용하고, 나머지 1/3은 훈련된 모델을 독립적으로 평가하기 위해 보관해 놓습니다. 또한, 각 세트마다 타깃 값은 다른 특성에서 분리하여 별도의 CSV 파일에 저장합니다. 따라서 표 2-2와 같은 네 개의 파일이 만들어집니다.

▼ 표 2-2 보스턴 주택 데이터셋을 분할한 파일 이름

 

 

특성(12개 숫자)

타깃(한 개 숫자)

훈련-테스트 분할

훈련 세트

train-data.csv

train-target.csv

 

테스트 세트

test-data.csv

test-target.csv

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.