3.13 복습
1. 판다스가 CSV 파일을 읽을 때 datetime 형식 칼럼을 인식하는 방법은 무엇인가?
답 판다스의 read_csv 함수를 호출할 때 parse_dates 매개변수에 날짜 칼럼을 지정할 수 있다.
2. 판다스 DataFrame을 필터링해 특정 범위의 값을 가진 로우만 선택하는 방법은 무엇인가? 예를 들어 df라는 DataFrame에서 height 칼럼의 값이 160에서 180 사이인 로우를 선택하려면 어떻게 해야 할까?
답 다음과 같이 필터링할 수 있다.
df = df[(df['height'] >= 160) & (df['height'] <= 180)]
이 코드는 height 칼럼 값이 160에서 180 사이인 새로운 DataFrame을 반환한다.
3. 신경망을 개발할 때 코드 모듈화를 어떻게 적용할 수 있을까?
답 코드 조각을 함수 모듈로 나눠 구현할 수 있다. 예를 들어 3장의 프로젝트에서는 utils.py 파일 안에 preprocess와 feature_engineer 함수를 정의해 데이터 전처리와 특징 공학을 분리하고 신경망 구현에 집중할 수 있었다.
4. 회귀와 분류는 어떤 점이 다른가?
답 회귀 모델은 연속 변수 값을 예측한다(예: 택시 요금 예측). 반면 분류 모델은 클래스를 예측한다(예: 당뇨 발병 또는 미발병 예측).
5. 회귀 모델의 출력 레이어에는 어떤 활성화 함수를 적용하는가?
답 활성화 함수를 적용하지 않는다. 활성화 함수를 적용하면 출력값을 왜곡하고 모델 성능에 악영향을 줄 수 있다.
6. 신경망으로 회귀 모델을 만들 때 어떤 손실 함수를 주로 사용하는가?
답 RMSE를 주로 사용한다. RMSE는 예측값과 실제 목표 변수 값의 절대 편차로 측정한다.