2.11 복습
다음 질문에 대답해 보자.
1. 판다스 DataFrame에 있는 각 변수의 히스토그램을 그리는 방법은 무엇인가? 히스토그램은 어디에 유용한가?
답 판다스 DataFrame 클래스에 내장된 df.hist() 함수를 호출해 히스토그램을 그릴 수 있다. 히스토그램으로 숫자형 변수의 분포를 살펴볼 수 있다.
2. 판다스 DataFrame에 결측값(즉, NaN)이 있는지 조사하는 방법은 무엇인가?
답 df.isnull().any() 함수를 호출해 데이터셋 각 칼럼에 결측값이 있는지 알아볼 수 있다.
3. NaN 외에 결측값은 어떤 것들이 있는가?
답 0 값도 결측값일 수 있다. 데이터 수집 중 여러 이슈(예: 장비 고장 등)로 인해 0이 기록될 수 있다.
4. 신경망을 훈련시키기 전에 결측값을 처리해야 하는 이유는 무엇인가?
답 신경망은 NaN 값을 다룰 수 없다. 전방향과 역전파 알고리즘은 오직 숫자만 계산할 수 있다.
5. 데이터 표준화란 무엇이며, 신경망을 훈련시키기 전에 데이터 표준화 작업을 거쳐야 하는 이유는 무엇인가?
답 데이터 표준화는 숫자형 변수를 변환해 평균을 0, 분산을 1로 맞추는 작업이다. 데이터 표준화는 신경망 훈련에 반드시 필요하며, 범위가 큰 변수가 다른 변수보다 신경망 학습에 더 큰 영향을 미치는 문제를 방지한다.