더북(TheBook)

2.11 복습

다음 질문에 대답해 보자.

1.   판다스 DataFrame에 있는 각 변수의 히스토그램을 그리는 방법은 무엇인가? 히스토그램은 어디에 유용한가?

판다스 DataFrame 클래스에 내장된 df.hist() 함수를 호출해 히스토그램을 그릴 수 있다. 히스토그램으로 숫자형 변수의 분포를 살펴볼 수 있다.

 

2.   판다스 DataFrame에 결측값(즉, NaN)이 있는지 조사하는 방법은 무엇인가?

df.isnull().any() 함수를 호출해 데이터셋 각 칼럼에 결측값이 있는지 알아볼 수 있다.

 

3.   NaN 외에 결측값은 어떤 것들이 있는가?

0 값도 결측값일 수 있다. 데이터 수집 중 여러 이슈(예: 장비 고장 등)로 인해 0이 기록될 수 있다.

 

4.   신경망을 훈련시키기 전에 결측값을 처리해야 하는 이유는 무엇인가?

신경망은 NaN 값을 다룰 수 없다. 전방향과 역전파 알고리즘은 오직 숫자만 계산할 수 있다.

 

5.   데이터 표준화란 무엇이며, 신경망을 훈련시키기 전에 데이터 표준화 작업을 거쳐야 하는 이유는 무엇인가?

데이터 표준화는 숫자형 변수를 변환해 평균을 0, 분산을 1로 맞추는 작업이다. 데이터 표준화는 신경망 훈련에 반드시 필요하며, 범위가 큰 변수가 다른 변수보다 신경망 학습에 더 큰 영향을 미치는 문제를 방지한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.