더북(TheBook)

5.4 인공 신경망을 위한 데이터 준비

 

 

인공 신경망을 만들기 위해 지도 학습법을 사용하는 것도 좋지만, 네트워크를 훈련시키는 데 사용하는 데이터에 대해서도 생각해야 한다.

인공 신경망은 숫자 데이터 값만 다룬다. 따라서 데이터가 텍스트 값이라면 변환해야 한다. 예를 들어 남자(M) = 0, 여자(F) = 1로 처리하는 성별 같은 결과라면 문제가 없다. 그러나 가공하지 않은 텍스트는 적합하지 않으므로 정리하거나, 숫자값으로 해시하거나, 테스트 데이터에서 삭제해야 한다.

모든 데이터 전략처럼 이런 경우에 무엇이 중요하고, 무엇이 없어도 되는지 생각해야 한다.

분류에서 변수가 늘어날수록 ‘차원의 저주(the curse of dimensionality)’라는 현상을 만나게 된다. 변수가 추가되면 타당한 결과와 직관을 얻기 위해 훈련용 데이터도 더 많이 필요하다. 그래서 변수를 하나 더 고려할 경우 기존 변수에서 일어날 수 있는 예상치 못한 사태에 대비할 수 있을 만큼 충분한 훈련용 데이터가 있어야 한다.

신경망은 노이즈 데이터(noisy data)에 꽤 무딘 편이지만, 결과에 문제를 일으킬 만한 이상치(outlier)가 없도록 한다. 제멋대로인 숫자를 찾아 없애거나 결측치(missing value)로 변환한다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.