더북(TheBook)

UNIT 27
배열 집계와 정렬하기

DATA SCIENCE FOR EVERYONE icon_day

 

데이터 정렬과 집계는 데이터 과학의 핵심이다. 여러분은 대용량 데이터로 시작해서 이를 구간화하거나 평균을 계산하고 누적하는 등의 방식으로 점진적으로 가공해 결과적으로 작고 쉽게 표현하고 이해할 수 있는 데이터셋을 만든다. numpynumpy 배열의 집계 값을 반환하는 mean(), sum(), std()(표준편차), min(), max() 함수를 제공한다.

브로드캐스팅, 집계 함수, 유니버셜 함수, 불 인덱스를 조합해서 ‘UNIT 25. 유니버셜 함수 파헤치기’에서 사용한 주식 중 전체 8개 주식의 평균적인 수준보다 크게 변화한 주식들을 추출해 보자.


sap[         np.abs(stocks[0] - stocks[1])

   > np.mean(np.abs(stocks[0] - stocks[1]))]

>>>

array(['MMM'],

     dtype='<U4')

 

그런데 솔직히 말해 양수와 음수인 주식 가격 변동폭을 섞어서 사용하는 것은 별로 좋은 생각이 아니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.