UNIT 27
배열 집계와 정렬하기
DATA SCIENCE FOR EVERYONE
데이터 정렬과 집계는 데이터 과학의 핵심이다. 여러분은 대용량 데이터로 시작해서 이를 구간화하거나 평균을 계산하고 누적하는 등의 방식으로 점진적으로 가공해 결과적으로 작고 쉽게 표현하고 이해할 수 있는 데이터셋을 만든다. numpy는 numpy 배열의 집계 값을 반환하는 mean(), sum(), std()(표준편차), min(), max() 함수를 제공한다.
브로드캐스팅, 집계 함수, 유니버셜 함수, 불 인덱스를 조합해서 ‘UNIT 25. 유니버셜 함수 파헤치기’에서 사용한 주식 중 전체 8개 주식의 평균적인 수준보다 크게 변화한 주식들을 추출해 보자.
sap[ np.abs(stocks[0] - stocks[1])
> np.mean(np.abs(stocks[0] - stocks[1]))]
>>>
array(['MMM'],
dtype='<U4')
그런데 솔직히 말해 양수와 음수인 주식 가격 변동폭을 섞어서 사용하는 것은 별로 좋은 생각이 아니다.