UNIT 27
배열 집계와 정렬하기
DATA SCIENCE FOR EVERYONE ![]()
데이터 정렬과 집계는 데이터 과학의 핵심이다. 여러분은 대용량 데이터로 시작해서 이를 구간화하거나 평균을 계산하고 누적하는 등의 방식으로 점진적으로 가공해 결과적으로 작고 쉽게 표현하고 이해할 수 있는 데이터셋을 만든다. numpy는 numpy 배열의 집계 값을 반환하는 mean(), sum(), std()(표준편차), min(), max() 함수를 제공한다.
브로드캐스팅, 집계 함수, 유니버셜 함수, 불 인덱스를 조합해서 ‘UNIT 25. 유니버셜 함수 파헤치기’에서 사용한 주식 중 전체 8개 주식의 평균적인 수준보다 크게 변화한 주식들을 추출해 보자.
sap[ np.abs(stocks[0] - stocks[1])
> np.mean(np.abs(stocks[0] - stocks[1]))]
>>>
array(['MMM'],
dtype='<U4')
그런데 솔직히 말해 양수와 음수인 주식 가격 변동폭을 섞어서 사용하는 것은 별로 좋은 생각이 아니다.