이에 더해 딥러닝 산업은 GPU를 넘어서 더 효율적이고 특화된 딥러닝 칩에 투자하기 시작했습니다. 구글은 2016년 I/O 연례 행사에서 텐서 처리 장치(Tensor Processing Unit, TPU) 프로젝트를 공개했습니다. 이 칩은 심층 신경망을 실행하기 위해 완전히 새롭게 설계한 것으로 최고 성능을 가진 GPU보다 훨씬 빠르고 에너지 소비도 더 효율적입니다. 2020년에 나온 3세대 TPU 카드는 420테라플롭의 컴퓨팅 성능을 냅니다. 이는 1990년 인텔 터치스톤 델타보다 1만 배나 높은 성능입니다.
이런 TPU 카드는 ‘포드(pod)’라는 대규모 환경 구성에 맞게 설계되었습니다. 하나의 포드(1,024개 TPU 카드)는 최대 100페타플롭스(petaFLOPS)의 성능을 냅니다. 세계에서 가장 큰 슈퍼컴퓨터는 오크리지 국립연구소(Oak Ridge National Lab)에 있는 IBM 서밋(Summit)으로 2만 7,000개 NVIDIA GPU로 구성되어 있으며 최대 약 1.1엑사플롭스(exaFLOPS)의 성능을 냅니다. 규모로 보면 100페타플롭스는 IBM 서밋 성능의 약 10%에 해당합니다.20