실행해 보니 0.02초가 걸렸습니다. 반면 단순한 방법은 2.45초나 걸립니다.
for in range(1000): = naive_add(x, y) = naive_relu( ) print("걸린 시간: {0:.2f} s".format(time.time() - ))= time.time()
이와 비슷하게 텐서플로 코드를 GPU에서 실행할 때 고도로 병렬화된 GPU 칩 구조를 최대로 활용할 수 있는 완전히 벡터화된 CUDA 구현을 통해 원소별(element-wise) 연산이 실행됩니다.