더북(TheBook)

실행해 보니 0.02초가 걸렸습니다. 반면 단순한 방법은 2.45초나 걸립니다.

t0 = time.time() 
for _ in range(1000):
    z = naive_add(x, y)
    z = naive_relu(z) 
print("걸린 시간: {0:.2f} s".format(time.time() - t0))

이와 비슷하게 텐서플로 코드를 GPU에서 실행할 때 고도로 병렬화된 GPU 칩 구조를 최대로 활용할 수 있는 완전히 벡터화된 CUDA 구현을 통해 원소별(element-wise) 연산이 실행됩니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.