인공 지능(AI)에 대한 모든 소문은 그만한 이유가 있습니다. 이른바 딥러닝 혁명이 정말 일어났기 때문입니다. 딥러닝 혁명은 2012년에 시작된 심층 신경망(deep neural network)의 속도와 기술의 급격한 발전을 의미합니다. 그리고 이 발전은 현재도 진행 중입니다. 그 이후로 심층 신경망이 점점 더 광범위한 문제에 적용되어 어떤 경우에는 기계가 이전에 풀지 못했던 문제를 해결하며, 또 어떤 경우에는 솔루션의 정확도를 극적으로 향상시킵니다(표 1-1 참조). AI 전문가에게는 이런 신경망(neural network)의 많은 혁신이 놀랍습니다. 또 신경망을 사용하는 엔지니어에게는 이런 발전이 만든 기회가 자극제가 됩니다.
▼ 표 1-1 2012년 딥러닝 혁명이 시작된 이래로 딥러닝 기술을 사용하여 정확도가 크게 향상된 작업의 예. 이 목록은 전체가 아니며, 이와 같은 발전의 속도는 의심의 여지없이 앞으로 수년 수개월 동안 유지될 것이다.
머신 러닝 작업 |
대표적인 딥러닝 기술 |
이 책에서 TensorFlow.js를 사용해 비슷한 작업을 수행하는 부분 |
이미지 콘텐츠 분류 |
ResNet1, Inception2과 같은 심층 합성곱 신경망(deep convolutional neural network, convnet)이 ImageNet 분류 작업의 에러율을 25%(2011년)에서 5% 이하(2017년)로 낮추었습니다.3 |
MNIST에서 합성곱 신경망(convolutional neural network) 훈련하기(4장), Mobile Net 추론과 전이 학습(5장) |
객체와 이미지 위치 추정(localization) |
여러 심층 합성곱 신경망4이 위치 추정 에러율을 0.33(2012년)에서 0.06(2017년)으로 낮추었습니다. |
TensorFlow.js로 YOLO 실행하기(5.2절) |
한 언어를 다른 언어로 번역하기 |
구글 신경망 기계 번역(Google’s Neural Machine Translation, GNMT)은 가장 뛰어난 전통적인 기계 번역 기술에 비해 번역 에러율을 최대 60%까지 줄였습니다.5 |
장단기 메모리(Long Short-Term Memory, LSTM) 기반의 어텐션 메커니즘(attention mechanism)을 사용한 시퀀스-투-시퀀스(sequence-to-sequence) 모델(9장) |
많은 어휘를 가진 연속적인 음성 인식 |
LSTM 기반의 인코더-어텐션-디코더(encoder-attention-decoder) 구조가 딥러닝을 사용하지 않은 최고의 음성 인식 시스템보다 낮은 단어 오류율(word error rate)을 달성했습니다.6 |
어텐션 기반의 LSTM으로 작은 규모의 어휘를 가진 음성 인식하기(9장) |
실제 같은 이미지 생성 |
생성적 적대 신경망(Generative Adversarial Network, GAN)이 훈련 데이터를 바탕으로 실제 같은 이미지를 생성할 수 있습니다(https://github.com/junyanz/CycleGAN 참고). |
변이형 오토인코더(Variational Auto Encoder, VAE)와 GAN을 사용해 이미지 생성하기(10장) |
음악 작곡 |
순환 신경망(Recurrent Neural Network, RNN)과 변이형 오토인코더는 새로운 악보와 연주를 생성할 수 있습니다(https://magenta.tensorflow.org/demos 참조). |
LSTM을 훈련하여 텍스트 생성하기(9장) |
게임 플레이 배우기 |
딥러닝과 강화 학습(Reinforcement Learning, RL)을 연결하면 원시 픽셀만 입력으로 받아 간단한 아타리(Atari) 게임을 플레이하는 방법을 배울 수 있습니다.7 딥러닝과 몬테 카를로 트리 검색(Monte Carlo tree search)을 연결하여 알파제로(Alpha-Zero)는 자기 자신과 바둑을 두는 것만으로 사람의 수준을 뛰어넘었습니다.8 |
강화 학습을 사용해 카트-폴(cart-pole) 제어 문제와 스네이크(snake) 비디오 게임 해결하기(11장) |
의료 영상을 사용한 질병 진단 |
심층 합성곱 신경망은 환자의 망막 이미지를 기반으로 당뇨성 망막병증을 진단하는데, 숙련된 안과 의사와 비교할 만큼 전문적이고 민감합니다.9 |
사전 훈련된 MobileNet 이미지 모델을 사용한 전이 학습(5장) |