더북(TheBook)

인공 지능(AI)에 대한 모든 소문은 그만한 이유가 있습니다. 이른바 딥러닝 혁명이 정말 일어났기 때문입니다. 딥러닝 혁명은 2012년에 시작된 심층 신경망(deep neural network)의 속도와 기술의 급격한 발전을 의미합니다. 그리고 이 발전은 현재도 진행 중입니다. 그 이후로 심층 신경망이 점점 더 광범위한 문제에 적용되어 어떤 경우에는 기계가 이전에 풀지 못했던 문제를 해결하며, 또 어떤 경우에는 솔루션의 정확도를 극적으로 향상시킵니다(표 1-1 참조). AI 전문가에게는 이런 신경망(neural network)의 많은 혁신이 놀랍습니다. 또 신경망을 사용하는 엔지니어에게는 이런 발전이 만든 기회가 자극제가 됩니다.

▼ 표 1-1 2012년 딥러닝 혁명이 시작된 이래로 딥러닝 기술을 사용하여 정확도가 크게 향상된 작업의 예. 이 목록은 전체가 아니며, 이와 같은 발전의 속도는 의심의 여지없이 앞으로 수년 수개월 동안 유지될 것이다.

머신 러닝 작업

대표적인 딥러닝 기술

이 책에서 TensorFlow.js를 사용해 비슷한 작업을 수행하는 부분

이미지 콘텐츠 분류

ResNet1, Inception2과 같은 심층 합성곱 신경망(deep convolutional neural network, convnet)이 ImageNet 분류 작업의 에러율을 25%(2011년)에서 5% 이하(2017년)로 낮추었습니다.3

MNIST에서 합성곱 신경망(convolutional neural network) 훈련하기(4장), Mobile Net 추론과 전이 학습(5장)

객체와 이미지 위치 추정(localization)

여러 심층 합성곱 신경망4이 위치 추정 에러율을 0.33(2012년)에서 0.06(2017년)으로 낮추었습니다.

TensorFlow.js로 YOLO 실행하기(5.2절)

한 언어를 다른 언어로 번역하기

구글 신경망 기계 번역(Google’s Neural Machine Translation, GNMT)은 가장 뛰어난 전통적인 기계 번역 기술에 비해 번역 에러율을 최대 60%까지 줄였습니다.5

장단기 메모리(Long Short-Term Memory, LSTM) 기반의 어텐션 메커니즘(attention mechanism)을 사용한 시퀀스-투-시퀀스(sequence-to-sequence) 모델(9장)

많은 어휘를 가진 연속적인 음성 인식

LSTM 기반의 인코더-어텐션-디코더(encoder-attention-decoder) 구조가 딥러닝을 사용하지 않은 최고의 음성 인식 시스템보다 낮은 단어 오류율(word error rate)을 달성했습니다.6

어텐션 기반의 LSTM으로 작은 규모의 어휘를 가진 음성 인식하기(9장)

실제 같은 이미지 생성

생성적 적대 신경망(Generative Adversarial Network, GAN)이 훈련 데이터를 바탕으로 실제 같은 이미지를 생성할 수 있습니다(https://github.com/junyanz/CycleGAN 참고).

변이형 오토인코더(Variational Auto Encoder, VAE)와 GAN을 사용해 이미지 생성하기(10장)

음악 작곡

순환 신경망(Recurrent Neural Network, RNN)과 변이형 오토인코더는 새로운 악보와 연주를 생성할 수 있습니다(https://magenta.tensorflow.org/demos 참조).

LSTM을 훈련하여 텍스트 생성하기(9장)

게임 플레이 배우기

딥러닝과 강화 학습(Reinforcement Learning, RL)을 연결하면 원시 픽셀만 입력으로 받아 간단한 아타리(Atari) 게임을 플레이하는 방법을 배울 수 있습니다.7 딥러닝과 몬테 카를로 트리 검색(Monte Carlo tree search)을 연결하여 알파제로(Alpha-Zero)는 자기 자신과 바둑을 두는 것만으로 사람의 수준을 뛰어넘었습니다.8

강화 학습을 사용해 카트-폴(cart-pole) 제어 문제와 스네이크(snake) 비디오 게임 해결하기(11장)

의료 영상을 사용한 질병 진단

심층 합성곱 신경망은 환자의 망막 이미지를 기반으로 당뇨성 망막병증을 진단하는데, 숙련된 안과 의사와 비교할 만큼 전문적이고 민감합니다.9

사전 훈련된 MobileNet 이미지 모델을 사용한 전이 학습(5장)

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.