더북(TheBook)

2.2.10 시계열 데이터 또는 시퀀스 데이터

데이터에서 시간이 (또는 연속된 순서가) 중요할 때는 시간 축을 포함하여 랭크-3 텐서로 저장됩니다. 각 샘플은 벡터(랭크-2 텐서)의 시퀀스로 인코딩되므로 배치 데이터는 랭크-3 텐서로 인코딩될 것입니다(그림 2-3).

▲ 그림 2-3 랭크-3 시계열 데이터 텐서

관례적으로 시간 축은 항상 두 번째 축(인덱스가 1인 축)입니다.11 몇 가지 예를 들어 보겠습니다.

주식 가격 데이터셋: 1분마다 현재 주식 가격, 지난 1분 동안에 최고 가격과 최소 가격을 저장합니다. 1분마다 데이터는 3D 벡터로 인코딩되고 하루 동안의 거래는 (390, 3) 크기의 행렬로 인코딩됩니다(하루의 거래 시간은 390분입니다12). 250일치의 데이터는 (250, 390, 3) 크기의 랭크-3 텐서로 저장될 수 있습니다. 여기에서 1일치 데이터가 하나의 샘플이 됩니다.

트윗 데이터셋: 각 트윗은 128개의 알파벳으로 구성된 280개의 문자 시퀀스입니다. 여기에서는 각 문자가 128개의 크기인 이진 벡터로 인코딩될 수 있습니다(해당 문자의 인덱스만 1이고 나머지는 모두 0인 벡터입니다). 그러면 각 트윗은 (280, 128) 크기의 랭크-2 텐서로 인코딩될 수 있습니다. 100만 개의 트윗으로 구성된 데이터셋은 (1000000, 280, 128) 크기의 텐서에 저장됩니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.