더북(TheBook)

7.1 시계열 문제

시계열 분석이란 시간에 따라 변하는 데이터를 사용하여 추이를 분석하는 것입니다. 예를 들어 주가/환율 변동 및 기온/습도 변화 등이 대표적인 시계열 분석입니다. 즉, 추세를 파악하거나 향후 전망 등을 예측하기 위한 용도로 시계열 분석을 사용합니다.

시계열 형태(the components of time series)는 데이터 변동 유형에 따라 불규칙 변동, 추세 변동, 순환 변동, 계절 변동으로 구분할 수 있습니다.

불규칙 변동(irregular variation): 시계열 자료에서 시간에 따른 규칙적인 움직임과 달리 어떤 규칙성이 없어 예측 불가능하고 우연적으로 발생하는 변동을 의미합니다. 전쟁, 홍수, 화재, 지진, 파업 등이 대표적인 예입니다.

추세 변동(trend variation): 시계열 자료가 갖는 장기적인 변화 추세를 의미합니다. 이때 추세란 장기간에 걸쳐 지속적으로 증가·감소하거나 또는 일정한 상태(stationary)를 유지하려는 성향을 의미하기 때문에 짧은 기간 동안에는 추세 변동을 찾기 어려운 단점이 있습니다. 추세 변동의 대표적인 예로는 국내총생산(GDP), 인구증가율 등이 있습니다.

순환 변동(cyclical variation): 대체로 2~3년 정도의 일정한 기간을 주기로 순환적으로 나타나는 변동을 의미합니다. 즉, 1년 이내 주기로 곡선을 그리며 추세 변동에 따라 변동하는 것으로, 경기 변동이 대표적입니다.

계절 변동(seasonal variation): 시계열 자료에서 보통 계절적 영향과 사회적 관습에 따라 1년 주기로 발생하는 것을 의미합니다. 보통 계절에 따라 순환하며 변동하는 특성이 있습니다.

결국 시계열 데이터는 규칙적 시계열과 불규칙적 시계열로 나눌 수 있습니다. 규칙적 시계열은 트렌드와 분산이 불변하는 데이터이며, 불규칙적 시계열은 트렌드 혹은 분산이 변화하는 시계열 데이터입니다. 시계열 데이터를 잘 분석한다는 것은 불규칙성을 갖는 시계열 데이터에 특정한 기법이나 모델을 적용하여 규칙적 패턴을 찾거나 예측하는 것을 의미합니다. 불규칙적 시계열 데이터에 규칙성을 부여하는 방법으로는 AR, MA, ARMA, ARIMA 모델을 적용하는 것이 가장 널리 알려져 있습니다. 하지만 최근에는 딥러닝을 이용하여 시계열 데이터의 연속성을 기계 스스로 찾아내도록 하는 방법이 더 좋은 성능을 내고 있습니다.

신간 소식 구독하기
뉴스레터에 가입하시고 이메일로 신간 소식을 받아 보세요.