2 Metodologia
Para utilizar séries temporais é necessário entender processos estocásticos, visto que um processo estocástico é uma coleção de variáveis aleatórias que, em geral, são utilizadas para estudar a evolução de fenômenos que são observados ao longo do tempo (Resende (2016)).
2.1 Processos estocásticos
Um processo estocástico é uma função aleatória \(Y_t\) que evolui no tempo (e/ou no espaço), definida sob um espaço de probabilidades. Mais precisamente, um processo estocástico é uma família \(Y=\{Y(t), t \in T\}\) tal que para cada \(t\) pertencente a \(\rm I\!R\), \(Y(t)\) é uma variável aleatória. Se \(T=\{1, \ldots, t\}\), diz-se que o processo é de parâmetro discreto e é denotado por \(Y_t\) . Se \(T\) pertence a \(\rm I\!R\), diz-se que o processo é de parâmetro contínuo e é denotado por \(Y(t)\).
O conceito de processos estocásticos é utilizado para descrever situações que não podem ser escritas com métodos determinísticos. Essas situações referem-se a processos em que dado uma condição inicial, essa pode evoluir de forma a percorrer inúmeras trajetórias possíveis (Faria (2015)). Nesse contexto, as séries temporais podem descrever e fazer previsões dessas situações.
2.2 Modelos para séries temporais
A análise de séries temporais tem como objetivo principal a realização da previsão, e, para isso, diversos modelos podem ser ajustados, tendo como base a função de autocorrelação. O conceito de autocorrelação pode ser descrito, basicamente como a medição da correlação entre as observações de uma mesma variável em diferentes horizontes de tempo (Ehlers (2005)). Assim, com base no mesmo autor, dadas \(n\) observações \(x_1, \ldots, x_n\) de uma série temporal discreta podemos formar os pares \((x_1, x_2), \ldots,(x_{n-1}, x_n)\). Considerando \(x_1, \ldots, x_{n-1}\) e \(x_2, \ldots, x_n\) como duas variáveis o coeficiente de correlação entre \(x_t\) e \(x_{t+1}\) é dado por:
\[\begin{equation*} r_k = \frac{\sum_{t=1}^{n-k} (x_t - \bar{x})(x_{t+k} - \bar{x})}{\sum_{t=1}^{n}(x_t - \bar{x})^2} \end{equation*}\]
Dentro desse contexto, há diversos métodos que podem ser utilizados, e, serão descritos na sequência.
Um modelo \(Y_t\) é chamado auto-regressivo de ordem \(p\), denotado por AR(\(p\)), se:
\[\begin{equation} Y_t = c + \sum_{t=1}^{p} \phi_i Y_{t-i} + \varepsilon_t \hspace{0.3cm} t=p+1,p+2,\ldots,n. \tag{2.1} \end{equation}\]
em que \(Y_t\) é um processo estocástico estacionário, \(\varepsilon_t\) é um termo de erro, \(c\) e \(\phi_i\) são os parâmetros do modelo.
Os modelos AR podem ser usados como modelos se for razoável assumir que o valor atual de uma série temporal depende do seu passado adicionado por um erro aleatório.
Outro modelo amplamente utilizado na análise de séries temporais são os modelos de médias móveis com ordem \(q\), denotado por \(MA(q)\), definidos por:
\[\begin{equation} Y_t = \mu + \sum_{i=1}^{q} \theta_{i} \epsilon_{t-i} + \varepsilon_t \hspace{0.3cm} t=q+1,q+2,\ldots,n. \tag{2.2} \end{equation}\]
em que \(\epsilon_t\) é o erro no tempo \(t\), \(\varepsilon_t\) é um termo de erro, \(\mu\) e \(\theta_i\) são os parâmetros do modelo.
Combinando as Equações (2.1) e (2.2) temos o modelo ARMA (Autoregressive Moving Average). Eles são definidos por equações diferenciais lineares com coeficientes constantes e desempenham um papel fundamental na modelagem de dados de séries temporais Amaro et al. (2017). Ele é composto por composto de uma parte auto-regressiva variável, explicado pelo comportamento passado da própria variável, e uma parte de médias móveis, explicado pelos distúrbios de períodos anteriores Pinto et al. (2008), e, algebricamente é dado por:
\[\begin{align*} Y_t = c + \sum_{t=1}^{p} \phi_i Y_{t-i} + \sum_{i=1}^{q} \theta_{i} \epsilon_{t-i} + \varepsilon_t \hspace{0.3cm} t=min(p, q) + 1, min(p, q) + 2,\ldots,n. \end{align*}\]
A estrutura do modelo ARMA(p, q) tem p termos auto-regressivos, que representam a ordem de defasagens do termo auto-regressivo; e q termos de médias móveis, sendo que este representa a ordem de defasagens do termo de médias móveis.
Os modelos descritos anteriormente funcionam para séries estacionárias, porém, na prática a grande maioria das séries são não-estacionárias. Desta forma, estas séries precisam ser defasadas para atingir a condição de estacionariedade, processo também definido como diferenciação, assim, o número de defasagens d necessárias para a obtenção da estacionariedade determinará o grau de integração da variável (Pinto et al. (2008)). Ou seja, uma série inicialmente não-estacionária deverá ser defasada d vezes até atingir uma forma estacionária.
Para relizar a defasagem na série é necessário definir o operador de defasagem (LAG):
\[ L^n y_t = y_{t-n}, \hspace{0.3cm} \text{em que } t > n. \]
A série defasada \(n\) vezes pode ser denotada por:
\[ (1 - L)^n y_t = y_{t} - \sum_{i=1}^{n} y_{t-i}. \]
Assim como os modelos ARMA, o modelo ARIMA possuí termos AR e MA. Os termos auto-regressivos correspondem a defasagens da série transformada (isto é, série estacionária obtida por diferenciação) e as médias móveis a defasagens dos erros aleatórios. O termo “integrado” refere-se ao processo de diferenciação da série original para torná-la estacionária (Resende (2016)). O modelo ARIMA de ordem p, d e q, denotado por ARIMA(p, d, q), é dado por:
\[\begin{align*} (1 - L)^dY_{t} = c + \sum_{i=1}^{p}\phi_i(1 - L)^dY_{t-i} + \sum_{j=1}^{q} \theta_j\epsilon_{t-j} + \varepsilon_t \hspace{0.3cm} t < d, d \leq p \text{ e } d \leq q. \end{align*}\]
A estimação dos parâmetros de qualquer um dos modelos apresentados pode ser feita através do método de máxima verossimilhança, substituindo termo de erro para o modelo em questão. De forma geral, a equação que fornece os estimadores é:
\[\begin{equation*} \mathop{\mathrm{argmax}}\limits_{\boldsymbol{\mathbf{\hat{\Upsilon}}} \in \Theta} L(\boldsymbol{\mathbf{\hat{\Upsilon}}}) = (2\pi)^{-n/2} (\sigma_\varepsilon)^{-n} exp \left (-\sum_{t=d+1}^{n} \frac{{\varepsilon_t}^2}{2{\sigma_\varepsilon^2}}\right) \end{equation*}\]
em que \(\boldsymbol{\mathbf{\hat{\Upsilon}}}\) é o vetor de estimadores dos parâmetros do modelo e \(\varepsilon_t\) é o termo de erro do modelo. Em geral, é utilizado algum método numérico de maximização de funções para obtenção do vetor \(\boldsymbol{\mathbf{\hat{\Upsilon}}}\).
Para obter o intervalo de previsão para \(\hat{y}_{t+\tau}\), fazemos:
\[\begin{equation*} \hat{y}_{t+\tau} \pm z_{\alpha/2} \sqrt{\hat{Var}(\hat{y}_{t+\tau})} \end{equation*}\]
em que \(z_{\alpha/2}\) é o quantil da distribuição Normal que fornece \(1-\frac{\alpha}{2}\%\) de confiança. Caso \({\sigma_\varepsilon^2}\) seja desconhecido, devemos estimá-lo e a distribuição exata será \(T\) com \(n-p+q\) graus de liberdade, contudo, assintóticamente, a distribuição ainda será Normal. Os intervalos de confiança para os parâmetros e valores ajustados são construídos de forma similar.
É importante mencionar que o método de estimação apresentado só é válido quando os erros têm distribuição normal com variância constante. Em casos que isso não seja verificado, a estimação pode ser feita utilizando o método dos momento ou o método de mínimos quadrados. Para mais detalhes sobre esses métodos, recomendamos a leitura de Hamilton (1994).
Para a escolha do melhor modelo, pode-se ajustar diversos modelos aos dados e usar como critério o AIC (Akaike Information Criteria). Basicamente pode-se traduzir como a estimativa da informação perdida quando um modelo é usado para representar o processo que gerou os dados. A definição mais comumente utilizada é:
\[ AIC = -2l(\boldsymbol{\mathbf{\hat{\Upsilon}}}; \boldsymbol{\mathbf{y}}) + 2p. \]
onde \(p\) é o número de parâmetros do modelo e \(l(\boldsymbol{\mathbf{\hat{\Upsilon}}}; \boldsymbol{\mathbf{y}})\) é a moda da função log-verossimilhança.
O AIC pode assumir quaisquer valores, mesmo negativos, já que dependem da função de verossimilhança. Em uma comparação entre os modelos, o menor valor de AIC pode ser um meio de seleção, ou seja, quando menor o AIC, menor a perda de informações.