2 Material e métodos
2.1 Coleta de dados
Os dados foram coletados via web scrapping no site Mercado Livre usando o pacote
rvest
(Wickham (2020)) do software R
(R Core Team (2021)) nos dias 03/03/2021 e 11/03/2021. Eles
se referem a anúncios de processadores de computadores de mesa das marcas AMD e
Intel. Como covariáveis utilizamos o ano de lançamento do processador, a
frequência máxima de processamento (em GHz) e o número de núcleos de
processamento. Embora não seja usada como covariável, mantívemos a marca dos
processadores. Evidentemente, a variável resposta é o preço do processador.
Na primeira amostragem, do dia 03/03/2021, selecionamos 670 anúncios. Porém,
removemos 311 anúncios que estavam com dados faltantes ou não eram anúncios de
processadores para computadores de mesa (a maioria deles eram kits que incluiam
um processador, mas haviam processadores para celulares, notebooks e
outros. Um problema recorrente encontrado foi o vendendor confundir a quantidade
de threads
e núcleos de processamento, para esses casos, nós assinalamos os
valores corretos para os dados, checando a informação no site do
fabricante). Nessa primeira amostragem, constatamos que o valor da variável
resposta não estava inteiramente coberto, isto é, não havia dados suficientes
para processadores com preço maior que 3,000 R$. Para ser preciso, apenas 21
observações. Para resolver esse problema, no dia 11/03/2021 coletamos mais
dados, porém fixamos o preço mínimo dos anúncios em 3,000 R$. Nessa segunda
amostragem, coletamos 155 dados com essa característica de preço, tomando o
devido cuidado para não haver dados duplicados e removendo as observações
indevidas, totalizando 514 observações.
2.2 Metodologia
Nessa subseçao descrevemos as metodologias utilizadas para os ajustes dos modelos. Ela foi baseada tanto no material disponibilizados pelos professores quanto nos livros Faraway (2014) e Montgomery, Peck, and Vining (2006).
Um modelo de regressão linear é uma método estatístico que procura identificar relações de associação entre as covariáveis e a variável resposta. Em nosso trabalho, buscamos obter o preço médio do preço dado o ano de lançamento, frequência máxima e número de núcleos de processamento do processados. Condicionando o preço essas covariáveis temos que:
\[ Y_i | \mathbf{x}_i^t = \beta_0 + \beta_1x_{ifreq} + \beta_2x_{inucleos} + \beta_3x_{iano} + \varepsilon_i \hspace{0.2cm} i = 1, 2, \ldots, n. \]
Então, a equação do modelo é da forma:
\[ E(Y_i | \mathbf{x}_i^t) = \hat{\beta_0} + \hat{\beta_1}x_{ifreq} + \hat{\beta_2} x_{inucleos} + \hat{\beta_3} x_{iano} \]
Assumindo que:
\(E(\varepsilon_i) = 0\).
\(Var(\varepsilon_i) = \sigma^2\) (constante).
\(Cov(\varepsilon_i, \varepsilon_j) = 0 \hspace{0.2cm} i \neq j\).
As covariáveis não são estocásticas.
\(\varepsilon_i \sim N(0, \sigma^2)\).
A estimação pode ser feita pelo método dos mínimos quadrados ou máxima verossimilhanaça, ambas fornecerão os mesmos valores. Caso todas as premissas sejam verdadeiras, os estimadores obtidos por máxima verossimilhança ou mínimos quadrados são os melhores dentro da classe dos estimadores lineares (teorema de Gauss-Markov). Também, isso implacará que os estimadores terão distribuição (assintótica) Normal. Com isso, podemos construir intervalos de confiança e testes hipóteses das maneiras usuais.
A partir disso, com a inferência sobre os parâmetros do modelo nos permite checar a significância do modelo, variáveis explicativas mais relevantes na análise e avaliar o erro de estimativas das predições geradas pelo modelo ajustado.
Em algumas situações a relação entre a variável resposta \(Y\) e alguma covariável \(X_k\) não pode ser descrita por uma reta, mas por um polinômio de ordem \(p\). Neste caso, essa variável deverá ser adicionada ao modelo com seus termos de maior ordem. O modelo para uma covariável \(X_k\) fica dado por:
\[ E(Y_i | \mathbf{x}_{ki}^t) = \hat{\beta_0} + \hat{\beta_1}x_{ki} + \hat{\beta_2} x_{ki}^2 + \ldots + \hat{\beta_p} x_{ki}^p \hspace{0.2cm} i = 1, 2, \ldots, n. \]
isso é chamado de regressão polinomial. As premissas e os métodos de estimação mencionados anteriormente continuam os mesmos. A intepretação desse tipo de modelo fica limitada ao intervalo de estudo - a menos que seja conhecida a extrapolação do fenômeno.
Uma vez que temos o modelo ajustado aos dados, devemos verificar a qualidade desse ajuste e se as premissas estão sendo cumpridas. Essa verificação é chamada de análise de diagnóstico. Ela pode ser realizada por inspeções gráficas e buscamos problemas como:
Falta de ajuste: as covariáveis não são suficientes para explicar a variável resposta. Buscamos padrões sistemáticos que podem indicar especificação incorreta do preditor do modelo.
Violações das premissas: relação entre média e variância nos resíduos (variância não constante); resíduos que não se adequam a uma distribuição Normal.
Pontos influentes: observações (podem ser outliers ou não) que influciam para os valores estimados para os parâmetros, valores ajustados, variância do resíduo etc.
A falta de ajuste e variância não constante podem ser verificadas por meio de um gráfico de resíduos vs valores ajustados. A normalidade pode-se checar por meio de um gráfico quantil-quantil. Os pontos influentes são identificados deixando uma observação de fora e ajustando o modelo novamente, estas medidas são chamadas de leave-one-out.
Alguns dos casos em que as premissas são violadas há medidas que poder ser aplicadas ao modelo que diminuem o impacto da violação. Por exemplo, caso seja identificado que o modelo possuí variância não constante, as estimativas obtidas pelos métodos mencionados não são eficientes. Neste cenário, pode-se aplicar uma transformação nos dados que a deixe constante. Ou ainda, podemos aplicar uma transformação em nossa variável resposta para se obter normalidade nos resíduos, dentre inumeras medidas corretivas.
A regressão robusta é um método útil para estimação na presença de outliers ou pontos com influência sobre os resultados. Essas observações modificam os valores estimados e/ou ajustados em função de sua atípicidade. Esses métodos adicionam uma função peso em que os erros são os argumentos na obtenção dos parâmetros estimados. Controla-se a magnitunidade dessa função peso por meio de um parâmetro de eficiência. Com isso, minimizamos o impacto das observações atípicas. A flexibilidade desse tipo de regressão recaí na definição função peso, na prática testamos várias dessas funções e verificamos qual produz o melhor ajuste.