4.2. Regressão Linear Múltipla

Regressão múltipla é uma coleção de técnicas estatísticas para construir modelos que descrevem de maneira razoável relações entre várias variáveis explicativas de um determinado processo. A diferença entre a regressão linear simples e a múltipla é que na múltipla são tratadas duas ou mais variáveis explicativas.

Apresentamos a teoria para analisar e validar Modelos de Regressão Linear Múltipla (MRLM), focando nos seguinte tópicos:

  1. Modelo estatístico;

  2. Estimação dos parâmetros;

  3. Propriedades dos estimadores;

  4. Testes de hipóteses e intervalos de confiança para os parâmetros do modelo;

  5. Análise de diagnóstico do modelo;

  6. Aplicações.

Motivação 2

O ganho de um transistor consiste na diferença entre o emissor e o coletor. A variável Ganho (em hFE) pode ser controlada no processo de deposição de íons por meio das variáveis Tempo de emissão (em minutos) e Dose de íons ($\times 10^{14}$). Os dados encontram-se na Tabela 4.2.1.

Observação Tempo (min) Ganho (hFe) Dose de íons ($\times10^{14}$)
1 195 1004 4
2 255 1636 4
3 195 852 4,6
4 255 1506 4,6
5 225 1272 4,2
6 225 1270 4,1
7 225 1269 4,6
8 195 903 4,3
9 255 1555 4,3
10 225 1260 4
11 225 1146 4,7
12 225 1276 4,3
13 225 1225 4,72
14 230 1321 4,3

Tabela 4.2.1: Dados do ganho em um conjunto de pistões à diferentes níveis de emissão e coleta.

Ilustração do Modelo

Figura 4.2.1

Figura 4.2.1: Ganho vs Tempo vs Dose.

A análise gráfica (Figura 4.2.1) nos mostra que existe relação entre o ganho dos transmissores e as duas variáveis de entrada (Tempo e Dose). Assim, é razoável supor uma relação linear entre a variável Ganho e as variáveis Tempo e Dose.

2.1 Modelo Estatístico

Como visto na “Motivação 2”, supor a construção de um modelo para relacionar a variável ganho (em íons) com as variáveis explicativas emissor de tempo e emissor da dose é razoável. Assim, definimos o modelo de regressão linear múltipla dado por

$$Y=\beta_0+\beta_1x_1+\beta_2x_2+\varepsilon \tag{2.1}$$

em que $Y$ representa a variável resposta (o ganho em íons), $x_1$ e $x_2$ representam as variáveis explicativas (o emissor de tempo e o emissor de dose, respectivamente) e $\varepsilon$ representa o erro experimental. Esse é um modelo de regressão linear múltipla com duas variáveis independentes ou explicativas ($x_1$ e $x_2$). O termo linear é usado pois a equação (2.1) é uma função linear de parâmetros desconhecidos $\beta_0,\beta_1$ e $\beta_2,$ denominados coeficientes da regressão.

Interpretação dos parâmetros do modelo

  • O parâmetro $\beta_0$ corresponde ao intercepto do plano com o eixo z. Se $x=(x1,x2)=(0,0)$ o parâmetro $\beta_0$ fornece a resposta média nesse ponto. Caso contrário, não é possível interpretar o parâmetro $\beta_0$.
  • O parâmetro $\beta_1$ indica uma mudança na resposta média a cada unidade de mudança em $x1$, quando as demais variáveis são mantidas fixas.
  • De forma semelhante é a interpretação para o parâmetro $\beta_2$, que indica uma mudança na resposta média a cada unidade de mudança em $x2$, quando $x1$ é mantido constante.

Figura4.2.2

Figura 4.2.2: Ilustração do modelo

Supondo $E(\varepsilon)=0$, temos $E(Y|x)=\beta_0+\beta_1x_1+\beta_2x_2, $ que descreve um plano bidimensional, denominado superfície de resposta.

De maneira geral, a variável resposta $Y$ pode ser relacionada a um número $p$ de variáveis de entrada. O modelo de regressão linear múltipla (MRLM) com $p$ variáveis explicativas é dado por

$$Y_i=\beta_{0}+\beta_{1}x_{i1}+\beta_{2}x_{i2}+…+\beta_{p}x_{ip}+\epsilon_i, \qquad i=1,…,n \tag{2.2}$$

em que

  • $x_{i1},x_{i2},…,x_{ip}$ são valores das variáveis explicativas, constantes conhecidas;
  • $\beta_{0},\beta_{1},\beta_{2},…,\beta_{p}$ são parâmetros ou coeficientes da regressão;
  • $\epsilon_i$ são erros aleatórios independentes.

Este modelo descreve um hiperplano p-dimensional referente às variáveis explicativas.

Efeito das interações

Modelos mais complexos do que o “Modelo 2.2” também são analisados usando técnicas de regressão linear múltipla. Consideremos o modelo de regressão linear múltipla com duas variáveis regressoras, $x_1$ e $x_2$, dado por

$$ Y=\beta_0+\beta_1 x_{1}+\beta_2 x_{2}+\beta_{3}\underbrace{x_{1} x_{2}}_{\hbox{interação}} + \varepsilon$$

Neste caso, $x_1x_2$ representa a interação existente entre as variáveis $x_1$ e $x_2$. Se a interação está presente e é significativa, o efeito de $x_{1}$ na resposta média depende do nível de $x_{2}$ e analogamente o efeito de $x_{2}$ na resposta média depende do nível de $x_{1}.$

Sabendo que $E(\varepsilon)=0$, tem-se que

$$E(Y|x)=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_1x_2$$

A interpretação para os parâmetros $\beta_1$ e $\beta_2,$ no modelo com interação, não é o mesmo visto anteriormente.

Suposições para o modelo

As suposições necessárias para o Modelo de Regressão Linear Múltipla são:

i) O erro tem média zero e variância $\sigma^2$, desconhecida;

ii) Os erros são não correlacionados;

iii) Os erros têm distribuição normal;

iv) As variáveis regressoras $x_{1}, x_{2}, \ldots, x_{p}$ assumem valores fixos.

As suposições (i)-(iii), simbolicamente, podem ser representadas por

$$\varepsilon_{i} \overset{\hbox{iid}}{\sim} N(0, \sigma^2)$$

Se as suposições do MRLM se verificam, então a variável $Y$ tem distribuição normal com variância $\sigma^2$ e média

$$E(Y\mid x)=\beta_0+\beta_1 x_{1}+\beta_2 x_{2}+\ldots+\beta_p x_{p}$$

Neste caso, os parâmetros $\beta_j,$ $j=1,\dots,p$ representam a variação (média) esperada na variável resposta ($Y$) quando a variável $x_j$ sofre um acréscimo unitário, enquanto todas as outras variáveis $x_i \quad (i\neq j)$ são mantidas constantes. Por esse motivo os $\beta_j$ são chamados de coeficientes parciais.

Se os valores de $x_j$ incluem os valores $x_j=0,j=1,\dots,p$ então $\beta_0$ é a média de $Y$ quando $x_j=0.$ Em caso contrário não existe interpretação prática.

2.2 Estimação dos Parâmetros do Modelo

Suponha que temos $n$ observações $(n> p)$ da variável resposta e das $p$ variáveis explicativas. Assim, $y_i$ é o valor da variável resposta na i-ésima observação enquanto que $x_{ij}$ é o valor da variável $x_j$ na i-ésima observação, $j=1,\dots,p.$ Os dados de um MRLM podem ser representados da seguinte forma:

$y$ $x_1$ $x_2$ $\ldots$ $x_p$
$y_1$ $x_{11}$ $x_{12}$ $\ldots$ $x_{1p}$
$y_2$ $x_{21}$ $x_{22}$ $\ldots$ $x_{2p}$
$\vdots$ $\vdots$ $\vdots$ $\vdots$ $\vdots$
$y_n$ $x_{n1}$ $x_{n2}$ $\ldots$ $x_{np}$

Tabela 4.2.2: Representação dos dados.

em que cada observação satisfaz $$\begin{equation*}Y_i=\beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \ldots + \beta_p x_{ip} + \varepsilon_i, \quad i=1,\ldots, n.\end{equation*}$$

2.2.1 Método dos Mínimos Quadrados

O objetivo é minimizar a função $$L=\sum_{i=1}^n\varepsilon_i^2=\sum_{i=1}^n\left(Y_i-\beta_0-\beta_1 x_{i1}-\beta_2 x_{i2}-\ldots -\beta_px_{ip}\right)^2.$$

Derivando L em função dos $\beta$’s obtemos $$\dfrac{\partial L}{\partial \beta_0}=-2\sum_{i=1}^n[Y_i-\beta_0-\beta_1x_{i1}-\beta_2x_{i2}-\dots-\beta_px_{ip}],$$

$$\dfrac{\partial L}{\partial \beta_j}=-2\sum_{i=1}^n[Y_i-\beta_0-\beta_1x_{i1}-\beta_2x_{i2}-\dots-\beta_px_{ip}]x_{ji},\quad j=1,2,\dots,p.$$

Igualando as derivadas parciais a zero e substituindo $\beta_0,\beta_1,\dots,\beta_p$ por $\widehat{\beta} _0,\widehat{\beta} _1,\dots,\widehat{\beta} _p$, temos o sistema de equações

$$ \begin{cases} n \widehat{\beta} _{0} + \widehat{\beta} _{1} \displaystyle\sum_{i=1}^n x_{i1} + \widehat{\beta} _{2} \displaystyle\sum_{i=1}^n x_{i2} + \ldots + \widehat{\beta} _{p} \displaystyle\sum_{i=1}^n x_{ip} = \displaystyle\sum_{i=1}^n Y_i \cr \cr \widehat{\beta} _{0} \displaystyle\sum_{i=1}^n x_{i1} + \widehat{\beta} _{1} \displaystyle\sum_{i=1}^n x_{i1}^2 + \widehat{\beta} _{2} \displaystyle\sum_{i=1}^n x_{i1}x_{i2} + \ldots + \widehat{\beta} _{p} \displaystyle\sum_{i=1}^n x_{i1}x_{ip} = \displaystyle\sum_{i=1}^n x_{i1}Y_i \cr \cr \qquad \vdots \qquad \qquad \qquad \vdots \cr \cr \widehat{\beta} _{0} \displaystyle\sum_{i=1}^n x_{ip} + \widehat{\beta}_{1} \displaystyle\sum_{i=1}^n x_{ip}x_{i1} + \widehat{\beta} _{2} \displaystyle\sum_{i=1}^n x_{ip}x_{i2} + \ldots + \widehat{\beta} _{p} \displaystyle\sum_{i=1}^n x_{ip}^2 = \displaystyle\sum_{i=1}^n x_{ip} Y_i \end{cases} $$

Resolvendo este sistema, obtemos os estimadores de mínimos quadrados $\widehat{\beta} _0,\dots,\widehat{\beta}_p$ dos parâmetros do modelo em questão.

2.2.2 Representação matricial do MRLM

Notemos que os estimadores de mínimos quadrados dos parâmetros do “Modelo 2.2” podem ser facilmente encontrados considerando a notação matricial dos dados, que é de fácil manipulação. Desta forma, considerando a entrada de dados apresentada na Tabela 2.2.1, o modelo de Regressão Linear Múltipla pode ser escrito como $$\begin{equation*}Y=X\beta+\varepsilon,\end{equation*}$$

com

$$Y=\begin{bmatrix} Y_1 \cr Y_2 \cr \vdots \cr Y_n \end{bmatrix} \quad , \quad X=\begin{bmatrix} \ x_{11} \ x_{12}~\ldots~x_{1p} \cr 1~x_{21}~x_{22}~\ldots~x_{2p} \cr \quad ~\vdots \quad ~\vdots \quad \ddots \ \vdots \cr 1~x_{n1}~x_{n2}~\ldots~x_{np} \end{bmatrix} \quad , \quad \beta =\begin{bmatrix} \beta_0 \cr \beta_1 \cr \vdots \cr \beta_p \end{bmatrix} \hbox{e} \quad \varepsilon= \begin{bmatrix}\varepsilon_1 \cr \varepsilon_2 \cr \vdots \cr \varepsilon_n \end{bmatrix} ,$$

em que

  • $Y$ é um vetor $n\times 1$ cujos componentes corresponde às n respostas;

  • $X$ é uma matriz de dimensão $n\times (p+1)$ denominada matriz do modelo;

  • $\varepsilon$ é um vetor de dimensão $n\times 1$ cujos componentes são os erros e

  • $\beta$ é um vetor $(p+1)\times 1$ cujos elementos são os coeficientes de regressão.

O método de mínimos quadrados tem como objetivo encontrar o vetor $\widehat{\beta}$ que minimiza

$$L=\sum_{i=1}^n\varepsilon_i^2=\varepsilon^\prime \varepsilon= (Y-X\beta)^\prime (Y-X\beta)=$$

$$=Y^\prime Y-Y^\prime X\beta-\beta^\prime X^\prime Y+\beta^\prime X^\prime X\beta=Y^\prime Y-2\beta^\prime X^\prime Y+\beta^\prime X^\prime X\beta,$$

sendo que $Y^\prime X\beta=\beta^\prime X^\prime Y$ pois o produto resulta em um escalar. A notação $X^\prime $ representa o transposto da matriz $X$ enquanto que $Y^\prime$ e $\beta^\prime$ representam os transpostos dos vetores $Y$ e $\beta$, respectivamente. Usando a técnica de derivação (em termos matriciais) obtemos

$$\dfrac{\partial L}{\partial\beta}=-2X^\prime Y+2X^\prime X\beta.$$

Igualando a zero e substituindo o vetor $\beta$ pelo vetor $\widehat{\beta}$, temos

$$(X^\prime X)\widehat{\beta}=X^\prime Y.$$

Em geral, a matriz $(X^\prime X)$ é não singular, ou seja, tem determinante diferente de zero, e portanto é invertível. Desta forma, conclui-se que os estimadores para os parâmetros $\beta_j,\quad j=0,\dots,p$ são dados pelo vetor

$$\begin{equation*}\widehat{\beta}=(X^\prime X)^{-1} X^\prime Y.\end{equation*}$$

Portanto, o modelo de regressão linear ajustado e o vetor de resíduos são respectivamente

$$\begin{equation*}\widehat{Y}=X\widehat{\beta}\quad {e}\quad e=Y-\widehat{Y}=Y - \widehat{Y}.\end{equation*}$$

Ao substituirmos os estimadores de mínimos quadrados, obtemos que $\widehat{Y} = HY$ no qual $H=X(X^\prime X)^{-1} X^\prime$ é a matriz chapéu, ou matriz de projeção do vetor de respostas $Y$ no vetor de respostas ajustadas $\widehat{Y}$.

Exemplo 2.2.1

Com os dados do exemplo na “Motivação 2”, obter as estimativas dos parâmetros do “Modelo 2.2”.

Solução:

Sejam a variável resposta Ganho (Y) e as variáveis explicativas Tempo ($x_1$) e Dose ($x_2$).

Temos que $n=14,$ $\quad \sum\limits_{i=1}^{14}Y_i= 17.495$; $\quad\sum\limits_{i=1}^{14}x_{i1}= 3.155$ e $\quad \sum\limits_{i=1}^{14} x_{i2}= 60,72.$ Além disso,

$\sum\limits_{i=1}^{14} x_{i1}^2= 716.425$; $\quad\sum\limits_{i=1}^{14}x_{i2}^2= 264,2584$; $\quad \sum\limits_{i=1}^{14} x_{i1} x_{i2}= 13.683,50$; $\quad \sum\limits_{i=1}^{14} x_{i1} Y_i= 4.001.120$ e $\quad \sum\limits_{i=1}^{14} x_{i2}Y_i= 75.738,30.$

As equações normais serão

$$\left\lbrace \begin{array}{c} n \widehat{\beta} _0+\widehat{\beta} _1 \displaystyle\sum_{i=1}^n x_{i1}+\widehat{\beta} _2\displaystyle\sum_{i=1}^n x_{i2}=\displaystyle\sum_{i=1}^n Y_i \cr \cr \widehat{\beta} _0 \displaystyle\sum_{i=1}^n x_{i1}+\widehat{\beta} _1 \displaystyle\sum_{i=1}^n x_{i1}^2 +\widehat{\beta} _2\displaystyle\sum_{i=1}^n x_{i1} x_{i2}=\displaystyle\sum_{i=1}^n x_{i1} Y_i \cr \cr \widehat{\beta} _0 \displaystyle\sum_{i=1}^n x_{i2}+\widehat{\beta} _1 \displaystyle\sum_{i=1}^n x_{i1} x_{i2}+\widehat{\beta} _2\displaystyle\sum_{i=1}^n x_{i2}^2=\sum_{i=1}^n x_{i2} Y_i\end{array}\right.$$

Substituindo os valores para esse exemplo, temos

$$\left\lbrace \begin{array}{c}14 \widehat{\beta} _0 + 3.155 \widehat{\beta} _1 + 60,72 \widehat{\beta}_2 = 17.495 \cr 3.155 \widehat{\beta} _0 + 716.425 \widehat{\beta} _1 + 13.683,50 \widehat{\beta}_2 = 4.001.120 \cr 60,72 \widehat{\beta} _0 + 13.683,50 \widehat{\beta} _1 + 264,2584 \widehat{\beta} _2 = 75.738,30\end{array}\right.$$

Resolvendo o sistema, obtemos

$\widehat{\beta} _0= -520,08,$ $\widehat{\beta} _1 = 10,78 $ e $\widehat{\beta} _2= -152,15.$

Na representação matricial temos

$$ (X’X)= \begin{bmatrix} 14,00 & 3.155,00 & 60,72 \cr 3.155,00 & 716.425,00 & 13.683,50\cr 60,72 & 13.683,50 & 264,26 \end{bmatrix} \quad\Rightarrow\quad (X’X)^{-1}= \begin{bmatrix} 30,24760 & -0,04172 & -4,78994 \cr -0,04172 & 0,00018 & 0,00004 \cr -4,78994 & 0,00004 & 1,10244 \end{bmatrix} $$

$$ X’y = \begin{bmatrix} 17.495,0 \cr 4.001.120,0\cr 75.738,3 \end{bmatrix} $$

Logo, as estimativas $\widehat{\beta}$ são dadas por

$$ \widehat{\beta} = (X´X)^{-1} X’y = \begin{bmatrix} -520,08 \cr 10,78 \cr -152,15 \end{bmatrix} $$

e portanto, $\widehat{y} = -520,08 + 10,78 x_1 -152,15 x_2.$

Não podemos afirmar que a variável $x_1$ aumenta o ganho, pois as variáveis $x_1$ e $x_2$ estão em unidades diferentes. No exemplo 2.2.3 abaixo, as variáveis foram transformadas para que fiquem na mesma unidade.

Exemplo 2.2.2

Interpretar os resultados do “Exemplo 2.2.1”.

Solução:

Com os dados do exemplo na “Motivação 2”, obtemos o modelo

$$E(Y\mid x)= -520,08 - 152,15 \hbox{Dose} + 10,78 \ \hbox{Tempo}.$$

Se o $\hbox{Tempo} = 225$ (constante), então $$E(Y\mid x)= 1.905,42 - 152,15 \ \hbox{Dose}.$$

Assim,

$\beta_1=-152,15$ indica que a cada acréscimo de uma unidade na $Dose$ a resposta média decrescerá $152,15$ unidades;

$\beta_2=10,78$ indica um acréscimo na resposta média de $10,78$ unidades para cada acréscimo de uma unidade na variável $\hbox{Dose}$.

2.2.3 Transformação de dados

Em determinadas situações é usual transformarmos as variáveis explicativas dos dados originais para que fiquem na mesma unidade (escala), facilitando a interpretação dos resultados. Suponha que $\xi_{1},\xi_{2},\dots,\xi_{p}$ são as variáveis explicativas originais do modelo. A expressão para transformar as variáveis explicativas $\xi$ é dada por

$$x_{ij}=\dfrac{\xi_{ij}-\dfrac{[max(\xi_{ij})+min(\xi_{ij})]}{2}}{\dfrac{[max(\xi_{ij})-min(\xi_{ij})]}{2}},$$

em que j indica a variável que está sendo transformada, $j=1,\dots,p$. Desta forma, temos que os valores das variáveis explicativas transformadas estão todos entre -1 e 1.

Notemos que os valores das estimativas dos parâmetros do modelo de regressão linear múltipla não são os mesmos considerando as variáveis originais e as variáveis transformadas.

Exemplo 2.2.3

Considerando os dados do Exemplo 2.2.1, transformar as variáveis explicativas para que fiquem na mesma unidade (escala). Então, ajustar o modelo de regressão linear múltipla aos dados transformados.

Considerando que $\xi_{1}$ e $\xi_{2}$ são as variáveis explicativas no conjunto de dados original, temos que as variáveis explicativas transformadas, denotadas por $x_1$ e $x_2$ são dadas por

  • Para $x_{i1}$:

$$x_{i1}=\dfrac{\xi_{i1} - 225}{30}.$$

  • Para $x_{i2}$:

$$x_{i2}=\frac{\xi_{i2} -4,36}{0,36}.$$

Observação Tempo (min) $(\xi_{1})$ Dose de íons $10^{14}$ $(\xi_{2})$ $x_1$ $x_2$ Ganho (y)
1 195 4 -1 -1 1.004
2 255 4 1 -1 1.636
3 195 4,6 -1 0,6667 852
4 255 4,6 1 0,6667 1.506
5 225 4,2 0 -0,4444 1.272
6 225 4,1 0 -0,7222 1.270
7 225 4,6 0 0,6667 1.269
8 195 4,3 -1 -0,1667 903
9 255 4,3 1 -0,1667 1.555
10 225 4 0 -1 1.260
11 225 4,7 0 0,9444 1.146
12 225 4,3 0 -0,1667 1.276
13 225 4,72 0 1 1.225
14 230 4,3 0,1667 -0,1667 1.321

Tabela 4.2.3: Dados Transformados.

Considerando os dados transformados, temos que a matriz $X$ e o vetor $y$ são dados respectivamente por

$$ X = \begin{bmatrix} 1 & -1 & -1 \cr 1 & 1 & -1 \cr 1 & -1 & 0,6667 \cr 1 & 1 & 0,6667 \cr 1 & 0 & -0,4444 \cr 1 & 0 & -0,7222 \cr 1 & 0 & 0,6667 \cr 1 & -1 & -0,1667 \cr 1 & 1 & -0,1667 \cr 1 & 0 & -1 \cr 1 & 0 & 0,9444 \cr 1 & 0 & -0,1667 \cr 1 & 0 & 1 \cr 1 & 0,1667 & -0,1667 \end{bmatrix}, \quad y = \begin{bmatrix} 1004 \cr 1636 \cr 852 \cr 1506 \cr 1272 \cr 1270 \cr 1269 \cr 903 \cr 1555 \cr 1260 \cr 1146 \cr 1276 \cr 1225 \cr 1321 \end{bmatrix}. $$

Assim, a matriz $X^\prime X$ é

$$(X’X) = \begin{bmatrix} 14 & 0,1667 & -0,8889 \cr 0,1667 & 6,0278 & -0,0278 \cr -0,8889 & -0,0278 & 7,0556 \end{bmatrix} \Rightarrow (X’X)^{-1} = \begin{bmatrix} 0,0720 & -0,0019 & 0,0091 \cr -0,0019 & 0,1660 & 0,0004 \cr 0,0091 & 0,0004 & 0,1429 \end{bmatrix}$$

$$\hbox{e} \qquad X’y = \begin{bmatrix} 17495 \cr 2158,167 \cr -1499,722 \end{bmatrix}. $$

Portanto, as estimativas $\widehat{\beta}$ são

$$ \widehat{\beta} = (X´X)^{-1} X’y = \begin{bmatrix} 1242,31 \cr 323,43 \cr 54,77 \end{bmatrix} $$

Assim, a equação da regressão é dada por

$$\widehat{y}= 1.242,31 + 323,43~x_1 - 54,77~x_2.$$

Usando o software Action temos os seguintes resultados:

  • Considerando a escala original dos dados
Estimativa Desvio Padrão Estat.t P-valor
Intercepto -520.0766769 192.1070916 -2.7072227 0.0203918
Tempo 10.7811579 0.4743196 22.7297315 0
Dose de ions -152.1488747 36.675439 -4.1485223 0.0016205

Tabela 4.2.4: Coeficientes com a escala original

  • Considerando a transformação
Estimativa Desvio Padrão Estat.t P-valor
Intercepto 1242.3139816 9.3744517 132.5212414 0
x1 323.4344987 14.2295393 22.7297942 0
x2 -54.7730076 13.2031035 -4.1484949 0.0016206

Tabela 4.2.5: Coeficientes com a transformação

2.3 Propriedades dos Estimadores

2.3.1 Propriedades dos estimadores de mínimos quadrados e do estimador para $\sigma^2$

Consideremos o “Modelo 2.2” na forma matricial. Pelo Teorema de Gauss-Markov temos que o estimador de mínimos quadrados $\widehat{\beta}$ é não viciado e tem variância mínima entre todos os estimadores não viciados que são combinações lineares dos $Y_i$. Assim,

1. Valor esperado (média) de $\widehat{\beta}$:

$$E(\widehat{\beta})= E[(X^\prime X)^{-1}X^\prime Y]=E[(X^\prime X)^{-1}X^\prime (X\beta+\varepsilon)]=E[(X^\prime X)^{-1}X^\prime X\beta+(X^\prime X)^{-1}X^\prime \varepsilon]$$ $$=E[I\beta]+E[(X^\prime X)^{-1}X^\prime \varepsilon]=\beta+(X^\prime X)^{-1}X^\prime E[\varepsilon]=\beta,$$

em que $E[\varepsilon]=0$ e $(X^\prime X)^{-1}X^\prime X=I$ (matriz identidade).

2. Matriz de covariâncias de $\widehat{\beta}$:

Para calcular a variância de $\widehat{\beta},$ vamos primeiramente destacar a definição de variância no caso matricial, ou seja, se $W$ é um vetor de variáveis aleatórias, então a matriz de covariâncias de W é dado por $$Cov(W)= E \left[ W W^\prime\right] - E[W] E(W)^\prime,$$

que na forma matricial é escrita como

$$Cov[W] = \begin{bmatrix} Cov[W_1,W_1] \quad Cov[W_1,W_2] \quad Cov[W_1,W_3] \quad \ldots \quad Cov[W_1,W_n] \cr Cov[W_2,W_1] \quad Cov[W_2,W_2] \quad Cov[W_2,W_3] \quad \ldots \quad Cov[W_2,W_n] \cr Cov[W_3,W_1] \quad Cov[W_3,W_2] \quad Cov[W_3,W_3] \quad \ldots \quad Cov[W_3,W_n] \cr \qquad \vdots \qquad \qquad \qquad \vdots \quad \quad \quad \quad \quad \quad \vdots \quad \quad \ddots \quad \quad \quad \quad \vdots \cr Cov[W_n,W_1] \quad Cov[W_n,W_2] \quad Cov[W_n,W_3] \quad \ldots \quad Cov[W_n,W_n] \end{bmatrix}$$

Com isso, a matriz de covariâncias $\widehat{\beta}$ é

$$Cov(\widehat{\beta})= E \left[\widehat{\beta}\widehat{\beta}^\prime \right] - E[\widehat{\beta}] E(\widehat{\beta})^\prime = E \left\lbrace \left[(X^\prime X)^{-1} X^\prime Y\right] \ \left[(X^\prime X)^{-1} X^\prime Y\right]^\prime \right\rbrace - \beta \beta^\prime$$

$$ = (X’X)^{-1} X' E(YY') X (X’X)^{-1} - \beta \beta' = (X’X)^{-1} X' \left[ \operatorname{Cov}(Y) + E(Y)E(Y)' \right] X (X’X)^{-1} - \beta \beta'$$

$$=(X^\prime X)^{-1} X^\prime ~ Cov(Y) ~ X(X^\prime X)^{-1} + (X^\prime X)^{-1}X^\prime ~ E(Y)E(Y)^\prime X(X^\prime X)^{-1} - \beta \beta^\prime.$$

Fazendo $Cov(Y)=\sigma^2~I$ e também que $E(Y)=X \beta$

$$Cov(\widehat{\beta})=\sigma^2 (X^\prime X)^{-1}\overbrace{ X^\prime I X(X^\prime X)^{-1}}^{=~I} + (X^\prime X)^{-1}X^\prime(X\beta)(X\beta)^\prime X(X^\prime X)^{-1} - \beta \beta^\prime$$

$$ = \sigma^2 (X^\prime X)^{-1} + \overbrace{(X^\prime X)^{-1}X^\prime X}^{=~I}\beta ~ \beta^\prime \overbrace{X^\prime X(X^\prime X)^{-1}}^{=~I} ~ - ~ \beta \beta^\prime$$

$$ = \sigma^2 (X^\prime X)^{-1} + \beta \beta^\prime - \beta \beta^\prime =\sigma^2(X^\prime X)^{-1}.$$

3. Estimador não viciado para $\sigma^2$

Consideremos a soma de quadrados dos resíduos dada por​ Anchor$$SQE= \sum_{i=1}^n e^2_i = e^\prime e = (Y-\widehat{Y})^\prime (Y-\widehat{Y})= (Y-X\widehat{\beta})^\prime (Y-X\widehat{\beta})$$

$$= Y^\prime Y - Y^\prime X\widehat{\beta} - \widehat{\beta}^\prime X^\prime Y + \widehat{\beta}^\prime X^\prime X\widehat{\beta}= Y^\prime Y - 2\widehat{\beta}^\prime X^\prime Y + \widehat{\beta}^\prime X^\prime X\widehat{\beta}.$$

Desde que $X^\prime X\widehat{\beta}=X^\prime Y,$ segue que

$$SQE = Y^\prime Y - 2\widehat{\beta}^\prime X^\prime Y + \widehat{\beta}^\prime X^\prime Y = Y^\prime Y - \widehat{\beta}^\prime X^\prime Y \quad \hbox{ou ainda,}$$

$$= Y^\prime Y - Y^\prime X (X^\prime X)^{-1}X^\prime Y = Y^\prime (I - X(X^\prime X)^{-1}X^\prime)Y.$$

Portanto, $$SQE = Y^\prime(I - X(X^\prime X)^{-1}X^\prime)Y.$$

Veremos a SQE com mais detalhes em “Análise de Variância”.

Teorema - Distribuição de forma quadrática: Se $Y \sim N_p(\mu;\Sigma)$, então, $Y^\prime AY \sim \chi^2_{r(A),\delta}$ (Qui-quadrado não central) se, e somente se, $A\Sigma$ é idempotente, em que

  • r(A): representa o rank da matriz A, ou seja, o número de colunas linearmente independentes da matriz A.

  • $\delta=\dfrac{1}{2}\mu^\prime A \mu$: representa o parâmetro de não centralidade.

  • Idempotente: $A\Sigma \times A\Sigma = A\Sigma$

Como assumimos que o vetor de erro $\varepsilon~\sim~N_p(0;\sigma^2I_p)$, segue que $Y\sim N_p(X\beta;\sigma^2I_p)$ e então, $$\dfrac{Y}{\sigma}\sim N_p\left(\dfrac{X\beta}{\sigma};I_p\right).$$

Desta forma, utilizando o teorema obtemos que

$$\dfrac{SQE}{\sigma^2}=\dfrac{Y^\prime }{\sigma} [I - X (X^\prime X)^{-1}X^\prime]\dfrac{Y}{\sigma}\sim\chi^{2}_{r[I -X(X^\prime X)^{-1}X^\prime ];\delta}$$

já que a matriz $(I - X (X^\prime X)^{-1}X^\prime )$ é idempotente. Como $$\delta=\dfrac{1}{2}\dfrac{\beta^\prime X^\prime (I-X(X^\prime X)^{-1}X^\prime )X\beta}{\sigma^2}=0 \quad {e}$$ $$r(I-X(X^\prime X)^{-1}X^\prime )=n-(p+1),$$

então $$\dfrac{SQE}{\sigma^2}\sim\chi^{2}_{n-(p+1)}.$$

Portanto, um estimador não viciado para $\sigma^2$ é dado por

$$\widehat{\sigma}^2=QME=\dfrac{SQE}{n-p-1}.$$

4. Matriz de covariâncias estimada de $\widehat{\beta}$:

$$ \widehat{\hbox{Cov}}(\widehat{\beta}) = \hat{\sigma}^2 (X^\prime X)^{-1} = \begin{bmatrix} \hat{\sigma}^2(\hat{\beta}_0) & \widehat{\hbox{Cov}}(\hat{\beta}_0,\hat{\beta}_1) & \widehat{\hbox{Cov}}(\hat{\beta}_0,\hat{\beta}_2) & \ldots & \widehat{\hbox{Cov}}(\hat{\beta}_0,\hat{\beta}_p) \cr \widehat{\hbox{Cov}}(\hat{\beta}_1,\hat{\beta}_0) & \hat{\sigma}^2(\hat{\beta}_1) & \widehat{\hbox{Cov}}(\hat{\beta}_1,\hat{\beta}_2) & \ldots & \widehat{\hbox{Cov}}(\hat{\beta}_1,\hat{\beta}_p) \cr \vdots & \vdots & \vdots & \ddots & \vdots \cr \widehat{\hbox{Cov}}(\hat{\beta}_p,\hat{\beta}_0) & \widehat{\hbox{Cov}}(\hat{\beta}_p,\hat{\beta}_1) & \widehat{\hbox{Cov}}(\hat{\beta}_p,\hat{\beta}_2) & \ldots & \hat{\sigma}^2(\hat{\beta}_p) \end{bmatrix} $$

em que $\widehat{Cov}(\bf{\widehat{\beta}})$ é uma matriz $(p+1)\times (p+1)$, sendo $p$ o número de variáveis explicativas do modelo.

Sendo $C$ a diagonal da matriz ${(X^\prime X)}^{-1}$, isto é

$$C=\begin{bmatrix}C_{00} \quad \quad \quad \quad \quad \quad \quad ~ \cr \quad \quad ~C_{11} \quad \quad \quad \quad \quad \cr \quad \quad \quad \quad \quad \ddots \quad \quad ~ \cr \quad \quad \quad \quad \quad \quad \quad ~C_{pp}\end{bmatrix},$$

podemos escrever a variância estimada dos $\widehat{\beta}_{j}$ como

$$\widehat{\sigma}^{2}(\widehat{\beta_j})=\widehat{\sigma}^2C_{jj},\quad j=0,1,\dots,p.$$

Exemplo 2.3.1

Calcular a matriz de covariâncias estimada considerando os dados transformados do “Exemplo 2.2.3”.

A matriz ${(X^\prime X)}$ neste caso é dada por

$$ (X^\prime X) = \begin{bmatrix} 14,00 & 0,17 & -0,89 \cr 0,17 & 6,03 & -0,03 \cr -0,89 & -0,03 & 7,06 \end{bmatrix} \Rightarrow (X^\prime X)^{-1} = \begin{bmatrix} 0,0720 & -0,0019 & 0,0091 \cr -0,0019 & 0,1660 & 0,0004 \cr 0,0091 & 0,0004 & 0,1429 \end{bmatrix} $$

Temos também que

$$ \hat{\sigma}^2 = QME = \frac{SQE}{n-p-1} = \frac{y^\prime y - \hat{\beta}^\prime X^\prime y}{14 - 2 - 1} = \frac{22.527.889 - 22.514.467,9}{11} = \frac{13.421,2}{11} = 1.220,1. $$

Logo,

$$ \widehat{\text{Cov}}(\widehat{\beta}) = \hat{\sigma}^2 (X^\prime X)^{-1} = \begin{bmatrix} 87,881 & -2,379 & 11,062 \cr -2,379 & 202,481 & 0,497 \cr 11,062 & 0,497 & 174,323 \end{bmatrix}. $$

Podemos também utilizar a matriz $C$, dada por

$$C=\begin{bmatrix} 0,0720 \quad \quad \quad \quad \quad \quad \quad ~ \cr \quad \quad 0,1660 \quad \quad \quad \quad \quad \cr \quad \quad \quad \quad \quad \ddots \quad \quad ~ \cr \quad \quad \quad \quad \quad \quad \quad 0,1429\end{bmatrix},$$

Neste caso, a variância estimada dos estimadores $\widehat{\beta}_{j}\quad j=0,1,2$ é

$$\widehat{\sigma}^{2}(\widehat{\beta_{0}})=\widehat{\sigma}^{2}C_{00}=1.220,1(0,0720)=87,881.$$

$$\widehat{\sigma}^{2}(\widehat{\beta_{1}})=\widehat{\sigma}^{2}C_{11}=1.220,1(0,1660)=202,481.$$

$$\widehat{\sigma}^{2}(\widehat{\beta_{2}})=\widehat{\sigma}^{2}C_{22}=1.220,1(0,1429)=174,323.$$

O desvio padrão dos estimadores é

$$\widehat{\sigma}(\widehat{\beta_{0}})=\sqrt{87,881}=9,374.$$

$$\widehat{\sigma}(\widehat{\beta_{1}})=\sqrt{202,481}=14,230.$$

$$\widehat{\sigma}(\widehat{\beta_{2}})=\sqrt{174,323}=13,203.$$

Usando o software Action temos os seguintes resultados:

Estimativa Desvio Padrão Estat.t P-valor
Intercepto 1242.3139816 9.3744517 132.5212414 0
x1 323.4344987 14.2295393 22.7297942 0
x2 -54.7730076 13.2031035 -4.1484949 0.0016206

Tabela 4.2.6: Estimativas dos coeficientes transformados

2.4 Análise de Variância (Teste F) - Medidas de Associação

2.4.1 Notação Matricial das Somas de Quadrados

Como visto na “Análise de Variância” no Modelo de Regressão Linear Simples, podemos decompor a variabilidade total na variabilidade do modelo mais a variabilidade dos erros.

A soma de quadrados total (SQT), considerando a notação matricial do modelo 2.2, é dada por

$$SQT=\displaystyle\sum\limits_{i=1}^n(Y_i-\overline{Y})^2=Y^\prime Y-\dfrac{Y^\prime J Y}{n}=Y^\prime\left(I-\dfrac{J}{n}\right)Y,$$

em que

$$J =\begin{bmatrix}1 \quad 1 \quad \ldots \quad 1 \cr 1 \quad 1 \quad \ldots \quad 1 \cr \vdots \quad \vdots \quad \ddots \quad \vdots \cr 1 \quad 1 \quad \ldots \quad 1 \cr \end{bmatrix}_{n \times n}$$

Além disso, de “Propriedades dos Estimadores” temos que a soma de quadrados dos erros (dos resíduos) é dada por

$$SQE=Y^\prime Y-\widehat{\beta}^\prime X^\prime Y=Y^\prime (I-X (X^\prime X )^{-1}X^\prime )Y=Y^\prime(I-H)Y.$$

A matriz $I$ é a matriz identidade com dimensão n x n e a matriz $H=X [X^\prime X]^{-1}X^\prime$ é chamada matriz chapéu que transforma o vetor de respostas Y no vetor de valores ajustados $\widehat{Y}$, pois

$$\widehat{Y}=X\widehat{\beta}=X[X^\prime X]^{-1}X^\prime Y=HY.$$

Desta forma, obtemos que a soma de quadrados da regressão é dada por

$$SQR=SQT-SQE=\left(Y^\prime Y-\dfrac{Y^\prime JY}{n}\right)-(Y^\prime Y-\widehat{\beta}^\prime X^\prime Y)=\widehat{\beta}^\prime X^\prime Y-\dfrac{Y^\prime JY}{n}$$ $$=Y^\prime X(X^\prime X)^{-1}X^\prime Y-\dfrac{Y^\prime JY}{n}=Y^\prime \left(X(X^\prime X)^{-1}X^\prime -\dfrac{J}{n}\right)Y=Y^\prime \left(H-\dfrac{J}{n}\right)Y.$$

Notemos que as somas de quadrados da Análise de Variância no caso do MRLM são representadas na forma quadrática $Y’AY$, em que $A$ é uma matriz simétrica.

Vale ressaltar que

  • $H$ é quadrada de dimensão $n$ x $n$ e envolve apenas $X$ (as variáveis independentes assumidas como constantes).

  • $H$ é idempotente, isto é, $HH=H$.

  • As matrizes $\left(I-\dfrac{J}{n}\right)$, $\left(H-\dfrac{J}{n}\right)$ e $(I-H)$ são idempotentes.

Com os valores das somas de quadrados, podemos obter a Tabela Anova.

Fonte Soma de quadrados GL Quadrado Médio
Regressão $SQR$ $p$ $\dfrac{SQR}{p}$
Erro (Resíduo) $SQE$ $n-p-1$ $\dfrac{SQE}{n-p-1}$
Total $SQT$ $n-1$

Tabela 4.2.7: Tabela da ANOVA

2.4.2 Teste F

Em problemas de regressão linear múltipla, certos testes de hipóteses sobre os parâmetros do modelo são úteis para verificar a “adequabilidade” do modelo.

2.4.2.1 Teste para significância da regressão

O teste para significância da regressão é um teste para determinar se há uma relação linear entre a variável resposta $Y$ e algumas das variáveis regressora $x_1,x_2,\dots,x_p$. Consideremos as hipóteses

$$\begin{cases}H_0 : \quad \beta_1=\beta_2=\ldots=\beta_p=0 \cr H_1: \quad \beta_j\neq 0 \quad \hbox{ para qualquer}~j~=~1, \cdots, p \cr \end{cases}$$

Se rejeitamos $H_0$, temos que ao menos uma variável explicativa $x_1,x_2,\dots,x_p$ contribui significativamente para o modelo.

Sob $H_0,$ temos pelo “Teorema - Distribuição de forma quadrática” que

$$\dfrac{SQR}{\sigma^2} \sim \chi^2_{(p)} \quad \quad {e~que} \quad \quad \dfrac{SQE}{\sigma^2} \sim \chi^2_{(n-p-1)}.$$

Além disso, temos que $SQR$ e $SQE$ são independentes. Logo, concluímos sob $H_0$ que

$$F_0=\dfrac{\dfrac{SQR}{p}}{\dfrac{SQE}{n-p-1}}= \dfrac{QMR}{QME}~\sim ~F_{(p ; n-p-1)}.$$

Portanto, rejeitamos $H_0$ se $F_0 > F_{(1-\alpha ; p ; n-p-1)}$ e se $p-valor=P[F_{p;n-p-1} > F_0]<\alpha,$ em que $\alpha$ é o nível de significância considerado. Geralmente adotamos $\alpha=5$ %.

A Tabela Anova com a estatística F é dada por

Fonte Soma de quadrados GL Quadrado Médio $F_0$
Regressão $SQR$ $p$ $QMR=\dfrac{SQR}{p}$ $F_0=\dfrac{QMR}{QME}$
Erro (Resíduo) $SQE$ $n-p-1$ $QME=\dfrac{SQE}{n-p-1}$
Total $SQT$ $n-1$

Tabela 2.4.8: Tabela da ANOVA e estatística de $F_0$

Exemplo 2.4.1

Construir a tabela da ANOVA considerando os dados transformados no “Exemplo 2.2.3”.

Solução:

Temos as hipóteses:

$$\begin{cases}H_0: \quad \beta_1=\beta_2=0 \cr H_1: \quad \beta_j\neq 0 \quad\hbox{para qualquer}~j~=~1, \cdots, p\end{cases}$$

As somas de quadrados são

$$SQT=y^\prime y-\dfrac{\left( \displaystyle\sum\limits_{i=1}^{14} y_i\right)^2}{14}=22.527.889 - \dfrac{(17.495)^2}{14}$$

$$= 665.387,2.$$

$$SQR= \widehat{\beta}^\prime X^\prime y - \dfrac{\left(\displaystyle\sum\limits_{i=1}^{14}y_i\right)^2}{14} = 22.514.467,9 - 21.862.501,8$$

$$= 651.966,1.$$

$$SQE= SQT-SQR = 665.387,2 - 651.966,1$$

$$= 13.421,1.$$

Resumidamente temos,

Fonte Soma de quadrados GL Quadrado Médio $F_0$ $P-Valor$
Regressão $651.966,1$ $~2~$ $\dfrac{651.966,1}{2}=325.983,0$ $267,18$ $0,00$
Erro (Resíduo) $13.421,2$ $~11~$ $\dfrac{13.421,2}{11}=1.220,1$
Total $655.387,2$ $~13~$

Tabela 4.2.9: Tabela da ANOVA do Exemplo 2.2.3

Para $\alpha=0,05$, temos que $F_0 = 267,18 > F_{0,95;2;11}=3,98$. Analisando o p-valor, temos que p_valor $= P[F_{2;11} > F_0] = 0,000$. Assim, rejeitamos $H_0$ com um nível de confiança de 95%.

2.4.3 Medidas de Associação

2.4.3.1 Coeficiente de Determinação Múltiplo - $R^2$

O coeficiente de determinação múltiplo é dado por $$R^2 = \frac{SQR}{SQT} = 1-\frac{SQE}{SQT}.$$

Ele representa a proporção da variabilidade de Y explicada pelas variáveis regressoras. Assim, quanto mais próximo $R^2$ estiver de 1, maior é a explicação da variável resposta pelo modelo ajustado.

2.4.3.2 Coeficiente de Determinação Ajustado - $R^2_a$

O coeficiente de determinação ajustado é definido como $$R^2_a=1-\left(\frac{n-1}{n-p}\right)(1-R^2).$$

Este coeficiente ajustado pode ser menor quando outra variável X entra no modelo, pois a diminuição na SQE pode ser compensada pela perda de 1 grau de liberdade no denominador n-p.

Exemplo 2.4.2

Considerando o exemplo na “Motivação 2”, calcular o coeficiente de determinação $(R^2)$ e o coeficiente de determinação ajustado $(R^2_{a})$.

Solução:

$$R^2 = \frac{SQR}{SQT} = \frac{651.966,1}{665.387,2}=0,9798$$

$$R^2_{a}=1-\left(\frac{13}{11}\right)(1-0,9798)= 0,9762.$$

Usando o software Action temos os seguintes resultados:

G.L. Soma de Quadrados Quadrado Médio Estat.t P-valor
x1 1 630968.32383546 630968.32383546 517.146904974 0
x2 1 20997.846071104 20997.846071104 17.210009911 0.001620574
Resíduos 11 13421.04437915 1220.094943559

Tabela 4.2.10: Tabela da ANOVA

Desvio Padrão dos Resíduos Graus de Liberdade R^2 R^2 Ajustado
34.92985748 11 0.979829723 0.9761624

Tabela 4.2.11: Medida Descritiva da Qualidade do Ajuste

O Action constrói a tabela da ANOVA de forma diferente da calculada no exemplo 2.4.1. Para obtermos os mesmos resultados do exemplo 2.4.1, basta proceder da seguinte forma:

  • Soma de quadrados da regressão: $SQR=SQ_{x_1}+SQ_{x_2}=630976,866+20998,23=651966,17$

  • Graus de liberdade: $GL=1+1=2$

  • Quadrado médio da regressão: $QMR=\frac{SQR}{2}=\frac{651966,1}{2}=325983$

  • Estatística F: $F_0=\frac{QMR}{QME}=\frac{325983}{1220,1}=267,18$

2.5 Testes Individuais e Intervalos de Confiança para os Parâmetros

2.5.1 Testes individuais para os coeficientes da regressão

Testes de hipóteses individuais para os coeficientes da regressão são fundamentais para se determinar se cada variável explicativa é importante para o modelo de regressão. Por exemplo, o modelo pode ser mais eficaz com a inclusão ou com a exclusão de novas variáveis.

Adicionar uma variável ao modelo de regressão sempre causa um aumento na soma dos quadrados da regressão e um decréscimo na soma dos quadrados do erro. Entretanto, a adição de variáveis regressoras também aumenta a variância do valor ajustado $\widehat{Y}$. Por isso, devemos ter cuidado para incluir somente variáveis regressoras que realmente explicam a variável resposta.

As hipóteses para testar a significância de qualquer coeficiente de regressão individualmente são dadas por,

$$\begin{cases}H_0:\beta_j =0 \cr H_1:\beta_j \neq0 \cr \end{cases} \quad j = 0, 1, \ldots, p.$$

Se $H_0$ ($\beta_j =0$) não é rejeitada, então podemos retirar $x_j$ do modelo já que esta variável não influencia a resposta de forma significativa.

Sabemos que $Y\sim N_p(X\beta;\sigma^2I_p)$ e que $\widehat{\beta}=(X^\prime X)^{-1}X^\prime Y$. Como $\widehat{\beta}$ é combinação linear de distribuições normais, segue que $\widehat{\beta}$ também é normal, isto é

$$\widehat{\beta}\sim N_p(\beta;\sigma^2C),$$

em que $C=(X^\prime X)^{-1}$. Logo, temos que $\widehat{\beta} _j \sim N(\beta_j;\sigma^2C_{jj})$ com $C_{jj}$ sendo o $j$-ésimo elemento da diagonal de $(X^\prime X)^{-1}$, $j=0,1,\dots,p$. Portanto, obtemos

$$N_0=\dfrac{\widehat{\beta} _ j-\beta_j}{\sqrt{\sigma^2 C_{jj}}} \sim N(0,1).$$

Temos também que $$\dfrac{(n-p-1)\widehat{\sigma}^2}{\sigma^2} \sim \chi ^2_{(n-p-1)},$$

independente de $N_0$. Logo, sob $H_0$ temos que a estatística de teste é dada por

$$t_0= \dfrac{\dfrac{\widehat{\beta_j}}{\sqrt{\sigma^2 C_{jj}}}}{\sqrt{\dfrac{(n-p-1)\widehat{\sigma}^2}{\sigma^2}}}=\dfrac{\widehat{\beta}_j}{\sqrt{\widehat{\sigma}^2C_{jj}}} \sim t_{(n-p-1)}, \tag{2.5.1.1}$$

A hipótese nula $H_0:\beta_j =0$ é rejeitada se

$$\mid t_0\mid > t_{(1-\frac{\alpha}{2}, n-p-1)}.$$

Considerando o p-valor, dado por meio da expressão

$$2*P\left( t_{n-p-1}> \mid t_0 \mid \right),$$

rejeitamos $H_0$ se p_valor $<~\alpha$.

O denominador é frequentemente chamado de erro padrão de $\widehat{\beta}_j$ e denotado por

$$se_{(\widehat{\beta}_j)}=\sqrt{\widehat{\sigma}^2C_{jj}}.$$

2.5.2 Intervalo de confiança para os coeficientes da regressão

Considerando a estatística dada em (2.5.1.1), um intervalo com $100(1-\alpha)\char37$ de confiança para os coeficientes da regressão $\beta_j, \quad ~ j=0,1,2,\ldots,p,$ é dado por

$$\left[\widehat{\beta}_j-t_{\left(\frac{\alpha}{2},n-p-1\right)}{\sqrt{\widehat{\sigma}^2 C_{jj}}} ; \widehat{\beta}_j+t_{\left(\frac{\alpha}{2},n-p-1\right)}{\sqrt{\widehat{\sigma}^2 C_{jj}}} \right].$$

2.5.3 Testes parciais para os coeficientes da regressão (Teste F Parcial)

Em alguma situações estamos interessados em saber se um subconjunto de variaveis explicativas são importantes para o modelo de regressão. Considere o modelo escrito na forma matricial com k covariaveis

$$y=X\beta + \varepsilon$$

em que, dado $p=k+1$

  • $y$ é um vetor representando a variável resposta com dimensão $n\times 1$;
  • $X$ é uma matriz  com dimensão $n \times p$
  • $\beta$ é o vetor de parâmetros com dimensão $n \times 1$;
  • $\varepsilon$ é um vetor com os erros do modelo de dimensão $n \times 1$

Queremos determinar se um subconjunto de covariaveis são significantes ao modelo de regressão. Para isso, considere a seguinte partição do vetor de parâmetros $\beta$:

$$\beta = \begin{bmatrix} \beta_1 \cr - \cr \beta_2 \cr \end{bmatrix} $$

em que $\beta_1$ é um vetor de parâmetros com dimensão $(p-r)\times 1$ e $\beta_2$ é o complemento de $\beta_1$, ou seja, um vetor de parâmetros com dimensão $r \times 1$. Portanto, estamos interessados em testar

$$\begin{cases} H_0: \beta_2 = 0 \cr H_1: \beta_2 \neq 0 \end{cases} $$

Utilizando a partição de $\beta$ podemos reescrever o modelo

$$Y= X\beta + \varepsilon = X_1\beta_1 + X_2\beta_2 + \varepsilon, \tag{2.5.3.1}$$

em que $X_1$ é uma matriz com dimensão $n\times (p-r)$ que representa as colunas de $X$ associadas aos parametros do vetor $\beta_1$ e $X_2$ é uma matriz com dimensão $n \times r$ que representa as colunas da matrix $X$ associadas ao vetor $\beta_2$. Denominamos o modelo 2.5.3.1 por modelo completo.

Para o modelo completo, temos que

$$SQR(\beta)=\widehat{\beta}^{\prime} X^{\prime} y-\dfrac{Y^{\prime}JY}{n}$$

e

$$QME=\dfrac{y^{\prime} y - \widehat{\beta}^{\prime} X^{\prime} y}{n-p}$$

O modelo sob a hipótese nula $H_0:\beta_2 = 0$ verdadeira é dado por

$$Y = X_1\beta_1 + \varepsilon, \tag{2.5.3.2} $$

Denominamos o modelo 2.5.3.2 como modelo reduzido. Portanto temos

$$SQR(\beta_1)=\widehat{\beta} _1^{\prime} X_1^{\prime} y-\dfrac{Y^{\prime}JY}{n}$$

Desta forma, a soma dos quadrados da regressão referente a $\beta_2$ dado que $\beta_1$ ja esta no modelo pode ser determinada por

$$SQR(\beta_2|\beta_1) = SQR(\beta) - SQR(\beta_1)$$

em que $SQR(\beta_2|\beta_1)$ possui $p-(p-r)=r$ graus de liberdade. Essa soma de quadrados da regressão parcial representa a quantidade adicional que teríamos na soma de quadrados da regressão ao adicionar $r$ covariaveis no modelo reduzido. Então, podemos testar a hipótese nula $H_0:\beta_2=0$ utilizando a estatística

$$F_0 = \dfrac{SQR(\beta_2|\beta_1)/r}{QME} \sim F_{r, (n-p)} \tag{2.5.3.3}$$

Portanto se $F_0 > F_{\alpha, r, (n-p)}$ rejeitamos a hipótese nula ao nível de significância $\alpha$ e concluímos que pelo menos um dos parâmetros contidos no vetor $\beta_2$ é diferente de zero. Na literatura o teste 2.5.3.3 é conhecido como Teste F Parcial.

Exemplo 2.5.1

Para ilustrar o uso da estatística $t$, utilizamos novamente os dados transformados no “Exemplo 2.2.3”. Vamos agora construir a estatística $t$ para as hipóteses: $H_0:\beta_0=0$, $H_0:\beta_1=0$ e $H_0:\beta_2=0$.

Solução:

Do “Exemplo 2.2.3” temos que

$$ (X’X)= \begin{bmatrix} 14,00 & 0,17 & -0,89 \cr 0,17 & 6,03 & -0,03 \cr -0,89 & -0,03 & 7,06 \end{bmatrix} \quad\Rightarrow\quad (X’X)^{-1}= \begin{bmatrix} 0,0720 & -0,0019 & 0,0091 \cr -0,0019 & 0,1660 & 0,00004 \cr 0,0091 & 0,0004 & 0,1429 \end{bmatrix} $$

Assim, temos que $C_{00}=0,0720$, $C_{11}=0,1660$ e $C_{22}=0,1429$. Além disso, pelo “Exemplo 2.3.1” segue que $\widehat{\sigma}^2=1.220,10$. Logo, as estatísticas $t$ são dadas por

Para $H_0:\beta_0=0,$ $$t_0=\dfrac{\widehat{\beta} _0}{\sqrt{\widehat{\sigma}^2~C_{00}}}$$

$$=\dfrac{1.242,31}{\sqrt{(1.220,1)(0,0720)}}=\dfrac{1.242,31}{9,3745}=132,521.$$

Para $H_0:\beta_1=0,$ $$t_0=\dfrac{\widehat{\beta} _1}{\sqrt{\widehat{\sigma}^2~C_{11}}}$$

$$=\dfrac{323,43}{\sqrt{(1.220,1)(0,1660)}}=\dfrac{323,43}{14,2296}=22,730.$$

Para $H_0:\beta_2=0,$ $$t_0=\dfrac{\widehat{\beta_2}}{\sqrt{\widehat{\sigma}^2~C_{22}}}$$

$$=\dfrac{-54,77}{\sqrt{(1.220,1)(0,1429)}}=\dfrac{-54,77}{13,203}=-4,149.$$

Como todos os valores absolutos destas estatísticas são maiores do que o valor crítico $t_{(0,975;11)}=2,201,$ as hipóteses $H_0$ são rejeitadas nos três casos. Desta forma, as variáveis tempo e dose de íons contribuem significativamente para o modelo.

Analisando o P-valor, temos que

Para $H_0:\beta_0=0$, $$2*P\left( t_{(11)}>\mid 132,521 \mid \right)=0,000.$$

Para $H_0:\beta_1=0$, $$2*P\left( t_{(11)}>\mid 22,730 \mid \right)=0,000.$$

Para $H_0:\beta_2=0$, $$2*P\left( t_{(11)}>\mid -4,149 \mid \right)=0,00162.$$

Com isso, rejeitamos $H_0$ para $\beta_0$, $\beta_1$ e $\beta_2$ pois os respectivos p-valores são menores do que $\alpha$.

Exemplo 2.5.2

Construir um intervalo de confiança com $95\char37$ para o parâmetro $\beta_1$, considerando os dados do “Exemplo 2.2.3”.

Solução:

Lembramos que $\widehat{\beta} _1=323,43$, $\widehat{\sigma}^2=1.220,1$ e que $C_{11}=0,1660$. Assim, o intervalo com 95\char37 de confiança para $\beta_1$ é dado por

$$\left[\widehat{\beta} _1-t_{(0,025;11)}\sqrt{\widehat{\sigma}^2 C_{11}} ; \widehat{\beta} _1+t_{(0,025;11)}\sqrt{\widehat{\sigma}^2C_{11}}\right]$$

$$\left[323,43-2,201\sqrt{(1.220,1)(0,1660)} ; 323,43 + 2,201\sqrt{(1.220,1)(0,1660)}\right]$$

$$\left[323,43-2,201(14,23) ; 323,43+2,201(14,23)\right]$$ $$\left[292,10 ; 354,75\right]$$

Portanto, $292,10 \leq \beta_1 \leq 354,75.$

Usando o software Action Stat temos os seguintes resultados:

G.L. Soma de Quadrados Quadrado Médio Estat.t P-valor
x1 1 630968.32383546 630968.32383546 517.146904974 0
x2 1 20997.846071104 20997.846071104 17.210009911 0.001620574
Resíduos 11 13421.04437915 1220.094943559

Tabela 4.2.12: Tabela da ANOVA

Mínimo 1Q Mediana Média 3Q Máximo
-44.58635322 -26.348187101 -3.263076957 0 26.003395891 63.203182565

Tabela 4.2.13: Análise Exploratória (resíduos)

Estimativa Desvio Padrão Estat.t P-valor
Intercepto 1242.313981613 9.374451738 132.521241389 0
x1 323.434498746 14.229539255 22.729794195 0
x2 -54.773007617 13.203103529 -4.148494897 0.001620574

Tabela 4.2.14: Coeficientes

Desvio Padrão dos Resíduos Graus de Liberdade $R^2$ $R^2$ Ajustado
34.92985748 11 0.979829723 0.9761624

Tabela 4.2.15: Medida Descritiva da Qualidade do Ajuste

Intervalo de confiança para os parâmetros 2.5 % 97.5 %
Intercepto 1221.680952455 1262.947010772
x1 292.115494011 354.75350348
x2 -83.832842553 -25.713172682

Tabela 4.2.16: Intervalo de confiança para os parâmetros

2.6 Intervalo de Confiança para Resposta Média e Predição

2.6.1 Intervalo de confiança para a Predição

Podemos obter o intervalo de confiança para a resposta média em um ponto particular da amostra. Seja o vetor $x_0^\prime =[1, x_{01}, x_{02}, \ldots, x_{0p}]^\prime $ um ponto da amostra.

A resposta média para este ponto é

$$E(Y\mid x_0)=\mu_{Y\mid x_0}=\beta_0+\beta_1x_{01}+\beta_2x_{02}+\ldots+\beta_px_{0p}=x^\prime _0\beta.$$

O estimador da média neste ponto é

$$\widehat{\mu}_{Y\mid x_0}=\widehat{Y}_0=x^\prime _0\widehat{\beta}.$$

Notemos que o estimador da resposta média é não viciado. De fato,

$$E(\widehat{\mu}_{Y \mid x_0})= E(x^\prime_0 \widehat{\beta}) = x ^\prime _0 \beta=\mu _{Y\mid x_0} \quad \hbox{(não viciado)}.$$

Além disso, temos que a variância de $\widehat{\mu}_{Y\mid x_0}$ é dada por

$$Var(\widehat{\mu}_{Y\mid x_0})=\sigma^2 x^\prime _0(X^\prime X)^{-1}x_0.$$

Assim, temos que

$$\dfrac{\widehat{\mu} _{Y\mid x_0}-\mu_{Y\mid x_0}}{\sqrt{\sigma^2 x^\prime _0 (X^\prime X)^{-1} x_0}}\sim N(0,1) \quad \hbox{e que}$$

$$\dfrac{(n-p-1)\widehat{\sigma}^2}{\sigma^2}\sim\chi^2_{(n-p-1)} \quad \hbox{independentes entre si}.$$

Logo, segue que

$$\dfrac{\widehat{\mu}_{Y\mid x_0}-\mu_{Y\mid x_0}}{\sqrt{\widehat{\sigma}^2x^\prime _0(X^\prime X)^{-1}x_0}}\sim t_{(n-p-1)}.$$

Portanto, o intervalo com confiança de $100(1-\alpha)\char37$ para a resposta média ($\mu_{Y\mid x_0}$) no ponto $x_{0}$ é dado por

$$\left[\widehat{\mu}_{Y\mid x_0}-t_{(\frac{\alpha}{2},n-p-1)}\sqrt{\widehat{\sigma}^2 x^\prime _0(X^\prime X)^{-1}x_0} \quad ; \quad \widehat{\mu}_{Y\mid x_0}+t_{(\frac{\alpha}{2},n-p-1)}\sqrt{\widehat{\sigma}^2 x^\prime _0(X^\prime X)^{-1}x_0}\right].$$

Exemplo 2.6.1

Determinar um intervalo de confiança para a resposta média no ponto $x_{01}=225$ min e $x_{02}=4,36 \times10^{14}$ íons.

Solução:

Em termos das variáveis codificadas, temos que $x_{01}=0$ e $x_{02}=0$, em que $x_{01}$ é a variável tempo e $x_{02}$ é a variável dose. Desta forma, seja o ponto $x^\prime_0=[1,0,0].$ A estimativa da resposta média neste ponto é

$$\widehat{\mu}_{y\mid x_0}=x_0^\prime\widehat{\beta}=[1~0~0]\left[\begin{array}{c}1.242,31 \cr 323,43 \cr -54,77 \cr \end{array}\right]=1.242,31.$$

Temos também que

$\hbox{Var}(\widehat{\mu}_{y\mid x_0}) = \sigma^2 x^\prime_0 (X^\prime X)^{-1} x_0 $

$ \qquad \qquad = \sigma^2 [1~0~0] \begin{bmatrix} 0,0720 & -0,0019 & 0,0091 \cr -0,0019 & 0,1660 & 0,0004 \cr 0,0091 & 0,0004 & 0,1429 \cr \end{bmatrix} \begin{bmatrix} 1 \cr 0 \cr 0 \end{bmatrix}$

$ \qquad \qquad = \sigma^2 (0,072)$

Sabemos também que o estimador de $\sigma^2$ é $\widehat{\sigma}^2=QME =1.220,1.$

Portanto, temos que o intervalo de confiança é dado por

$$\left[\widehat{\mu}_{y\mid x_0}-t_{(\frac{\alpha}{2},n-p-1)}\sqrt{\sigma^2 x^\prime _0(X^\prime X)^{-1}x_0} ; \widehat{\mu}_{y\mid x_0}+t_{(\frac{\alpha}{2},n-p-1)}\sqrt{\sigma^2 x^\prime _0(X^\prime X)^{-1}x_0}\right]$$

$$\left[1.242,31-2,201\sqrt{1.220,1 \times 0,072} ; 1.242,31+2,201 \sqrt{1.220,1\times0,072}\right]$$

$$\left[1.242,31-20,63 ; 1.242,31+20,63\right]$$ $$\left[1.221,68 ; 1.262,94\right]$$

Portanto, $1.221,68\leq\mu_{y\mid x_0}\leq 1.262,94.$

2.6.2 Previsões para novas observações

O modelo de regressão pode ser usado para predizer futuras observações na variável resposta $Y$ correspondente a valores particulares das variáveis explicativas $x_{01},x_{02},\dots,x_{0p}$. Aqui assumimos que os valores de $x_{01},x_{02,\dots,x_{0p}}$ são não observados. Se $x^\prime _0=[1,x_{01},x_{02},\ldots,x_{0p}]$, o valor predito para a nova observação é dada por

$$\widehat{y}(x_0)=x^\prime _0\widehat{\beta}$$

Um intervalo de previsão $100(1-\alpha)\char37$ para futuras observações ($\mu_{y\mid x_0}$) é

$$\left[\widehat{y}(x_0)-t_{(\frac{\alpha}{2},n-p-1)}\sqrt{\widehat{\sigma}^2(1+x^\prime _0(X^\prime X)^{-1}x_0)} \quad ; \quad \widehat{y}(x_0)+t_{(\frac{\alpha}{2},n-p-1)}\sqrt{\widehat{\sigma}^2(1+x^\prime _0(X^\prime X)^{-1}x_0)}\right].$$

É preciso cuidado para estimar a variável resposta para pontos que estão além da região da amostra. É bem provável que um modelo ajustado dentro da região dos dados possa não estar mais ajustado quando usarmos observações fora dessa região. Em regressão múltipla é fácil extrapolar novos dados mas para tal devemos ter certeza de que os níveis das variáveis definam uma região conjunta que contenha os dados.

Como exemplo considere a Figura 4.2.3 que ilustra a região citada para um modelo de duas variáveis.

Figura 4.2.3

Figura 4.2.3: Um exemplo de extrapolação na regressão múltipla.

Exemplo 2.6.2

Encontrar um intervalo de predição com $95\char37$ de confiança para o ganho do transistor, no ponto de $x_{01}=225$ min e $x_{02}= 4,36 \times 10^{14}$ íons.

Solução:

Com as variáveis codificadas, estes pontos passam a ser $x_{01}=0$ e $x_{02}=0$, sendo $x_{01}$ a variável tempo e $x_{02}$ a variável dose. Assim, o valor predito para o ganho no ponto $x^\prime _0=[1,0,0]$ é dado por

$$\widehat{y}(x_0)=x_0^\prime \widehat{\beta}=[1, 0, 0] \left[\begin{array}{c}1.242,31 \cr 323,43 \cr -54,77 \cr \end{array}\right]=1.242,31.$$

Do “Exemplo 2.6.1” temos que $$x_0^\prime (X^\prime X)^{-1}x_0 = 0,072.$$

Então o intervalo de predição será

$$\left[\widehat{y}(x_0)-t_{(\frac{\alpha}{2},n-p-1)}\sqrt{\widehat{\sigma}^2(1+x^\prime _0(X^\prime X)^{-1}x_0)} ; \widehat{y}(x_0)+t_{(\frac{\alpha}{2},n-p-1)}\sqrt{\widehat{\sigma}^2(1+x^\prime _0(X^\prime X)^{-1}x_0)}\right]$$

$$\left[1.242,31-2,201 \sqrt{1.220,1(1 + 0,072)} \quad ; \quad 1.242,31+2,201 \sqrt{1.220,1 (1 + 0,072)}\right]$$

$$\left[1.242,31-79,60 \quad ; \quad 1.242,31+79,60\right]$$

$$\left[1.162,71 ; 1.321,91\right]$$

Portanto, $1.162,71 \leq \mu_{y\mid x_0} \leq 1.321,91.$

Observemos que se compararmos o intervalo de predição com o intervalo de confiança para a resposta média no mesmo ponto para os dois exemplos, poderemos constatar que o intervalo de predição é bem mais amplo. Isto reflete o fato de que existe dificuldade em predizer um valor individual futuro.

Usando o software Action temos os seguintes resultados:

Ganho x1 x2 Valor Ajustado Limite Inferior Limite Superior Desvio Padrão
1 1004 -1 -1 973.652490485 927.050213313 1020.254767657
2 1636 1 -1 1620.521487976 1574.521246208 1666.521729744
3 852 -1 0.6667 882.362318689 839.081201282 925.643436097
4 1506 1 0.6667 1529.231316181 1486.410999704 1572.051632657
5 1272 0 -0.4444 1266.655106199 1243.312698635 1289.997513762
6 1270 0 -0.7222 1281.871047715 1253.785960402 1309.956135027
7 1269 0 0.6667 1205.796817435 1176.258075823 1235.335559047
8 903 -1 -0.1667 928.010143238 890.114775471 965.905511004
9 1555 1 -0.1667 1574.879140729 1537.618630694 1612.139650764
10 1260 0 -1 1297.086989231 1262.983951497 1331.190026964
11 1146 0 0.9444 1190.58635322 1154.807580996 1226.365125444
12 1276 0 -0.1667 1251.444641983 1230.676344134 1272.212939833
13 1225 0 1 1187.540973996 1150.427976073 1224.653971919
14 1321 0.1667 -0.1667 1305.361172924 1284.039755034 1326.682590814

Tabela 4.2.17: Intervalo de predição para as observações com 95% de confiança

2.7 Seleção de Variáveis

Em modelos de regressão múltipla é necessário determinar um subconjunto de variáveis independentes que melhor explique a variável resposta, isto é, dentre todas as variáveis explicativas disponíveis, devemos encontrar um subconjunto de variáveis importantes para o modelo.

Construir um modelo que inclui apenas um subconjunto de variáveis explicativas envolve dois objetivos conflitantes:

  1. Obter o máximo de informação por meio de um modelo com tantas variáveis independentes possíveis;

  2. Diminuir a variância da estimativa e o custo da coleta por meio de um modelo com menor número possível de variáveis.

Desta forma, obter um equilíbrio entre esses dois compromissos é de interesse. Para isto, utilizamos uma técnica, denominada de seleção de variáveis.

Existem duas principais estratégias no processo de seleção de variáveis:

  • Todos os modelos possíveis: considera todos os subconjuntos possíveis de variáveis explicativas, e considerando critérios de avaliação, seleciona o melhor deles.
  • Seleção Automática: faz uma busca do melhor subconjunto de variáveis explicativas sem considerar todos os possíveis subconjuntos.

Na prática, assumimos que a correta especificação funcional das variáveis explicativas é conhecida (por exemplo, $1/x_1$, $ln~x_2$) e que não há outliers ou pontos influentes e então, aplicamos a técnica de seleção de variáveis. Entretanto, o ideal seria inicialmente,

  • Identificar outliers e pontos influentes,
  • Identificar eventuais colinearidade e heteroscedasticidade,
  • Realizar quaisquer transformações que sejam necessárias,

e então, aplicar seleção de variáveis.

A seguir apresentamos detalhadamente as estratégias Todos os modelos possíveis e Seleção Automática.

2.7.1 Seleção Todos os Modelos Possíveis

Considere o modelo de regressão linear múltipla

$$Y=\beta_0+\beta_1 x_1+\beta_2 x_2+…+\beta_p x_p+\epsilon,$$

e suas suposições. O método de todos os modelos possíveis possibilita a análise do ajuste de todos os submodelos compostos pelos possíveis subconjuntos das p variáveis e identifica os melhores desses subconjuntos, segundo critérios de avaliação.

Exemplo 2.7.1

Considere o exemplo na “Motivação 2”.

Temos duas variáveis explicativas e por isso os modelos considerando todas as combinações possíveis são:

Modelo 1: $\hbox{Ganho}=\beta_0+\beta_2\hbox{Tempo}.$

Modelo 2: $\hbox{Ganho}=\beta_0+\beta_1\hbox{Dose}.$

Modelo 3: $\hbox{Ganho}=\beta_0+\beta_1\hbox{Dose}+\beta_2\hbox{Tempo}.$

Alguns critérios para avaliar os modelos são: $R_p^2$, $R_a^2$, $QME$ (Quadrado Médio do Erro), $C_p$ de Mallows, $AIC$, $BIC$ e $PRESS_p$. A seguir uma abordagem de cada um deles.

2.7.1.1 Coeficiente de Determinação Múltipla

Seja $R_p^2$ a notação do coeficiente de determinação múltipla de um modelo com p variáveis explicativas, isto é, p coeficientes e o intercepto $\beta_0$.

$$R^2_p= \frac{SQR}{SQT}=1-\frac{SQE}{SQT},$$

em que SQR, SQE e SQT são a soma dos quadrados do modelo, soma dos quadrados dos resíduos (erros) e soma dos quadrados total, respectivamente.

O critério utilizado nesse método é que se adicionarmos uma variável insignificante teremos um aumento mínimo (pequeno) de $R_p^2$. Assim, ele é mais usado para julgar quando parar de adicionar variáveis do que para encontrar o melhor modelo já que $R_p^2$ nunca diminui quando $p$ aumenta.

Exemplo 2.7.1.1

Para o exemplo na “Motivação 2”, temos os valores do coeficiente de determinação múltipla para cada modelo possível:

  • Modelo 1:

O modelo 1, como descrevemos no “Exemplo 2.7.1”, tem apenas a variável explicativa Tempo.

Com o ajuste do modelo, as somas de quadrados são:

$SQR=630.968$, $SQE=34.419$, $SQT=665.387$.

$$R^2_p= \frac{630.968}{665.387}=1-\frac{34.419}{665.387}=0,948.$$

  • Modelo 2:

O modelo 2 tem apenas como variável explicativa a Dose de íons.

As somas dos quadrados do ajuste do modelo são:

$SQR=21.612$, $SQE=643.775$, $SQT=665.387$.

$$R^2_p= \frac{21.612}{665.387}=1-\frac{643.775}{665.387}=0,032.$$

  • Modelo 3:

O modelo 3 tem como variáveis explicativas o Tempo e Dose de íons.

As somas de quadrados do modelo são:

$SQR=651.966$, $SQE=13.421$, $SQT=665.387$.

$$R^2_p= \frac{651.966}{665.387}=1-\frac{13.421}{665.387}=0,9798.$$

Usando o software Action temos os seguintes resultados:

Variáveis CP R² Ajustado AIC BIC PRESS QME
Modelo 1 Tempo 0.948 18.21 0.944 155.033 156.95 51545.126 2868.27911315993
Modelo 2 Dose de íons 0.032 517.641 -0.048 196.035 197.952 875529.652 53647.9286674226
Modelo 3 Tempo + Dose de íons 0.98 3 0.976 143.848 146.404 22225.01 1220.101393825

Tabela 4.2.18: Tabela da seleção de modelos e métricas

2.7.1.2 Coeficiente de Determinação Ajustado

Para evitar dificuldades na interpretação de $R^2$, alguns estatísticos preferem usar o $R_a^2$ ($R^2$ ajustado) , definido para uma equação com $p+1$ coeficientes como

$$R^2_a=1-\left(\frac{n-1}{n-(p+1)}\right)(1-R^2_p).$$

O $R_a^2$ não necessariamente aumenta com a adição de parâmetros no modelo. Na verdade se $s$ variáveis explicativas são incluídas no modelo (modelo com $p+s$ variáveis), o $R_a^2$ desse modelo excederá $R_a^2$ do modelo com p variáveis apenas se a estatística parcial F para testar a significância dos adicionais $s$ coeficientes passar de 1 (para mais detalhes ver Seber[1977]). Consequentemente, um critério para a seleção de um modelo ótimo é escolher o modelo que tem o $R_a^2$ máximo.

Exemplo 2.7.1.2

Para o exemplo na “Motivação 2” temos os seguintes coeficientes de determinação ajustado para cada um dos modelos possíveis, considerando os coeficientes de determinação múltipla no “Exemplo 2.7.1.1”.

  • Modelo 1

$$R^2_a=1-\left(\frac{14-1}{14-2}\right)(1-0,948)=0,944.$$

  • Modelo 2

$$R^2_a=1-\left(\frac{14-1}{14-2}\right)(1-0,032)=-0,04.$$

  • Modelo 3

$$R^2_a=1-\left(\frac{14-1}{14-3}\right)(1-0,9798)=0,976.$$

Usando o software Action temos os seguintes resultados:

Variáveis R² Ajustado CP AIC BIC PRESS QME
Modelo 1 Tempo 0.944 18.21 0.948 155.033 156.95 51545.126 2868.27911315993
Modelo 2 Dose de íons -0.048 517.641 0.032 196.035 197.952 875529.652 53647.9286674226
Modelo 3 Tempo + Dose de íons 0.976 3 0.98 143.848 146.404 22225.01 1220.101393825

Tabela 4.2.19: Tabela da seleção de modelos e métricas

2.7.1.3 Quadrado Médio dos Resíduos

O quadrado médio dos resíduos de um modelo de regressão é obtido por meio de

$$QME=SQE/(n-p-1), \quad \quad \quad \quad \quad \quad ~(2.7.1.3)$$

em que SQE é a soma dos quadrados dos resíduos. O QME sempre decresce conforme p aumenta. O quadrado médio do erro inicialmente decresce, estabiliza e eventualmente pode aumentar. Esse eventual aumento ocorre quando a redução do QME em adicionar um coeficiente para o modelo não é suficiente para compensar a perda nos graus de liberdade do denominador de (2.7.1.3).

O modelo que minimiza QME também maximizará $R_a^2$. Para entender isso, notamos que

$$R_a^2=1-\left(\frac{n-1}{n-p}\right)(1-R_p^2)$$

$$=1-\left(\frac{n-1}{n-p}\right)\left(\frac{SQE}{SQT}\right)$$

$$=1-\left(\frac{n-1}{SQT}\right)\left(\frac{SQE}{n-p}\right)$$

$$=1-\left(\frac{n-1}{SQT}\right)QME.$$

Assim, minimizar QME e maximar $R_a^2$ são equivalentes.

Exemplo 2.7.1.3

Utilizando o exemplo na “Motivação 2”, temos os quadrados médios dos erros de cada modelo possível:

  • Modelo 1

$$QME=34.419/(14-1-1)=2.868.$$

  • Modelo 2

$$QME=643.775/(14-1-1)=53.648.$$

  • Modelo 3

$$QME=13.421/(14-2-1)=1.220.$$

Usando o Software Action temos os seguintes resultados:

Variáveis QME CP R² Ajustado AIC BIC PRESS
Modelo 1 Tempo 2868.2791 18.21 0.948 0.944 155.033 156.95 51545.126
Modelo 2 Dose de íons 53647.9287 517.641 0.032 -0.048 196.035 197.952 875529.652
Modelo 3 Tempo + Dose de íons 1220.1014 3 0.98 0.976 143.848 146.404 22225.01

Tabela 4.2.20: Tabela da seleção de modelos e métricas

2.7.1.4 Cp de Mallows

O critério $C_p$ de Mallows é baseado no conceito do erro quadrático médio (EQM) dos valores ajustados. O erro quadrático médio da previsão é

$$EQM=E(\hat{y}_i-E(y_i))^2=E(\hat{y}_i-E(\hat{y}_i)+E(E(\hat{y}_i)-E(y_i)))^2$$

$$=E(\hat{y}_i-E(\hat{y}_i))^2+(E(\hat{y}_i)-E(y_i))^2=\hbox{Var}(\hat{y}_i)+\hbox{vício}^2(\hat{y}_i),$$

em que $E(\hat{y}_i)-E(y_i)$ é o vicio. Assim, o EQM é a soma da variância de $\hat{y}_i$ e o vício ao quadrado. O EQM considerando os n valores amostrais é

$$\sum{E(\hat{y}_i-y_i)^2}= \sum{Var(\hat{y}_i)}+\sum{(E(\hat{y}_i)-E(y_i))^2}.$$

O critério $\Gamma_p$ é o erro quadrático médio dividido pela variância dos erros $\sigma^2$.

$$\Gamma_p=\left(\frac{1}{\sigma^2}\right)[\sum{Var(\hat{y}_i)}+\sum{(E(\hat{y}_i)-E(y_i))^2}], \quad \quad \quad \quad \quad ~(2.7.1.4)$$

em que $\sum{Var(\hat{y}_i)}=(p+1)\sigma^2$ e o valor esperado da soma dos quadrados dos erros é: $$E(SQE)=(E(\hat{y}_i)-E(y_i))^2+(n-(p+1))\sigma^2.$$

Substituindo esses valores em (2.7.1.4), obtemos

$$\Gamma_p=\left(\frac{1}{\sigma^2}\right)[E(SQE)-(n-(p+1))\sigma^2+(p+1)\sigma^2]$$

$$=\frac{E(SQE)}{\sigma^2}-n+2(p+1).$$

Como $\sigma^2$ é desconhecido, assumindo que o modelo que inclui todas as variáveis explicativas é tal que o QME é um estimador não viciado de $\sigma^2$ e substituindo E(SQE) pelo valor observado SQE, $\Gamma_p$ pode ser estimado por

$$C_p=\frac{SQE(p)}{QME}-n+2(p+1),$$

em que SQE(p) é a soma de quadrados dos erros do submodelo e QME é o quadrado médio do modelo com todas as variáveis explicativas.

Pode também ser mostrado que quando não há vício na estimativa do modelo com as p variáveis, $E(SQE)=(n-(p+1))\sigma^2$ e então,

$$E[C_p|Vicio=0]=\frac{(n-(p+1))\sigma^2}{\sigma^2}-n+2(p+1)=p+1,$$

em que $p+1$ é o número de parâmetros no modelo já que p é o número de variáveis explicativas mais o intercepto.

A estratégia usada para selecionar modelos com o critério $C_p$ é identificar modelos com $C_p$ próximo do número de parâmetros $(p+1)$.

Exemplo 2.7.1.4

Vamos calcular o $C_p$ para os todos os modelos possíveis do exemplo na “Motivação 2”.

  • Modelo 1

A soma de quadrados dos erros do modelo apenas com Tempo como variável explicativa é 34.419. O quadrado médio do modelo completo é 1.220. Assim, o $C_p$ é dado por:

$$C_p=\frac{34.419}{1.220}-14+2\times 2=18,21.$$

  • Modelo 2

A soma de quadrados dos erros do modelo apenas com Dose de íons como variável explicativa é 643.775 e o quadrado médio do modelo completo é 1.220. O $C_p$ do modelo 2 é:

$$C_p=\frac{643.775}{1.220}-14+2\times 2=517,6.$$

  • Modelo 3

A soma de quadrados dos erros do modelo completo é 13.421 e o quadrado médio é 1.220.

$$C_p=\frac{13.421}{1.220}-14+2\times 3=3.$$

Usando o Software Action temos os seguintes resultados:

Variáveis CP R² Ajustado AIC BIC PRESS QME
Modelo 1 Tempo 18.21 0.948 0.944 155.033 156.95 51545.126 2868.27911315993
Modelo 2 Dose de íons 517.641 0.032 -0.048 196.035 197.952 875529.652 53647.9286674226
Modelo 3 Tempo + Dose de íons 3 0.98 0.976 143.848 146.404 22225.01 1220.101393825

Tabela 4.2.21: Tabela da seleção de modelos e métricas

2.7.1.5 AIC e BIC

O Critério de Informação de Akaike (AIC) é definido como

$$AIC_p=-2log(L_p)+2[(p+1)+1],$$

em que $L_p$ é a função de máxima verossimilhança do modelo e p é o número de variáveis explicativas consideradas no modelo.

O Critério de Informação Bayesiano (BIC) é definido como

$$BIC_p=-2log(L_p)+[(p+1)+1]log(n).$$

Tanto o AIC quanto o BIC aumentam conforme SQE aumenta. Além disso, ambos critérios penalizam modelos com muitas variáveis sendo que valores menores de AIC e BIC são preferíveis.

Como modelos com mais variáveis tendem a produzir menor SQE mas usam mais parâmetros, a melhor escolha é balancear o ajuste com a quantidade de variáveis.

Exemplo 2.7.1.5

Vamos calcular o AIC e BIC para os todos os modelos possíveis do exemplo na “Motivação 2”.

  • Modelo 1

O $log(L_p)$ do modelo considerando apenas Tempo como variável explicativa é -74,51. Assim, o AIC e BIC é dado por

$$AIC_p=-2(-74,51)+2(3)=155,02.$$

$$BIC_p=-2(-74,51)+(3)log(14)=156,94.$$

  • Modelo 2

O $log(L_p)$ do modelo considerando apenas Dose de íons como variável explicativa é -95,01. Assim, o AIC e BIC é dado por

$$AIC_p=-2(-95,01)+2(3)=196,02.$$

$$BIC_p=-2(-95,01)+(3)log(14)=197,94.$$

  • Modelo 3

O $log(L_p)$ do modelo considerando Tempo e Dose de íons como variáveis explicativas é -67,92. Assim, o AIC e BIC é dado por

$$AIC_p=-2(-67,92)+2(4)=143,84.$$

$$BIC_p=-2(-67,92)+(4)log(14)=146,39.$$

Usando o software Action temos os seguintes resultados:

Variáveis CP R² Ajustado AIC BIC PRESS QME
Modelo 1 Tempo 18.21 0.948 0.944 155.033 156.95 51545.126 2868.27911315993
Modelo 2 Dose de íons 517.641 0.032 -0.048 196.035 197.952 875529.652 53647.9286674226
Modelo 3 Tempo + Dose de íons 3 0.98 0.976 143.848 146.404 22225.01 1220.101393825

Tabela 4.2.22: Tabela da seleção de modelos e métricas

2.7.1.6 Critério PRESS

O critério $PRESS_p$ (Prediction Error Sum of Squares) é definido por

$$PRESS_p=\sum_{i=1}^{n}(Y_i-\hat{Y}_{(i)})^2,$$

em que $\hat{Y}_{(i)}$ é o valor predito da regressão sem a i-ésima observação.

Podemos escrever o PRESS como

$$PRESS_p=\sum_{i=1}^{n}\left(\frac{Y_i-\hat{Y}_i}{1-h_{ii}}\right)^2,$$

em que o $h_{ii}$ é o i-ésimo valor da diagonal da matriz H.

No uso desse critério, modelo com menor $PRESS_p$ é preferível.

Exemplo 2.7.1.6

No exemplo na “Motivação 2” vamos calcular o critério PRESS para todos os modelos possíveis.

  • Modelo 1 (apenas Tempo como variável explicativa):

Na Tabela 2.7.1.6.1 temos os valores da variável resposta Ganho, seus valores ajustados através do modelo 1 e também a diagonal da matriz H.

Ganho (Y) Valores Ajustados $(\hat{Y})$ $h_{ii}$
1004 922,2 0,241
1636 1569,4 0,233
852 922,2 0,241
1506 1569,4 0,233
1272 1245,8 0,071
1270 1245,8 0,071
1269 1245,8 0,071
903 922,2 0,24
1555 1569,4 0,23
1260 1245,8 0,071
1146 1245,8 0,071
1276 1245,8 0,071
1225 1245,8 0,071
1321 1299,7 0,075

Tabela 4.2.23: Medidas para o cálculo do PRESS do modelo 1

$$PRESS_p=\sum_{i=1}^{14}\left(\frac{Y_i-\hat{Y}_i}{1-h_{ii}}\right)^2=51.545.$$

  • Modelo 2 (apenas Dose de íons como variável explicativa):

Na Tabela 2.7.1.6.2 temos os valores da variável resposta Ganho, seus valores ajustados através do modelo 2 e também a diagonal da matriz H.

Ganho (Y) Valores Ajustados $(\hat{Y})$ $h_{ii}$
1004 1301,683 0,197
1636 1301,683 0,197
852 1209,069 0,147
1506 1209,069 0,147
1272 1270,812 0,092
1270 1286,247 0,133
1269 1209,069 0,147
903 1255,376 0,073
1555 1255,376 0,073
1260 1301,683 0,197
1146 1193,634 0,216
1276 1255,376 0,073
1225 1190,546 0,233
1321 1255,376 0,073

Tabela 4.2.24: Medidas para o cálculo do PRESS do Modelo 2

$$PRESS_p=\sum_{i=1}^{14}\left(\frac{Y_i-\hat{Y}_i}{1-h_{ii}}\right)^2=875.529,6.$$

  • Modelo 3 (modelo com Tempo e Dose de íons como variáveis explicativas):

Na Tabela 2.7.1.6.3 temos os valores da variável resposta Ganho, seus valores ajustados através do modelo 3 e também a diagonal da matriz H.

Ganho (Y) Valores Ajustados $(\hat{Y})$ $h_{ii}$
1004 973,6 0,367
1636 1620,5 0,358
852 882,4 0,317
1506 1529,2 0,31
1272 1266,6 0,092
1270 1281,9 0,133
1269 1205,8 0,148
903 928 0,243
1555 1574,9 0,235
1260 1297,1 0,197
1146 1190,6 0,216
1276 1251,4 0,073
1225 1187,5 0,233
1321 1305,3 0,077

Tabela 2.4.25: Medidas para o cálculo do PRESS do Modelo 3

$$PRESS_p=\sum_{i=1}^{14}\left(\frac{Y_i-\hat{Y}_i}{1-h_{ii}}\right)^2=22.225.$$

Usando o software Action temos os seguintes resultados:

Variáveis PRESS CP R² Ajustado AIC BIC QME
Modelo 1 Tempo 51545.126 18.21 0.948 0.944 155.033 156.95 2868.27911315993
Modelo 2 Dose de íons 875529.652 517.641 0.032 -0.048 196.035 197.952 53647.9286674226
Modelo 3 Tempo + Dose de íons 22225.01 3 0.98 0.976 143.848 146.404 1220.101393825

Tabela 4.2.26: Tabela da seleção de modelos e métricas

2.7.2 Seleção Automática

Como a seleção de todas as regressões possíveis necessita de um considerável esforço computacional, outros métodos foram desenvolvidos para selecionar o melhor subconjunto de variáveis sequencialmente, adicionando ou removendo variáveis em cada passo.

O critério para a adição ou remoção de covariáveis é geralmente baseado na estatística F, comparando modelos com e sem as variáveis em questão. O AIC, assim como outros critérios, também podem ser utilizados na decisão de inserir e remover variáveis. Existem três procedimentos automáticos: (1) Método Forward, (2) Método Backward e (3) Método Stepwise.

2.7.2.1 Seleção Forward

Esse procedimento parte da suposição de que não há variável no modelo, apenas o intercepto. A ideia do método é adicionar uma variável de cada vez. A primeira variável selecionada é aquela com maior correlação com a resposta.

Procedimento:

  • Ajustamos o modelo com a variável com maior correlação amostral com a variável resposta.

Supondo que essa variável seja $x_1$, calculamos a estatística F para testar se ela realmente é significativa para o modelo. A variável entra no modelo se a estatística F for maior do que o ponto crítico, chamado de $F_{in}$ ou F para entrada. Notemos que $F_{in}$ é calculado para um dado $\alpha$ crítico.

  • Considerando que $x_1$ foi selecionado para o modelo, o próximo passo é encontrar uma variável com maior correlação com a resposta considerando a presença da primeira variável no modelo. Esta é chamada de correlação parcial e é a correlação dos resíduos do modelo $\hat{y}=\hat{\beta_0}+\hat{\beta_1}x_1$ com os resíduos do modelo $\hat{x_j}=\hat{\alpha_{0j}}+\hat{\alpha_{1j}}x_1$, j=2,3,…,p.

Vamos supor que a maior correlação parcial com y seja $x_2$. Isso implica que a maior estatística $F$ parcial é:

$$F=\frac{SQR(x_2|x_1)}{QME(x_1,x_2)}.$$

Se o valor da estatística é maior do que $F_{in}$, $x_2$ é selecionado para o modelo.

  • O processo é repetido, ou seja, variável com maior correlação parcial com y é adicionada no modelo se sua estatística $F$ parcial for maior que $F_{in}$, até que não seja incluída mais nenhuma variável explicativa no modelo.

2.7.2.2 Seleção Backward

Enquanto o método Forward começa sem nenhuma variável no modelo e adiciona variáveis a cada passo, o método Backward faz o caminho oposto; incorpora inicialmente todas as variáveis e depois, por etapas, cada uma pode ser ou não eliminada.

A decisão de retirada da variável é tomada baseando-se em testes F parciais, que são calculados para cada variável como se ela fosse a última a entrar no modelo.

Procedimento:

  • Para cada variável explicativa calcula-se a estatística $F$. Para a variável $x_k$, por exemplo,

$$F=\frac{SQR(x_k|x_1,…,x_{k-1})}{QME}.$$

O menor valor das estatísticas $F$ parciais calculadas é então comparado com o $F$ crítico, $F_{out}$, calculado para um dado valor $\alpha$ crítico. Se o menor valor encontrado for menor do que $F_{out}$, elimina-se do modelo a covariável responsável pelo menor valor da estatística $F$ parcial.

  • Ajusta-se novamente o modelo, agora com as $p-1$ variáveis. As estatísticas $F$ parciais são calculadas para esse modelo e o processo é repetido.

  • O algoritmo de eliminação termina quando a menor estatística $F$ parcial não for menor do que $F_{out}$.

2.7.2.3 Seleção Stepwise

Stepwise é uma modificação da seleção Forward em que cada passo todas as variáveis do modelo são previamente verificadas pelas suas estatísticas $F$ parciais. Uma variável adicionada no modelo no passo anterior pode ser redundante para o modelo por causa do seu relacionamento com as outras variáveis e se sua estatística $F$ parcial for menor que $F_{out}$, ela é removida do modelo.

Procedimento:

  • Iniciamos com uma variável: aquela que tiver maior correlação com a variável resposta.
  • A cada passo do forward, depois de incluir uma variável, aplica-se o backward para ver se será descartada alguma variável.
  • Continuamos o processo até não incluir ou excluir nenhuma variável.

Assim, a regressão Stepwise requer dois valores de corte: $F_{in}$ e $F_{out}$. Alguns autores preferem escolher $F_{in}=F_{out}$ mas isso não é necessário. Se $F_{in}< F_{out}$: mais difícil remover que adicionar; se $F_{in}> F_{out}$: mais difícil adicionar que remover.

2.7.3 Algumas Considerações

A seleção de variáveis é um meio para se chegar a um modelo, mas não é a etapa final. O objetivo é construir um modelo que seja bom para obter predições ou que explique bem o relacionamento entre os dados.

Os métodos de seleção automática têm a vantagem de não necessitar de grande esforço computacional. Mas eles não indicam o melhor modelo respeitando algum critério (não retorna um conjunto de modelos em que o pesquisador tem o poder de escolha).

Já o método de todos os modelos possíveis identifica modelos que são melhores respeitando o critério que o pesquisador quiser.

É indicado, então, usar métodos passo a passo combinados com outros critérios.

Se por acaso existe um grande número de variáveis, é recomendado usar métodos de seleção automática para eliminar aquelas com efeitos insignificantes. E o conjunto reduzido de variáveis pode então ser investigado pelo método de todos os modelos possíveis.

A escolha do modelo final não é uma tarefa fácil. Além dos critérios formais, devemos responder às seguintes questões:

  • O modelo faz sentido?
  • O modelo é útil para o objetivo pretendido? Se, por exemplo, o custo da coleta dos dados de uma variável é exorbitante e impossível de ser obtido, isso resultará em um modelo sem utilidade.
  • Todos os coeficientes são razoáveis, ou seja, os sinais e magnitude dos valores fazem sentido e os erros padrões são relativamente pequeno?
  • A adequabilidade do modelo é satisfatória? Sem outliers, tem variância constante, normalidade e os dados são independentes?

Um princípio a ser levado em consideração é o “princípio da parcimônia”: modelos mais simples devem ser escolhidos aos mais complexos, desde que a qualidade do ajuste seja similar.

2.8 Análise de Resíduos na Regressão Linear Múltipla

Assim como na Regressão Linear Simples, as suposições do modelo descritas na Seção 2.1 precisam ser verificadas para que os resultados obtidos realmente sejam válidos. Para isso, é realizada a Análise dos Resíduos em que são avaliadas um conjunto de técnicas para investigar a adequabilidade do modelo. Na Seção 3 estão descritas algumas dessas técnicas.

Além disso, quando estamos lidando com mais de uma variável regressora, precisamos diagnosticar colinearidade ou multicolinearidade entre elas. Por isso, na Seção 3.6 temos técnicas para detectar variáveis correlacionadas que podem fazer com que os resultados sejam pouco confiáveis.