9.5 ANOVA Fatores Aleatórios (Dois Fatores)
Nesta seção apresentamos o modelo de ANOVA para dois fatores aleatórios, porém temos dois métodos que podem ser utilizados e são eles o método cruzado e o hierárquico. A seguir apresentamos o método cruzado.
5.1 - Método Cruzado (Crossed)
O experimento cruzado com dois fatores e interação é o modelo clássico de RR (Repetitividade e Reprodutibilidade). Tipicamente, os dois fatores são referidos como “peças” e “operadores”. Neste capítulo consideramos experimentos balanceados, em que ambos fatores são aleatórios. Este modelo também é conhecido como componentes de variância.
Modelo
O modelo com dois fatores balanceados e com efeitos cruzados e interação é dado por
$$y_{ij}=\mu_y+\alpha_i+\gamma_{j}+\tau_{ij}+\varepsilon_{ijk} \begin{cases} i=1,\dots, p \cr j=1,\dots,o \cr k=1,\dots,r \end{cases} \tag{2.1.1}$$
Para este modelo $ \mu $ é um parâmetro comum a todos os tratamentos e representa a média geral dos dados, $ \alpha_{i} $ e $ \gamma_j $ é o efeito devido ao i-ésimo e ao j-ésimo nível do fator P e O e são variáveis aleatórias independentes com média zero e variâncias $ \sigma^2_P $ e $ \sigma^2_O $ respectivamente e $ \tau_{ij} $ é a interação entre os fatores P e O, que também tem distribuição normal com média zero e variância $ \sigma^2_I. $ A variável aleatória $ \varepsilon_{ijk} $ corresponde ao erro aleatório experimental, isto é, a variabilidade não explicada pelo modelo devido a variações presentes em diversas fontes não consideradas no estudo. Este tem distribuição normal com média zero e variância $ \sigma^2. $
Resumindo,
$$\mu=\hbox{média~geral~dos~dados;}$$
$$\alpha_{i}= \hbox{efeito~do~nível~i~do~fator~P;}$$
$$\gamma_{j}= \hbox{efeito~do~nível~j~do~fator~O;}$$
$$\tau_{ij}= \hbox{efeito~do~nível~ij~da~interação~entre~P~e~O;}$$
$$\varepsilon_{ijk}= \hbox{componente~aleatória~do~erro.}$$
Agora, vamos desenvolver a análise de variância para o modelo de efeitos aleatórios. A partir de considerações dos dados, temos:
$$Y_{i..}=\displaystyle \sum_{j=1}^{o}\sum^r_{k=1} Y_{ijk}: \hbox{soma das observações do nível i do fator P;}$$
$$\overline{Y_{i.}}=\frac{Y_{i..}}{pr}:~\hbox{média das observações do nível i do fator P;}$$
$$Y_{.j.}=\displaystyle \sum_{i=1}^{p}\sum^r_{k=1} Y_{ijk}: \hbox{soma das observações do nível j do fator O;}$$
$$\overline{Y_{.j.}} = \frac{Y_{.j.}}{or}: ~ \hbox{média das observações do nível j do fator operador;}$$
$$ Y_{ij.} = \displaystyle\sum_{k=1}^r Y_{ijk}: ~ \hbox{soma das observações do nível i e j dos fatores P e O;}$$
$$\overline{Y_{ij.}} = \frac{Y_{ij.}}{or}: ~ \hbox{média das observações do nível i e j dos fatores P e O;}$$
$$Y_{…} = \displaystyle\sum_{i=1}^{p} \sum_{j=1}^{o} \sum_{k=1}^{r} Y_{ijk}: ~ \hbox{soma de todas as observações;} \quad \hbox{e}$$
$$\overline{Y_{…}} = \frac{Y_{…}}{por}: ~ \hbox{média geral das observações}$$
Em resumo, assumimos que o erro tem distribuição Normal com média zero e variância $ \sigma^{2}_{\varepsilon} $ e que os erros são mutuamente independentes. Com isso, temos que
$$\varepsilon_{ijk}\sim~N(0,\sigma^{2}_{\varepsilon}).$$
Agora, para o efeito $ \alpha_i $, assumimos que tem distribuição Normal com média zero e variância $ \sigma^2_{P}. $ Assumimos também que os efeitos são mutuamente independentes. Assim,
$$\alpha_{i}\sim~N(0,\sigma^{2}_{P}).$$
Para o efeito $ \gamma_j $, assumimos que tem distribuição Normal com média zero e variância $ \sigma^2_{O}. $ Assumimos também que os efeitos são mutuamente independentes. Assim,
$$\gamma_{j}\sim~N(0,\sigma^{2}_{O}).$$
Por fim temos que para o efeito $ \tau_{ij} $, assumimos que tem distribuição Normal com média zero e variância $ \sigma^2_{I}. $ Assumimos também que os efeitos são mutuamente independentes. Assim,
$$\tau_{ij}\sim~N(0,\sigma^{2}_{I}).$$
Além disso, $ \alpha_i $, $ \gamma_j $, $ \tau_{ij} $ e $ \varepsilon_{ijk} $ são independentes para todo $ i,j,k $.
5.1.1 - Decomposição da Soma de Quadrados
A análise de variância para o modelo (2.4.1.1) é obtida pela decomposição da variação toral $ Y_{ijk}-\overline{Y_{…}} $ como segue
$$SQT=\sum_{i=1}^{a}\sum_{j=1}^{b}\sum_{k=1}^{r}(Y_{ijk}-\overline{Y_{…}})^2=$$
$$=\sum_{i=1}^{p}\sum_{j=1}^{o}\sum_{k=1}^{r}\left[(\overline{Y_{i..}}-\overline{Y_{…}})+(\overline{Y_{.j.}}-\overline{Y_{…}})+(\overline{Y_{ij.}}-\overline{Y_{i..}}-\overline{Y_{.j.}}+\overline{Y_{…}})+(Y_{ijk}-\overline{Y_{ij.}})\right]^2=$$
$$=o~r\sum_{i=1}^{p}(\overline{Y_{i..}}-\overline{Y_{…}})^2 +p~r\sum_{j=1}^{o}(\overline{Y_{.j.}}-\overline{Y_{…}})^2 +r~\sum_{i=1}^{p}\sum_{j=1}^{o}(\overline{Y_{ij.}}-\overline{y_{i..}}-\overline{Y_{.j.}}+\overline{Y_{…}})^2+\sum_{i=1}^{p}\sum_{j=1}^{o}\sum_{k=1}^{r}(Y_{ijk}-\overline{Y_{ij.}})^2$$
$$=SQP+SQO+SQI+SQE$$
em que
$$SQT=\sum_{i=1}^{p}\sum_{j=1}^{o}\sum_{k=1}^{r}(Y_{ijk}-\overline{Y_{…}})^2$$
$$SQP=o~r\sum_{i=1}^{p}(\overline{Y_{i..}}-\overline{Y_{…}})^2$$
$$SQO=p~r\sum_{j=1}^{o}(\overline{Y_{.j.}}-\overline{Y_{…}})^2$$
$$SQI=r~\sum_{i=1}^{p}\sum_{j=1}^{o}(\overline{Y_{ij.}}-\overline{Y_{i..}}-\overline{Y_{.j.}}+\overline{Y_{…}})^2$$
$$SQE=\sum_{i=1}^{p}\sum_{j=1}^{o}\sum_{k=1}^{r}(Y_{ijk}-\overline{Y_{ij.}})^2 $$
Graus de liberdade e estimativas da variância
Uma forma para calcularmos os graus de liberdade consiste em determinarmos o valor esperado das componentes SQP, SQO, SQI e SQE.
Vamos calcular os valores esperados das somas de quadrados. Inicialmente, calculamos para o fator P da seguinte forma.
$$E(QMP)=\frac{1}{p-1}\left[E\left(\sum_{i=1}^{p}\frac{Y_{i..}^2}{o~r}\right)-E\left(\frac{Y_{…}^2}{p~o~r}\right)\right]$$
$$=\frac{1}{p-1}\left(\frac{1}{o~r}\sum_{i=1}^{p}E\left[\left(\sum_{j=1}^{o}\sum_{k=1}^{r}Y_{ijk}\right)^2\right]-\frac{1}{p~o~r}E\left[\left(\sum^{p}_{i=1}\sum^{o}_{j=1}\sum_{k=1}^{r}Y_{ijk}\right)^2\right]\right)$$
$$=\frac{1}{p-1}\left(\frac{1}{o~r}\sum_{i=1}^{p}E\left[\left(\sum_{j=1}^{o}\sum_{k=1}^{r}\left(\mu + \alpha_i + \beta_j + \tau_{ij} + \varepsilon_{ijk}\right)\right)^2\right]\right.-$$
$$-\left.\frac{1}{p~o~r}E\left[\left(\sum_{i=1}^{p}\sum^{o}_{j=1}\sum_{k=1}^{r}\left(\mu + \alpha_i + \beta_j + \tau_{ij}+\varepsilon_{ijk}\right)\right)^2\right]\right)$$
$$=\frac{1}{p-1}\left(\frac{1}{o~r}\sum_{i=1}^{p}\left[\left(o~r~\mu\right)^2+\left(o~r~\sigma_P\right)^2 + o~r^2~\sigma^2_O + o~r^2~\sigma^2_I+o~r~\sigma^2_E \right]\right.-$$
$$-\left.\frac{1}{p~o~r}\left[\left(p~o~r~\mu\right)^2+p~\left(o~r~\sigma_P\right)^2+o~\left(p~r~\sigma_O\right)^2+o~p~\left(r~\sigma_I\right)^2 + p~o~r~\sigma^2_E \right]\right)$$
$$=o~r~\sigma^2_P+r~\sigma^2_I+\sigma^2_E$$
Agora, calculamos para o fator O da seguinte forma.
$$E(QMO)=E\left(\frac{SQO}{o-1}\right)=\frac{1}{o-1}E\left(p~r\sum_{j=1}^{o}(\overline{Y_{.j.}}-\overline{Y_{…}})^2\right)=\frac{1}{o-1}E\left(\sum^o_{j=1}\frac{\overline{Y}^2_{.j.}}{pr}-\frac{\overline{Y}^2_{…}}{por}\right)=$$
$$=\sum^o_{j=1}\frac{1}{pr}E\left((pr(\mu+\gamma_j)+\sum^p_{i=1}r\alpha_i+\sum^p_{i=1}r\tau_{ij}+\varepsilon_{.j.})^2\right)-$$
$$-\frac{1}{por}E\left((por\mu+\sum^p_{i=1}or\alpha_i+\sum^o_{j=1}pr\gamma_j+\sum^p_{i=1}\sum^o_{j=1}r\tau_{ij}+\varepsilon_{…})^2\right)=$$
$$=\frac{1}{o-1}((o-1)\sigma^2_E+r(o-1)\sigma^2_I+pr(o-1)\sigma^2_O)=$$
$$=\sigma^2_E+r\sigma^2_I+pr\sigma^2_O$$
Para o fator I temos
$$E(QMI)=E\left(\frac{SQI}{(p-1)(o-1)}\right)=\frac{1}{(p-1)(o-1)}E\left[r~\sum_{i=1}^{p}\sum_{j=1}^{o}(\overline{Y_{ij.}}-\overline{Y_{i..}}-\overline{Y_{.j.}}+\overline{Y_{…}})^2\right]=$$
$$=\frac{1}{(p-1)(o-1)}\left(\sum^p_{i=1}\sum^o_{j=1}\frac{1}{r}E\left[(\mu+\alpha_i+\gamma_j+\tau_{ij}+\varepsilon_{ij.})^2\right.-\right.$$
$$-\sum^p \frac{1}{pr}E\left[(pr~\mu+pr~\gamma_j+r\sum^p_{i=1}(\alpha_i+\tau_{ij})+\varepsilon_{.j.})^2\right]-$$
$$-\sum^o_{j=1}\frac{1}{or}E\left[(or~\mu+or~\gamma_j+r\sum^p_{i=1}(\alpha_i+\tau_{ij})+\varepsilon_{.j.})^2\right]+$$
$$\left.+\frac{1}{por}E\left[(por~\mu+pr\sum^p_{i=1}\alpha_i+or\sum^o_{j=1}\gamma_j+r\sum^p_{i=1}\sum^o_{j=1}\tau_{ij}+\varepsilon_{…})^2\right]\right)=$$
$$=\frac{1}{(p-1)(o-1)}\left[por(\mu^2+\sigma^2_P+\sigma^2_O+\sigma^2_I)+(po)\sigma^2_E-por(\mu^2+\sigma^2_P)+\frac{r^2}{or}(\sigma^2_O+\sigma^2_I)+\right.$$
$$\left.+p\sigma^2_E-por(\mu^2+\sigma^2_O)+\frac{r^2}{pr}(\sigma^2_P+\sigma^2_I)+o\sigma^2_E+por~\mu^2+(or)^2\sigma^2_P+(pr)^2\sigma^2_O+\frac{r^2}{por}\sigma^2_I+\sigma^2_E\right]=$$
$$=\sigma^2_E+r\sigma^2_I$$
Finalmente, para o quadrado médio do erro (QME) temos
$$E(QME)=E\left(\frac{SQE}{po(r-1)}\right)=\frac{1}{po(r-1)}E\left[\sum_{i=1}^{p}\sum_{j=1}^{o}\sum_{k=1}^{r}(Y_{ijk}-\overline{Y_{ij.}})^2 \right]=$$
$$=\frac{1}{po(r-1)}\left[\sum^p_{i=1}\sum^o_{j=1}\sum^r_{k=1}E[(\mu+\alpha_i+\gamma_j+\tau_{ij}+\varepsilon_{ijk})^2]\right.-$$
$$\left.-\sum^p_{i=1}\sum^o_{j=1}\frac{1}{r}E\left[(\mu+\alpha_i+\gamma_j+\tau_{ij}+\varepsilon_{ij.})^2]\right]\right]=$$
$$=\frac{1}{po(r-1)}\left[por(\mu^2+\sigma^2_P+\sigma^2_O+\sigma^2_I+\sigma^2_E)-por(\mu^2+\sigma^2_P+\sigma^2_P+\sigma^2_I)+(po)\sigma^2_E\right]=$$
$$=\sigma^2_E$$
O número de graus de liberdade em uma soma de quadrados é a quantidade de elementos independentes nessa soma. Por exemplo, considere a soma de quadrados $ \displaystyle\sum_{i=1}^{p}(\overline{Y_{i..}}-\overline{Y_{…}})^2 $. Neste caso, como $ \displaystyle\sum_{i=1}^{p}(\overline{Y_{i..}}-\overline{Y_{…}})~=~0 $, nem todos os elementos $ (\overline{Y_{1..}}-\overline{Y_{…}}),\cdots, (\overline{Y_{p..}}-\overline{Y_{…}}) $ são independentes. Portanto, temos $ p~-~1 $ graus de liberdade. Nesse sentido, os respectivos graus de liberdade associados a cada soma de quadrados são:
| Soma de Quadrados | Graus de Liberdade | Quadrados Médios |
|---|---|---|
| SQP | $p-1$ | $ \cfrac{SQP}{p-1} $ |
| SQO | $o-1$ | $ \cfrac{SQO}{o-1} $ |
| SQI | $(p-1)(o-1)$ | $ \cfrac{SQI}{(p-1)(o-1)} $ |
| SQE | $po(r-1)$ | $ \cfrac{SQE}{po(r-1)} $ |
| SQT | por-1 |
Tabela 9.5.1: Graus de liberdade
Agora, mostramos a seguir um breve resumo dos valores esperados dos quadrados médios e das estatísticas.
| Fator | Graus de Liberdade | Quadrados Médios | Valor Esperado dos Quadrados Médios |
|---|---|---|---|
| Fator P | $p-1$ | QMP | $ E(QMP)=\sigma^2_E+r\sigma^2_I+or\sigma^2_P $ |
| Fator O | $o-1$ | QMO | $ E(QMO)=\sigma^2_E+r\sigma^2_I+pr\sigma^2_O $ |
| Interação $ P\times O $ | $(p-1)(o-1)$ | QMI | $ E(QMI)=\sigma^2_E+r\sigma^2_I $ |
| Erro | $po(r-1)$ | QME | $ E(QME)=\sigma^2_E $ |
Tabela 9.5.2: Valores Esperados dos Quadrados Médios.
Estatística:
| $ QMP $ | $ or\displaystyle\sum^p_{i=1}\frac{(\overline{Y_{i..}}-\overline{Y_{…}})^2}{p-1} $ |
|---|---|
| $ QMO $ | $ pr\displaystyle\sum^o_{j=1}\frac{(\overline{Y_{.j.}}-\overline{Y_{…}})^2}{o-1} $ |
| $ QMI $ | $ r\displaystyle\sum^p_{i=1}\sum^o_{j=1}\frac{(\overline{Y_{ij.}}-\overline{Y_{i..}}-\overline{Y_{.j.}}+\overline{Y_{…}})^2}{(p-1)(o-1)} $ |
| $ QME $ | $ \displaystyle\sum^p_{i=1}\sum^o_{j=1}\sum^r_{k=1}\frac{(Y_{ijk}-\overline{Y_{ij.}})^2}{po(r-1)} $ |
| $ \overline{Y_{i..}} $ | $ \displaystyle\sum^o_{j=1}\sum^r_{k=1}\frac{Y_{ijk}}{or} $ |
| $ \overline{Y_{.j.}} $ | $ \displaystyle\sum^p_{i=1}\sum^r_{k=1}\frac{Y_{ijk}}{pr} $ |
| $ \overline{Y_{ij.}} $ | $ \displaystyle\sum^r_{k=1}\frac{Y_{ijk}}{r} $ |
| $ \overline{Y_{…}} $ | $ \displaystyle\sum^p_{i=1}\sum^o_{j=1}\sum^r_{k=1}\frac{Y_{ijk}}{por} $ |
Tabela 9.5.3: Resumo dos Quadrados médios e médias para o modelo (2.1.1).
Com os resultados obtidos na tabela 9.5.2 temos os seguintes estimadores:
Para a componente do erro temos
$$\hat{\sigma}^2_E=QME \tag{2.1.1.1}$$
Para o efeito da interação temos
$$\hat{\sigma}^2_I=\frac{QMI-\hat{\sigma}^2_E}{r}=\frac{QMI-QME}{r} \tag{2.1.1.2}$$
Agora, para calcular o efeito do fator O, utilizamos as equações (2.1.1.1) e (2.1.1.2) da seguinte forma
$$\hat{\sigma}^2_O=\frac{QMO-\hat{\sigma}^2_E-r~\hat{\sigma}^2_I}{pr}\overset{(2.1.1.1)~{e}~(2.1.1.2)}{=}$$
$$=\frac{QMO-QME-(QMI-QME)}{pr}=\frac{QMO-QMI}{pr} \tag{2.1.1.3}$$
Por fim, de forma análoga, para o efeito do fator P temos
$$\hat{\sigma}^2_P=\frac{QMP-QMI}{or}~~~(2.1.1.4)$$
A tabela 9.5.4 resume os estimadores pontuais do modelo (2.1.1).
| Representação do Modelo | Estimador Pontual |
|---|---|
| $ \mu_y $ | $ \overline{Y_{…}} $ |
| $ \sigma^2_P $ | $ \cfrac{QMP-QMI}{or} $ |
| $ \sigma^2_O $ | $ \cfrac{QMO-QMI}{pr} $ |
| $ \sigma^2_I $ | $ \cfrac{QMI-QME}{po} $ |
| $ \sigma^2_E $ | $ QME $ |
Tabela 9.5.4: Resumo dos Estimadores pontuais para o modelo (2.1.1).
5.1.2 - Análise Estatística
A seguir, vamos desenvolver um teste $ F $ para avaliarmos o efeito da interação e os efeitos principais, conforme tabela abaixo:
| Objetivo | Hipótese |
|---|---|
| efeito do fator P | (A) $\begin{cases} H_0: \alpha_1 = \cdots = \alpha_p = 0 \cr \alpha_{i} \neq 0~(i=1,\ldots,p) \end{cases} $ |
| efeito do fator O | (B) $\begin{cases} H_0: \beta_1 = \cdots = \beta_o = 0 \cr \beta_{j} \neq 0~(j=1,\ldots,o) \end{cases} $ |
| efeito da Interação($ P \times O $) | (C) $\begin{cases} H_0: \tau_{ij} = 0 ~ \hbox{para todos os valores de i e j} \cr \tau_{ij} \neq 0 \end{cases} $ |
Tabela 9.5.5: teste $ F $ para avaliar o efeito da interação e os efeitos principais
Sabemos que a soma de quadrados total é decomposta na forma $ SQT = SQP + SQO + SQI + SQE. $
Assim, através do teorema de Cochran, garantimos, sob $ {H}_0 $, a independência das somas de quadrados e
$$\displaystyle\frac{SQP}{\sigma^2_P} \sim \chi^2_{(p - 1)}~~~~~{e}~~~~~\frac{SQI}{\sigma^2_I } \sim \chi^2_{((p-1)(o - 1))},$$
Desta forma, sob $ {H}_0 $ (hipóteses A) a estatística
$$F_0=\frac{\displaystyle\frac{SQP}{(\sigma_{P}^2)~(p-1)}}{\displaystyle\frac{SQI}{\sigma_{i}^2~(p-1)~(o-1)}}~~=~~\frac{QMP}{QMI}~~\sim~~F(p-1;~(p-1)~(o-1)),$$
isto é, $ {F}_0 $ tem distribuição F-Snedecor com $(p-1)$ graus de liberdade no numerador e $[(p - 1)(o - 1)]$ graus de liberdade no denominador.
Para determinarmos a estatística do teste para as hipóteses B, obtemos do teorema de Cochran que, sob $ {H}_0 $
$$\frac{SQO}{\sigma^2_O} \sim \chi^2_{(o - 1)}~~~~~\hbox{e}~~~~~\frac{SQI}{\sigma^2_I} \sim \chi^2_{((p-1)(o - 1))}~,$$
são independentes. Assim, concluímos que a estatística (sob $ {H}_0 $)
$$F_0 =\frac{\displaystyle\frac{SQO}{(\sigma_{O}^2)~(o-1)}}{\displaystyle\frac{SQI}{\sigma_{I}^2~((p-1)(o-1))}}~~=~~\frac{QMO}{QMI}~~\sim~~F(o - 1;(p-1)(o - 1)),$$
ou seja, $ {F}_0 $ tem distribuição de F-Snedecor com (b-1) graus de liberdade no numerador e [(p - 1) (o - 1)] graus de liberdade no denominador.
Para determinarmos a estatística do teste para as hipóteses C, obtemos do teorema de Cochran que, sob $ {H}_0 $
$$\frac{SQI}{\sigma_{I}^2} \sim \chi^2_{(p - 1)(o - 1)}~~~~~ \hbox{e~também,}~~~~~\frac{SQE}{\sigma^2_E} \sim \chi^2_{(p~o~(r - 1))}~~,$$
são independentes. Assim, sob $ {H}_0 $ temos que a estatística
$$F_0=\frac{\displaystyle\frac{SQI}{(\sigma_{I}^2)~(p-1)(o-1)}}{\cfrac{SQE}{(\sigma_{E}^2)~(p~o~(r-1))}}~~=~~\frac{QMI}{QME}~~\sim~F((p-1)(o-1);(po(r-1)))$$
tem distribuição de F-Snedecor com $(p - 1)(o - 1)$ graus de liberdade no numerador e $[p o (r - 1)]$ graus de liberdade no denominador.
A região crítica (RC) do teste F é dada por $ RC=(F~\in~\Re^+ ~\mid~F > F_{1-\alpha}) $.
O valor crítico $ F_{1-\alpha} $ corresponde ao quantil $ (1-\alpha)100 \char37$ da distribuição F-Snedecor com os respectivos graus de liberdade do numerador e do denominador e o nível de significância $ \alpha $. A Figura 9.5.1 mostra a região crítica do teste.
Figura 9.5.1: Região crítica do teste F.
O teste estatístico para as hipóteses (A, B, C) propostas, está resumido na tabela abaixo.
| Fator | Graus de Liberdade | Soma de Quadrados | Quadrados Médios | F | P-Valor |
|---|---|---|---|---|---|
| Fator P | $ p -1 $ | $ SQP $ | $ QMP $ | $ F_{P}=\frac{QMP}{QMI} $ | $ P(F> F_P) $ |
| Fator O | $ o -1 $ | $ SQO $ | $ QMO $ | $ F_{O}=\frac{QMO}{QMI} $ | $ P(F> F_O) $ |
| Interação ($ P\times O $) | $ (p -1)(o -1) $ | $ SQI $ | $ QMI $ | $ F_{I}=\frac{QMI}{QME} $ | $ P(F> F_{I}) $ |
| Erro | $ p~o~(r -1) $ | $ SQE $ | $ QME $ | ||
| Total | $ p~o~r - 1 $ | $ SQT $ |
Tabela 9.5.6: Tabela de Análise de Variância (ANOVA).
5.1.3 - Estimação dos parâmetros do modelo
Apresentamos agora os intervalos de confiança para os parâmetros para o método cruzado definidos na Tabela 9.5.7 em que $ F_{\alpha,df_1, df_2} $ representa o quantil $ (1-\alpha)100 \char37 $ da distribuição F-Snedecor com $ df_1 $ graus de liberdade no numerador e $ df_2 $ graus de liberdade no denominador. A tabela 9.5.7 representa o caso particular do modelo (2.1.1).
| Constante | Definição |
|---|---|
| $ G_a $ | $ 1-F_{\left(\frac{\alpha}{2},\infty,(p-1)\right)} $ |
| $ G_b $ | $ 1-F_{\left(\frac{\alpha}{2},\infty,(o-1)\right)} $ |
| $ G_i $ | $ 1-F_{\left(\frac{\alpha}{2},\infty,(p-1)(o-1)\right)} $ |
| $ G_e $ | $ F_{\left(1-\frac{\alpha}{2},\infty,po(r-1)\right)}-1 $ |
| $ H_a $ | $ F_{\left(1-\frac{\alpha}{2},\infty,(o-1)\right)}-1 $ |
| $ H_b $ | $ F_{\left(1-\frac{\alpha}{2},\infty,(p-1)(o-1)\right)}-1 $ |
| $ H_i $ | $ F_{\left(1-\frac{\alpha}{2},\infty,po(r-1)\right)}-1 $ |
| $ H_e $ | $ F_{\left(1-\frac{\alpha}{2},(p-1),(p-1)(o-1)\right)} $ |
| $ F_a $ | $ F_{\left(\frac{\alpha}{2},(p-1),(p-1)(o-1)\right)} $ |
| $ F_b $ | $ F_{\left(1-\frac{\alpha}{2},(p-1),(p-1)(o-1)\right)} $ |
| $ F_i $ | $ F_{\left(1-\frac{\alpha}{2},(p-1),(o-1)\right)} $ |
| $ F_e $ | $ F_{\left(\frac{\alpha}{2},(p-1),(o-1)\right)} $ |
| $ G_{ae} $ | $ \frac{(F_a-1)^2-(G_a F_a)^2-H^2_i}{F_a} $ |
| $ H_{ae} $ | $ \frac{(1-F_b)^2-(H_a F_b)^2-G^2_i}{F_b} $ |
| $ G_{be} $ | $ \frac{(F_b-1)^2-(G_b F_b)^2-H^2_i}{F_b} $ |
| $ H_{be} $ | $ \frac{(1-F_a)^2-(H_b F_a)^2-G^2_i}{F_a} $ |
| $ G_{ie} $ | $ \frac{(F_i-1)^2-(G_i F_i)^2-H^2_e}{F_i} $ |
| $ H_{ie} $ | $ \frac{(1-F_e)^2-(H_i F_e)^2-G^2_e}{F_e} $ |
Tabela 9.5.7: Constantes usadas para construir o intervalo de confiança.
Intervalo de confiança para $ \mu_y $
Para o modelo (2.1.1), foram estudados vários métodos para a construção de intervalos de confiança para $ \mu_y $. Aqui, adotaremos o intervalo de confiança baseado em Milliken and Johnson página 281.
$$LI_{\mu_y}=\overline{Y_{…}}-C\sqrt{\frac{K}{por}}$$
e
$$LS_{\mu_y}=\overline{Y_{…}}+C\sqrt{\frac{K}{por}} \tag{2.1.3.1}$$
em que
$$K=QMA+QMB-QMI$$
e
$$C=\frac{QMA\sqrt{F_{\left(1-\alpha,1,(p-1)\right)}}+QMB\sqrt{F_{\left(1-\alpha,1,(o-1)\right)}}-QMI\sqrt{F_{\left(1-\alpha,1,(p-1)(o-1)\right)}}}{K}$$
Se $K<0$ então, substitua $K$ por $QMI$ e $C$ por $ \sqrt{F_{\left(1-\alpha,1,(p-1)(o-1)\right)}} $, mantendo o nível de confiança na equação (2.1.3.1).
Intervalo de confiança para $ \sigma^2_P $
Para o intervalo de confiança para $ \sigma^2_A, $ vimos na tabela 9.5.7 que
$$\hat{\sigma}^2_P=\frac{QMP-QMI}{or}$$
Assim, quando envolvemos a diferença de dois quadrados médios, usaremos o método proposto por Ting que é dado por:
$$LI_{\sigma^2_P}=\hat{\sigma}^2_P-\frac{\sqrt{V_{LP}}}{or}$$
e
$$LS_{\sigma^2_P}=\hat{\sigma}^2_P+\frac{\sqrt{V_{UP}}}{or} \tag{2.1.3.2}$$
em que
$$V_{LP}=G^2_p*QMP^2+H^2_i*QMI^2+G_{pi}*QMP*QMI$$
e
$$V_{UP}=H^2_p*QMP^2+G^2_i*QMI^2+H_{pi}*QMP*QMI$$
Intervalo de confiança para $ \sigma^2_O $
Para o intervalo de confiança para $ \sigma^2_O, $vimos na tabela 9.5.7 que
$$\hat{\sigma}^2_O=\frac{QMO-QMI}{pr}$$
Assim, quando envolvemos a diferença de dois quadrados médios, usaremos o método proposto por Ting que é dado por:
$$LI_{\sigma^2_O}=\hat{\sigma}^2_O-\frac{\sqrt{V_{LO}}}{pr}$$
e
$$LS_{\sigma^2_O}=\hat{\sigma}^2_O+\frac{\sqrt{V_{UO}}}{pr} \tag{2.1.3.3}$$
em que
$$V_{LO}=G^2_o*QMO^2+H^2_i*QMI^2+G_{oi}*QMO*QMI$$
e
$$V_{UO}=H^2_o*QMO^2+G^2_i*QMI^2+H_{oi}*QMO*QMI$$
Intervalo de confiança para $ \sigma^2_I $
Para o intervalo de confiança para $ \sigma^2_I, $vimos na tabela 9.5.7 que
$$\hat{\sigma}^2_I=\frac{QMI-QME}{po}$$
Assim, quando envolvemos a diferença de dois quadrados médios, usaremos o método proposto por Ting que é dado por:
$$LI_{\sigma^2_I}=\hat{\sigma}^2_I-\frac{\sqrt{V_{LI}}}{po}$$
e
$$LS_{\sigma^2_I}=\hat{\sigma}^2_I+\frac{\sqrt{V_{UI}}}{po} \tag{2.1.3.4}$$
em que
$$V_{LI}=G^2_i*QMI^2+H^2_e*QME^2+G_{ie}*QME*QMI$$
e
$$V_{UI}=H^2_i*QMI^2+G^2_e*QME^2+H_{ie}*QME*QMI$$
Intervalo de confiança para $ \sigma^2_E $
Para o intervalo de confiança para $ \sigma^2_E, $vimos na tabela 9.5.7 que
$$\hat{\sigma}^2_E=QME$$
Assim, o intervalo de confiança para $ \sigma^2_E $ é dada por
$$LI_{\sigma^2_E}=(1-G_e) QME$$
e
$$LS_{\sigma^2_E}=(1+H_e) QME$$
em que $ G_B $ e $ H_B $ são definidos na tabela 9.5.7.
5.2 - Método Hierárquico (Nested)
Às vezes, as restrições nos impede de cruzar todos os níveis de um fator com todos os níveis do outro fator. Nestes casos, somos forçados para o que é conhecido como uma disposição hierarquizada.
Análise de variância hierarquizada é uma extensão da ANOVA, em que cada fator é dividido em subgrupos destes fatores. Mais especificamente, estes subgrupos são escolhidos aleatoriamente à partir de um conjunto maior de subgrupos possíveis.
Por exemplo, em sistemas de medição, podemos citar os experimentos não replicáveis, ou seja, são experimentos que a peça não pode ser reavaliada devido à alterações em sua estrutura como o de destruição da peça.
A primeira medida a ser feita antes de abordar estes experimentos, neste caso é garantir que todas as condições que englobam o teste sejam definidas, padronizadas e controladas. No exemplo de sistemas de medição, os operadores devem ser similarmente qualificados e treinados, a iluminação deve ser adequada e sempre controlada, instruções de trabalho devem ser detalhadas e operacionalmente definidas, condições ambientais devem ser controladas dentro de um grau adequado, equipamentos devem ser calibrados e receber manutenção adequada etc.
Depois disto, uma vez que a peça não pode ser reavaliada devido à alterações em sua estrutura (ou destruição), diversas peças semelhantes (homogêneas) devem ser escolhidas para o estudo e deve ser feita a suposição de que as peças são idênticas (ou similares). Desta forma, as peças devem ser amostradas consecutivamente (dentro de um mesmo lote de produção) sendo idênticas (ou similares) o suficiente para que elas possam ser tratadas como se fossem a mesma peça.
Assim, no arranjo experimental definido, os níveis do fator lote (peças similares) ocorrem em combinação com os níveis do fator operador, por exemplo. Tais arranjos experimentais são denominados hierárquicos (“nested'').
O modelo de dois fatores aleatórios hierárquicos com dados desbalanceados é dada por
$$y_{ij}=\mu_y+\alpha_i+\beta_{j(i)} \tau_{ij}+\varepsilon_{ij} \begin{cases} i=1,\dots, a \cr j=1,\dots,b_i \cr k=1,\dots,n_{ij} \end{cases} \tag{2.2.1}$$
em que,
$y_{ijk}$ é a k-ésima observação do j-ésimo nível do fator B dentro do i-ésimo nível do fator A;
$μ$ é a média geral;
$α_i$ é o efeito devido ao i-ésimo nível do fator A;
$β_{j(i)}$ é o efeito devido ao j-ésimo nível do fator B hierarquizado sob o i-ésimo nível do fator A;
$σ_{k(ij)}$ é a componente aleatória do erro.
Agora, vamos desenvolver a análise de variância para o modelo de efeitos aleatórios. A partir de considerações dos dados, temos:
$$ y_{ij.} = \displaystyle\sum_{k=1}^{n_{ij}} y_{ijk}: ~ \hbox{soma das observações do nível i e j do fator;}$$
$$ \overline{y}_{ij.} = \frac{y_{ij.}}{n_{ij}}: ~ \hbox{média das observações do nível i e j do fator;}$$
$$ y_{i..} = \displaystyle\sum_{j=1}^{b_{i}} y_{ij.}: ~ \hbox{soma das observações do nível i do fator;}$$
$$ \overline{y}_{i..} = \frac{y_{i..}}{n_{i.}}: ~ \hbox{média das observações do nível i do fator;}$$
$$ y_{…} = \displaystyle\sum_{i=1}^{a} y_{i..}: ~ \hbox{soma de todas as observações}$$
$$ \overline{y}_{i..} = \frac{y_{i..}}{N}: ~ \hbox{é a média geral das observações}$$
temos que $ N $ é o total de observações, isto é,
com $ n_{i.}=\displaystyle\sum^{b_i}_{j=1}n_{ij} $ e $ N = \displaystyle \sum^{a}_{i=1} n_{i.}, $ número total de observações, sendo $ a $ e $ b_i $ níveis do fator B (subclasses) dentro de cada nível do fator A.
Denotamos também $ b_{.} $ o número total de subclasses, sendo $ b_.=\displaystyle \sum^a_{i=1}b_i $ e o número de observações na j-ésima subclasse da i-ésima classe é $ n_{ij}. $
Assumimos que o erro tem distribuição Normal com média $ 0 $ e variância $ \sigma^{2}_{\varepsilon} $, além disso, temos que os erros são mutuamente independentes. Com isso, obtemos
$$\varepsilon_{k(ij)}\sim N(0,\sigma^{2}_{\varepsilon}).$$
Agora, para o efeito $ \alpha_i $, assumimos que tem distribuição Normal com média zero e variância $ \sigma^2_{\alpha}, $ e temos que os efeitos são mutuamente independentes. Assim,
$$\alpha_{i}\sim N(0,\sigma^{2}_{\alpha}).$$
E por fim, para o efeito $ \beta_{j(i)} $, assumimos que tem distribuição Normal com média zero e variância $ \sigma^2_{\beta(\alpha)}, $ e temos que os efeitos são mutuamente independentes. Assim,
$$\beta_{j(i)}\sim N(0,\sigma^{2}_{\beta(\alpha)}).$$
5.2.1 - Decomposição da Soma de Quadrados Total
Para o modelo (2.2.1) definimos a soma de quadrados da seguinte forma
$$SQT=\sum^a_{i=1}n_{i.}(\overline{y_{i..}}-\overline{y_{…}})^2+\sum^a_{i=1}\sum^{b_i}_{j=1}n_{ij}(\overline{y_{ij.}}-\overline{y_{i..}})^2+\sum^a_{i=1}\sum^{b_i}_{j=1}\sum^{n_{ij}}_{k=1}(y_{ijk}-\overline{y_{ij.}})^2=$$
$$=\underbrace{\sum^a_{i=1}\frac{y^2_{i..}}{n_{i.}}-\frac{y^2_{…}}{N}}_{SQA}+\underbrace{\sum^a_{i=1}\sum^{b_i}_{j=1}\frac{y^2_{ij.}}{n_{ij}}-\sum^a_{i=1}\frac{y^2_{i..}}{n_{i.}}}_{SQB(A)}+\underbrace{\sum^a_{i=1}\sum^{b_i}_{j=1}\sum^{n_{ij}}_{k=1}y^2_{ijk}-\sum^a_{i=1}\sum^{b_i}_{j=1}\frac{y^2_{ij.}}{n_{ij}}}_{SQE}=$$
$$=\sum^a_{i=1}\sum^{b_i}_{j=1}\sum^{n_{ij}}_{k=1}y^2_{ijk}-\frac{y^2_{…}}{N} \tag{2.2.1.1}$$
Observações:
Soma de Quadrados do fator A (SQA) é o desvio das médias estimadas em cada tratamento (nível) em torno da média geral dos dados. Representa a variabilidade devido aos diferentes níveis do fator A.
Soma de Quadrados do B hierarquizado sob o fator A (SQB(A)) é o desvio das observações em torno da média estimada do seu nível (tratamento) B hierarquizado sob nível A e as médias estimadas em cada tratamento do nível A. Representa a variabilidade do nível do fator B hierarquizado sob o nível A .
Soma de Quadrados do Erro (SQE) é o desvio das observações em torno da média estimada do seu nível (tratamento) B hierarquizado sob nível A. Representa a variabilidade da componente aleatória do erro.
Graus de liberdade e estimativas da variância
Primeiramente, as suposições do modelo (2.2.1) são
$$E(\alpha_i)=E(\beta_{j(i)})=E(\varepsilon_{k(ij)})=0,$$
$$E(\alpha^2_{i})=\sigma^2_{\alpha},~~~~~~E(\beta^2_{j(i)})=\sigma^2_{\beta},~~~~~~E(\varepsilon^2_{k(ij)})=\sigma^2_{\varepsilon}$$
Além disso, todas as covariâncias entre os elementos de uma mesma variável aleatória e qualquer par de variáveis aleatórias são iguais a zero. Agora, vamos calcular os valores esperados das somas de quadrados.
$$E(SQE)=E\left(\sum^a_{i=1}\sum_{j=1}^{b_i}\sum^{n_{ij}}_{k=1}y^2_{ijk}-\sum_{i=1}^a\sum_{j=1}^{b_i}\frac{y^2_{ij.}}{n_{ij}}\right)=\sum^a_{i=1}\sum^{b_i}_{j=1}\sum^{n_{ij}}_{k=1}E(y^2_{ijk})-\sum^a_{i=1}\sum_{j=1}^{b_i}E\left(\frac{y^2_{ij.}}{n_{ij}}\right)=$$
$$=\sum_{i=1}^a\sum_{j=1}^{b_i}\sum^{n_{ij}}_{k=1}E[(\mu+\alpha_i+\beta_{j(i)}+\varepsilon_{k(ij)})^2]-\sum_{i=1}^a\sum_{j=1}^{b_i}\frac{1}{n_{ij}}E\left[ \left( \displaystyle\sum_{k=1}^{n_{ij}}y_{ijk}\right)^2\right]=$$
$$=\sum^a_{i=1}\sum^{b_i}_{j=1}\sum^{n_{ij}}_{k=1}[\mu^2+\sigma^2_{\alpha}+\sigma^2_{\beta}+\sigma^2_{\varepsilon}]-\sum^a_{i=1}\sum^{b_i}_{j=1}\frac{1}{n_{ij}}E\left[\left(n_{ij}(\mu+\alpha_i+\beta_{j(i)})+\sum^{n_{ij}}_{k=1}\varepsilon_{k(ij)}\right)^2\right]=$$
$$=N(\mu^2+\sigma^2_{\alpha}+\sigma^2_{\beta}+\sigma^2_{\varepsilon})-\sum^a_{i=1}\sum^{b_i}_{j=1}\frac{1}{n_{ij}}[n^2_{ij}(\mu^2+\sigma^2_{\alpha}+\sigma^2_{\beta})+n_{ij}\sigma^2_{\varepsilon}]=$$
$$=N(\mu^2+\sigma^2_{\alpha}+\sigma^2_{\beta}+\sigma^2_{\varepsilon})-\sum^a_{i=1}\sum^{b_i}_{j=1}[n_{ij}(\mu^2+\sigma^2_{\alpha}+\sigma^2_{\beta})+\sigma^2_{\varepsilon}]=$$
$$=N(\mu^2+\sigma^2_{\alpha}+\sigma^2_{\beta}+\sigma^2_{\varepsilon})-N(\mu^2+\sigma^2_{\alpha}+\sigma^2_{\beta})-b_{.}\sigma^2_{\varepsilon}=$$
$$=(N-b_{.})\sigma^2_{\varepsilon}$$
Agora, calcularemos o valor esperado de $ SQA. $
$$E(SQA)=E\left(\sum^a_{i=1}\frac{y^2_{i..}}{n_{i.}}-\frac{y^2_{…}}{N}\right)=\sum^a_{i=1}\frac{1}{n_{i.}}E\left(y^2_{i..}\right)-\frac{1}{N}E\left(y^2_{…}\right)=$$
$$=\sum^a_{i=1}\frac{1}{n_{i.}}E\left[\left(n_{i.}(\mu+\alpha_i)+\sum^{b_i}_{j=1}n_{ij}\beta_{j(i)}+\sum^{b_i}_{j=1}\sum^{n_{ij}}_{k=1}\varepsilon_{k(ij)}\right)^2\right]-$$
$$-\frac{1}{N}E\left[\left(N\mu+ \sum_{i=1}^{a} n_{i.}\alpha_i + \sum_{i=1}^{a} \sum_{j=1}^{b_i} n_{ij} \beta_{j(i)}+\sum_{i=1}^{a} \sum_{j=1}^{b_i} \sum_{k=1}^{n_{ij}} \varepsilon_{k(ij)}\right)^2\right]=$$
$$=\sum^a_{i=1}\frac{1}{n_{i.}}\left(n^2_{i.}(\mu^2+\sigma^2_{\alpha})+\sum^{b_i}_{j=1}n^2_{ij}\sigma^2_{\beta}+n_{i.}\sigma^2_{\varepsilon}\right)-\frac{1}{N}\left(N^2\mu^2+\sum^{a}_{i=1}n^2_{i.}\sigma^2_{\alpha}+\sum^{a}_{i=1}\sum^{b_i}_{j=1}n^2_{ij}\sigma^2_{\beta}+N\sigma^2_{\varepsilon}\right)=$$
$$=\sum^a_{i=1}\left(n_{i.}(\mu^2+\sigma^2_{\alpha})+\sum^{b_i}_{j=1}\frac{n^2_{ij}}{n_{i.}}\sigma^2_{\beta}+\sigma^2_{\varepsilon}\right)-N\mu^2+\underbrace{\sum^{a}_{i=1}\frac{n^2_{i.}}{N}}_{k_1}\sigma^2_{\alpha}-\underbrace{\sum^{a}_{i=1}\sum^{b_i}_{j=1}\frac{n^2_{ij}}{N}}_{k_3}\sigma^2_{\beta}-\sigma^2_{\varepsilon}=$$
$$=\underbrace{\sum^a_{i=1}n_{i.}}_{N}(\mu^2+\sigma^2_{\alpha})+\underbrace{\sum^a_{i=1}\sum^{b_i}_{j=1}\frac{n^2_{ij}}{n_{i.}}}_{k_{12}}\sigma^2_{\beta}+a\sigma^2_{\varepsilon}-N\mu^2+k_1\sigma^2_{\alpha}-k_3\sigma^2_{\beta}-\sigma^2_{\varepsilon}=$$
$$=N(\mu^2+\sigma^2_{\alpha})+k_{12}\sigma^2_{\beta}+a\sigma^2_{\varepsilon}-N\mu^2+k_1\sigma^2_{\alpha}-k_3\sigma^2_{\beta}-\sigma^2_{\varepsilon}=$$
$$=(a-1)\sigma^2_{\varepsilon}+(k_{12}-k_3)\sigma^2_{\beta}+(N-k_1)\sigma^2_{\alpha}$$
Agora, calculamos o valor esperado de $ SQB(A). $
$$E(SQB(A))=E\left(\sum^a_{i=1}\sum^{b_i}_{j=1}\frac{y^2_{ij.}}{n_{ij}}-\sum^a_{i=1}\frac{y^2_{i..}}{n_{i.}}\right)=\sum^a_{i=1}\sum^{b_i}_{j=1}E\left(\frac{y^2_{ij.}}{n_{ij}}\right)-\sum^a_{i=1}E\left(\frac{y^2_{i..}}{n_{i.}}\right)=$$
$$=\sum^a_{i=1}\sum^{b_i}_{j=1}\frac{1}{n_{ij}}E\left[\left(n_{ij}(\mu+\alpha_i+\beta_{j(i)})+\sum^{n_{ij}}_{k=1}\varepsilon_{k(ij)}\right)^2\right]-$$
$$-\sum^a_{i=1}\frac{1}{n_{i.}}E\left[\left(n_{i.}(\mu+\alpha_i)+\sum^{b_i}_{j=1}n_{ij}\beta_{j(i)}+\sum^{b_i}_{j=1}\sum^{n_{ij}}_{k=1}\varepsilon_{k(ij)}\right)^2\right]=$$
$$=\sum^a_{i=1}\sum^{b_i}_{j=1}\frac{1}{n_{ij}}[n^2_{ij}(\mu^2+\sigma^2_{\alpha}+\sigma^2_{\beta})+n_{ij}\sigma^2_{\varepsilon}]-\sum^a_{i=1}\frac{1}{n_{i.}}\left(n^2_{i.}(\mu^2+\sigma^2_{\alpha})+\sum^{b_i}_{j=1}n^2_{ij}\sigma^2_{\beta}+n_{i.}\sigma^2_{\varepsilon}\right)=$$
$$=\sum^a_{i=1}\sum^{b_i}_{j=1}[n_{ij}(\mu^2+\sigma^2_{\alpha}+\sigma^2_{\beta})+\sigma^2_{\varepsilon}]-\sum^a_{i=1}\left(n_{i.}(\mu^2+\sigma^2_{\alpha})+\sum^{b_i}_{j=1}\frac{n^2_{ij}}{n_{i.}}\sigma^2_{\beta}+\sigma^2_{\varepsilon}\right)=$$
$$=N(\mu^2+\sigma^2_{\alpha}+\sigma^2_{\beta})+b_{.}\sigma^2_{\varepsilon}-\underbrace{\sum^a_{i=1}n_{i.}}_{N}(\mu^2+\sigma^2_{\alpha})-\underbrace{\sum^a_{i=1}\sum^{b_i}_{j=1}\frac{n^2_{ij}}{n_{i.}}}_{k_{12}}\sigma^2_{\beta}-a\sigma^2_{\varepsilon}=$$
$$=(b_{.}-a)\sigma^2_{\varepsilon}+(N-k_{12})\sigma^2_{\beta}$$
Para o modelo (2.2.1) não existe uma única análise de variância, porém a forma calculada até aqui é chamada Soma de Quadrados do Tipo I e são definidos, estabelecendo uma analogia com os termos correspondentes para dados balanceados. Na figura 9.5.2 apresentamos os diferentes tipos de soma de quadrados.
Figura 9.5.2: Diferentes tipo de soma de quadrados.
$$E(QME)=E\left[\frac{SQE}{N-b_{.}}\right]=\frac{1}{N-b_{.}}E[SQE]=\sigma^2_{\varepsilon},$$
Portanto, como argumentamos na seção (ANOVA efeitos fixos), o QME é um bom estimador para a variância pois
$$E(QMA)=E\left[\frac{SQA}{a-1}\right]=\frac{1}{a-1}E[SQA]=\frac{1}{a-1}[(a-1)\sigma^2_{\varepsilon}+(k_{12}-k_3)\sigma^2_{\beta}+(N-k_1)\sigma^2_{\alpha}]=$$
$$=\sigma^2_{\varepsilon}+\underbrace{\frac{(k_{12}-k_3)}{a-1}}_{r_1}\sigma^2_{\beta}+\underbrace{\frac{(N-k_1)}{a-1}}_{r_2}\sigma^2_{\alpha}=$$
$$=\sigma^2_{\varepsilon}+r_1\sigma^2_{\beta}+r_2\sigma^2_{\alpha},~~~~~~{e}$$
$$E(QMB(A))=E\left[\frac{SQB(A)}{b_{.}-a}\right]=\frac{1}{b_.-a}E[SQB(A)]=\frac{1}{b_{.}-a}[(b_{.}-a)\sigma^2_{\varepsilon}+(N-k_{12})\sigma^2_{\beta}]=$$
$$=\sigma^2_{\varepsilon}+\underbrace{\frac{(N-k_{12})}{b_.-a}}_{r_3}\sigma^2_{\beta}=$$
$$=\sigma^2_{\varepsilon}+r_3\sigma^2_{\beta}$$
Assim, QMA e QMB(A) também são bons estimadores para a variância. Entretanto, se existe diferença entre as médias dos níveis, os valores esperados do quadrado médio do fator A (devido aos níveis) são maiores do que $ \sigma^{2}_{\varepsilon}. $ O mesmo valendo para o fator B.
Portanto, temos os seguintes graus de liberdade:
| Soma de Quadrados | Graus de Liberdade | Quadrados Médios |
|---|---|---|
| SQA | $ a-1 $ | $ \cfrac{SQA}{a-1} $ |
| SQB(A) | $ b_.-a $ | $ \cfrac{SQB(A)}{b_.-a} $ |
| SQE | $ N-b_. $ | $ \cfrac{SQE}{N-b_.} $ |
| SQT | $ N-1 $ |
Tabela 9.5.8: Graus de liberdade
Note que no caso de dados balanceados, $ b_. = ab, n_{ij}=r $ e $ N=abr $ para todo i e j, $ r_1 =r$, $ r_2=br$ e $ r_3 = r. $
Agora, mostramos um breve resumo dos valores esperados dos quadrados médios.
| Fator | Graus de Liberdade | Quadrados Médios | Valor Esperado dos Quadrados Médios |
|---|---|---|---|
| Fator A | $ a-1 $ | $ QMA $ | $ E(QMA)=\sigma^2_\varepsilon+r\sigma^2_\beta+br\sigma^2_\alpha $ |
| Fator B hierárquico ao fator A | $ a(b-1) $ | $ QMB(A) $ | $ E[QMB(A)]=\sigma^2_\varepsilon+r\sigma^2_\beta $ |
| Erro | $ ab(r-1) $ | $ QME $ | $ E(QME)=\sigma^2_\varepsilon $ |
Tabela 9.5.9: Valores Esperados dos Quadrados Médios.
Estatística:
| $ QMA= $ | $ br\displaystyle\sum^a_{i=1}\frac{(\overline{Y_{i..}}-\overline{Y_{…}})^2}{a-1} $ |
|---|---|
| $ QMB(A) $ | $ r\displaystyle\sum^a_{i=1}\sum^b_{j=1}\frac{(\overline{Y_{ij.}}-\overline{Y_{i..}})^2}{a(b-1)} $ |
| $ QME= $ | $ \displaystyle\sum^a_{i=1}\sum^b_{j=1}\sum^r_{k=1}\frac{(\overline{Y_{ijk}}-\overline{Y_{ij.}})^2}{ab(r-1)} $ |
| $ \overline{Y_{ij.}}= $ | $ \displaystyle\sum^r_{j=1}\frac{Y_{ijk}}{r} $ |
| $ \overline{Y_{i..}}= $ | $ \displaystyle\sum^b_{j=1}\sum^r_{k=1}\frac{Y_{ijk}}{br} $ |
| $ \overline{Y_{…}}= $ | $ \displaystyle\sum^a_{i=1}\sum^b_{j=1}\sum^r_{k=1}\frac{Y_{ijk}}{abr} $ |
Tabela 9.5.10: Resumo dos Quadrados médios e médias para o modelo (2.2.1).
Com os resultados obtidos na Tabela 9.5.9 temos os seguintes estimadores:
Para a componente do erro temos
$$\hat{\sigma}^2_\varepsilon=QME \tag{2.2.1.2}$$
Agora, para calcular a variabilidade para o efeito do fator B hierárquizado sob o fator A, utilizamos a equação (2.2.1.2) da seguinte forma
$$\hat{\sigma}^2_\beta=\frac{QMB(A)-\hat{\sigma}^2_\varepsilon}{r}\overset{(2.2.1.2)}{=}$$
$$=\frac{QMB(A)-QME}{r} \tag{2.2.1.3}$$
Finalmente, para calcular a variabilidade para o efeito do fator A temos
$$\hat{\sigma}^2_\alpha=\frac{QMA-\hat{\sigma}^2_\varepsilon-\hat{\sigma}^2_\beta}{br}\overset{{(2.2.1.2) \hbox{e} (2.2.1.3)}}{=}$$
$$=\frac{QMA-QMB(A)}{br}$$
A tabela 9.5.11 representa os estimadores pontuais do modelo (2.2.1).
| Representação do Modelo | Estimador Pontual |
|---|---|
| $ \hat{\mu} $ | $ \overline{Y_{…}} $ |
| $ \hat{\sigma}^2_\alpha $ | $ \displaystyle\cfrac{QMA-QMB(A)}{br} $ |
| $ \hat{\sigma}^2_\beta $ | $ \displaystyle\cfrac{QMB(A)-QME}{r} $ |
| $ \hat{\sigma}^2_\varepsilon $ | $ QME $ |
Tabela 9.5.11: Resumo dos Estimadores pontuais para o modelo (2.2.1).
5.2.2 - Análise Estatística
Sob a suposição de normalidade, QME é estatisticamente independente do QMA e QMB(A) e
$$\frac{SQE}{\sigma^2_{\varepsilon}}\sim \chi^2_{[N-b_{.}]}$$
No entanto, em geral, $QMA$ e $QMB(A)$ não tem distribuição Qui-Quadrado e nem são estatisticamente independentes. No caso especial quando $n_{ij} = n_i ( i = 1, 2,…, a )$, tem sido demonstrado por Cummings (1972) que $QMA$ e $QMB(A)$ são independentes, mas eles não têm distribuição Qui-Quadrado devido a diferentes números de observações nas subclasses. Cummings (1972) também mostrou que os dados com $b_i= 2, n_{i1}= n_1, n_{i2}= n_2 ~ ( i = 1,2,…,a )$ têm quadrados médios $QMA$ e $QMB(A)$ com distribuição Qui-Quadrado, porém dependentes. Agora, se tomarmos $n_{ij}= n ~ \hbox{para todo i e j}$, temos que $QMA$ e $QMB(A)$ são independentes pois
$$\frac{SQB(A)}{(\sigma^2_{\varepsilon}+n \sigma^2_{\beta})}\sim \chi^2_{[b_{.}-a]}$$
mas $QMA$, em geral, não tem distribuição Qui-Quadrado (ver, por exemplo, Scheffé, 1959, p. 252). Ela tem uma distribuição Qui-Quadrado, se e somente se $ \sigma^2_{\alpha}= 0. $ Finalmente, se $b_i= b$ para que o desbalanceamento ocorra apenas na última etapa, um método proposto por Khuri (1990) pode ser usado para construir um conjunto de somas de quadrados conjuntamente independentes para cada um tendo uma distribuição Qui-Quadrado exata.
Teste de Hipóteses
Vamos considerar o problema do teste de hipóteses
$$ \begin{cases} H_0: \sigma^2_{\beta(\alpha)} = 0 \cr H_1: \sigma^2_{\beta(\alpha)} > 0 \end{cases} \tag{2.2.2.2}$$
e
$$ \begin{cases} H_0: \sigma^2_\alpha = 0 \cr H_1: \sigma^2_{\alpha} > 0 \end{cases} \tag{2.2.2.3}$$
usando os resultados da análise de variância baseado na soma de quadrados do tipo I (ver figura 9.5.2).
Para o teste $ \sigma^2_{\beta}=0 $ em (2.2.2.2) note que QME e QMB(A) são independentes, com QME e QMB(A) tendo uma distribuição Qui-Quadrado com correção de escala, e, além disso, sob a hipótese nula, eles têm o mesmo valor esperado. Portanto, uma estatística de teste é construída pela razão de variâncias.
$$F^B_{0}=\cfrac{\cfrac{SQB(A)}{b_{.}-a}}{\cfrac{SQE}{N-b_{.}}}=\cfrac{QMB(A)}{QME}\sim F_{(b_{.}-a,~N-b_{.})}~ \tag{2.2.2.4}$$
O teste baseado na estatística em (2.2.2.4) é exata e é equivalente ao teste correspondente para dados balanceados. Tem sido demonstrado que não existe um teste uniformemente mais poderoso invariante ou uniformemente mais poderoso invariante imparcial. Porém, Hussein e Milliken (1978) discutem um teste exato para $σ^2_{β(α)}= 0$ em (2.2.2.2), quando $ \beta_{j(i)} $ têm estrutura de variância heterogênea.
No modelo desbalanceado em (2.2.1), não existe um teste exato para $σ^2_α= 0$ em (2.2.2.2). Temos que $QMA$ e $QMB(A)$ não são independentes e não têm uma distribuição Qui-Quadrado com correção de escala, o teste usual baseada na estatística $ \frac{QMA}{QMB(A)} $ já não é aplicável. Um procedimento comum é ignorar a suposição de independência e de que tem distribuição Qui-Quadrado e construir uma síntese do pseudo teste F usando quadrados médios com base no procedimento de Satterthwaite (ver, por exemplo, Cummings e Gaylor, 1974). Para a construção de um pseudo teste $F$ podemos obter um componente numerador ou um componente denominador da estatística de teste, ou ambos. Para a construção de um componente do denominador da estatística de teste para $σ^2_α=0$ obtemos uma combinação linear de $QMB(A)$ e $QME$ que tem valor esperado igual $ \sigma^2_{\varepsilon}+r_3 \sigma^2_{\beta}. $ Assim, a estatística é dada por
$$QM_{Den}=\frac{r_1}{r_3}QMB(A)+\left(1-\frac{r_1}{r_3}\right)QME \tag{2.2.2.5}$$
Agora, assumimos que $QMB(A)$ tem distribuição Qui-Quadrado com correção de escala e é independente de $QMA$. Desde que, $QME$ tem distribuição Qui-Quadrado com correção de escala e é independente de $QMB(A)$ e $QMA$, a combinação linear (2.2.2.5) é aproximada por uma distribuição Qui-Quadrado com correção de escala. Seja $(N-a)$ o grau de liberdade da estatística Qui-Quadrada aproximada dada por (2.2.2.5). Então, o procedimento de teste para testar $σ^2_α= 0$ em (2.2.2.3) é baseada na estatística
$$F^{A*}_{0}=\frac{QMA}{QM_{Den}}\sim F_{(a-1,~N-a)} \tag{2.2.2.6}$$
que pressupomos que elas sigam uma distribuição F aproximada com $a - 1$ e $N - a$ graus de liberdade. Note que quando $r1 > r3$, o coeficiente $ 1 - \frac{r_1}{r_3}$, pode assumir um valor negativo que pode afetar a precisão do teste F.
Alguns autores têm ignorado a estrutura de experimento desbalanceado e usa o teste F convencional baseado na estatística
$$F^A_{0}=\frac{QMA}{QMB(A)}\sim F_{(a-1,~b_.-a)} \tag{2.2.2.7}$$
Tietjen (1974) investigou o tamanho da amostra e poder de teste das estatísticas em (2.2.2.6) e (2.2.2.7) para uma variedade de experimentos desbalanceados utilizando simulação Monte Carlo. Ele descobriu que sob a hipótese nula a estatística de teste em (2.2.2.7) estava sempre no intervalo (0,044 , 0,058) para todos os 61 experimentos estudados por ele e, em geral, seu desempenho foi muito melhor do que a estatística em (2.2.2.6). Cummings e Gaylor (1974) também investigaram o efeito da violação das suposições de independência e de distribuição Qui-Quadrado na convergência do teste e em usar os procedimentos com base na estatística de teste em (2.2.2.6) e relataram que a dependência e não distribuição Qui-Quadrado parecem ter efeito de cancelamento e o procedimento parece ser satisfatório. Seus resultados parecem indicar que a convergência do teste desta estatística são apenas levemente afetadas para um amplo intervalo de relações de componentes de variância e experimentos desbalanceados. Tan e Cheng (1984) estudou o desempenho dos procedimentos de teste em (2.2.2.6) e (2.2.2.7), utilizando uma melhor aproximação para a distribuição da estatística de teste baseada na expansão polinomial Laguerre, e descobriu que todos eles tinham um desempenho satisfatório, mas a estatística do teste em (2.2.2.7) é inferior para experimentos extremamente desbalanceados e não pode ser recomendada para uso geral.
Logo, após todos os resultados apresentados vamos apresentar a tabela da ANOVA com efeitos aleatórios usando o método hierárquico para os testes (2.2.2.6) e (2.2.2.7).
| Fator | Graus de Liberdade | Soma de Quadrados | Quadrados Médios | Estatística F | p-valor |
|---|---|---|---|---|---|
| Fator A | $ a-1 $ | SQA | QMA | $ F_A=\frac{QMA}{QMB(A)} $ | $ P(F> F_A) $ |
| Fator B hierarquizado ao fator A | $ b_.-1 $ | SQB(A) | QMB(A) | $ F_B=\frac{QMB(A)}{QME} $ | $ P(F> F_B) $ |
| Erro | $ N-b_. $ | SQE | QME | ||
| Total | $ N-1 $ | SQT |
Tabela 9.5.12: Tabela da ANOVA baseado na estatística F.
5.2.3 - Estimação dos parâmetros do modelo
Apresentamos agora os intervalos de confiança para os parâmetros no método hierárquico em que $ F_{\alpha,n_1, n_2} $ representa o quantil $ (1-\alpha)100 \char37 $ da distribuição F-Snedecor com $n_1$ graus de liberdade no numerador e $n_2$ graus de liberdade no denominador. Para a construção desses intervalos, utilizaremos constante, assim como no capítulo de ANOVA com 1 fator aleatório. A Tabela 9.5.13 representa o caso particular do modelo (2.2.1).
Para facilitar a notação definimos $ n_1=a-1 $, $ n_2=a(b-1) $, $ n_3=a~b~(r-1) $ e $ w=b(a) $
| Constante | Definição |
|---|---|
| $ G_a $ | $ 1-F_{\left(\frac{\alpha}{2},\infty,n_1\right)} $ |
| $ G_b $ | $ 1-F_{\left(\frac{\alpha}{2},\infty,n_2\right)} $ |
| $ G_e $ | $ 1-F_{\left(\frac{\alpha}{2},\infty,n_3\right)} $ |
| $ G_c $ | $ F_{\left(1-\frac{\alpha}{2},\infty,(n_1+n_2)\right)}-1 $ |
| $ H_a $ | $ F_{\left(1-\frac{\alpha}{2},\infty,n_1\right)}-1 $ |
| $ H_b $ | $ F_{\left(1-\frac{\alpha}{2},\infty,n_2\right)}-1 $ |
| $ H_e $ | $ F_{\left(1-\frac{\alpha}{2},\infty,n_3\right)}-1 $ |
| $ H_c $ | $ F_{\left(1-\frac{\alpha}{2},\infty,(n_1+n_2)\right)}-1 $ |
| $ F_{ae1} $ | $ F_{\left(\frac{\alpha}{2},n_1,n_3\right)} $ |
| $ F_{ae2} $ | $ F_{\left(1-\frac{\alpha}{2},n_1,n_3\right)} $ |
| $ F_{ba1} $ | $ F_{\left(1-\frac{\alpha}{2},n_2,n_3\right)} $ |
| $ F_{ba2} $ | $ F_{\left(\frac{\alpha}{2},n_2,n_3\right)} $ |
| $ G_{ae} $ | $ \cfrac{(F_{ae1}-1)^2-(G_a F_{ae1})^2-H^2_e}{F_{ae1}} $ |
| $ H_{ae} $ | $ \cfrac{(1-F_{ae2})^2-(H_a F_{ae2})^2-G^2_e}{F_{ae2}} $ |
| $ G_{be} $ | $ \cfrac{(F_{wa1}-1)^2-(G_w F_{wa1})^2-H^2_e}{F_{ae1}} $ |
| $ H_{be} $ | $ \cfrac{(1-F_{wa2})^2-(H_w F_{wa2})^2-G^2_e}{F_{ae2}} $ |
| $ G_{aw} $ | $ \cfrac{(n_1+n_2)^2}{n_1~n_2}G^2_c-\frac{n_1}{n_2}G^2_a-\frac{n_2}{n_1}G^2_w $ |
Tabela 9.5.13: Constantes para a construção dos intervalos de confiança para os parâmetros do modelo.
Intervalo de confiança para $ \mu_y $
Para o modelo (2.2.1), foram estudados vários métodos para a construção de intervalos de confiança para $ \mu_y $. Assim, o intervalo de confiança para $ \mu_y $ é dado por:
$$LI_{\mu_y}=\overline{Y_{…}}-\sqrt{\frac{QMA~F_{(1-\alpha,1,n_1)}}{a~b~r}}$$
e
$$LS_{\mu_y}=\overline{Y_{…}}+\sqrt{\frac{QMA~F_{(1-\alpha,1,n_1)}}{a~b~r}} \tag{2.2.3.1}$$
Intervalo de confiança para $ \sigma^2_\alpha $
Para o intervalo de confiança para $ \sigma^2_\alpha, $ temos que
$$\hat{\sigma}^2_\alpha=\frac{QMA-QMB(A)}{a~r}$$
Assim, quando envolvemos a diferença de dois quadrados médios, temos um intervalo de confiança de:
$$LI_{\sigma^2_\alpha}=\hat{\sigma}^2_\alpha-\frac{\sqrt{V_{LA}}}{b~r}$$
e
$$LS_{\sigma^2_\alpha}=\hat{\sigma}^2_\alpha+\frac{\sqrt{V_{UA}}}{b~r}$$
em que
$$V_{LA}=G^2_a*QMA^2+H^2_i*QMB(A)^2+G_{aw}*QMA*QMB(A)$$
e
$$V_{UA}=H^2_a*QMA^2+G^2_i*QMB(A)^2+H_{aw}*QMA*QMB(A)$$
Intervalo de confiança para $ \sigma^2_{\beta(\alpha)} $
Para o intervalo de confiança para $ \sigma^2_{\beta(\alpha)}, $ temos que
$$\hat{\sigma}^2_{\beta(\alpha)}=\frac{QMB(A)-QME}{r}$$
Assim, quando envolvemos a diferença de dois quadrados médios, temos um intervalo de confiança de:
$$LI_{\sigma^2_{\beta(\alpha)}}=\hat{\sigma}^2_{\beta(\alpha)}-\frac{\sqrt{V_{L{B(A)}}}}{r}$$
e
$$LS_{\sigma^2_{\beta(\alpha)}}=\hat{\sigma}^2_{\beta(\alpha)}+\frac{\sqrt{V_{U{B(A)}}}}{r} \tag{2.2.3.2}$$
em que
$$V_{L{B(A)}}=G^2_w*QM{B(A)}^2+H^2_e*QME^2+G_{ew}*QM{B(A)}*QME$$
e
$$V_{U{B(A)}}=H^2_w*QM{B(A)}^2+G^2_e*QME^2+H_{we}*QM{B(A)}*QME$$
Intervalo de confiança para $ \sigma^2_\varepsilon $
Para o intervalo de confiança para $ \sigma^2_\varepsilon, $ temos que
$$\hat{\sigma}^2_\varepsilon=QME$$
Assim, o intervalo de confiança para $ \sigma^2_\varepsilon $ é dada por
$$LI_{\sigma^2_\varepsilon}=(1-G_e) QME$$
e
$$LS_{\sigma^2_\varepsilon}=(1+H_e) QME \tag{2.2.3.3}$$