9.4 ANOVA Um Fator - Efeitos Aleatórios

ANOVA - Modelo com Efeitos Aleatórios

No módulo anterior vimos o modelo da ANOVA com efeitos fixos e difere do modelo abordado neste módulo, em que modelamos a ANOVA com efeitos aleatórios. A distinção destes dois modelos é melhor visto através de um exemplo.

Na maioria das espécies de mamíferos o fator “sexo” têm dois níveis, que são “masculino” e “feminino”. Para uma análise deste fator, por exemplo, a pessoa do sexo feminino transmite uma grande quantidade de informações sobre a pessoa, e esta informação se baseia em experiência adquirida à partir de muitas outras pessoas que eram do sexo feminino. Esta pessoa vai ter um conjunto de atributos (associado a ela ser mulher), não importa qual a população que a pessoa está inserida.

Agora, quando avaliamos o nível de educação de matemática em uma determinada cidade, em que temos o fator “escola”. Quando avaliamos um nível deste fator, a escola “A” por exemplo, ela não transmite qualquer informação sobre as notas dos alunos no ensino de matemática, caso não tenhamos informações sobre o desempenho ou classificação (ranking) de desempenho publicado em pesquisas, e que o nível de ensino destas escolas podem influenciar na conclusão sobre as notas dos alunos. Caso não tenhamos este tipo de informação o fator escola não transmite qualquer informação sobre as notas, diferentemente do fator sexo que é informativa.

Por este último ter este tipo de característica, o fator sexo é modelado como efeitos fixos. Já o fator escola, as notas dos alunos diferem em muitos aspectos, mas que não sabemos exatamente como ou porque eles diferem, deste modo modelamos com efeitos aleatórios. No caso do sexo, sabemos que pessoas do sexo masculino e feminino são susceptíveis a variar de maneiras características e previsíveis, já no caso das notas dos alunos não. Assim, para aprofundarmos estes conceitos, vamos apresentar os modelos de ANOVA com efeitos aleatórios.

4 - ANOVA - Fatores Aleatórios (Um Fator)

Os módulos anteriores foram dedicados a um estudo de vários modelos com características comuns e que os mesmos números de observações foram tiradas de cada tratamento ou grupo em cada linha da subamostra. Quando esses números são os mesmos, os dados são conhecidos como dados balanceados, agora, quando o número de observações nas linhas não são todas iguais, os dados são conhecidos como dados desbalanceados. Em geral, é desejável ter um número igual de observações em cada subclasse, pois os experimentos com dados desbalanceados são muito mais complexas e difíceis de analisar e interpretar do que as com dados balanceados.

No entanto, em muitas situações práticas, nem sempre é possível ter um número igual de observações para os tratamentos ou grupos. Mesmo se um experimento é bem planejado para ser balanceado, podendo ter problemas durante à execução devido a circunstâncias além do controle do experimentador, por exemplo, valores faltando ou exclusão de observações com defeito pode resultar em diferentes tamanhos de amostra em diferentes grupos. Em muitos casos, os dados podem surgir através de amostragens, em que o número de observações por grupo não pode ser determinada, ou por meio de um experimento destinado a produzir dados balanceados, mas que na verdade podem resultar em dados desbalanceados. Podemos citar como exemplo, que plantas ou animais podem morrer, máquinas podem quebrar ou falhar e ainda os pacientes podem ser retirados do estudo.

As inferências sobre as componentes de variância para dados desbalanceados são muito mais complicadas do que as de dados balanceados. A razão é que a análise de variância de dados balanceados é bastante simples uma vez que há uma única partição da soma de quadrados total em componentes das somas de quadrados, que sob as suposições padrões de distribuição seguem um múltiplo de uma distribuição Qui-Quadrado. Este múltiplo sendo o produto dos graus de liberdade e quadrados médios esperados de um dos efeitos aleatórios. Assim, hipóteses sobre os efeitos do tratamento podem ser testadas pela divisão de quadrados médios de um dos efeitos pelo erro quadrático médio apropriado para formar uma relação de teste de variância F. Já os dados desbalanceados não tem estas propriedades, já que não existe uma única partição da soma de quadrados total e, consequentemente, não há uma única de análise de variância. Além disso, em qualquer decomposição dada, o somas de quadrados de componentes não são independentes ou identicamente distribuídos como variáveis do tipo Qui-Quadrado, e correspondente a qualquer tratamento quadrático médio em particular, significa que não existe um erro quadrático médio com esperança igual sob a hipótese nula.

Neste módulo apresentamos o modelo de um fator aleatório com dados balanceados, ressaltamos que as deduções são similares ao modelo da ANOVA com efeitos fixos. A seguir, temos o seguinte modelo

$$y_{ij}=\mu+\alpha_i+\varepsilon_{ij}\quad\begin{cases} i=1,\dots, k \cr j=1,\dots,r \end{cases} \tag{1.1}$$

Para este modelo $ \mu $ é um parâmetro comum a todos os tratamentos e representa a média geral dos dados, $ \alpha_{i} $ é o efeito devido ao i-ésimo nível do fator. A variável aleatória $ \varepsilon_{ij} $ corresponde ao erro aleatório experimental, isto é, a variabilidade não explicada pelo modelo devido a variações presentes em diversas fontes não consideradas no estudo.

Além disso, assumimos que o erro tem distribuição Normal com média zero e variância $ \sigma^{2}_{\varepsilon} $ e que os erros são mutuamente independentes. Com isso, temos que

$$\varepsilon_{ij}\sim~N(0,\sigma^{2}_{\varepsilon}).$$

Agora, para o efeito $ \alpha_i $, assumimos que tem distribuição Normal com média zero e variância $ \sigma^2_{\alpha}. $ Assumimos também que os efeitos são mutuamente independentes. Assim,

$$\alpha_{i}\sim~N(0,\sigma^{2}_{\alpha}).$$

Além disso, assumimos que não temos correlação entre o efeito $ \alpha_i $ e o erro experimental $ \varepsilon_{ij} $ para todos $ i,j. $ Para ilustrarmos este modelo temos o exemplo a seguir:

Exemplo 4.1

Um especialista em educação quer avaliar o nível de ensino de matemática para alunos do ensino fundamental das escolas de sua cidade. Para isto, foi realizado uma amostragem entre os alunos das escolas, no qual foi aplicado uma prova. À partir dos dados coletados na tabela, o que podemos dizer a respeito da uniformidade do ensino entre as escolas?

Nota Escola A Escola B Escola C Escola D
1 3,94 4,23 5,2 3,86
2 4,45 5,69 6,3 3,74
3 4,43 5,37 9,92 4,35
4 6,21 4,5 7,38 5
5 3,63 3,78 9,41 5,99
6 5,89 6,19 8,47 3,95
7 6,36 5,43 6,74 2,84
8 3,89 5,64 7,93 5,37
9 5,84 5,74 8,91 4,39
10 5,15 4,2 4,99 3,89
11 4,16 2,91 6,91 2,06
12 4,44 6,92 8,73 2,72
13 4,8 6,84 5,61 3,29
14 4,04 5,91 8,89 3,14
15 4,15 6,74 6,28 3,61
16 3,46 5,09 7,38 5,38
17 4,04 8,01 6,85 4,24
18 3,29 4,45 6,57 3,58
19 3,7 4,36 8,38 5,01
20 3,8 4,76 8,06 3,97

Tabela 9.4.1: Notas dos alunos do ensino fundamental na prova de matemática em cada escola.

Inicialmente, foi feito uma análise descritiva dos dados, para facilitar a interpretação dos mesmos e a aplicação do modelo da ANOVA.

Figura9.4.1

Figura 9.4.1: Boxplot das Notas dos alunos do ensino fundamental na prova de matemática em cada escola.

Através do boxplot, notamos que a escola C tem notas maiores que as demais, 7,4 em média, em comparação com as outras escola de ensino fundamental. O objetivo deste exemplo é na uniformidade do ensino nas escola, para isto, vamos aplicar o método da ANOVA para respondermos esta pergunta.

Neste exemplo simples, os k níveis são escolhidos aleatoriamente de uma população de níveis e podemos estender as conclusões para todos os demais níveis da população, que no nosso caso são os alunos de cada escola. Neste caso, os efeitos são variáveis aleatórias e denominados efeitos aleatórios, a seguir vamos particionar a variabilidade total dos dados.

4.1 - Decomposição da Soma de Quadrados Total

Antes de calcularmos a decomposição da soma de quadrados, vamos estabelecer a estrutura de covariância:

$$E(Y_{ij})=\mu,\quad Var(Y_{ij})=\sigma^2_{\alpha}+\sigma^2_{\varepsilon}$$

$$Cov(Y_{ij})=Cov(Y_{ij})=\sigma^2_{\alpha},\quad {para}~j\neq j$$

A técnica da ANOVA está associada a partição da variabilidade total dos dados em componentes. A soma de quadrados total é definida como medida da variabilidade total dos dados,

$$SQT=\sum_{i=1}^{k}\sum_{j=1}^{r}(y_{ij} - \overline{y_{..}})^{2}.$$

Intuitivamente isto é razoável, pois se dividirmos SQT pelos seus graus de liberdade (N -1), obtemos a variância amostral dos dados.

Somando e subtraindo $ \overline{y_{i.}} $ obtemos

$$SQT=\sum_{i=1}^{k}\sum_{j=1}^{r}\left[(y_{ij}-\overline{y_{i.}})+(\overline{y_{i.}}-\overline{y_{..}})\right]^{2}=$$

$$=\sum_{i=1}^{k}\sum_{j=1}^{r}(y_{ij}-\overline{y_{i.}})^{2}+2\sum_{i=1}^{k} \sum_{j=1}^{r}(y_{ij}-\overline{y_{i.}})(\overline{y_{i.}}-\overline{y_{..}})+\sum_{i=1}^{k}\sum_{j=1}^{r}(\overline{y_{i.}}- \overline{y_{..}})^{2}=$$

Entretanto, o produto cruzado na equação acima é nulo, pois

$$=\sum_{i=1}^{k}\sum_{j=1}^{r}(y_{ij}-\overline{y_{i.}})(\overline{y_{i.}}-\overline{y_{..}})~=~\sum_{i=1}^{k}\sum_{j=1}^{r}\left(y_{ij}\overline{y_{i.}}- y_{ij}\overline{y_{..}}-\overline{y_{i.}}^2+\overline{y_{i.}}\overline{y_{..}}\right)=$$

$$=\sum_{i=1}^{k}\sum_{j=1}^{r}y_{ij}\overline{y_{i.}}-\sum_{i=1}^{k}\sum_{j=1}^{r}y_{ij}\overline{y_{..}}-\sum_{i=1}^{k}\sum_{j=1}^{r}\overline{y_{i.}}^2+\sum_{i=1}^{k}\sum_{j=1}^{r}\overline{y_{i.}}\overline{y_{..}}=$$

$$=\sum_{i=1}^{k}r \overline{y_{i.}}^2 - \overline{y_{..}}\sum_{i=1}^{k}r \overline{y_{i.}} -\sum_{i=1}^{k}r \overline{y_{i.}}^2 + \overline{y_{..}}\sum_{i=1}^{k}r \overline{y_{i.}}=0$$

Logo

$$SQT=\sum_{i=1}^{k}\sum_{j=1}^{r}(y_{ij}-\overline{y_{i.}})^{2}+\sum_{i=1}^{k}\sum_{j=1}^{r}(\overline{y_{i.}}-\overline{y_{..}})^{2}=\sum_{i=1}^{k}\sum_{j=1}^{r}(y_{ij}-\overline{y_{i.}})^{2}+\sum_{i=1}^{k}r(\overline{y_{i.}}-\overline{y_{..}})^{2}$$

isto é,

$$SQT=SQA+SQE.$$

Observações

  1. Soma de Quadrados do fator A (SQA) é o desvio das médias estimadas em cada tratamento (nível) em torno da média geral dos dados.Representa a variabilidade devido aos diferentes níveis do fator A.
  2. Soma de Quadrados do Erro (SQE) é o desvio das observações em torno da média estimada do seu nível (tratamento).Representa a variabilidade dentro de cada nível do fator.

Graus de liberdade e estimativas da variância

O conceito de grau de liberdade está sempre associado a uma soma de quadrados. Considere $ x_1, x_2, \ldots, x_n $ elementos, então

$$\overline{x}=\frac{\sum\limits_{i=1}^{n} x_{i}}{n}~~~{e}~~~\sum_{i=1}^{n}(x_{i}-\overline{x})=0.$$

Uma forma para calcularmos os graus de liberdade consiste em determinarmos o valor esperado das componentes SQA e SQE.

Vamos calcular os valores esperados das somas de quadrados.

$$E[SQE]=E\left[\sum_{i=1}^{k} \sum_{j=1}^{r}(y_{ij}-\overline{y_{i.}})^{2}\right]=E\left[\sum_{i=1}^{k}\sum_{j=1}^{r}(y_{ij}^2-2y_{ij}\overline{y_{i.}}+\overline{y_{i.}}^2)\right]=$$

$$=E\left[\sum_{i=1}^{k}\sum_{j=1}^{r}y_{ij}^2-2\sum_{i=1}^{k}r\overline{y_{i.}}^2+\sum_{i=1}^{k} r\overline{y_{i.}}^2\right]=E\left[\sum_{i=1}^{k}\sum_{j=1}^{r}y_{ij}^{2}-\sum_{i=1}^{k}\frac{1}{r}y_{i.}^{2} \right]$$

Substituindo as informações do modelo em $ y_{ij} $ e $ y_{i.} $, obtemos

$$E[SQE]=E\left[\sum_{i=1}^{k}\sum_{j=1}^{r}(\mu+\alpha_{i}+\varepsilon_{ij})^{2}-\sum_{i=1}^{k}\frac{1}{r}\left(\sum_{j=1}^{r}(\mu+\alpha_{i}+\varepsilon_{ij})\right)^{2}\right]=$$

$$=E\left[\sum_{i=1}^{k} \sum_{j=1}^{r}(\mu^2+\alpha_i^2+\varepsilon_{ij}^2+2\mu\alpha_i+2\mu\varepsilon_{ij}+2\alpha_i\varepsilon_{ij})\right.-$$

$$-\left.\sum_{i=1}^{k}\frac{1}{r}\left(r^2\mu^2+r^2\alpha_i^2+\left(\sum_{j=1}^{r}\varepsilon_{ij}\right)^2+2~r^2\mu\alpha_i+2r\mu\sum_{j=1}^{r}\varepsilon_{ij}+2r\alpha_i\sum_{j=1}^{r}\varepsilon_{ij} \right)\right]=$$

$$=E\left[N\mu^2+\sum_{i=1}^{k} r\alpha_i^2+\sum_{i=1}^{k}\sum_{j=1}^{r}\varepsilon_{ij}^2+2\mu\sum_{i=1}^{k} r\alpha_i+2\mu\sum_{i=1}^{k}\sum_{j=1}^{r}\varepsilon_{ij}+2\sum_{i=1}^{k}\sum_{j=1}^{r}\alpha_i\varepsilon_{ij} \right.-$$

$$-\left.\left(N\mu^2+\sum_{i=1}^{k} r\alpha_i^2+\frac{1}{r}\sum_{i=1}^{k}\left(\sum_{j=1}^{r}\varepsilon_{ij}\right)^2+2\mu\sum_{i=1}^{k}r\alpha_i+ 2\mu\sum_{i=1}^{k}\sum_{j=1}^{r}\varepsilon_{ij}+2\sum_{i=1}^{k}\sum_{j=1}^{r}\alpha_i\varepsilon_{ij} \right)\right]=$$

$$=E\left[\sum_{i=1}^{k}\sum_{j=1}^{r}\varepsilon_{ij}^2-\frac{1}{r}\sum_{i=1}^{k}\left(\sum_{j=1}^{r}\varepsilon_{ij}\right)^2\right]=$$

$$=E\left[\sum_{i=1}^{k}\sum_{j=1}^{r}\varepsilon_{ij}^2\right]-\frac{1}{r}\sum_{i=1}^k E\left[\sum_{j=1}^r\varepsilon^2_{ij}+2\sum_{j\neq j}\varepsilon_{ij}\varepsilon_{ij}\right]=$$

$$= E \left[\sum_{i=1}^{k} \sum_{j=1}^{r} \varepsilon_{ij}^2 \right] - \frac{1}{r} \sum_{i=1}^{k} \sum_{j=1}^{r} E(\varepsilon_{ij}^2) - \frac{1}{r} \underbrace{E \left[2 \sum_{j \neq j'} \varepsilon_{ij} \varepsilon_{ij'} \right]}_{\text{é 0, pois } E(\varepsilon_{ij}) = 0 \text{ e } \varepsilon_{ij}, \varepsilon_{ij'} \text{ são independentes, } \forall j \neq j'}$$

$$=\sum_{i=1}^{k}\sum_{j=1}^{r}\left(1-\frac{1}{r}\right)E(\varepsilon^2_{ij})=$$

$$=\sum_{i=1}^{k}\sum_{j=1}^{r}\left(1-\frac{1}{r}\right)(Var(\varepsilon_{ij})+[E(\varepsilon_{ij})]^2), \quad \text{mas } E(\varepsilon_{ij})=0, \text{ então}$$

$$=(N-k)\sigma^2_{\varepsilon}=k(r-1)~\sigma^2_{\varepsilon}$$

Agora calculamos o valor esperado de SQA, mas antes para facilitar a construção definimos $ \overline{y_{i.}}=\mu+\alpha_i+\overline{\varepsilon_{i.}} $ e

$$\overline{y_{..}}=\frac{1}{N}\sum^k_{i=1}\sum^{r}_{j=1}y_{ij}=\frac{1}{N}\sum^k_{i=1}\sum^{r}_{j=1}(\mu+\alpha_i+\varepsilon_{ij})=\frac{1}{N}\underbrace{\displaystyle\sum^k_{i=1}r\mu}_{N\mu}+\frac{1}{N}\sum^k_{i=1}r\alpha_i+\frac{1}{N}\underbrace{\displaystyle\sum^k_{i=1}\sum^{r}_{j=1}\varepsilon_{ij}}_{\displaystyle\sum^{r}_{j=1}r\varepsilon_{i.}}$$

Assim,

$$E[SQA]=E\left[\sum^k_{i=1}r(\overline{y_{i.}}-\overline{y_{..}})^2\right]=$$

$$=E\left[\sum^k_{i=1}r\left(\mu+\alpha_i+\overline{\varepsilon_{i.}}-\frac{1}{N}\left(N\mu+\sum^k_{i=1}r\alpha_i+\sum^{r}_{j=1}r\varepsilon_{i.}\right)\right)^2\right]=$$

$$=E\left[\sum^k_{i=1}r\left(\alpha_i-\frac{1}{N}\sum^k_{i=1}r\alpha_r-\overline{\varepsilon_{i.}}-\frac{1}{N}\sum^k_{i=1}r\overline{\varepsilon_{r.}}\right)^2\right]=$$

$$=\sum^k_{i=1}r \left(E\left[\alpha^2_i-\frac{2}{N}\alpha_i\sum^k_{i=1}r\alpha_r+\frac{1}{N^2}\left(\sum^k_{i=1}r\overline{\varepsilon_{r.}}\right)^2\right]\right)+$$

$$+\sum^k_{i=1}r \left(E\left[(\overline{\varepsilon_{i.}})^2-\frac{2}{N}\overline{\varepsilon_{i.}}\sum^k_{i=1}r\overline{\varepsilon_{r.}}+\frac{1}{N^2}\left(\sum^k_{i=1}r\overline{\varepsilon_{r.}}\right)^2\right]\right)\overset{(**)}{=}$$

$$=\sum^k_{i=1}r \left(\sigma^2_{\alpha}-\frac{2}{N}r\sigma^2_{\alpha}+\frac{1}{N^2}\sum^k_{i=1}r^2\sigma^2_{\alpha}\right)+\sum^k_{i=1}r \left(\frac{\sigma^2_{\varepsilon}}{r}-\frac{2r\sigma^2_{\varepsilon}}{N~r}+\frac{1}{N^2}\sum^k_{i=1}r^2\frac{\sigma^2_{\varepsilon}}{r}\right)=$$

$$=\left(\sum^k_{i=1}r-\frac{2}{N}\sum^k_{i=1}r^2+\frac{1}{N^2}\left(\sum^k_{i=1}r\right)\left(\sum^k_{i=1}r\right) \right)\sigma^2_{\alpha}+$$

$$+\left(\sum^k_{i=1}\frac{r}{r}-\frac{2}{N}\sum^k_{i=1}r^2+\frac{1}{N^2}\left(\sum^k_{i=1}r\right)\left(\sum^k_{i=1}r\right) \right)\sigma^2_{\varepsilon}=$$

$$=\left(N-\frac{1}{N}\sum^k_{i=1}r^2\right)\sigma^2_{\alpha}+(k-1)\sigma^2_{\varepsilon}=$$

$$=r(k-1)\sigma^2_\alpha+(k-1)\sigma^2_\varepsilon$$

Na passagem ($ ** $), usamos a propriedade $ E(X^2)=\text{Var}(X)+E^2(X) $ (para mais detalhes consulte o conteúdo variância de variáveis aleatórias) e o fato que $ \alpha_i $ tem distribuição normal com média zero e variância $ \sigma^2_\alpha $e $ \varepsilon_{ij} $ tem distribuição normal com média zero a variância $ \sigma^2_\varepsilon. $

Portanto, como argumentamos na seção (ANOVA efeitos fixos), o QME é um bom estimador para a variância pois

$$E[QME]=E\left[\frac{SQE}{N-k}\right]=\frac{1}{N-k}E[SQE]=\sigma^2_{\varepsilon};~~~{e}$$

$$E[QMA]=E\left[\frac{SQA}{k-1}\right]=\frac{1}{k-1}E[SQA]=\frac{1}{k-1}(k-1)(r\sigma^2_\alpha+\sigma^2_\varepsilon)=r\sigma^2_{\alpha}+\sigma^2_{\varepsilon}$$

Assim, QMA também é um bom estimador para a variância. Entretanto, se existe diferença entre as médias dos níveis, o valor esperado do quadrado médio do fator A (devido aos níveis) é maior do que $ \sigma^{2}_{\varepsilon} $.

Assim, temos os seguintes graus de liberdade:

Soma de Quadrados Graus de Liberdade Quadrados Médios
SQA k - 1 $ \frac{SQA}{k-1} $
SQE k (r - 1) $ \frac{SQE}{k(r-1)} $
SQT k r - 1

Tabela 9.4.2: Graus de Liberdade

Agora, mostramos um breve resumo dos valores esperados dos quadrados médios.

Fator Graus de Liberdade Quadrados Médios Valor Esperado dos Quadrados Médios
Fator A k-1 $ QMA $ $ E(QMA)=\sigma^2_\varepsilon+r\sigma^2_\alpha $
Erro k(r-1) $ QME $ $ E(QME)=\sigma^2_\varepsilon $

Tabela 9.4.3: Valores Esperados dos Quadrados Médios.

Estatística
$ QMA= $ $ r\displaystyle\sum^k_{i=1}\frac{(\overline{Y_{i.}}-\overline{Y_{..}})^2}{k-1} $
$ QME= $ $ \displaystyle\sum^k_{i=1}\sum^r_{j=1}\frac{(\overline{Y_{ij}}-\overline{Y_{i.}})^2}{k(r-1)} $
$ \overline{Y_{i.}}= $ $ \displaystyle\sum^r_{j=1}\frac{Y_{ij}}{r} $
$ \overline{Y_{..}}= $ $ \displaystyle\sum^k_{i=1}\sum^r_{j=1}\frac{Y_{ij}}{kr} $

Tabela 9.4.4: Resumo dos Quadrados médios e médias para o modelo (1.1).

Com os resultados obtidos na tabela 1.1.1 temos os seguintes estimadores:

Para a componente do erro temos

$$\hat{\sigma}^2_\varepsilon=QME \tag{1.1.1}$$

Agora, para calcular o efeito do fator A, utilizamos a equação (1.1.1) da seguinte forma

$$\hat{\sigma}^2_\alpha=\frac{QMA-\hat{\sigma}^2_\varepsilon}{r}\overset{(1.1.1)}{=}\frac{QMA-QME}{r} \tag{1.1.2}$$

A tabela 9.4.5 representa os estimadores pontuais do modelo (1.1).

Representação do Modelo Estimador Pontual
$ \hat{\mu} $ $ \overline{Y}_{…} $
$ \hat{\sigma}^2_\alpha $ $ \displaystyle\frac{QMA-QME}{r} $
$ \hat{\sigma}^2_\varepsilon $ $ QME $

Tabela 9.4.5: Resumo dos Estimadores pontuais para o modelo (1.1).

4.2 - Análise Estatística

Como mencionado anteriormente, inferências sobre componentes de variância de dados desbalanceados são muito mais complicadas do que à partir de dados balanceados. A razão é que a análise de variância de dados balanceados é bastante simples uma vez que existe uma única partição da soma de quadrados total, que sob a suposição da distribuição padrão seguem um múltiplo de uma distribuição Qui-Quadrado. Este múltiplo sendo o produto dos graus de liberdade e valor esperado do quadrado médio de um dos efeitos aleatórios.

Assim, as hipóteses sobre os efeitos do tratamento pode ser testada pela divisão do quadrado médio do tratamento pelo erro quadrático médio apropriado para formar uma relação de variância (teste F). Agora, dados desbalanceados não tem estas propriedades já que não existe uma única partição da soma de quadrados total, consequentemente, não há uma única de análise de variância.

Além disso, em qualquer decomposição dada, as somas de quadrados de componentes não são independentes (em geral) ou identicamente distribuídos como variáveis do tipo Qui-Quadrado. Correspondente a qualquer quadrado médio do tratamento em particular significa que não existe um erro quadrático médio com valor esperado igual sob a hipótese nula.

Em modelos com dados balanceados, QME e QMA são independentes e,

$$\frac{SQE}{\sigma^2_{\varepsilon}}\sim \chi^2_{k(r-1)}$$

No entanto, a menos de $ \sigma^2_{\alpha}=0, $ temos que

$$\frac{SQA}{\sigma^2_{\alpha}}$$

não tem distribuição Qui-Quadrado.

Uma solução para este problema é construir intervalos de confiança usando um conjunto alternativo de estatísticas. Em particular, usamos somas não ponderadas dos quadrados (SQNP) para esta finalidade. Thomas e Hultquist propôs a estatística

$$(k-1)\frac{SQA_{*}}{\sigma^2_{\alpha *}}$$

em que

$$QMA_{*}=\frac{n_H}{k-1}\sum^k_{i=1}(\overline{y_{i.}}-\overline{y}^*_{..})^2,~~~~~~\hbox{com}~~\begin{cases}\overline{y}^*_{..}=\frac{1}{^k}\displaystyle\sum^k_{i=1}\overline{y}_{i.} \cr \hbox{e} \cr n_H=\frac{k}{\displaystyle\sum^k_{i=1}\frac{1}{n_i}} \cr \end{cases}$$

e

$$\sigma^2_{\alpha *}=E(QMA_{*})=n_H\sigma^2_{\alpha}+\sigma^2_{\varepsilon}$$

Computacionalmente,

$$\sum^k_{i=1}(\overline{y_{i.}}-\overline{y}^*_{..})^2=\sum^k_{i=1}(\overline{y_{i.}})^2-\frac{(\displaystyle\sum^k_{i=1}\overline{y}^*_{..})^2}{k}$$

A estatística $ SQA_{*} $ é a soma de quadrados não balanceadas SQNB das médias dos tratamentos e nH é a média harmônica dos ni valores. Thomas e Hultquist mostrou que sob as suposições do modelo (1.1) a função geradora de momentos de $ \displaystyle\frac{SQA_{*}}{\sigma^2_{\alpha *}} $ aproxima para uma variável aleatória Qui-Quadrado com k-1 graus de liberdade e para todo ni é aproximado para uma constante, ou se $ \rho=\displaystyle\frac{\sigma^2_{\alpha}}{\sigma^2_{\alpha}+\sigma^2_{\varepsilon}} $ aproxima para 1, ou se todo ni tende a infinito. Além disso, estudos feitos através de simulações, mostrou que esta aproximação tem resultado satisfatório para $ \rho< 0,20, $ mesmo em experimentos extremamente desbalanceados.

Agora, vamos supor que os dados são balanceados. Assim, desenvolvemos um teste para avaliar a hipótese de diferenças ou não entre as médias populacionais dos níveis, isto é,

Objetivo Hipótese
Efeito do fator A $\begin{cases} H_0: \alpha_1 = \cdots = \alpha_k = 0 \cr H_1: \alpha_i \neq 0 \hbox{ (para algum) } ~ i = 1, …, k \end{cases}$

Tabela 9.4.6: hipótese de diferenças entre as médias populacionais dos níveis

Como os erros $ \varepsilon_{ij} $ tem distribuição Normal com média 0 e variância $ \sigma^{2}_{\varepsilon} $ independentes e como dito anteriormente $n_i → r (n_i ≈ r)$.

Assim,

$$\frac{SQE}{\sigma^2_\varepsilon}\sim\chi^2_{k(r-1)}~~~{e}~~~~\frac{SQA}{\sigma^2_\alpha}\sim\chi^2_{(k-1)}$$

Entretanto, as três somas de quadrado não necessariamente são independentes, pois

$$SQT=SQE+SQA$$

Para estabelecer a independência entre as SQE e a SQA, vamos utilizar a seguinte versão do teorema de Cochran.

Teorema de Cochran

Se tivermos $ Q = Q_1 + Q_2 + … + Q_q $ no qual $ ~Q_i~,~i = 1, 2,…,q~(q \leq p) $ são somas de quadrados, cada um com pi graus de liberdade, tal que:

$$p=\sum^{q}_{i=1}p_i$$

obtemos que $ Q_i\sim \chi^{2}_{(p_i)} $ e são independentes para qualquer $ i = 1, 2,…, q $.

Teste da ANOVA - Um Fator

Como $ \displaystyle\frac{{SQA}}{\sigma_\alpha^{2}} $ e $ \displaystyle\frac{{SQE}}{\sigma^{2}_\varepsilon} $ têm distribuição Qui-Quadrado, independentes, obtemos que

$$F_0 =\frac{\displaystyle\frac{SQA}{(k-1)}}{\displaystyle\frac{SQE}{k(r-1)}}=\frac{QMA}{QME}\sim F_{(k-1; k(r-1))}$$

Se $ F_0> F_{(1-\alpha,k-1, k(r-1))} $, rejeitamos $ H_0 $ e concluímos que existe diferença significativa entre as médias dos níveis do fator (tratamentos), no qual $ F_{(1-\alpha, k-1, k(r-1))} $ corresponde ao quantil da distribuição F de Snedecor com nível de confiança de $ 1-\alpha, $

Figura9.1.5

Figura 9.4.2: Quantil da distribuição F-Snedecor.

Podemos ainda calcular o P-valor como, $ P[~F_{(k-1;k(r-1))}> F_0~\mid~H_0] $

A ANOVA pode ser representada na tabela a seguir:

FV Soma de Quadrados Graus de Liberdade Quadrados Médios $F_0$
Fator SQA k - 1 $QMA = \dfrac{SQA}{k-1} $ $F_0 = \dfrac{QMA}{QME}$
Erro SQE k (r - 1) $QME = \dfrac{SQE}{k(r-1)} $
Total SQT k r - 1

Tabela 9.4.7: ANOVA - Um Fator.

Exemplo 4.2.1

Voltando ao Exemplo 4.1 temos

Para testarmos as seguintes hipóteses:

$$ \begin{cases} H_0: \alpha_1 = \cdots = \alpha_{20} \cr \alpha_{\ell} \neq \alpha_{m}, ~ \hbox{para algum}~~\ell \neq m. \end{cases}$$

as somas de quadrados são dadas por:

$$SQT~=\sum^n_{i=1}\sum^{n_i}_{j=1}y_{ij}^{2}-\frac{y^{2}_{..}}{N}=239,54$$

$$SQA=\sum^n_{i=1}\cfrac{1}{n_i}y_i^{2} -\frac{y^{2}_{..}}{N}= 138,2$$

Com isso, temos que

$$SQE=SQT-SQA= 101,33$$

A tabela 9.4.8 abaixo representa a ANOVA para o fator Escola.

FV Soma de Quadrados Graus de Liberdade Quadrados Médios $F_0$
Fator 138,2 $4 - 1 = 3$ $\dfrac{138,2}{3} = 46,07 $ $F_0 = \dfrac{QMA}{QME} = 34,55$
Erro 101,33 $4 \ast (20-1) = 76$ $QME = \dfrac{101,33}{76} = 1,33 $
Total 239,54 $20 \ast 4 -1 = 79$

Tabela 9.4.8: ANOVA para o fator Escola.

O valor aproximado do P-valor é: $ P[~F_{(3,76)}> F_0~\mid~H_0~]=3,4\times 10^{-14}≈0 $

Para $ \alpha = 0,05 $, obtemos que $ F[0,05, 3, 76] = 2,72 $. Portanto, com 95% de confiança, rejeitamos $ {H}_0 $, ou seja, pelo menos um $ \alpha_i $ é diferente de zero, para $ i=1,\ldots,n $.

Veja a seguir os resultados obtidos pelo software Action.

G.L. Soma de Quadrados Quadrado Médio Estat. F P-valor
Escolas 3 138.208 46.0693 34.5518 0
Resíduos 76 101.3339 1.3333

Tabela 9.4.9: Tabela da ANOVA

4.3 - Estimação dos parâmetros do modelo

O método de análise de variância (ANOVA) para estimar componentes de variância $ \sigma^2_{\varepsilon} $ e $ \sigma^2_{\alpha} $ consiste em igualar os valores bservados dos quadrados médios QME e QMA aos seus valores esperados, e resolver as equações resultantes para $ \sigma^2_{\varepsilon} $ e $ \sigma^2_{\alpha}. $ Os estimadores para dados balanceados obtidos são

$$\hat{\sigma}^2_{\varepsilon}=QME~~~~~ \hbox{e} ~~~~\hat{\sigma}^2_{\alpha}=\frac{QMA-QME}{n_0} \tag{1.3.1}$$

Agora, para o caso de dados desbalanceados usaremos as estatística proposta por Thomas e Hultquist, com isso obtemos os seguintes estimadores

$$\hat{\sigma}^2_{\alpha *}=\frac{QMA_{*}-QME}{n_H}~~~~ \tag{1.3.2}$$

O problema da ponderação na estimativa de componentes de variância é discutida por Robertson (1962). Verificamos que a ponderação correta é dependente do valor da F da análise de variância.

Para o estimador de $ \hat{\sigma}^2_{\alpha} $ podemos obter uma estimativa negativa. Mathew et al. (1992) consideram estimadores não negativos à partir de modelos desbalanceados com duas componentes de variância, dos quais o modelo (equação 1.1) é um caso especial. Chatterjee e Das (1983) desenvolveram melhores estimadores assintoticamente normais para os componentes de variância. Kelly e Mathew (1993) discutiram um estimador quadrático invariante de $ \sigma^2_{\alpha} $ que tem uma probabilidade de $ QME $ ser menor que para produzir uma estimativa negativa de $ \hat{\sigma}^2_{\alpha}, $ ou seja, $ P[\hat{\sigma}^2_{\alpha}< 0]=P[QME< QMA]. $

Além disso, QMA pode ser expressa como uma combinação linear central variáveis Qui-Quadrado independentes. Assim, a distribuição de QMA pode ser aproximada para uma variável Qui-Quadrado central, usando a aproximação Satterthwaite.

Agora, a probabilidade de uma estimativa negativa pode ser avaliada em termos das distribuições F centrais. Singh (1989a) desenvolveu uma expressão para determinar um valor exato para a probabilidade $ P (\sigma^2_{\alpha}< 0), $ utilizando uma soma infinita ponderada das funções beta incompletas.

Um valor exato da probabilidade de uma estimativa negativa também pode ser avaliada à partir de Davies (1980), que dá um algoritmo para calcular a distribuição de uma combinação linear de variáveis Qui-Quadrado independentes (possivelmente não-centrais) com graus de liberdade arbitrários.

Para a construção dos intervalos de confiança, usamos algumas constantes para as combinações lineares citadas anteriormente. Por exemplo, construímos uma tabela com nível de significância 0,05, k=10 e N=17.

Constante Definição Valor
$ G_a $ $ 1-F_{\frac{\alpha}{2}:\infty;k-1} $ 0,5269
$ G_e $ $ 1-F_{\frac{\alpha}{2}:\infty;N-k} $ 0,5628
$ H_a $ $ F_{1-\frac{\alpha}{2}:\infty;k-1}-1 $ 2,333
$ H_e $ $ F_{1-\frac{\alpha}{2}:\infty;N-k}-1 $ 3,142
$ F_a $ $ F_{1-\frac{\alpha}{2}:k-1;N-k} $ 4,823
$ F_e $ $ F_{\frac{\alpha}{2}:k-1;N-k} $ 0,2383
$ G_{ae} $ $ \frac{(F1-1)^2-G^2_1F^2_1-H^2_2}{F_1} $ -0,356
$ H_{ae} $ $ \frac{(1-F2)^2-H^2_1F^2_2-G^2_2}{F_2} $ -0,191
$ H_{ae} $ $ \frac{(1-F2)^2-H^2_1 F^2_2-G^2_2}{F_2} $ -0,191

Tabela 9.4.10: Constantes usadas nos Intervalos de Confiança da equação 1.1.

Intervalo de Confiança para $ \mu $

O intervalo de confiança para $ \mu $ é obtido substituindo $ QMA $ por $ QMA_{*},~n_H $ por $ n_i~\hbox{e}~\overline{y}^*_{..} $ por $ \overline{y_{..}} $ Assim, o intervalo de confiança $ 100(1-\alpha) \char37 $ aproximada para $ \mu $ é

$$ LI=\overline{y_{..}}^*-\sqrt{\frac{QMA_{*}F_{1-\frac{\alpha}{2}:1,k-1}}{k~n_H}} $$

e

$$ LS=\overline{y_{..}}^*+\sqrt{\frac{QMA_{*}F_{1-\frac{\alpha}{2}:1,k-1}}{k~n_H}} \tag{1.3.4} $$

El-Bassiouni e Abdelhafez fez a comparação da equação 1.3.4 a nove outros intervalos para $ \mu. $ (A forma da equação 1.3.4 considerada por El-Bassiouni e Abdelhafez usou graus de liberdade estimados com base na aproximação Satterthwaite. No entanto, eles encontraram esta equação e foi adequadamente aproximada por p-1). A equação 1.3.4 manteve o nível de confiança declarado.

Intervalo de Confiança para $ \sigma^2_{\alpha} $

Um intervalo de confiança $ 100(1-\alpha) \char37 $ aproximado para $ \sigma^2_{\alpha} $ baseados nas modificações da Soma de Quadrados Não Balanceadas $ SQNB $ da equação 1.1 é

$$LI=\hat{\sigma}^2_{\alpha}-\frac{\sqrt{V_{\alpha I}}}{n_H}$$

e

$$LS=\hat{\sigma}^2_{\alpha}+\frac{\sqrt{V_{\alpha S}}}{n_H} \tag{1.3.5}$$

em que

$$V_{\alpha I}=G^2_{a} QMA^2_{\alpha *}+H^2_{e} QME^2+G_{ae} QMA_{\alpha *}QME,$$

$$V_{\alpha S}=H^2_{a} QMA^2_{\alpha *}+G^2_e QME^2+H_{ae} QMA_{\alpha *}QME$$

sendo $ G_{a}, G_e, H_a, H_e, G_{ae} $ e $ H_{ae} $ são definidos na tabela 9.4.10 e $ \hat{\sigma}^2_{\alpha *} $ é definido na equação 1.3.2.

Intervalo de Confiança para $ \sigma^2_{\varepsilon} $

O $ 100(1-\alpha) \char37 $ Intervalo de Confiança exato para $ \sigma^2_{\varepsilon} $ é

$$LI=(1-G_e)QME$$

e

$$LS=(1+H_e)QME \tag{1.3.6}$$

em que $ G_e $ e $ H_e $ são definidas na Tabela 9.4.10 e $ \frac{SQE}{\sigma^2_{\varepsilon}} $ tem uma distribuição Qui-Quadrado em modelos com dados balanceados e desbalanceados.

Exemplo 4.3.1

Voltando ao exemplo 1.1, calculamos agora as estimativas dos parâmetros da seguinte forma

A partir dos resultados obtidos no exemplo 1.2.1 temos que

$$QME=1,33 ~ \hbox{e} ~ QMA=46,07$$

Primeiramente, calculamos o intervalo de confiança para $ \mu.=\overline{y_{..}}=5,32 $

$$ LI=\overline{y_{..}}^*-\sqrt{\frac{QMA_{*}F_{1-\frac{\alpha}{2}:1,k-1}}{k~n_H}}=5,32-\sqrt{\frac{46,07\times 5,92}{20 \times 4}}=3,48~~~~e $$

$$ LS=\overline{y_{..}}^*+\sqrt{\frac{QMA_{*}F_{1-\frac{\alpha}{2}:1,k-1}}{k~n_H}}=5,32+\sqrt{\frac{46,07\times 5,92}{20\times 4}}=7,17 $$

O intervalo de confiança para $ \sigma^2_{\alpha} $ é dado por

$$\hat{\sigma}^2_{\alpha}=\sqrt{\frac{QMA-QME}{r}}=\sqrt{\frac{46,07-1,33}{20}}=1,496$$

$$LI=\sqrt{\hat{\sigma}^2_{\alpha}-\frac{\sqrt{V_{\alpha I}}}{n_H}}=\sqrt{2,237-\frac{\sqrt{980,708}}{20}}=0,819~~~~{e}$$

$$LS=\sqrt{\hat{\sigma}^2_{\alpha}+\frac{\sqrt{V_{\alpha S}}}{n_H}}=\sqrt{2,237+\frac{\sqrt{353261,7}}{20}}=5,653$$

em que

$$V_{\alpha I}=G^2_{a} QMA^2_{\alpha *}+H^2_{e} QME^2+G_{ae} QMA_{\alpha *}QME=$$

$$=0,679^2~46,07^2+0,413^2~1,33^2+(0,0263)~46,07~1,33=980,708$$

$$V_{\alpha S}=H^2_{a} QMA^2_{\alpha *}+G^2_e QME^2+H_{ae} QMA_{\alpha *}QME=$$

$$=12,902^2~46,07^2+0,255^2~1,33^2+(-0,776)~46,07~1,33=353261,7$$

O intervalo de confiança para $ \sigma^2_{\varepsilon} $ é dada por

$$\hat{\sigma}_\varepsilon=\sqrt{QME}=\sqrt{QME}=\sqrt{1,33}=1,15$$

$$LI=\sqrt{(1-G_e)QME}=\sqrt{(1-0,255)~1,33}=0,997$$

e

$$LS=\sqrt{(1+H_e)QME}=\sqrt{(1+0,413)~1,33}=1,373$$

A seguir apresentamos um resumo dos resultados

Fator Desvio padrão Limite Inferior Limite Superior
Erro 1,155 0,997 1,373
Escola 1,496 0,819 5,653
Total 1,889

Tabela 9.4.11: Intervalos de Confiança para $\sigma^2_{\alpha}$

G.L. Soma de Quadrados Quadrado Médio Estat. F P-valor
Escolas 3 138.208 46.0693 34.5518 0
Resíduos 76 101.3339 1.3333

Tabela 9.4.12: Tabela da ANOVA

Exemplo 4.3.2

Considere o estudo realizado para analisar a eficiência do sistema de medição para medir o dimensional da porta de uma máquina escavadeira. O sistema de medição utiliza uma máquina de medição por coordenada com CNC. Neste caso, consideramos que o operador não influência a medição, fato que nos levou a considerar apenas um operador e 15 peças na análise.

Peça Medições
1 461,28
2 458,17
3 460,57
4 459,28
5 461,28
6 460,25
7 458,82
8 461,58
9 459,36
10 459,62
11 461,38
12 458,67
13 462,57
14 459,58
15 461,76
1 461,5
2 458,62
3 460,28
4 459,66
5 461,12
6 460,68
7 458,95
8 461,1
9 459,52
10 459,34
11 461,57
12 459,03
13 462,28
14 459,66
15 461,12
1 461,2
2 458,61
3 460,32
4 459,58
5 461,18
6 460,28
7 458,66
8 461,18
9 459,57
10 459,54
11 461,53
12 458,98
13 462,32
14 459,28
15 461,15

Tabela 9.4.13: Medições das 15 peças da amostra

As somas de quadrados são dadas por:

$$SQT=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(y_{ij}-\overline{y_{i.}})^{2}+\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\overline{y_{i.}}-\overline{y_{..}})^{2}=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(y_{ij}-\overline{y_{i.}})^{2}+\sum_{i=1}^{k}n_{i}(\overline{y_{i.}}-\overline{y_{..}})^{2}=60,666$$

$$SQA=\sum^k_{i=1}n_i(\overline{y_{i.}}-\overline{y_{..}})^2=59,5$$

Com isso, temos que

$$SQE=SQT-SQA=60,666-59,5=1,166$$

Agora, calcularemos os Quadrados Médios

$$QME=\frac{SQE}{N-k}=\frac{1,166}{45-15}=0,03884$$

$$QMA=\frac{SQA}{k-1}=\frac{59,5}{15-1}=4,25$$

Calculamos os intervalos de confiança. Primeiramente, faremos o intervalo de confiança para $ \mu. $

$$LI=\overline{y_{..}}^*-\sqrt{\frac{QMA_{*}F_{1-\frac{\alpha}{2}:1,k-1}}{k~n_H}}=460,2662-\sqrt{\frac{4,25\times 4,6001}{15 \times 3}}=459,607$$

e

$$LS=\overline{y_{..}}^*+\sqrt{\frac{QMA_{*}F_{1-\frac{\alpha}{2}:1,k-1}}{k~n_H}}=460,2662+\sqrt{\frac{4,25\times 4,6001}{15\times 3}}=460,925$$

O intervalo de confiança para $ \sigma^2_{\alpha} $ é dado por

$$\sigma_{\alpha}=\sqrt{\frac{QMA-QME}{n_r}}=\sqrt{\frac{4,25-0,03884}{3}}=1,184$$

$$LI=\sqrt{\hat{\sigma}^2_{\alpha}-\frac{\sqrt{V_{\alpha I}}}{n_H}}=\sqrt{1,404-\frac{\sqrt{3,889244}}{3}}=0,863$$

e

$$LS=\sqrt{\hat{\sigma}^2_{\alpha}+\frac{\sqrt{V_{\alpha S}}}{n_H}}=\sqrt{1,404+\frac{\sqrt{39,94}}{3}}=1,873$$

em que

$$V_{\alpha I}=G^2_{a} QMA^2_{\alpha *}+H^2_{e} QME^2+G_{ae} QMA_{\alpha *}QME=$$

$$=0,464^2~4,25^2+0,787^2~0,03884^2+(-0,0025)4,25~0,03884=3,889244$$

$$V_{\alpha S}=H^2_{a} QMA^2_{\alpha *}+G^2_e QME^2+H_{ae} QMA_{\alpha *}QME=$$

$$=1,4872^2~4,25^2+0,36142^2~0,03884^2+(-0,068)4,25~0,03884=39,94$$

O intervalo de confiança para $ \sigma^2_{\varepsilon} $ é dada por

$$\sigma_\varepsilon=\sqrt{QME}=0,197$$

$$LI=\sqrt{(1-G_e)QME}=\sqrt{(1-0,3614)0,03884}=0,157$$

e

$$LS=\sqrt{(1+H_e)QME}=\sqrt{(1-0,787)0,03884}=0,263$$

Resultados obtidos pelo software Action Stat (RR):

G.L. Soma dos quadrados Quadrados Médios Estatística F P-Valor
Peças 14 59.5007 4.2501 109.4309 0
Repetitividade 30 1.1651 0.0388

Tabela 9.4.14: Tabela da ANOVA

Variâncias Contribuição (%)
Repetitividade 0.0388 2.6923
Peças 1.4037 97.3077
Repetitividade e reprodutibilidade 0.0388 2.6923
Total 1.4426 100

Tabela 9.4.15: Tabela de Contribuição

Desvio padrão Variação total (%)
Repetitividade 0.1971 16.4081
Peças 1.1848 98.6447
Repetitividade e reprodutibilidade 0.1971 16.4081
Total 1.2011 100

Tabela 9.4.16: Variação Total e/ou Tolerância