9.1 ANOVA Um Fator - Efeitos Fixos

1 - ANOVA Um Fator

Vamos apresentar uma ferramenta para analisar o comportamento de diversos tratamentos de um fator aplicados a um processo, produto ou serviço. Por exemplo, considere o processo de tratamento térmico no qual controlamos a dureza do material. Neste caso, temos como objetivo avaliar o efeito da temperatura do forno na dureza do material. Para isto, elaboramos um experimento no qual produzimos peças em diferentes níveis de temperatura do forno e medimos a dureza destas peças. Com estas observações, podemos aplicar a técnica da ANOVA para escolhermos o nível adequado de temperatura que garanta peças com boas propriedades.

Considere um processo, produto ou serviço no qual queremos avaliar o impacto do fator A , tal que A tenha k níveis, sendo que esses níveis são fixos. Suponha que uma amostra de N unidades experimentais é selecionada completamente aleatória de uma população de unidades experimentais. A unidade experimental é a unidade básica para o qual os tratamentos são aplicados, para mais detalhes sobre unidades experimentais ver módulo de planejamento de experimento. A matriz de dados é apresentada conforme a tabela 9.1.1.

Nível Fator A Somas Médias
1 $y_{11}$ $y_{12}$ . . . $y_{1n_{1}}$ $y_{1.}$ $\bar{y}_{1.}$
2 $y_{21}$ $y_{22}$ . . . $y_{1n_{2}}$ $y_{2.}$ $\bar{y}_{2.}$
$\vdots$ $\vdots$ $\vdots$ $\vdots$ $\vdots$ $\vdots$ $\vdots$
k $y_{k1}$ $y_{k2}$ . . . $y_{1n_{k}}$ $y_{k.}$ $\bar{y}_{k.}$

Tabela 9.1.1: Apresentação dos dados para um fator.

Na sequência, apresentamos um exemplo no qual queremos estudar o comportamento de um processo nos diferentes níveis de um fator de controle.

Exemplo 1.1

Considere o processo de produção de uma fibra sintética, no qual o experimentador quer conhecer a influência da porcentagem de algodão na resistência da fibra. Para isto, foi realizado um experimento totalmente aleatorizado, no qual diversos níveis de porcentagem de algodão foram avaliados com respeito à resistência da fibra. Um ponto importante no planejamento do experimento é que para cada nível do fator (porcentagem de algodão), os outros fatores que influenciam o processo (como o meio ambiente, máquina, matéria prima, etc) devem apresentar um padrão homogêneo de variabilidade. No experimento, tomamos 5 níveis para a porcentagem de algodão e 5 replicações.

k Algodão Resistência da Fibra Somas ($y_{i.}$) Médias ($\bar{y}_{i.}$)
1 15 7 7 15 11 9 49 9,8
2 20 12 17 12 18 18 77 15,4
3 25 14 18 18 19 19 88 17,6
4 30 19 25 22 19 23 108 21,6
5 35 7 10 11 15 11 54 10,8
$y_{..} =$ 376 $\bar{y}_{..} =$ 15,04

Tabela 9.1.2: Amostra para um fator (Algodão)

Para efetuarmos as análises no software Action devemos montar a tabela da seguinte forma:

Fator Resistência
15 7
15 7
15 15
15 11
15 9
20 12
20 17
20 12
20 18
20 18
25 14
25 18
25 18
25 19
25 19
30 19
30 25
30 22
30 19
30 23
35 7
35 10
35 11
35 15
35 11

Tabela 9.1.3: Organização dos dados

Inicialmente, faremos uma análise descritiva dos dados que facilita a interpretação dos mesmos e a aplicação do modelo da ANOVA. Diversos gráficos podem nos auxiliar na apresentação dos dados, abaixo apresentamos algumas alternativas. Um dos gráficos mais utilizados é o Box-Plot.

Figura 9.1.1

Figura 9.1.1: Gráfico de Boxplot.

Outra opção é o Dotplot. Neste caso, todos os pontos são alocados em uma mesma escala o que facilita a comparação.

Figura 9.1.2

Figura 9.1.2: Gráfico de Dotplot

O gráfico de intervalo de Confiança das Médias também é bastante utilizado. Neste caso, calculamos a média e o desvio padrão para cada nível do fator e com isso, obtemos o desvio padrão agrupado. Na sequência, utilizamos a distribuição t-student para construirmos o intervalo de confiança para a média de cada nível.

Fator Média Desvio Padrão Limite Inferior Limite Superior
15 9,8 2,83 7,15 12,45
20 15,4 2,83 12,75 18,05
25 17,6 2,83 14,95 20,25
30 21,6 2,83 18,95 24,25
35 10,8 2,83 8,15 13,45

Tabela 9.1.4: Intervalos de COnfiança das Médias

Figura 9.1.3

Figura 9.1.3: Intervalo de Confiança das Médias.

Também podemos fazer um gráfico apenas com as médias, que denominamos de gráfico de efeitos principais.

Figura 9.1.4

Figura 9.1.4: Gráfico de efeitos principais para o Exemplo 1.

Note que para construirmos este gráfico utilizamos as médias $ \overline{y}_{i.} $ de cada nível versus os níveis do fator, ou seja, para 15 % de algodão temos uma resistência média de 9,8, para 25 % a média é 15,4 e assim por diante. A linha pontilhada representa a média geral dos dados.

Através dos gráficos, observamos que o valor da resistência aumenta com a porcentagem de algodão até o nível de 30%, para o nível de 35% ocorre um queda na resistência da fibra, tudo indica que o sistema saturou. Além disso, observamos que a variabilidade é similar ao longo dos níveis de porcentagem de algodão.

Do ponto de vista prático queremos avaliar se variações no fator (porcentagem de algodão) provocam alterações significativas na resistência da fibra. Através dos gráficos, temos indicações de que a resposta é afirmativa.

Neste exemplo simples, os k níveis foram especificados e fixados pelo experimentador. Nesta situação, queremos testar hipóteses sobre as médias dos níveis, e nossas conclusões não podem ser estendidas para níveis não considerados no experimento. Este modelo é denominado modelo de efeito fixo. Alternativamente, se os k níveis são escolhidos aleatoriamente de uma população de níveis, podemos estender as conclusões para todos os demais níveis da população. Neste caso, os efeitos são variáveis aleatórias e denominados efeitos aleatórios e a discussão deste conteúdo está no módulo modelo com efeitos aleatórios. Neste módulo, vamos avaliar apenas a ANOVA com efeitos fixos.

1.1 - Modelo

Modelo para os dados

Para uma boa análise é necessário descrever os dados através de um modelo apropriado. Um dos mais simples é o modelo de efeitos, descrito por:

$$y_{ij}=\mu +\alpha_i+\varepsilon_{ij} $$

em que, $ j = 1, \cdots ,n_i $ e $ i = 1;2, \cdots ,k $.

Para este modelo $ \mu $ é um parâmetro comum a todos os tratamentos e representa a média geral dos dados, $ \alpha_{i} $ é o efeito que o nível i do fator provoca na variável resposta. A variável aleatória $ \varepsilon_{ij} $ corresponde ao erro aleatório experimental, isto é, a variabilidade devido aos outros fatores que influenciam no processo, produto ou serviço e que não foram considerados no experimento. O erro experimental representa as variações não explicada pelo modelo, que tem como causa as variações presentes em diversas fontes não consideradas no estudo.

Resumindo,

$ y_{ij} $= j-ésima observação do nível i do fator A;

$ \mu $ = média geral dos dados;

$ \alpha_i $ = efeito do nível i do fator;

$ \varepsilon_{ij} $ = componente aleatória do erro.

A partir dos dados, utilizaremos a seguinte notação:

$ y_{i.}=\displaystyle \sum_{j=1}^{n_{i}} y_{ij} $: soma das observações do nível i do fator A,

$ \overline{y}_{i.}=\cfrac{\displaystyle\sum_{j=1}^{n_{i}} y_{ij}}{\displaystyle n_{i}} $: média das observações do nível i do fator A,

$ y_{..}=\displaystyle\sum_{i=1}^{n} \sum_{j=1}^{n_{i}}y_{ij} $: soma de todas as observações, e

$ \overline{y}_{..}=\dfrac{\displaystyle \sum_{i=1}^{n}\sum_{j=1}^{n_{i}} y_{ij}}{\displaystyle N} $: média geral das observações,

sendo $N = \displaystyle \sum_{i=1}^k n_{i} $, total de observações.

Além disso, faremos a hipótese de que o erro experimental são variáveis aleatórias independentes e identicamente distribuídas com distribuição normal com média zero e variância $ \sigma^2 $, isto é, assumimos que $ \varepsilon_{ij} \sim N(0, \sigma^2) $. Desta forma, concluímos que $ y_{ij} $ também tem distribuição normal com média $ \mu + \alpha_i $ e variância $ \sigma^2 $, para todo $ j=1, \cdots , n_i $ e $ i=1, \cdots , k $.

Na prática estamos interessado em avaliar o impacto do fator na resposta. Para isto, queremos avaliar o efeito que os diferentes níveis do fator provoca na variável resposta. Se denotarmos por $ \mu_i = \mu + \alpha_i $, queremos testar as hipóteses:

$$\begin{cases} H_0: \mu_{1} = \cdots = \mu_{k} \cr H_1: \mu_{i} \neq \mu_{j} ~ (i\neq j) \end{cases} \Leftrightarrow \begin{cases} H_0: \mu_{1} = \cdots = \mu_{k} \cr H_1: \hbox{pelo menos um é diferente.} \end{cases} $$

No modelo de efeito fixo, temos:

$ \displaystyle\mu=\cfrac{\displaystyle \sum^n_{i=1} n_{i} \mu_{i} }{\displaystyle\sum^n_{i=1}n_{i}}=\frac{\displaystyle\sum^n_{i=1}n_{i} (\mu+\alpha_{i})}{\displaystyle\sum^n_{i=1} n_{i}}=\mu + \frac{\displaystyle\sum^n_{i=1}n_{i} \alpha_{i}}{\displaystyle\sum^n_{i=1}n_{i}}, $

esta definição implica que:

$ \displaystyle\sum^n_{i=1}n_{i} \alpha_{i}=0. $

Assim, podemos escrever as hipóteses, como:

$$ \begin{cases} H_0: \alpha_{1} = \cdots = \alpha_{k} = 0 \cr H_1: \alpha_{i} \neq 0 \quad (\hbox{para algum }i = 1,…,k) \end{cases} $$

1.2 - Decomposição da Soma de Quadrados

A técnica da ANOVA está associada a partição da variabilidade total dos dados em componentes. A soma de quadrados total é definida como medida da variabilidade total dos dados,

$$SQT=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(y_{ij} - \overline{y}_{..})^{2}.$$

Intuitivamente isto é razoável, pois se dividirmos SQT pelos seus graus de liberdade (N -1), obtemos a variância amostral dos dados.

Somando e subtraindo $ \overline{y}_{i.} $ obtemos

$$SQT=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\left[(y_{ij}-\overline{y}_{i.})+(\overline{y}_{i.}-\overline{y}_{..})\right]^{2}$$

$$\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(y_{ij}-\overline{y}_{i.})^{2}+2\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(y_{ij}-\overline{y}_{i.})(\overline{y}_{i.}-\overline{y}_{..})+\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\overline{y}_{i.}- \overline{y}_{..})^{2}$$

Entretanto, o produto cruzado na equação acima é nulo, pois

$$\sum_{i=1}^{k}\sum_{j=1}^{n_{i}} (y_{ij}-\overline{y}_{i.})(\overline{y}_{i.}- \overline{y}_{..})~=~\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\left(y_{ij}\overline{y}_{i.}- y_{ij}\overline{y}_{..}-\overline{y}_{i.}^2+\overline{y}_{i.}\overline{y}_{..}\right)$$

$$=~\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}y_{ij}\overline{y}_{i.}-\sum_{i=1}^{k}\sum_{j=1}^{n_{i}} y_{ij} \overline{y}_{..}-\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\overline{y}_{i.}^2 + \sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\overline{y}_{i.} \overline{y}_{..}$$

$$=~\sum_{i=1}^{k}n_i \overline{y}_{i.}^2 - \overline{y}_{..}\sum_{i=1}^{k}n_i \overline{y}_{i.} -\sum_{i=1}^{k}n_i \overline{y}_{i.}^2 + \overline{y}_{..}\sum_{i=1}^{k}n_i \overline{y}_{i.} =~0,$$

logo

$$SQT=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(y_{ij}-\overline{y}_{i.})^{2}+\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\overline{y}_{i.}-\overline{y}_{..})^{2},$$

isto é,

$$SQT=SQE+SQA.$$

Observações

I. Soma de Quadrados do Fator A (SQA) é o desvio das médias estimadas em cada tratamento (nível) em torno da média geral dos dados. Representa a variabilidade devido aos diferentes níveis do fator A.

II. Soma de Quadrados do Erro (SQE) é o desvio das observações em torno da média estimada do seu nível (tratamento). Representa a variabilidade dentro de cada nível do fator A.

Graus de Liberdade e Estimativas da Variância

O conceito de grau de liberdade está sempre associado a uma soma de quadrados. Considere $ x_1, x_2, \ldots, x_n $ elementos, então

$$\overline{x}=\frac{\sum\limits_{i=1}^{n} x_{i}}{n}~~~{e}~~~\sum_{i=1}^{n}(x_{i}-\overline{x})=0.$$

Como a soma dos desvios $ z_{i}=x_{i}-\overline{x} $ é nula, concluímos que para determinarmos todos os desvios basta conhecermos $ (n-1) $ desvios, pois o último desvio será determinado pela relação

$$\sum_{i=1}^{n}(x_{i}-\overline{x})=\sum_{i=1}^{n}z_{i}=0.$$

Assim, dizemos que a soma quadrática $ \sum\limits_{i=1}^{n}(x_{i}-\overline{x})^2 $ tem $ (n-1) $ graus de liberdade.

Como temos N observações, isso nos dá (N-1) graus de liberdade para a soma de quadrados total (SQT). Além disso, temos k níveis (tratamentos) do fator A, assim teremos (k-1) graus de liberdade para a soma de quadrados relativo aos níveis (SQA)

$$SQA=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\overline{y}_{i.}-\overline{y}_{..})^{2}.$$

Finalmente, dentro de cada nível temos ni réplicas e portanto teremos (ni - 1) graus de liberdade para cada estimativa da variabilidade devido ao erro experimental $ \sum\limits_{j=1}^{n_i}(y_{ij}-\overline{y}_{i.})^{2}. $

Assim, para a soma de quadrados devido ao erro experimental

$$SQE=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(y_{ij}-\overline{y}_{i.}\right)^{2},$$

temos que os graus de liberdade correspondem a $ \displaystyle\sum_{i=1}^{k} (n_{i}-1)=\sum_{i=1}^{k} n_{i}-k=N-k $ graus de liberdade. Sabemos que a variância amostral do nível $ i $ é

$$ s_{i}^{2}=\frac{\displaystyle\sum_{j=1}^{n_{i}}(y_{ij}-\overline{y}_{i.})^{2} }{n_{i}-1}.$$

Então podemos escrever

$$SQE=\displaystyle\sum_{i=1}^{k}(n_i-1)s^{2}_{i}~~~{e}~~~\hat{\sigma}^2=\frac{SQE}{N-k}$$

que corresponde a um estimador da variância do erro experimental ($ \sigma^{2} $). Similarmente, se não existe diferença entre os $ k $ níveis do fator $ A $, podemos utilizar a variação dentro dos níveis com relação a média geral como uma estimativa da variância $ \sigma^{2} $. Especificamente,

$$SQA=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\overline{y}_{i.}-\overline{y}_{..})^{2}=\sum_{i=1}^{k}n_{i}(\overline{y}_{i.}-\overline{y}_{..})^{2}$$

é uma estimativa de $ \sigma^{2} $ se a média dos níveis são iguais. Observe que para todo i, a quantidade

$$\frac{\displaystyle\sum_{i=1}^{k}(\overline{y}_{i.}-\overline{y}_{..})^{2}}{\displaystyle k-1}$$

é uma estimativa da variância da média do nível $ i $ ($ \sigma^{2} / n_i $). Então, obtemos que

$$\frac{\displaystyle \sum_{i=1}^{k}n_{i}(\overline{y}_{i.} -\overline{y}_{..})^{2}}{\displaystyle k-1}$$

corresponde a uma estimativa de $ \sigma^{2} $, caso não tenha diferença entre as médias dos níveis dos fatores. Com isso, a quebra da soma de quadrados total em duas somas de quadrados nos fornece duas estimativas para a variância. A primeira baseada na variabilidade dentro dos níveis e a segunda baseada na variabilidade entre os níveis. Se não existe diferença entre as médias, estas duas estimativas devem ser bastante próximas, caso contrário, suspeitamos que a diferença entre as estimativas é causada pela diferença entre as médias dos tratamentos.

Outra forma para calcularmos os graus de liberdade consiste em determinarmos o valor esperado das componentes $SQA$ e $SQE$. O termo que multiplica $ \sigma^2 $ corresponde aos graus de liberdade.

Vamos calcular o valor esperado destes quadrados médios.

$$E[SQE]=E\left[\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}(y_{ij}-\overline{y}_{i.})^{2}\right]$$

$$=E\left[\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(y_{ij}^2-2y_{ij}\overline{y}_{i.}+\overline{y}_{i.}^2)\right]$$

$$=E\left[ \sum_{i=1}^{k}\sum_{j=1}^{n_{i}}y_{ij}^2-2\sum_{i=1}^{k} n_{i}\overline{y}_{i.}^2+\sum_{i=1}^{k} n_{i}\overline{y}_{i.}^2\right]$$

$$=E\left[\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}y_{ij}^{2}-\sum_{i=1}^{k}\frac{1}{n_i} y_{i.}^{2} \right]$$

Substituindo as informações do modelo em $ y_{ij} $ e $ y_{i.} $, obtemos

$$E[SQE]=E\left[\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\mu+\alpha_{i}+\varepsilon_{ij})^{2}-\sum_{i=1}^{k}\frac{1}{n_i}\left(\sum_{j=1}^{n_{i}}(\mu+\alpha_{i}+\varepsilon_{ij})\right)^{2}\right]$$

$$=E\left[\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}(\mu^2+\alpha_i^2+\varepsilon_{ij}^2+2\mu\alpha_i+2\mu\varepsilon_{ij}+2\alpha_i\varepsilon_{ij})\right.$$

$$-\left.\sum_{i=1}^{k} \frac{1}{n_i} \left( n_i^2\mu^2+n_i^2\alpha_i^2+\sum_{j=1}^{n_{i}}\varepsilon_{ij}^2+2n_i^2\mu\alpha_i+2n_i\mu\sum_{j=1}^{n_{i}}\varepsilon_{ij}+2n_i\alpha_i\sum_{j=1}^{n_{i}}\varepsilon_{ij} \right) \right]$$

$$=E\left[ N\mu^2+\sum_{i=1}^{k} n_i\alpha_i^2+\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij}^2+2\mu\sum_{i=1}^{k} n_i\alpha_i+2\mu\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij}+2\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\alpha_i\varepsilon_{ij} \right.$$

$$-\left.\left( N\mu^2+\sum_{i=1}^{k} n_i\alpha_i^2+\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\frac{\varepsilon_{ij}^2}{n_i}+2\mu\sum_{i=1}^{k} n_i\alpha_i+ 2\mu\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij}+2\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\alpha_i\varepsilon_{ij} \right)\right]$$

$$=E\left[\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij}^2-\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\frac{\varepsilon_{ij}^2}{n_i}\right]$$

$$=E\left[\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\left(1-\frac{1}{n_i}\right)\varepsilon_{ij}^2\right]$$

$$=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\left(1-\frac{1}{n_i}\right)E(\varepsilon^2_{ij})$$

$$=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\left(1-\frac{1}{n_i}\right)(Var(\varepsilon_{ij})+[E(\varepsilon_{ij})]^2), \quad \text{mas } E(\varepsilon_{ij})=0, \text{ então}$$

$$=(N-k)\sigma^2$$

De forma análoga, temos:

$$E[SQA]=E\left[\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\overline{y}_{i.}-\overline{y}_{..})^2 \right]$$

$$=E\left[\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\overline{y}_{i.}^2-2\overline{y}_{i.}\overline{y}_{..}+\overline{y}_{..}^2)\right] \text{ mas }\overline{y}_{i.}=\frac{y_{i.}}{n_i}\text{ e }\overline{y}_{..}=\frac{\sum\limits_{i=1}^k y_{i.}}{N}, \text{ então}$$

$$=E\left[\sum_{i=1}^{k}\frac{y_{i.}^2}{n_i}-2,N\overline{y}_{..}^2 + N \overline{y}_{..}^2\right]$$

$$=E\left[\sum_{i=1}^{k}\frac{y_{i.}^2}{n_i}-\frac{y_{..}^2}{N}\right]$$

Substituindo as informações do modelo em $ y_{ij} $ e $ y_{i.} $, obtemos

$$E[SQA]=E\left[\sum_{i=1}^{k}\frac{1}{n_i}\left(\sum_{j=1}^{n_{i}}(\mu+\alpha_i+\varepsilon_{ij})\right)^2-\frac{1}{N}\left(\sum_{i=1}^{k}\sum_{j=1}^{n_{i}} (\mu+\alpha_i+\varepsilon_{ij})\right)^2\right]$$

$$=E\left[\sum_{i=1}^{k}\frac{1}{n_i}\left(n_i\mu+n_i\alpha_i+\sum_{j=1}^{n_{i}}\varepsilon_{ij}\right)^2-\frac{1}{N}\left(\sum_{i=1}^{k}\left[n_i\mu+n_i\alpha_i+\sum_{j=1}^{n_{i}}\varepsilon_{ij}\right]\right)^2\right]$$

$$=E\left[\sum_{i=1}^{k}\frac{1}{n_i}\left(n_i\mu+n_i\alpha_i+\sum_{j=1}^{n_{i}}\varepsilon_{ij}\right)^2-\frac{1}{N}\left(N\mu+ \sum_{i=1}^{k} n_i\alpha_i+ \sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\varepsilon_{ij}\right)^2\right]$$

$$=E\left[\sum_{i=1}^{k}\frac{1}{n_i}\left(n_i^2\mu^2+n_i^2\alpha_i^2+(\sum_{j=1}^{n_{i}}\varepsilon_{ij})^2+2n_i^2\mu\alpha_i+2n_i\mu\sum_{j=1}^{n_{i}}\varepsilon_{ij}+2n_i\alpha_i\sum_{j=1}^{n_{i}}\varepsilon_{ij}\right)\right.$$

$$-\left.\frac{1}{N}\left(N^2\mu^2+ 2N\mu\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij}+(\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij})^2\right)\right]$$

$$=E\left[\sum_{i=1}^{k} n_i\mu^2 +\sum_{i=1}^{k} n_i\alpha_i^2+\sum_{i=1}^{k}\frac{1}{n_i}(\sum_{j=1}^{n_{i}}\varepsilon_{ij})^2+2\mu\sum_{i=1}^{k} n_i\alpha_i + 2\mu\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij}\right.$$

$$+\left. 2\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\alpha_i\varepsilon_{ij}- N\mu^2-2\mu\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij}-\frac{1}{N}(\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij})^2 \right]$$

$$=E\left[\sum_{i=1}^{k} n_i\alpha_i^2+\sum_{i=1}^{k}\frac{1}{n_i}(\sum_{j=1}^{n_{i}}\varepsilon_{ij})^2+2\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\alpha_i\varepsilon_{ij}-\frac {1}{N}(\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij})^2\right]$$

$$=\sum_{i=1}^{k} E(n_i\alpha_i^2)+E\left(\sum_{i=1}^{k}\frac{1}{n_i}(\sum_{j=1}^{n_{i}}\varepsilon_{ij})^2\right)+2\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\alpha_i E(\varepsilon_{ij})-\frac{1}{N}E(\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\varepsilon_{ij})^2$$

$$=\sum_{i=1}^{k} n_i\alpha_i^2+\sum_{i=1}^{k} \frac{1}{n_i}\sum_{j=1}^{n_{i}}\left[Var(\varepsilon_{ij})+E^2(\varepsilon_{ij})\right]-\frac{1}{N} \sum_{i=1}^{k}\sum_{j=1}^{n_{i}} \left[Var(\varepsilon_{ij})+E^2(\varepsilon_{ij})\right]$$

$$=\sum_{i=1}^{k} n_i\alpha_i^2 + k \sigma^2 - \sigma^2$$

$$=(k-1)\sigma^2+\sum_{i=1}^{k} n_i\alpha_i^2$$

pois $ E(\varepsilon_{ij})=0 $ e $ \sum\limits_{i=1}^k n_i\alpha_i=0. $ Com isso podemos definir os quadrados médios como

$$QME=\frac{SQE}{N-k}~~~{e}~~~QMA=\frac{SQA}{k-1}$$

Portanto, como argumentamos anteriormente, o QME é um bom estimador para a variância pois

$$E[QME]=E\left[\frac{SQE}{N-k}\right]=\frac{1}{N-k}E[SQE]=\sigma^2;~~~{e}$$

$$E[QMA]=E\left[\frac{SQA}{k-1}\right]=\frac{1}{k-1}E[SQA]=\sigma^2+\displaystyle\frac{1}{k-1}\sum_{i=1}^{k} n_i\alpha_i^2$$

assim, se não existe diferença entre os níveis (tratamentos) do fator $ A $ (isto é, $ \alpha_i = 0 $), $QMA$ também é um bom estimador para a variância. Entretanto, se existe diferença entre as médias dos níveis, o valor esperado do quadrado médio do fator $ A $ (devido aos níveis) é maior do que $ \sigma^{2} $. Assim, temos os seguintes graus de liberdade:

$ SQ $ Graus de liberdade $ QM $
$ SQA $ $ k-1 $ $ \frac{SQA}{k-1} $
$ SQE $ $ N-k $ $ \frac{SQE}{N-k} $
$ SQT $ $ N-1 $

Tabela 9.1.5: Graus de liberdade

Com isso, está claro que para testarmos as hipóteses sobre diferenças entre as médias dos níveis, podemos comparar o quadrado médio do tratamento ($QMA$) com o quadrado médio do erro ($QME$). A seguir, vamos apresentar um método para fazermos essa comparação.

1.3 - Análise Estatística

A seguir vamos desenvolver um teste para avaliar a hipótese de diferenças ou não entre as médias populacionais dos níveis, isto é,

Objetivo Hipótese
Efeito do Fator A $\begin{cases} H_0: \alpha_1 = \cdots = \alpha_k = 0 \cr H_1: \alpha_i \neq 0 ~ (\hbox{para algum }i = 1,…,k) \end{cases}$

Tabela 9.1.6: Teste de hipóteses de diferença entre médias

Como os erros $ \varepsilon_{ij} $ tem distribuição Normal com média $ 0 $ e variância $ \sigma^{2} $ e são independentes, as observações $ y_{ij} $ tem distribuição Normal com média $ (\mu + \alpha_{i}) $ e variância $ \sigma^{2} $ e também são independentes. Desde que $ y_{ij} $ tem distribuição Normal e são independentes, obtemos que

$$\frac{SQT}{\sigma^2}=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}\left[\frac{y_{ij}-\overline{y}_{..}}{\sigma}\right]^2 \sim \chi^2_{N-1}$$

tem distribuição Qui-quadrado com $ (N-1) $ graus de liberdade. Da mesma forma,

$$\frac{SQE}{\sigma^2}=\sum_{i=1}^{k}\frac{(n_i-1)s_i^2}{\sigma^2}\sim\chi^2_{N-k}$$

pois,

$$\frac{(n_i-1)s^2_i}{\sigma^2}\sim\chi^2_{n_i-1}$$

e

$$\sum_{i=1}^{k}\frac{(n_i-1)s^2_i}{\sigma^2} \sim \chi^2_{\sum\limits_{i=1}^k(n_i-1)}$$

Entretanto, as três somas de quadrado não necessariamente são independentes, pois

$$SQT=SQE+SQA$$

Para estabelecer a independência entre as $SQE$ e a $SQA$, vamos utilizar a seguinte versão do teorema de Cochran.

Teorema de Cochran

Se tivermos

$$Q = Q_1 + Q_2 + … + Q_q$$

no qual $ ~Q_i~,~i = 1, 2,…,q~(q \leq p) $ são somas de quadrados, cada um com $p_i$ graus de liberdade, tal que:

$$p=\sum^{q}_{i=1}p_i$$

obtemos que $ Q_i\sim \chi^{2}_{(p_i)} $ e são independentes para qualquer $ i = 1, 2,…, q $.

Teste da ANOVA - Um Fator

Como $ \frac{{SQA}}{\sigma^{2}} $ e $ \frac{{SQE}}{\sigma^{2}} $ têm distribuição Qui-Quadrado, independentes, obtemos que

$$F_0 =\frac{\displaystyle\frac{SQA}{(k-1)}}{\displaystyle\frac{SQE}{(N-k)}}=\frac{QMA}{QME}\sim F_{(k-1; N-k)}$$

Se $ F_0> F_{(1-\alpha,k-1, N-k)} $, rejeitamos $ H_0 $ e concluímos que existe diferença significativa entre as médias dos níveis do fator (tratamentos), no qual $ F_{(1-\alpha, k-1, N-k)} $ corresponde ao quantil da distribuição $F$ de Snedecor com nível de confiança de $ 1-\alpha, $

Figura9.1.5

Figura 9.1.5: Quantil da distribuição F-Snedecor

Podemos ainda calcular o P-valor como, $ P[~F_{(k-1;N-k)}> F_0~\mid~H_0] $

A ANOVA pode ser representada na tabela a seguir:

FV Soma dos Quadrados Graus de Liberdade Quadrados Médios $F_0$
Fator $SQA$ $k-1$ $QMA = \dfrac{SQA}{k-1}$ $F_0 = \dfrac{QMA}{QME}$
Erro $SQE$ $N-k$ $QME = \dfrac{SQE}{N-k}$
Total $SQT$ $N-1$

Tabela 9.1.7: ANOVA - Um Fator

Considere os dados do Exemplo 1.

Para testarmos as seguintes hipóteses:

$$\begin{cases} \mu_{l} = \mu_2 = \mu_3 = \mu_4 = \mu_5 \cr \mu_l \neq \mu_{m},~\hbox{para algum } l \neq m. \end{cases}$$

as somas de quadrados são dadas por:

$$SQT~=\sum^n_{i=1}\sum^{n_i}_{j=1}y_{ij}^{2}-\frac{y^{2}_{..}}{N}=636,96$$

$$SQA=\sum^n_{i=1}\cfrac{1}{n_i}y_i^{2} -\frac{y^{2}_{..}}{N}= 475,76$$

Com isso, temos que

$$SQE=SQT-SQA= 161,20$$

A Tabela 9.1.8 abaixo representa a ANOVA para o fator resistência da fibra de algodão.

FV Soma dos Quadrados Graus de Liberdade Quadrados Médios $F_0$
Fator $475,76$ $5-1=4$ $\dfrac{475,76}{4}= 118,94$ $F_0 = \dfrac{QMA}{QME}=14,757$
Erro $161,20$ $25-5=20$ $\dfrac{161,20}{20}=8,06$
Total $636,96$ $25-1=24$

Tabela 9.1.8: ANOVA para o fator resistência.

O valor aproximado do P-valor é: $ P[~F_{(4,20)}> F_0~\mid~H_0~]=0,000 $

Para $ \alpha = 0,05 $, obtemos que $ F[0,05, 4, 20] = 2,87 $. Portanto, com 95% de confiança, rejeitamos $ {H}_0 $, ou seja, pelo menos um $ \alpha_i $ é diferente de zero, para $ i=1,\ldots,n $.

Veja a seguir os resultados obtidos pelo software Action.

G.L. Soma de Quadrados Quadrado Médio Estat. F P-valor
Fator 4 475.76 118.94 14.7568 0
Resíduos 20 161.2 8.06

Tabela 9.1.9: Tabela da ANOVA

Poder e tamanho da amostra para ANOVA 1 fator

O poder do teste estatístico é definido como a probabilidade de rejeitar a hipótese nula, dado que a mesma é falsa. Na prática, é importante que se tenham testes com nível de significância próximos do nível de significância nominal e que o poder seja alto, mesmo em situações de amostras pequenas. Na suposição de amostras provenientes de uma distribuição Normal, hipóteses da forma $ H_{0} $ : $ \mu = 0 \hbox{ vs. } H_{1} $ : $ \mu \neq 0 $ podem ser avaliadas a partir da estatítica t-Student. Alternativamente, na suposição de simetria, podemos utilizar o teste não-paramétrico de Wilcoxon. Para ambos, os testes, quando essas suposições estão satisfeitas, esperamos que o erro do Tipo I esteja próximo do nível de significância nominal e que o poder seja alto. Por outro lado, quando ocorre a quebra de alguma destas suposições, é importante avaliar o comportamento da taxa de rejeição de $ H_{0} $ quando a mesma é verdadeira. Essa taxa de rejeição é definida como o tamanho empírico do teste e pode ser calculada via simulação Monte Carlo, gerando amostras sob a hipótese nula. Por outro lado, ao gerarmos valores sob a hipótese alternativa, temos que a proporção de vezes em que $ H_{0} $ é rejeitada define o poder de um teste estatístico.

Entre os dois tipos de erros, há relação: quando $ \alpha $ aumenta $ \beta $ diminui e vice-versa, quando $ \alpha $ diminui $ \beta $ aumenta. O caminho para reduzir $ \alpha $ e $ \beta $ simultaneamente é aumentar o tamanho da amostra. A tabela seguinte mostra as probabilidades dos dois tipos de erro.

$ H_0 $ verdadeiro $ H_0 $ falso
Probabilidade de Não Rejeitar $ H_0 $ $ 1-\alpha $ $ \beta $
Probabilidade de Rejeitar $ H_0 $ $ \alpha $ $ 1-\beta $

Tabela 9.1.10: Tipos de Erro ($\alpha$ e $\beta$)

Ao definirmos os valores do tamanho da amostra $ n $ e do nível de significância $ \alpha $, antes de realizarmos o teste de hipóteses, é possível obtermos valores da probabilidade $ \beta $ de cometer um erro tipo II em função de possíveis valores verdadeiros do parâmetro declarado na hipótese nula.

O objetivo é conhecer quão bem o teste de hipóteses controla o erro do tipo II, ou qual a probabilidade de rejeitar a hipótese nula se realmente for falsa.

Essa informação é obtida da probabilidade complementar de $ \beta $, ou seja, $ 1- \beta $, denominada poder do teste contra um possível valor verdadeiro do parâmetro declarado na hipótese nula.

Para um determinado teste de hipóteses é possível definirmos valores verdadeiros do parâmetro declarado na hipótese nula e, para cada um deles, calcularmos a probabilidade $ 1- \beta. $ Com isso, geramos a função poder e seu correspondente gráfico da curva do poder do teste.

Pelo estudo do Poder do teste $F$ para 1 fator, referimos que a probabilidade da regra de decisão implicará na escolha por $ H_{1}. $ Aqueles com as médias dos tratamentos diferentes. Mais especificamente, o Poder é dado pela seguinte expressão:

Poder$ = P(F^* > F(1 - \alpha, k - 1, N - k)|\phi) $

em que $ \phi $ é o parâmetro de não centralidade, e é obtido através da seguinte equação:

$$\phi =\frac{\displaystyle 1}{\displaystyle \sigma}~\sqrt{\sum^n_{i=1}\dfrac{n_{i}(\mu_{i}-\mu_{.})^2}{\displaystyle k}}\ \ \text{e}$$

$$\mu_{.} = \displaystyle\sum^n_{i=1}\dfrac{ n_{i}\mu_{i}}{N}$$

Quando todos os fatores da amostra tem tamanho $n$, o parêmetro $ \phi $ é obtido pela equação:

$ \phi = \dfrac{\displaystyle 1}{ \sigma} ~ \sqrt{\frac{\displaystyle n}{\displaystyle k}{\displaystyle\sum^n_{i=1} (\mu_{i} - \mu_{.})^2}} $ em que $ n_{i} \equiv n $ e

$ \mu_{.} =\displaystyle \sum^n_{i=1}\frac{\mu_{i}}{k}, $ pois $ N = n.k $

As probabilidade do Poder do Teste são calculadas através da distribuição $F$ não central. Além disso,

$ \bullet $ Temos que $ \nu_{1} $ é o número de graus de liberdade do numerador para $ F^* $. Para o modelo da ANOVA, $ \nu_{1} = k - 1 $, ou número de níveis menos 1.

$ \bullet $ O nível de significância é dado por $ \alpha $, geralmente usamos $ \alpha = 0,05 $.

$ \bullet $ Temos que $ \nu_{2} $ é o número de graus de liberdade do denominador para $ F^* $. No modelo da ANOVA temos:

$$\nu_{2} = N - k ~~~\overset{N = n.k}{\displaystyle =}~~~ n.k - k = k(n - 1)$$

O planejamento das amostras para experimento de 1 fator com níveis fixos é feito utilizando o parâmentro de não centralidade para igualdade das amostras. No entanto, em vez de exigirmos uma especificação direta do nível $ \mu_{i} $, para o qual é importante controlar o erro do tipo II, ela apenas exige uma diferença mínima do nível do fator das médias, porque ela é importante no que tange a detecção das diferenças entre os $ \mu_{i} $, com probabilidade alta. Esta diferença mínima é denotada por $ \Delta $.

$ \Delta =\max(\mu_i)-\min(\mu_i) $

Algumas especificações devem ser feitas, como:

$ \bullet $ O nível $ \alpha $ é o risco do erro do tipo I a ser controlada.

$ \bullet $ A magnitude da diferença mínima $ \Delta $ de $ \mu_{i} $, é importante, pois ela será a tolerância do teste com probabilidade alta. A magnitude de $ \sigma $, que o desvio padrão da probabilidade da distribuição de $Y$, e ela é especificada em termos da relação:

$$ \frac{\displaystyle \Delta}{\displaystyle \sigma}$$

$ \bullet $ O nível $ \beta $ é o risco do erro do tipo II a ser controlada. O Poder do Teste é dado por:

$$1 - \beta$$

Explicação direta de $ \dfrac{\Delta}{\sigma} $: a diferença mínima é explicada diretamente em unidade de desvio padrão $ \sigma $.

Nota: Embora não especifiquemos $ \dfrac{\Delta}{\sigma} $ diretamente. Estes planejamento exigem o do valor do desvio padrão $ \sigma $ antecipado. Isso não é tanta vantagem visto como um dado significativo de especificação do $ \Delta $ em unidades de $ \sigma. $ Ele irá frequentemente exigir o conhecimento do tamanho aproximado do desvio padrão.

Com isso o parâmentro de não centralidade será dado como:

$$\phi = \sqrt{\frac{\displaystyle n}{\displaystyle 2.k}}\left(\frac{\displaystyle \Delta }{\displaystyle \sigma}\right)\quad \tag{1}$$

Exemplo 1.3.1

Considere os dados do Exemplo 1.

Primeiramente calcularemos o valor de $ \Delta $:

$ \Delta =\max(\mu_i)-\min(\mu_{i})= 21,6 - 9,8 = 11,8 $

Temos então que o parâmetro de não centralidade é dado por:

$$\phi = \sqrt{\frac{\displaystyle n}{\displaystyle 2.k}}\left(\frac{\displaystyle \Delta }{\displaystyle \sigma}\right) = \sqrt{\frac{\displaystyle 5}{\displaystyle 2\times5}}\left(\frac{\displaystyle 11,8 }{\displaystyle 5,151698749}\right) = 1,6196$$

Por fim, obtemos os seguintes resultados:

$ \Delta $ Nº de níveis (k) Observações por nível (n) Desvio padrão ($ \sigma $)
11,8 5 5 5,151

Tabela 9.1.11: Estatísticas para calcular Poder do teste

O valor calculado do Poder do Teste será:

$\hbox{Poder} = P(F^* > F(1 - \alpha, k - 1, N - k)|\phi) = 0,7346 $

Veja a seguir os resultados obtidos pelo software Action Stat para o mesmo exemplo.

V1
Poder 0.7346
Níveis 5
Réplica 5
Diferença 11.8
Desvio padrão 5.151
Nível de significância 0.05

Tabela 9.1.12: Poder e Tamanho da amostra - ANOVA

Cálculo do tamanho da amostra

Para calcularmos o tamanho da amostra, basta isolarmos o tamanho da amostra $ n $ da equação (1). Com isso, obtemos:

$$n=\dfrac{2k\phi^2\sigma^2}{\Delta^2}$$

Exemplo 1.3.2

Neste exemplo, calculamos o tamanho da amostra para um experimento em que desejamos detectar uma diferença mínima de $ \Delta =11,8, $ para $ k=5 $ níveis, variabilidade (desvio-padrão) de $ s=5,151 $ e poder do teste de $ 1-\beta=0,734. $

De fato, para um poder de $ 1-\beta=0,734 $ temos que o parâmetro de não centralidade da distribuição $F$ é dado por $ \phi $ de $1,6196$. Logo, temos que

$$n=\dfrac{2k\phi^2\sigma^2}{\Delta^2}=\dfrac{2\times 5\times(1,6196)^2(5,151)^2}{(11,8)^2}=4,9984\approx 5$$

Portanto o tamanho da amostra para este experimento é de $ n=5. $

Veja a seguir os resultados obtidos pelo software Action Stat para o mesmo exemplo.

V1
Poder 0.7346
Níveis 5
Réplica 5
Diferença 11.8
Desvio padrão 5.151
Nível de significância 0.05

Tabela 9.1.13: Poder e Tamanho da amostra - ANOVA

1.4 - Estimação dos Parâmetros do Modelo

A seguir, vamos apresentar estimadores para os parâmetros do modelo,

$$y_{ij}=\mu + \alpha_{i}+\varepsilon_{ij}$$

e intervalos de confiança. Como estimador da média geral,tomamos

$$\widehat{\mu}=\overline{y}_{..}$$

e para os efeitos tomamos

$$\widehat{\alpha}_{i}=\overline{y}_{i.}-\overline{y}_{..}$$

A média do $ i $-ésimo nível é dada por $ \mu_{i}=\mu+\alpha_{i} $. Então, um estimador pontual para $ \mu_i $ é definido por

$$\widehat{\mu}_{i}=\widehat{\mu}+\widehat{\alpha}_{i}=\overline{y}_{i.}$$

Assim, se assumirmos que os erros $ \varepsilon_{ij} $ são normalmente distribuídos e independentes, obtemos que a média $ \overline{y}_{i.} $ (do nível $i$) tem distribuição Normal com média $ \mu+\alpha_i $ e variância $ \sigma^2/n_i $. Utilizando o quadrado médio do erro ($QME$) como estimador de $ \sigma^{2} $, podemos construir um intervalo de confiança baseado na Distribuição t-Student. Desta forma, obtemos que:

$$\frac{\displaystyle\frac{(\overline{y}_{i.}-\mu_i)}{\sqrt{\sigma^2/n_i}}}{\displaystyle \sqrt{\frac{QME}{\sigma^2}}}=\frac{\displaystyle(\overline{y}_{i.} - \mu_i)}{\displaystyle \sqrt{ {QME} ~ \displaystyle n_i}}$$

tem distribuição t-Student com ($ N - k $) graus de liberdade. Portanto, o intervalo com confiança de $ (1-\alpha)100\char37 $ para a média do $ i $-ésimo nível é definido por

$$\overline{y}_{i.}-t(1-\alpha/2, N - k) \ast \sqrt{\frac{\displaystyle {QME}}{\displaystyle n_i}} \leq \mu_i \leq \overline{y}_{i.}+t(1-\alpha/2, N - k)*\sqrt{\frac{\displaystyle QME}{\displaystyle n_i} }.$$

A Tabela Distribuição t-Student do Apêndice apresenta os valores da estatística $ t $-Student.

Temos que

$$\frac{\overline{y}_{i.}-\mu_i}{\sqrt{\sigma^2/n_i}}\sim{ N(0,1)}$$

para todo $ i=1,\ldots,k $ e são independentes. Então,

$$\frac{\displaystyle\overline{y}_{i.}-\overline{y}_{l.}-(\mu_i-\mu_l)}{\displaystyle\sigma\sqrt{\frac{1}{n_i}+\frac{1}{n_l}}}\sim{ N(0,1)}.$$

Da mesma forma, obtemos que

$$\frac{\displaystyle\frac{\overline{y}_{i.}-\overline{y}_{l.}-(\mu_i-\mu_l)}{\displaystyle\sigma\sqrt{\frac{1}{n_i}+\frac{1}{n_l}}}}{\displaystyle\sqrt{\frac{QME(N-k)}{\sigma^2(N-k)}}}=\frac{\displaystyle(\overline{y}_{i.}-\overline{y}_{l.})-(\mu_i-\mu_l)}{\sqrt{QME\left(\frac{1}{n_i}+\frac{1}{n_l}\right)}}\sim t_{(N-k)}.$$

Assim, um intervalo com confiança de $ (1-\alpha)100 \char37 $ para a diferença entre a média de dois níveis é dado por

$$(\overline{y}_{i.}-\overline{y}_{l.})-\Delta \leq \mu_i-\mu_l~~\leq ~(\overline{y}_{i.} -\overline{y}_{l.})+\Delta$$

em que,

$$\Delta = t(1-\alpha/2, N - k)*\sqrt{QME \left(\frac{1}{n_i}+\frac{1}{n_l}\right)}$$

Exemplo 1.4.1

Com os dados do Exemplo 1, da resistência da fibra sintética, vamos calcular as seguintes estimativas para a média geral e para os efeitos dos níveis.

$$\widehat{\mu}=\overline{y}_{..}=376/25=15,04$$

$$\widehat{\alpha}_{1}=\overline{y}_{1.}-\overline{y}_{..}=9,8-15,04=-5,24$$

$$\widehat{\alpha}_{2}=\overline{y}_{2.}-\overline{y}_{..}= 15,40-15,04=0,36$$

$$\widehat{\alpha}_{3}=\overline{y}_{3.}-\overline{y}_{..}=17,60-15,04=2,56$$

$$\widehat{\alpha}_{4}=\overline{y}_{4.}-\overline{y}_{..}= 21,60-15,04=6,56$$

$$\widehat{\alpha}_{5}=\overline{y}_{5.}-\overline{y}_{..}=10,80 - 15,04 = -4,24$$

Um intervalo com confiança de $ 95\char37 $ para a média do nível $ 4 $ ($ 30\char37 $ de algodão na fibra) é dado por

$$21,60-2,086*\sqrt{\frac{8,06}{5}}\leq\mu_{4}\leq 21,60+2,086*\sqrt{\frac{8,06}{5}}$$

Com isso, obtemos

$$18,95\leq \mu_{4} \leq 24,25$$

Um intervalo com confiança de 95% para a diferença entre a média dos níveis 4 e 5 (30% e 35% de algodão na fibra) é dado por

$$\Delta =2,086*\sqrt{8,06 \left(\frac{1}{5} +\frac{1}{5}\right)}~=~3,74552$$

$$(21,60-10,80)-3,74552 \leq \mu_4-\mu_5 \leq (21,60-10,80)+3,74552$$

$$7,05448 \leq \mu_4-\mu_5 \leq 14,54552$$

Usando o software Action temos os seguintes resultados:

G.L. Soma de Quadrados Quadrado Médio Estat. F P-valor
Fator 4 475.76 118.94 14.7568 0
Resíduos 20 161.2 8.06

Tabela 9.1.14: Tabela da ANOVA

Nível Limite Inferior Efeito para média Limite Superior
15 7.1516 9.8 12.4484
20 12.7516 15.4 18.0484
25 14.9516 17.6 20.2484
30 18.9516 21.6 24.2484
35 8.1516 10.8 13.4484

Tabela 9.1.15: Intervalo de confiança do Efeito Fator

1.5 - Análise de Resíduos

A decomposição da variabilidade na análise de variância é puramente algébrica. Entretanto para realização de testes estatísticos e a obtenção de intervalos de confiança, utilizamos as seguintes hipóteses:

  1. Os erros $ \varepsilon_{ij} $ são normais e independentes, com média $ 0 $ e variância $ \sigma^2, $ constante; e

  2. As observações são descritas por meio de modelo

$$y_{ij}=\mu+\alpha_{i}+\varepsilon_{ij}.$$

Na prática, precisamos verificar se estas suposições são válidas. Violações nestas suposições são verificadas através dos resíduos.

O resíduo para a j-ésima observação do nível i é definido por

$$e_{ij}=y_{ij}-\widehat{y}_{ij}$$

em que $ \widehat{y}_{ij} $ é uma estimativa da observação $ y_{ij}, $

$$\widehat{y}_{ij}=\overline{y}_{..}+ (\overline{y}_{i.}-\overline{y}_{..})=\widehat{\mu}+\widehat{\alpha}_{i}=\overline{y}_{i.}$$

Exemplo 1.5.1

Cálculo dos resíduos para os dados do Exemplo 1.1.

Algodão Resíduos $\hat{y}_{ij} = \bar{y}_{i.}$
15 -2,8 -2,8 1,2 -0,8 9,8
20 -3,4 1,6 2,6 2,6 15,4
25 -3,6 0,4 1,4 1,4 17,6
30 -2,6 3,4 -2,6 1,4 21,6
35 -3,8 -0,8 4,2 0,2 10,8

Tabela 9.1.16: Resíduos para a Resistência da Fibra.

Figura9.1.6

Figura 9.1.6: Gráfico dos resíduos versus ordem de coleta dos dados ( Exemplo 1)

Influência do $ R^2 $ na ANOVA

Uma maneira de verificarmos se o modelo ajustado é adequado é olharmos o resultado do coeficiente de determinação ($R^2$). Este coeficiente mede o quanto a variável resposta é explicada pelo modelo. Quanto maior o valor de $ R^2 $ melhor! Dizemos que, com um valor de $R^2$ acima de 70%, o modelo está explicando bem a variação na variável resposta. A expressão usada para calcular o $R^2$ é dada por:

$$R^2~=~1 - \frac{SQE}{SQT}$$

Em uma análise de variância com efeito fixo, estamos interessado em determinar se existe diferença entre os níveis dos fatores. Aqui, não temos interesse em utilizar o modelo para previsão. Assim, a adequabilidade do modelo linear não é crucial para aplicação da ANOVA. Para comprovarmos a afirmação, realizamos um estudo de simulação, conforme abaixo:

  • Utilizamos um fator com 4 níveis, com 10 réplicas em cada nível;

  • Para cada nível geramos uma distribuição Normal com médias $ 12;~12,3;~11,5 \hbox{ e } 17 $, respectivamente e desvio padrão 1;

  • Logo após, realizamos uma ANOVA e registramos os valores de p (p-value) e do $R^2$;

  • Repetimos o procedimento acima 10.000 vezes, obtendo os seguinte resultados:

$$\hbox{Média do }R^2 = 0,4339$$

$$\hbox{Porcentagem dos P-valor maiores do que 0,05} = 0,00$$

Conclusão

Portanto, a não adequabilidade do modelo (R² < 0,70) não influencia de forma significativa o resultado do teste F da ANOVA.

Análise dos resíduos

Na sequência, vamos fazer a análise de normalidade, independência e igualdade da variância dos resíduos. Grande parte dos problemas que encontramos na prática, são solucionados, considerando algumas suposições iniciais, tais como, assumir uma função de distribuição para os dados amostrados. Nesse sentido, surge a necessidade de certificarmos se essas suposições podem, realmente, ser assumidas. Em alguns casos, assumir a normalidade dos dados é o primeiro passo que tomamos para simplificar sua análise. Para dar suporte a esta suposição, consideramos, o teste Anderson-Darling, o teste Kolmogorov - Smirnov e o teste Shapiro - Wilk. Além disso, fazemos o gráfico “papel de probabilidade”.

Para mais detalhes verificar o conteúdo de Testes de Normalidade (Inferência Estatística).

Exemplo 1.5.2

Avaliar a normalidade dos resíduos (Exemplo 1.1).

Resíduos:

-2,8 -2,8 5,2 1,2 -0,8
-3,4 1,6 -3,4 2,6 2,6
-3,6 0,4 0,4 1,4 1,4
-2,6 3,4 0,4 -2,6 1,4
-3,8 -0,8 0,2 4,2 0,2

Tabela 9.1.17: Resíduos

Após as tabelas da ANOVA, fazemos uma análise da normalidade dos resíduos através dos seguintes gráficos:

Papel de probabilidade e Teste de Anderson-Darling

Avaliamos a normalidade dos resíduos através do gráfico “papel de probabilidade” e do teste de Anderson-Darling. No nosso caso, tomamos como hipótese nula a normalidade dos resíduos, e utilizamos a estatística de Anderson-Darling para testar esta hipótese. Para o exemplo, como o P-valor é alto (aproximadamente 0,16) não rejeitamos a hipótese de normalidade dos resíduos.

Estatísticas P-valores
Anderson - Darling 0.5186 0.1699

Tabela 9.1.18: Teste de Normalidade Anderson-Darling

Figura9.1.7

Figura 9.1.7: Papel de Probabilidade do Teste Anderson-Darling.

Resíduos versus valores ajustados

Com esse gráfico temos indícios sobre o comportamento da variância dos resíduos com relação aos valores ajustados. Uma análise mais detalhada sobre a igualdade da variância pode ser obtida através dos testes de igualdade das variâncias, ver módulo testes de igualdade das variâncias.

Figura9.1.8

Figura 9.1.8: Gráfico de Resíduos versus Valores Ajustados.

Resíduos versus a ordem de coleta dos dados

A seguir elaboramos o gráfico dos Resíduos versus a Ordem de Coleta dos dados. Com esse gráfico obtemos indícios da independência ou não entre os resíduos. Se algum comportamento sistemático for observado no gráfico, temos indícios de que alguma variável “extra” influenciou nos resultados do experimento, fato que viola uma das premissas básicas da ANOVA e compromete nossas conclusões.

Figura9.1.6

Figura 9.1.9: Gráfico dos resíduos versus ordem de coleta dos dados

1.6 - Modelo Heterocedástico

Considere o modelo de médias

$$ y_{i,j} = \mu_i + \varepsilon_{ij} $$

no qual $ \mu_i $ é a média do nível $ i $ do fator e $ \varepsilon_{ij} $ são variáveis aleatórias independentes com distribuição normal com média 0 e variância $ \sigma^2_i $, para todo $ j=1, \cdots , n_i $ e $ i=1, \cdots , k $. Neste caso, não necessariamente temos que as variâncias sejam iguais. Da mesma forma que no modelo de variâncias iguais (homocedástico), os estimadores para os parâmetros do modelo são dados por

$$\hat{\mu}_i = \bar{Y}_{i .} \quad \text{e} \quad \hat{\sigma}_i^2 = s_i^2 =\frac{\displaystyle\sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_{i .})^2}{n_i - 1}.$$

Além disso, sabemos que $ \hat{\mu}_i $ tem distribuição normal com média $ \mu_i $ e variância $ \sigma_i^2/n_i $ e são independentes, para todo $ i=1, \cdots , k $. Também sabemos que

$$\frac{(n_i -1)\hat{\sigma}_i^2}{\sigma_i^2}$$

tem distribuição qui-quadrada con $ n_i-1 $ graus de liberdade e são independentes,

para todo $ i=1, \cdots , k $.

1.6.1 - Teste de igualdade das Variâncias

Para o modelo heterocedástico, vamos inicialmente testar as hipóteses

$$ \begin{cases} H_0: \sigma_1^2 = \sigma_2^2 = \cdots = \sigma_k^2 \cr H_1: \hbox{pelo menos um}~\sigma_i^2~\hbox{é diferente,} \quad i=1,\ldots,k.\end{cases}$$

Os métodos mais utilizados são os testes de Cochran, Bartlett e de Levene.

Teste de Cochran (Homogeneidade de Variância)

O teste de Cochran compara a maior variância com as demais. Para aplicarmos o teste de Cochran, vamos assumir que o experimento é balanceado $ n_1=n_2= \cdots = n_k =n $ e seguir as seguintes etapas:

  • Etapa 1 - Calcular a Estatística

$$C~=~\cfrac{s^2_{max}}{\displaystyle\sum^{k}_{i=1}s^2_i}~=~\cfrac{\hbox{maior variância}}{\hbox{soma de todas as variâncias}},$$

em que

  • $k$: representa o número de níveis do fator;

  • $s^2_i$: representa a variância amostral. $s^2_i = \dfrac{1}{n-1} \displaystyle\sum_{j=1}^{n} (y_{ij}-\overline{y}_i)^2$;

  • $n$: representa o número de medidas em cada nível do fator.

  • Etapa 2 - Comparar com valor tabelado.

Exemplo 1.6.1.1

Um laboratório de metrologia contratou um novo metrologista que passou por diversos treinamentos para integrar a equipe. Antes de liberarmos o metrologista para realizar o procedimento de calibração, realizamos um teste para comparar a variabilidade das medições do metrologista novato com os demais metrologistas do laboratório. Em um experimento completamente aleatorizado, um bloco padrão de 50mm foi medido 5 vezes por cada metrologista. As medições estão na tabela a seguir.

Metrologistas:

João Novato Moacir Roberto
Medida 1 50,0071 50,007 50,0072 50,0073
Medida 2 50,0072 50,0076 50,0074 50,0074
Medida 3 50,0072 50,0075 50,0073 50,0073
Medida 4 50,0071 50,0071 50,0072 50,0072
Medida 5 50,0072 50,0078 50,0072 50,0072
Média 50,00716 50,0074 50,00726 50,00728
Desvio Padrão 0,000055 0,00034 0,000089 0,000084
Variância 0,000000003 0,000000115 0,000000008 0,000000007

Tabela 9.1.19: As medições do laboratório de metrologia

Neste caso, temos como objetivo comparar a variabilidade encontrada entre os diversos metrologistas. Observamos que $ S^2_{max}~=~0,000000115 $. Logo

$$C_{\hbox{calculado}}~=~\frac{0,000000115}{0,000000003~+~0,000000115~+~0,000000008~+~0,000000007}~=~0,864.$$

$ C_{\hbox{tabelado}} $ (Tabela C, para $ 5\char37 $ de significância) =0,629. Portanto, como $ C_{\hbox{calculado}}> C_{\hbox{tabelado}}$, a variância do metrologista Novato não é homogênea em relação a dos demais metrologistas.

Número de grupos $\qquad$ Tamanho do grupo (réplicas)
$\qquad \qquad \qquad \qquad$ 2 3 4 5 6
2 - 0,975 0,939 0,906 0,877
3 0,967 0,871 0,798 0,746 0,707
4 0,906 0,768 0,684 0,629 0,69
5 0,841 0,684 0,598 0,544 0,506
6 0,781 0,616 0,532 0,48 0,445
7 0,727 0,561 0,48 0,431 0,397
8 0,68 0,516 0,438 0,391 0,3

Tabela 9.1.20: Tabela $C$: Valor tabelado para nível de significância 5%.

Teste de Bartlett

A estatística do teste proposta por Bartlett é dada por

$$B_{0}=\frac{q}{c}$$

em que

$$q = (N-k) \ast \ln s^2_p - \displaystyle\sum_{i=1}^k [ (n_i - 1) \ast \ln s^2_i ] $$

$$c=1+\frac{1}{3(k-1) } \left(\sum^k_{i=1} \frac{1}{n_i -1}-\frac{1}{N-k} \right)$$

$$s^2_p=\frac{1}{N-k}\displaystyle\sum_{i=1}^k (n_{i}-1)s^{2}_{i}~~~~~\hbox{e}~~~~~s^{2}_{i}=\displaystyle\sum_{j=1}^{n_i} \frac{(y_{ij}-\overline{y}_{i.})^{2}}{n_{i}-1}$$

Sob $ H_0 $ (igualdade das variâncias) sabemos que $ B_0 $ tem distribuição assintótica qui-quadrado com $ k-1 $ graus de liberdade. Desta forma, rejeitamos $ H_0 $ se $ B_0> Q_{[1 - \alpha; k-1]}, $ no qual $ Q_{[1 - \alpha ; k-1]} $ representa o quantil $ (1-\alpha )*100\char37 $ da distribuição qui-quadrado com $(k-1)$ graus de liberdade. Além disso, o P-valor é calculado por

$ \hbox{P-valor}=P[~\chi^{2}_{(k-1)}~ $>$ ~B_0~\mid~H_0~] $

O teste de Bartlett é sensível em relação a hipótese de normalidade dos dados. Se rejeitarmos a hipótese de normalidade, é melhor utilizarmos o teste proposto por Levene. Porém, se a hipótese de normalidade não for violada, o teste proposto por Bartlett tem um comportamento melhor que o teste proposto por Levene.

Exemplo 1.6.1.1

Aplicar o teste de Bartlett para os dados do Exemplo 1.1.

Fator Resistencia da Fibra
15 7
15 7
15 15
15 11
15 9
20 12
20 17
20 12
20 18
20 18
25 14
25 18
25 18
25 19
25 19
30 19
30 25
30 22
30 19
30 23
35 7
35 10
35 11
35 15
35 11

Tabela 9.1.21: dados do Exemplo 1.1

As variâncias amostrais são

$$s_{1}^{2}=\frac{(7-9,8)^2+(7-9,8)^2+ (15-9,8)^2+ (11-9,8)^2+ (9-9,8)^2}{5-1}= \frac{44,8}{4}=11,2$$

$$s_{2}^{2}=\frac{(12-15,4)^2+(17-15,4)^2+\ldots+(18-15,4)^2}{5-1}= 9,8$$

$$s_{3}^{2}=\frac{(14-17,6)^2+\ldots+(19-17,6)^2}{4}=4,3$$

$$s_{4}^{2}=\frac{(19-21,6)^2+\ldots+(23-21,6)^2}{4}= 6,8$$

$$s_{5}^{2}=\frac{(7-10,8)^2+\ldots+(11-10,8)^2}{4}=8,2.$$

Então, temos que

$$s^{2}_{p}=\frac{4*(11,2)+4*(9,8)+4*(4,3)+4*(6,8)+4*(8,2)}{25-5}=8,06$$

Logo,

$$q=\left[20*\ln(8,06)\right]- 4*\left[\ln(11,2)~+~\ln(9,8)~+~\ln(4,3)~+~\ln(6,8)~+~\ln(8,2)\right]$$

$$=41,7383~-~40,7119$$

$$=1,0264$$

Temos também que

$$c=1+\frac{1}{3*4}\left[\frac{5}{4}-\frac{1}{20}\right]$$

$$=1,10$$

Então, a estatística do teste

$$B_0=1,0264/1,10=0,93$$

Como $ Q_{[0,95; 4]}=9,49 $, não rejeitamos a hipótese de que todas as variância são iguais.

O p-valor para o teste de Bartlett é

$$\hbox{P-valor}=P[\chi^2_{(k-1)} > B_0 \mid H_0 ] = P[ \chi^2_{(k-1)} > 0,93 \mid H_0 ] = 0,92$$

Conclusão

Como o p-valor está acima de 5% não rejeitamos a hipótese $ H_0 $.

Resultados desse exemplo obtidos com o software Action:

Informação Valor
Bartlett (estatística do teste) 0.9331
Graus de Liberdade 4
P-valor 0.9198

Tabela 9.1.22: Teste de Variância Bartlett

Fator Limite Inferior Desvio Padrão Limite Superior
15 1.7363 3.3466 14.7118
20 1.6242 3.1305 13.7616
25 1.0758 2.0736 9.1157
30 1.3529 2.6077 11.4633
35 1.4857 2.8636 12.5882

Tabela 9.1.23: Intervalos de Confiança para o Desvio-padrão

Figura9.1.9

Figura 9.1.9: Intervalos de Confiança para o Desvio-padrão

Teste de Levene

Este procedimento consiste em fazer uma transformação dos dados originais e aplicar aos dados transformados o teste da ANOVA. Levene (1960) propôs a seguinte transformação:

$$z_{ij}~=~\mid x_{ij} - \overline{x}_{i.}\mid~,~~i~=~1, \cdots,k,~~{e}~~j~=~1, \cdots, n_i$$

onde

  • $ z_{ij} $: representa os dados após transformação;

  • $ x_{ij} $: representa os dados originais; e

  • $ \overline{x}_{i.} $: representa a média do nível $ i $, para os dados originais.

Uma transformação (robusta) alternativa considerada para o procedimento de Levene, proposto por Brown (1974), é substituir a média do nível pela mediana.

Para obter a mediana devemos, em primeiro lugar, ordenar os dados do menor para o maior valor. Se o número de dados for ímpar, a mediana será o dado central. Se o número de dados for par, a mediana será a média aritmética dos dois dados centrais.

Com isso, a expressão a seguir é substituída por

$$z_{ij}~=~\mid x_{ij}-\tilde{x}_{i.}\mid~,~~i~=~1,\cdots, k,~~{e}~~j=1,\cdots,n_i\quad \tag{1.6.1.1}$$

em que

  • $ z_{ij} $: representa os dados após transformação;

  • $ x_{ij} $: representa os dados originais; e

  • $ \tilde{x}_{i.} $: representa a mediana do nível $ i $, para os dados originais.

Com isso, temos a seguinte estatística:

$$F^*=\dfrac{\displaystyle\sum^k_{i=1}\frac{n_{i}(\overline{z}_{i.}-\overline{z}_{..})^2}{(k-1)}}{\frac{\displaystyle\sum^k_{i=1}\sum^{n_i}_{j=1}(z_{ij}-\overline{z}_{i.})^2}{\displaystyle\sum^k_{i=1}(n_i-1)}}$$

em que, $ \overline{z}_{i.}=\displaystyle\sum_{i=1}^k\frac{z_{ij}}{n_i} $ e $ \overline{z}_{..}=\frac{\displaystyle\sum_{i=1}^k \sum_{j=1}^{n_i} z_{ij}}{\displaystyle\sum_{i=1}^k n_i} $

Após a transformação dos dados originais pela expressão (1.6.1.1), aplicamos o teste da ANOVA. Se a estatística F for significativa rejeitamos a hipótese de igualdade das variâncias.

Teste de Levene para os dados do Exemplo 1.

Usando a expressão (1.6.1.1), obtemos a seguinte tabela, com os dados transformados de Resistência da Fibra.

Algodão %
15 2 2 6 2 0
20 5 0 5 1 1
25 4 0 0 1 1
30 3 3 0 3 1
35 4 1 0 4 0

Tabela 9.1.24: Dados transformados para a resistência da fibra.

Fator Resistência da Fibra
15 2
15 2
15 6
15 2
15 0
20 5
20 0
20 5
20 1
20 1
25 4
25 0
25 0
25 1
25 1
30 3
30 3
30 0
30 3
30 1
35 4
35 1
35 0
35 4
35 0

Tabela 9.1.25: Organização dos dados

A soma de quadrados é dada por:

$$SQT=\sum^n_{i=1} \sum^{n_i}_{j=1}y_{ij}^{2}-\frac{y^{2}_{..}}{N}=2^2 + 2^2+ 6^2 + 2^2+ 0^2+ 5^2+ \ldots+4^2+0^2-\frac{49^2}{25}=$$

$$=179-96,04 = 82,96$$

$$SQA=\sum^n_{i=1}\frac{1}{n_i}y_i^{2}-\frac{y^{2}_{..}}{N}= \frac{1}{5}[12^2+12^2+6^2+10^2+9^2]- \frac{49^2}{25} = 101-96,04=4,96$$

$$SQE=SQT-SQA=82,96-4,96=78$$

Conclusão

Como o p-valor é maior que 5%, não temos evidências para rejeitar a hipótese de igualdade de variâncias.

Resultados desse exemplo obtidos com o software Action:

G.L. Soma de Quadrados Quadrado Médio Estat. F P-valor
Fator 4 4.96 1.24 0.3179 0.8626
Resíduos 20 78 3.9

Tabela 9.1.26: Análise de Variância para os dados transformados.

Informação Valor
Levene (estatística do teste) 0.2598
Graus de Liberdade 4
P-valor 0.9002

Tabela 9.1.27: Teste de Variância

Fator Limite Inferior Desvio Padrão Limite Superior
15 1.1367 2.1909 9.6311
20 1.2495 2.4083 10.5869
25 0.8525 1.6432 7.2233
30 0.7337 1.4142 6.2169
35 1.0633 2.0494 9.0091

Tabela 9.1.28: Intervalos de Confiança para o Desvio-padrão

Figura9.1.10

Figura 9.1.10: Intervalos de Confiança para o Desvio-padrão

Exemplo 1.6.1.2

Aplicar o teste de Levene para os dados do Exemplo 1.1.

Fator Resistencia da Fibra
15 7
15 7
15 15
15 11
15 9
20 12
20 17
20 12
20 18
20 18
25 14
25 18
25 18
25 19
25 19
30 19
30 25
30 22
30 19
30 23
35 7
35 10
35 11
35 15
35 11

Tabela 9.1.29: dados do Exemplo 1.1

Resultados desse exemplo obtidos com o software Action:

Informação Valor
Levene (estatística do teste) 0.3179
Graus de Liberdade 4
P-valor 0.8626

Tabela 9.1.30: Teste de Variância

Fator Limite Inferior Desvio Padrão Limite Superior
15 1.7363 3.3466 14.7118
20 1.6242 3.1305 13.7616
25 1.0758 2.0736 9.1157
30 1.3529 2.6077 11.4633
35 1.4857 2.8636 12.5882

Tabela 9.1.31: Intervalos de Confiança para o Desvio-padrão

Figura9.1.11

Figura 9.1.11: Intervalos de Confiança para o Desvio-padrão

Como o p-valor é maior que 5%, não temos evidências para rejeitar a hipótese de igualdade de variâncias.

1.6.2 Teste de Welch

Suponha que realizamos o teste de igualdade da variância e rejeitamos a hipótese $ H_0 $. Neste caso, estamos interessados em realizar o teste de igualdade das médias

$$ \begin{cases} H_0: \mu_1 = \mu_2 = \cdots = \mu_k \cr H_1: \hbox{pelo menos uma média é diferente} \end{cases}$$

no modelo heterocedástico. Porém, o teste $ F $ da ANOVA tem como hipótese a igualdade entre as variâncias, que não é válida neste caso. Entretanto, se os dados são balanceados $ (n_1=n_2=\cdots=n_k) $, o teste $ F $ da ANOVA é robusto em relação a desigualdade das variâncias e pode ser aplicado.

A seguir, apresentamos um teste proposto por Welch (1951) para testar a hipótese $ H_0 $ na presença de variâncias desiguais. Consideremos:

  • $ n_i $ o número de elementos de cada amostra;

  • $ \overline{y}_{i.} $ a média de cada amostra; e

  • $ s_i^2 $ a variância amostral.

Mais,

$$w_i = \frac{n_i}{s_i^2}$$

$$\overline{y}^*=\frac{\displaystyle\sum^k_{i=1}w_i \overline{y}_{i.}}{\displaystyle\sum_{i=1}^k w_i}$$

$$\Omega =\sum_{i=1}^k \frac{\left(1 - \displaystyle\frac{w_i}{\sum_{i=1}^k w_i}\right)^2}{n_i - 1}. $$

Conforme Welch (1951) a estatística do teste é:

$$F_c=\frac{\sum\limits_{i=1}^k w_i \displaystyle\frac{(\overline{y}_{i.}-\bar{y}^*)^2}{k - 1}}{1 + \displaystyle\frac{2(k-2)\Omega}{k^2-1}}\sim F(\nu_1, \nu_2).$$

Os graus de liberdade da distribuição F, são:

$$\nu_1 = k -1 \text{ e } \nu_2 = \frac{k^2 - 1}{3 \Omega}.$$

Assim, rejeitamos a hipótese nula ($ H_0 $) se $ F_c > F_{(1-\alpha,,\nu_1,,\nu_2)}. $ Além disso, o p-valor é $ P[F_{(\nu_1, , \nu_2)} > F_c]. $

Exemplo 1.6.2.1

Um experimento foi conduzido para verificar a influência de duas drogas no tratamento de câncer. Foram utilizados 29 ratos, que foram divididos em 4 grupos, sendo que:

  • Os ratos do Grupo 1 (controle), tomaram placebo;

  • Os ratos do Grupo 2 tomaram a droga A;

  • Os ratos do Grupo 3 tomaram a droga B; e

  • Os ratos do Grupo 4 tomaram as drogas A e B.

A contagem de células que tiveram melhora, após o tratamento com as drogas, está representada na tabela abaixo:

Grupo 1 Grupo 2 Grupo 3 Grupo 4
1 12 12 13
8 10 4 14
9 13 11 14
9 13 7 17
4 12 8 11
0 10 10 14
1 12 13
5 14

Tabela 9.1.32: Resultados após o tratamento nos grupos

Para esses dados, testar as hipóteses:

$$ \begin{cases} H_0: \mu_1 = \mu_2 = \mu_2 = \mu_3 = \mu_4 \cr H_1: \hbox{pelo menos uma média é diferente} \end{cases}$$

Na tabela a seguir temos algumas medidas referente aos dados:

Grupo 1 Grupo 2 Grupo 3 Grupo 4
$ {n_i} $ 7 6 8 8
$ {\overline{y}_.} $ 4,57 11,67 8,63 13,75
$ {S_i^2} $ 16,29 1,87 9,70 2,79
$ {w_i} $ 0,43 3,21 0,83 2,87

Tabela 9.1.33: Estatísticas de cada grupo calculadas

Como neste exemplo k = 4, temos

$F_c = \dfrac{\cfrac{41,71}{3}}{1+\cfrac{2 \ast 2 \ast 0,376}{15}} = 12,63.$

O valor tabelado da distribuição F é $ F_{(0,05;3;13,3)}=3,38. $

Como $ F_c > F_{(1-\alpha,\nu_1, \nu_2)} $ rejeitamos $ H_0 $ para $ \alpha=0,05. $

O p-valor é $ P[F_{(\nu_1,\nu_2)}> F_c]=0,00034 < < \alpha. $

Usando o software Action temos os seguintes resultados:

Estatística F GL Num GL Denom P-Valor
F 12.6355 3 13.283

Tabela 9.1.34: Teste de Welch (Modelo Heterocedástico)

Fator Média Desvio Padrão Limite Inferior Limite Superior
1 4.5714 4.0356 0.8392 8.3037
2 11.6667 1.3663 10.2329 13.1005
3 8.625 3.1139 6.0217 11.2283
4 13.75 1.669 12.3546 15.1454

Tabela 9.1.35: Intervalo de Confiança das Médias

November 3, 2025: 2.7 e 3.6 (cb56f8a5)