9.3 Teste de Comparações Múltiplas
Um problema muito comum nas ciências e na indústria é comparar diversos tratamentos para determinar quais, eventualmente, produzem um resultado superior. Como exemplo, suponhamos que um fabricante quer examinar o efeito nas vendas devido o modelo de embalagem empregado. Uma maneira razoável de prosseguir é selecionar um grupo de lojas com volume de vendas comparáveis e atribuir de forma aleatória e independentemente a cada loja, um modelo de embalagem para ser testado. Assumimos que condições relevantes que possam afetar as vendas, tais como preço, disposição das prateleiras e esforços promocionais são os mesmos para todas as lojas.
Quando a coleta de dados for concluída, pode acontecer que um modelo de embalagem é claramente superior aos outros. Neste caso, não há necessidade de fazer uma análise estatística. Por outro lado, a média de vendas para cada modelo pode estar tão próxima que não é fácil decidir se suas diferenças são reais ou são devido à variação inerente nas vendas entre as lojas. O método comum para investigar tais diferenças é a ANOVA.
Quando os resultados da Análise de Variância (ANOVA) levam à rejeição da hipótese nula, $ (H_0=\mu_1=\ldots=\mu_k) $, que representa a afirmação de que todas as médias (tratamentos) são iguais, temos evidências de que as médias entre os níveis diferem significativamente. Em nosso exemplo, $H_0$ indica que todas as embalagens têm o mesmo impacto nas vendas e chamaremos aqui de hipótese nula global. Dessa maneira, se não rejeitarmos $H_0$, concluímos que não existe diferença entre as médias dos níveis do fator e a Análise de Variância é suficiente para a conclusão. Porém, se rejeitarmos $H_0$, temos evidências estatísticas de que pelo menos dois níveis do fator diferem entre si. Os testes de comparações múltiplas permitem identificar essas diferenças entre pares de médias específicos ou em combinações lineares das médias.
Abordagem por comparação
Uma possível abordagem para o problema de comparação múltipla é fazer cada comparação independentemente usando um procedimento estatístico adequado. Por exemplo, um teste de hipótese estatístico pode ser usado para comparar cada par de médias, $ \mu_i $ e $ \mu_j $, em que a hipótese nula e a hipótese alternativa são da forma
$$ \begin{cases} \mu_i = \mu_j \cr \mu_{i} \neq \mu_{j} \end{cases}$$
A técnica estatística usual nesse caso é conhecida como teste $ t $. Com esse teste, assim como com qualquer outro teste de hipóteses, existe chances de cometermos erros. Um dos possíveis erros é rejeitar a hipótese nula, quando esta é verdadeira (Erro Tipo I) ou então aceitar a hipótese nula, quando esta é falsa (Erro Tipo II). Qualquer regra para decidir entre as hipóteses $H_0$ e H1 é avaliada em termos das probabilidades dos dois tipos de erros. Denotamos a probabilidade de rejeitar $H_0$, quando esta for verdadeira por
$$\alpha= P(\hbox{rejeitar}~H_0~\hbox{dado que}~H_0~\hbox{é verdadeira})$$
Como já visto, o valor $ \alpha $ é chamado de nível de significância. Especificando o nível de significância para o teste $ t $, o experimentador controla a probabilidade de encontrar diferenças errôneas. Quando cada um dos vários testes de hipóteses são feitos ao mesmo nível de significância $ \alpha $, $ \alpha $ é chamado de nível de significância por comparação.
Uma maneira alternativa para testar a diferença entre as médias $ \mu_i $ e $ \mu_j $ é calcular um intervalo de confiança para $ \mu_i-\mu_j $. Um intervalo de confiança é formado usando a seguinte expressão
$$(\hbox{estimativa~pontual})\pm(\hbox{margem~de~erro}),$$
em que a estimativa pontual é a melhor suposição para o valor $ \mu_i-\mu_j $ baseado nos dados da amostra. Em nosso exemplo, essa estimativa pontual seria a diferença das médias das vendas dos modelos de pacotes $ i $ e $ j $. A margem de erro reflete a precisão da estimativa baseada na variabilidade dos dados, que também depende do coeficiente de confiança que é frequentemente denotado por $ 1-\alpha $. O coeficiente de confiança é uma expressão do quanto estamos certos de que o procedimento experimental irá resultar em um intervalo que contém $ \mu_i-\mu_j $. Para vários intervalos de confiança, cada um com coeficiente de confiança $ 1-\alpha $ é chamado de coeficiente de confiança por comparação.
A dificuldade com a abordagem “por comparação” para comparações múltiplas é a possibilidade do aumento da probabilidade do Erro Tipo I ou (equivalentemente) a possibilidade de diminuição do nível de confiança global. Como exemplo, consideremos dois testes de hipóteses independentes cada um ao nível de significância $ \alpha $. Assim, a probabilidade que nenhum tenha Erro Tipo I é $ (1-\alpha)^{2} $. Em outras palavras, a probabilidade de ao menos um Erro do Tipo I é $ 1-(1-\alpha)^{2} $. Geralmente, para testar as diferenças entre cada par de $ k $ médias é necessário o total de $ c=\frac{1}{2}k(k-1) $ testes $ t $ ao nível de significância $ \alpha $. Dessa forma, a chance de encontrarmos ao menos uma diferença incorreta é $ \alpha_c=1-(1-\alpha)^{c} $. Para $ k \geq 3 $, além de termos $ \alpha_c $ maior que $ \alpha $, temos ainda que $ \alpha_c $ se aproxima de 1 conforme $ k $ aumenta. A tabela a seguir ilustra tal situação, em que calculamos a probabilidade de ao menos uma rejeição incorreta da hipótese nula para diferentes valores de $ c $.
| $ c $ | % | $ c $ | % | $ c $ | % |
|---|---|---|---|---|---|
| 1 | 5,00 | 10 | 40,12 | 15 | 53,67 |
| 2 | 9,75 | 11 | 43,12 | 20 | 64,15 |
| 3 | 14,26 | 12 | 45,96 | 30 | 78,53 |
| 4 | 18,55 | 13 | 48,67 | 40 | 87,14 |
| 5 | 22,62 | 14 | 51,23 | 50 | 92,30 |
Tabela 9.3.1: Número de comparações ($ c $) e níveis de confiança conjunto (%).
Verificamos com isso que a insistência em realizar muitas comparações duas a duas ao nível de significância por comparação $ \alpha $, faz com que obtenhamos conclusões de que dois tratamentos são diferentes, embora não sejam.
Família
Uma família é um conjunto de inferências para o qual é importante levar em conta alguma medida de erro global. Por exemplo, a coleção de todas as comparações duas a duas que acabamos de discutir é uma família, em que a medida total de erros é a probabilidade de encontrarmos ao menos um Erro do Tipo I. Esta família é um exemplo de uma família finita (contendo c elementos), mas pode haver famílias com números infinitos de elementos. Por exemplo, as inferências que incorporam cada contraste no conjunto de todos os contrastes das $ k $ médias formariam uma família infinita, no qual um contraste é uma combinação linear de duas ou mais médias em que a soma dos coeficientes é zero.
Taxa de erros
Como discutido anteriormente, quando uma família é composta por vários testes de hipóteses e cada teste de hipótese é realizado ao mesmo nível de significância $ \alpha $, então $ \alpha $ é a taxa de erro por comparação (TPC) (per-comparison error rate), isto é, a probabilidade de rejeitarmos incorretamente cada uma das hipóteses nulas que compõem a família. Uma taxa de erro mais apropriada é chamada de taxa de erro da família dos testes (familywise error rate (FWER)), que é a probabilidade de rejeitarmos incorretamente ao menos umas das hipóteses nulas que compõem a família.
Após especificar a FWER, o pesquisador deve ter o cuidado em realizar as análises de comparações múltiplas que garantem a taxa de erro válida em todas as possíveis configurações (formações) das médias populacionais. Assim, dissemos que tais análises devem “proteger” a FWER.
Há ainda um terceiro tipo de taxa de erro conhecido como taxa de erro por família (TPF)(per-family error rate), que não é uma probabilidade como as outras taxas são, mas representa o valor esperado dos erros na família. Por exemplo, assumimos que a hipótese nula global é verdadeira, se cada dos $ c $ testes é realizado com probabilidade de Erro Tipo I $ \alpha/c $, o valor esperado do Erro Tipo I é $ c\times (\alpha/c)=\alpha $. Dessa forma, quando $ \mu_1=\mu_2=\ldots=\mu_k $, a TPF é $ \alpha $. Para outras quaisquer configurações de médias, a TPF seria menor que $ \alpha $. Uma desigualdade importante e de fácil verificação é que
$$TPC\leq\ FWER \leq TPF$$
Muitos escritores seguidores de Tukey (1953) referem-se à taxa de erro da família dos testes (FWER) e à taxa de erro por família (TPF) como taxa de erro do experimento ( experimentwise error rate) e taxa de erro por experimento (per-experiment error rate) respectivamente.
Métodos de Comparações Múltiplas
Os Métodos de Comparações Múltiplas (MCMs) são procedimentos estatísticos designados para ter em conta e controlar o aumento da probabilidade global do Erro do Tipo I o u a diminuição do intervalo de confiança global. Os MCMs podem ser categorizados como “etapa única” (single step) ou “por etapas” (stepwise). Para os procedimentos de uma etapa, cada uma das inferências é realizada em uma única etapa, sem referência às outras inferências na família. Exemplos de MCMs de uma etapa que protegem a FWER incluem o Teste de Tukey (dados balanceados); Teste de Tukey-kramer (dados não balanceados); Teste de Dunnet; Teste de de Scheffe e Teste de Bonferroni. Esses exemplos serão vistos em detalhes na sequência.
Procedimentos por etapas realizam comparações em uma série de etapas, em que os resultados da etapa atual influenciam, se houver, comparações feitas na etapa seguinte. Tais procedimentos podem ser divididos em dois tipos: etapa abaixo (step-down) e etapa acima (step-up).
Um procedimento “etapa abaixo” pode ser iniciado, por exemplo, testando a hipótese nula global; se está for rejeitada, passamos para a etapa seguinte. Em sucessivas etapas, uma hipótese nula é testada para um subconjunto de médias somente se elas fizerem parte de um conjunto maior de médias para as quais a hipótese nula foi rejeitada durante uma etapa anterior. O teste de Fisher é um exemplo de procedimento etapa abaixo com duas etapas e será estudado com mais detalhes na sequência.
Um exemplo de como podemos iniciar um procedimento “etapa acima” é testar uma hipótese duas a duas e dependendo dos resultados, o procedimento etapa acima para uma hipótese envolve um número maior de médias. Em cada sucessão de etapas é tomada uma decisão que envolve um número maior de médias ou o procedimento termina.
Comparação de MCMs
Como já visto em seções anteriores, o poder de um teste de hipótese é a medida de sua capacidade em identificar diferenças, pois identificar diferenças é normalmente o motivo da análise, assim entre testes de hipóteses adequados, o preferido é o que apresenta maior poder. Quando a análise utiliza intervalos de confiança, o MCM que apresenta o menor intervalo é o mais poderoso.
Comparações duas a duas
Em muitas situações práticas desejamos comparar somente as médias duas a duas. Frequentemente nós podemos determinar quais médias diferem entre si testando todos os pares das médias dos tratamentos. Assim, estamos interessados em contrastes da forma $ \Gamma=\mu_{i}-\mu_{j} $ para todo $ i\neq j $. Há vários procedimentos para solucionar esse problema. Apresentaremos nas próximas seções alguns desses procedimentos.
3.1 - Teste de Tukey
Teste de Tukey (TSD - Tukey Significant Difference)
O Teste proposto por Tukey (1953) é também conhecido como teste de Tukey da diferença honestamente significativa (honestly significant difference)(HSD) e teste de Tukey da diferença totalmente significativa (wholly significant difference)(WSD). É um teste exato em que, para a família de todas as $ c=\frac{1}{2}k(k-1) $ comparações duas a duas, a taxa de erro da família dos testes (FWER) é exatamente $ \alpha $ (e o intervalo de confiança é exatamente 1-$ \alpha $). Métodos de comparações múltiplas exatos são raros. O teste de Tukey tem sido mostrado analiticamente ótimo, no sentido que, entre todos os procedimentos que resultam em intervalos de confiança com mesmo tamanho para todas diferenças duas a duas com coeficiente de confiança da família de pelo menos $ 1-\alpha $, o teste de Tukey resulta em intervalos menores. Isso quer dizer que, se a família consiste em todas comparações duas a duas e o teste de Tukey pode ser usado, ele resultará em intervalos menores que qualquer outro método de comparação múltipla de uma etapa.
A estratégia de Tukey consiste em definir a menor diferença significativa. Tal procedimento utiliza a amplitude da distribuição studentizada.
Suponhamos que temos $ k $ observações independentes, $Y_1,…,Y_k$, de uma distribuição normal com média $μ$ e variância $σ^2$. Seja $ w $ a amplitude para esse conjunto de observações, assim
$$w=\max(Y_{i})-\min(Y_{i}).$$
Suponhamos que temos uma estimativa $s^2$ da variância $σ^2$, que é baseada nos $ N-k $ graus de liberdade e é independente de $Y_i$, em que $ N $ é o número total de observações. Dessa forma, a razão $ w/s $ é chamada amplitude studentizada e é denotada por $ q(k,N-k)=\frac{w}{s} $, em que $ q $ é um valor tabelado (ver Tabela do Teste de Tukey no apêndice).
Para tamanhos de amostras iguais (dados balanceados), o teste de Tukey declara duas médias significativamente diferentes se o valor absoluto de suas diferenças amostrais ultrapassar
$$TSD = q_{\alpha}(k,N-k)\sqrt{\frac{QME}{n}},$$
em que $ n $ é o número de réplicas do nível. Em outras palavras, rejeitamos a igualdade da média de dois níveis se $ |\bar{y_{i.}}-\bar{y_{j.}}|> TSD $.
Um intervalo de confiança de 100(1-α)% para a diferença entre todos os pares das médias é dado como
$$\bar{y_{i.}}-\bar{y_{j.}}-q_{\alpha}(k,N-k)\sqrt{\frac{QME}{n}}\leq\mu_{i}-\mu_{j}\leq\bar{y_{i.}}-\bar{y_{j.}}+q_{\alpha}(k,N-k)\sqrt{\frac{QME}{n}},~~i\neq j.$$
Quando o tamanho das amostras são diferentes (dados não balanceados), o teste de Tukey é modificado e é chamado por vários escritores de Teste de Tukey-kramer. Esse teste não é exato, mas é minimamente conservativo no sentido em que a FWER real é muitas vezes menor que $ \alpha $. O teste de Tukey-kramer declara duas médias significativamente diferentes se o valor absoluto de suas diferenças amostrais ultrapassar
$$TSD=\dfrac{q_{\alpha}(k,N-k)}{\sqrt{2}}\sqrt{QME\left(\dfrac{1}{n_{i}}+\dfrac{1}{n_{j}}\right)}$$
e o intervalo de confiança, para $ {i}\neq{j} $ é
$$\bar{y_{i.}}-\bar{y_{j.}}-\dfrac{q_{\alpha}(k,N-k)}{\sqrt{2}}\sqrt{QME\left(\dfrac{1}{n_{i}}+ \dfrac{1}{n_{j}}\right)}\leq\mu_{i}-\mu_{j}\leq\bar{y_{i.}}-\bar{y_{j.}}+\dfrac{q_{\alpha}(k,N-k)}{\sqrt{2}}\sqrt{QME \left(\dfrac{1}{n_{i}}+\dfrac{1}{n_{j}}\right)}$$
O teste de Tukey-Kramer também tem sido confirmado analiticamente que, para dados não balanceados, fornece intervalos uniformemente mais curtos que qualquer um do outros MCM de uma etapa para a família de todas as comparações duas a duas.
Exemplo 3.1.1
Para os dados do Exemplo 1, vamos calcular o valor de TSD e verificar quais níveis são iguais.
| Fator | Resistência_da_Fibra |
|---|---|
| 15 | 7 |
| 15 | 7 |
| 15 | 15 |
| 15 | 11 |
| 15 | 9 |
| 20 | 12 |
| 20 | 17 |
| 20 | 12 |
| 20 | 18 |
| 20 | 18 |
| 25 | 14 |
| 25 | 18 |
| 25 | 18 |
| 25 | 19 |
| 25 | 19 |
| 30 | 19 |
| 30 | 25 |
| 30 | 22 |
| 30 | 19 |
| 30 | 23 |
| 35 | 7 |
| 35 | 10 |
| 35 | 11 |
| 35 | 15 |
| 35 | 11 |
Tabela 9.3.2: Dados do Exemplo 1
Como os dados são balanceados, temos que:
$$TSD=q_{\alpha}(k,N-k)\sqrt{\frac{QME}{n}}$$
$$TSD=q_{0,05}(5,20)\sqrt{\frac{8,06}{5}}$$
$$TSD=4,232\sqrt{1,612}$$
$$TSD=5,373$$
Rejeitamos a igualdade entre dois níveis se:
$ \mid \overline{y}_{i.}-\overline{y}_{j.} \mid > 5,373 $
| $ \mid \overline{y}_{i.} - \overline{y}_{j.} \mid $ | Resultado | $ \mid \overline{y}_{i.} - \overline{y}_{j.} \mid $ | Resultado |
|---|---|---|---|
| $ \mid \overline{y}_{15} - \overline{y}_{20} \mid $ | 5,6 | $ \mid \overline{y}_{20} - \overline{y}_{30} \mid $ | 6,2 |
| $ \mid \overline{y}_{15} - \overline{y}_{25} \mid $ | 7,8 | $ \mid \overline{y}_{20} - \overline{y}_{35} \mid $ | 4,6 |
| $ \mid \overline{y}_{15} - \overline{y}_{30} \mid $ | 11,8 | $ \mid \overline{y}_{25} - \overline{y}_{30} \mid $ | 4,0 |
| $ \mid \overline{y}_{15} - \overline{y}_{35} \mid $ | 1,0 | $ \mid \overline{y}_{25} - \overline{y}_{35} \mid $ | 6,8 |
| $ \mid \overline{y}_{20} - \overline{y}_{25} \mid $ | 2,2 | $ \mid \overline{y}_{30} - \overline{y}_{35} \mid $ | 10,8 |
Tabela 9.3.3: Diferenças entre os níveis
Usando o software Action temos os seguintes resultados:
| G.L. | Soma.de.Quadrados | Quadrado.Médio | Estat.F | P.valor | |
|---|---|---|---|---|---|
| Fator | 4 | 475.76 | 118.94 | 14.7568 | 0 |
| Resíduos | 20 | 161.2 | 8.06 |
Tabela 9.3.4: Tabela da ANOVA
| Comparações | Centro | Limite Inferior | Limite Superior | P-valor |
|---|---|---|---|---|
| 20-15 | 5.6 | 0.227 | 10.973 | 0.0385 |
| 25-15 | 7.8 | 2.427 | 13.173 | 0.0026 |
| 30-15 | 11.8 | 6.427 | 17.173 | 0 |
| 35-15 | 1 | -4.373 | 6.373 | 0.9798 |
| 25-20 | 2.2 | -3.173 | 7.573 | 0.7372 |
| 30-20 | 6.2 | 0.827 | 11.573 | 0.0189 |
| 35-20 | -4.6 | -9.973 | 0.773 | 0.1163 |
| 30-25 | 4 | -1.373 | 9.373 | 0.2101 |
| 35-25 | -6.8 | -12.173 | -1.427 | 0.0091 |
| 35-30 | -10.8 | -16.173 | -5.427 | 0.0001 |
Tabela 9.3.5: Comparações Múltiplas
| Fator | Médias | Grupos |
|---|---|---|
| 30 | 21.6 | a |
| 25 | 17.6 | ab |
| 20 | 15.4 | bc |
| 35 | 10.8 | cd |
| 15 | 9.8 | d |
Tabela 9.3.6: Agrupamento
Figura 9.3.1: Intervalos de Confiança
Conclusão
Ao considerarmos um nível de significância de 5%, não rejeitamos a hipótese de igualdade entre as médias dos níveis: (15,35); (20,25); (20,35); (25,30).
Exemplo 3.1.2 (Dados não balanceados)
Uma empresa tem interesse em testar quatro tipos de modelos de pacotes para um novo cereal matinal. Vinte lojas com volumes aproximadamente iguais de vendas foram selecionadas. Para cada loja foi atribuído aleatoriamente um dos modelos de pacotes, com cada modelo de pacote atribuído a cinco lojas. Um incêndio ocorreu em uma loja durante o período de estudo, por isso tal estabelecimento teve que ser retirado da pesquisa. Assim, um dos modelos foi testado em apenas quatro lojas. As lojas foram escolhidas a fim de serem comparadas em relação ao volume de vendas. Condições relevantes que possam afetar as vendas como preço, promoções e disposição das prateleiras foram mantidas as mesmas para todas as lojas no experimento. Os dados desse experimento seguem abaixo. Vamos calcular o valor de TSD e verificar quais níveis são iguais.
| Pacotes | Lojas | Total | Média | Nº de lojas | ||||
|---|---|---|---|---|---|---|---|---|
| $i$ | $ Y_{i1} $ | $ Y_{i2} $ | $ Y_{i3} $ | $ Y_{i4} $ | $ Y_{i4} $ | $ Y_{i} $ | $ \bar{Y_{i.}} $ | $ n_{i} $ |
| 1 | 11 | 17 | 16 | 14 | 15 | 73 | 14,6 | 5 |
| 2 | 12 | 10 | 15 | 19 | 11 | 67 | 13,4 | 5 |
| 3 | 23 | 20 | 18 | 17 | 78 | 19,5 | 4 | |
| 4 | 27 | 33 | 22 | 26 | 28 | 136 | 27,2 | 5 |
Tabela 9.3.7: Números de vendas de Pacotes em lojas diferentes
Para efetuarmos as análises do software Action devemos montar a tabela da seguinte maneira:
| Fator | Vendas |
|---|---|
| 1 | 11 |
| 1 | 17 |
| 1 | 16 |
| 1 | 14 |
| 1 | 15 |
| 2 | 12 |
| 2 | 10 |
| 2 | 15 |
| 2 | 19 |
| 2 | 11 |
| 3 | 23 |
| 3 | 20 |
| 3 | 18 |
| 3 | 17 |
| 4 | 27 |
| 4 | 33 |
| 4 | 22 |
| 4 | 26 |
| 4 | 28 |
Tabela 9.3.8: Dados organizados
Usando o software Action, a tabela da ANOVA para esses dados é
| G.L. | Soma de Quadrados | Quadrado Médio | Estat.F | P.valor | |
|---|---|---|---|---|---|
| Fator | 3 | 588.2211 | 196.0737 | 18.5911 | 0 |
| Resíduos | 15 | 158.2 | 10.5467 |
Tabela 9.3.9: Tabela da ANOVA
Temos interesse em encontrar o intervalo de confiança de 95% para o Teste de Tukey para esses dados não balanceados. Para comparar os modelos de pacotes 1 e 2, por exemplo, obtemos:
$$TSD=\dfrac{q_{\alpha}(k,N-k)}{\sqrt{2}}\sqrt{QME\left(\dfrac{1}{n_{i}}+ \dfrac{1}{n_{j}}\right)}$$
$$TSD=\dfrac{q_{0,05}(4,15)}{\sqrt{2}}\sqrt{10,546\left(\dfrac{1}{n_{1}}+\dfrac{1}{n_{2}}\right)}$$
$$TSD=\dfrac{4,08}{\sqrt{2}}\sqrt{10,546\left(\dfrac{1}{5}+\dfrac{1}{5}\right)}=5,925.$$
Desse modo, o intervalo de confiança para $ \mu_{1}-\mu_{2} $ é
$$\bar{y_{1.}}-\bar{y_{3.}}-TSD\leq\mu_{1}-\mu_{3}\leq\bar{y_{1.}}-\bar{y_{3.}}+TSD$$
$$(14,6-13,4)-5,925\leq\mu_{1}-\mu_{3}\leq(14,6-13,4)+5,925$$
$$-4,72\leq\mu_{1}-\mu_{2}\leq7,12$$
Para comparar os modelos de pacotes 1 e 3, obtemos:
$$TSD=\dfrac{q_{\alpha}(k,N-k)}{\sqrt{2}}\sqrt{QME\left(\dfrac{1}{n_{i}}+ \dfrac{1}{n_{j}}\right)}$$
$$TSD=\dfrac{q_{0,05}(4,15)}{\sqrt{2}}\sqrt{10,546\left(\dfrac{1}{n_{1}}+\dfrac{1}{n_{3}}\right)}$$
$$TSD=\dfrac{4,08}{\sqrt{2}}\sqrt{10,546\left(\dfrac{1}{5}+\dfrac{1}{4}\right)}=6,28.$$
Assim, o intervalo de confiança para $ \mu_{1}-\mu_{3} $ é
$$\bar{y_{1.}}-\bar{y_{3.}}-TSD\leq\mu_{1}-\mu_{3}\leq\bar{y_{1.}}-\bar{y_{3.}}+TSD$$
$$(14,6-19,5)-6,28\leq\mu_{1}-\mu_{3}\leq(14,6-19,5)+6,28$$
$$-11,18\leq\mu_{1}-\mu_{2}\leq1,38$$
De maneira análoga, encontramos os intervalos de confianças de 95% para a diferença das outras médias.
$$-18,52\leq\mu_{1}-\mu_{4}\leq-6,68$$
$$-12,38\leq\mu_{2}-\mu_{3}\leq-0,17$$
$$-19,72\leq\mu_{2}-\mu_{4}\leq-7,88$$
$$-13,97\leq\mu_{3}-\mu_{4}\leq-1,42$$
Como os dados não são balanceados e temos neste exemplos dois valores distintos para TSD, consideramos aqui a média aritmética das duas taxas, ou seja, $ TSD=\frac{5,96+6,28}{2}=6,12 $.
Assim, rejeitamos a igualdade entre dois níveis se:
$ |\bar{y_{i.}}-\bar{y_{j.}}|>6,12 $
| Resultado | Resultado | ||
|---|---|---|---|
| $ |\bar{y_{1.}}-\bar{y_{2.}}| $ | $ 1,2 $ | $ |\bar{y_{2.}}-\bar{y_{3.}}| $ | $ 6,1 $ |
| $ |\bar{y_{1.}}-\bar{y_{3.}}| $ | $ 4,9 $ | $ |\bar{y_{2.}}-\bar{y_{4.}}| $ | $ 13,8 $ |
| $ |\bar{y_{1.}}-\bar{y_{4.}}| $ | $ 12,6 $ | $ |\bar{y_{3.}}-\bar{y_{4.}}| $ | $ 7,7 $ |
Tabela 9.3.10: Diferença entre os níveis
Usando o software Action temos os seguintes resultados:
| G.L. | Soma de Quadrados | Quadrado Médio | Estat.F | P.valor | |
|---|---|---|---|---|---|
| Fator | 3 | 588.2211 | 196.0737 | 18.5911 | 0 |
| Resíduos | 15 | 158.2 | 10.5467 |
Tabela 9.3.11: Tabela da Anova
| Comparações | Centro | Limite Inferior | Limite Superior | P-valor |
|---|---|---|---|---|
| 2-1 | -1.2 | -7.1198 | 4.7198 | 0.9353 |
| 3-1 | 4.9 | -1.3789 | 11.1789 | 0.1549 |
| 4-1 | 12.6 | 6.6802 | 18.5198 | 0.0001 |
| 3-2 | 6.1 | -0.1789 | 12.3789 | 0.0583 |
| 4-2 | 13.8 | 7.8802 | 19.7198 | 0 |
| 4-3 | 7.7 | 1.4211 | 13.9789 | 0.0142 |
Tabela 9.3.12: Comparações Múltiplas
| Fator | Médias | Grupos |
|---|---|---|
| 4 | 27.2 | a |
| 3 | 19.5 | b |
| 1 | 14.6 | b |
| 2 | 13.4 | b |
Tabela 9.3.13: Agrupamento
Figura 9.3.2: Intervalos de Confiança
Conclusão
Ao considerarmos um nível de significância de 5%, não rejeitamos a hipótese de igualdade entre as médias dos níveis: (1,2), (1,3) e (2,3).
3.2 - Teste de Fisher
Teste de Fisher (ou LSD)
O método de Fisher, para comparar todos pares de médias, controla a taxa de erro ao nível de significância α para cada comparação dois a dois, mas não controla a taxa de erro do experimento. Esse procedimento usa a estatística $ t $ para testar $ H_{0}: \mu_{i}=\mu_{j} $, em que
$$t_{0}=\dfrac{\overline{y}_{i.}-\overline{y}_{j.}}{\sqrt{QME\left(\dfrac{1}{n_{i}}+\dfrac{1}{n_{j}}\right)}}.$$
O procedimento de Fisher consiste em realizar testes t múltiplos, cada um ao nível de significância α ,somente se o teste F preliminar é significante ao nível α. Este pode ser visto como um procedimento de duas etapas em que a hipótese nula $H_0$ é testada no primeiro passo por um teste F de nível α. Se o teste F não é significativo, o procedimento termina sem precisar fazer inferências detalhadas nas diferenças dos pares das médias; caso contrário, cada diferença de par é testada por um teste t com nível α de significância. Esse procedimento é chamado de teste da diferença mínima significativa (least significant difference (LSD) test).
O LSD controla a taxa de erro do experimento ao nível α sobre $H_0$ devido a “proteção” fornecida para essa hipótese pelo teste F preliminar. No entanto, em outras configurações (hipóteses) de médias verdadeiras, a taxa de erro do experimento pode ser maior que α.
Para tamanhos de amostras iguais (dados balanceados), o teste de Fisher considera duas médias significativamente diferentes se o valor absoluto de suas diferenças amostrais ultrapassar
$$LSD=t_{(\frac{\alpha}{2},N-k)}\sqrt{2\frac{QME}{n}},$$
e para tamanhos de amostras diferentes (dados não balanceados)
$$LSD=t_{(\frac{\alpha}{2},N-k)}\sqrt{QME\left(\frac{1}{n_{i}}+\frac{1}{n_{j}} \right)},$$
em que $ t $ é um valor tabelado (ver Tabela do Teste de Fisher no Apêndice) que depende do número de graus de liberdade dos erros ($ N-k $).
Em outras palavras, rejeitamos a igualdade entre as médias dos dois níveis se $ \mid \overline{y}_{i.}-\overline{y}_{j.} \mid > LSD. $
Há um segundo procedimento de Fisher popularmente chamado como procedimento de Bonferroni que controla a taxa de família de erros do experimento no sentido forte, ou seja, em todas as configurações (hipóteses). Veremos mais detalhes desse procedimento na próxima seção.
Exemplo 3.2.1
Voltando ao Exemplo 1 (resistência da fibra sintética), vamos calcular o valor de LSD e verificar quais tratamentos são iguais.
| Fator | Resistência_da_Fibra |
|---|---|
| 15 | 7 |
| 15 | 7 |
| 15 | 15 |
| 15 | 11 |
| 15 | 9 |
| 20 | 12 |
| 20 | 17 |
| 20 | 12 |
| 20 | 18 |
| 20 | 18 |
| 25 | 14 |
| 25 | 18 |
| 25 | 18 |
| 25 | 19 |
| 25 | 19 |
| 30 | 19 |
| 30 | 25 |
| 30 | 22 |
| 30 | 19 |
| 30 | 23 |
| 35 | 7 |
| 35 | 10 |
| 35 | 11 |
| 35 | 15 |
| 35 | 11 |
Tabela 9.3.14: Dados do Exemplo 1
Como os dados são balanceados, temos que:
$$LSD=t_{(\frac{\alpha}{2},N-k)}\sqrt{2\frac{QME}{n}}$$
$$LSD=t_{(0,025;25-5)}\sqrt{2\frac{8,06}{5}}$$
$$LSD=2,086\sqrt{3,224}$$
$$LSD=3,7455$$
Rejeita-se a igualdade entre dois níveis se
$ \mid \overline{y}_{i.}-\overline{y}_{j.} \mid > 3,7455 $
| $ \mid \overline{y}_{i.}-\overline{y}_{j.} \mid $ | Resultado | $ \mid \overline{y}_{i.}-\overline{y}_{j.} \mid $ | Resultado |
|---|---|---|---|
| $ \mid \overline{y}_{15}-\overline{y}_{20} \mid $ | $ 5,6 $ | $ \mid \overline{y}_{20}-\overline{y}_{30} \mid $ | $ 6,2 $ |
| $ \mid \overline{y}_{15}-\overline{y}_{25} \mid $ | $ 7,8 $ | $ \mid \overline{y}_{20}-\overline{y}_{35} \mid $ | $ 4,6 $ |
| $ \mid \overline{y}_{15}-\overline{y}_{30} \mid $ | $ 11,8 $ | $ \mid \overline{y}_{25}-\overline{y}_{30} \mid $ | $ 4,0 $ |
| $ \mid \overline{y}_{15}-\overline{y}_{35} \mid $ | $ 1,0 $ | $ \mid \overline{y}_{25}-\overline{y}_{35} \mid $ | $ 6,8 $ |
| $ \mid \overline{y}_{20}-\overline{y}_{25} \mid $ | $ 2,2 $ | $ \mid \overline{y}_{30}-\overline{y}_{35} \mid $ | $ 10,8 $ |
Tabela 9.3.15: Diferença entre os níveis
Usando o software Action temos os seguintes resultados:
| Fator | Centro | Limite Inferior | Limite Superior | P-valor |
|---|---|---|---|---|
| 15-20 | -5.6 | -9.3455 | -1.8545 | 0.0054 |
| 15-25 | -7.8 | -11.5455 | -4.0545 | 0.0003 |
| 15-30 | -11.8 | -15.5455 | -8.0545 | 0 |
| 15-35 | -1 | -4.7455 | 2.7455 | 0.5838 |
| 20-25 | -2.2 | -5.9455 | 1.5455 | 0.2347 |
| 20-30 | -6.2 | -9.9455 | -2.4545 | 0.0025 |
| 20-35 | 4.6 | 0.8545 | 8.3455 | 0.0186 |
| 25-30 | -4 | -7.7455 | -0.2545 | 0.0375 |
| 25-35 | 6.8 | 3.0545 | 10.5455 | 0.0012 |
| 30-35 | 10.8 | 7.0545 | 14.5455 | 0 |
Tabela 9.3.16: Comparações Múltiplas por Fisher (Action Stat)
Figura 9.3.3: Intervalos de Confiança
Conclusão
Ao considerarmos um nível de significância de $ 5 \char37 $, não rejeitamos a hipótese de igualdade entre as médias dos níveis: $ (15,35); (20,25) $.
Exemplo 3.2.2
Voltando ao Exemplo 3.2.1 (modelos de pacotes e volumes de vendas), vamos calcular o valor de LSD e verificar quais tratamentos são iguais.
| Fator | Vendas |
|---|---|
| 1 | 11 |
| 1 | 17 |
| 1 | 16 |
| 1 | 14 |
| 1 | 15 |
| 2 | 12 |
| 2 | 10 |
| 2 | 15 |
| 2 | 19 |
| 2 | 11 |
| 3 | 23 |
| 3 | 20 |
| 3 | 18 |
| 3 | 17 |
| 4 | 27 |
| 4 | 33 |
| 4 | 22 |
| 4 | 26 |
| 4 | 28 |
Tabela 9.3.17: dados do Exemplo 3.2.1
Como os dados não são balanceados, temos que
$$LSD=t_{(\frac{\alpha}{2},N-k)}\sqrt{QME\left(\frac{1}{n_{i}}+\frac{1}{n_{j}}\right)}$$
Observemos que n1= n2= n4 . Dessa maneira, teremos aqui dois valores distintos para LSD, o valor para comparar o nível 3 com os demais e o valor que compara os níveis com mesmo tamanho de amostras (1, 2 e 4). Calculemos aqui para ilustrar, o valor da LSD para as diferenças entre as médias $ \mu_1 $ e $ \mu_2 $ e para $ \mu_1 $ e $ \mu_3 $.
$$LSD=t_{\left(\frac{\alpha}{2},N-k\right)}\sqrt{2\frac{QME}{n}}=t_{(\frac{0,05}{2},15)}\sqrt{2\frac{10,55}{5}}=4,378.$$
$$LSD=t_{\left(\frac{\alpha}{2},N-k\right)}\sqrt{QME\left(\frac{1}{n_{1}}+\frac{1}{n_{3}}\right)}=t_{(\frac{0,05}{2},15)}\sqrt{10,55\left(\frac{1}{5}+\frac{1}{4} \right)}=4,643.$$
Como os dados são não balanceados, a taxa LSD considerada é a média aritmética entre as todas as taxas do experimento. Neste exemplo, como temos dois valores distintos para LSD, o valor utlizado é $ LSD=\frac{4,643+4,378}{2}=4,513 $.
Assim, rejeitamos a igualdade entre os níveis se:
$$|\bar{y_{i.}}-\bar{y_{j.}}|>4,513$$
| $ |\bar{y_{i.}}-\bar{y_{j.}}| $ | Resultado | $ |\bar{y_{i.}}-\bar{y_{j.}}| $ | Resultado |
|---|---|---|---|
| $ |\bar{y_{1.}}-\bar{y_{2.}}| $ | $ 1,2 $ | $ |\bar{y_{2.}}-\bar{y_{3.}}| $ | $ 6,1 $ |
| $ |\bar{y_{1.}}-\bar{y_{3.}}| $ | $ 4,9 $ | $ |\bar{y_{2.}}-\bar{y_{4.}}| $ | $ 13,8 $ |
| $ |\bar{y_{1.}}-\bar{y_{4.}}| $ | $ 12,6 $ | $ |\bar{y_{3.}}-\bar{y_{4.}}| $ | $ 7,7 $ |
Tabela 9.3.18: Diferença entre os níveis
Usando o software Action temos os seguintes resultados:
| Fator | Centro | Limite Inferior | Limite Superior | P-valor |
|---|---|---|---|---|
| 1-2 | 1.2 | -3.1779 | 5.5779 | 0.5677 |
| 1-3 | -4.9 | -9.5434 | -0.2566 | 0.0307 |
| 1-4 | -12.6 | -16.9779 | -8.2221 | 0 |
| 2-3 | -6.1 | -10.7434 | -1.4566 | 0.0095 |
| 2-4 | -13.8 | -18.1779 | -9.4221 | 0 |
| 3-4 | -7.7 | -12.3434 | -3.0566 | 0.0019 |
Tabela 9.3.19: Comparações Múltiplas por Fisher
Figura 9.3.4: Intervalos de Confiança
Conclusão
Ao considerarmos um nível de significância de $ 5 \char37 $, não rejeitamos a hipótese de igualdade entre as médias dos níveis 1 e 2.
3.3 - Teste de Bonferroni
O segundo método de comparação múltipla proposto por Fisher e usualmente chamado de teste ou procedimento de Bonferroni, consiste na realização de um teste $ t $ para cada par de médias a uma taxa de erro por comparação (TPC) de $ \frac{\alpha}{\binom{k}{2}} $. Usando esse teste, o nível de significância da família é no máximo $ \alpha $, para qualquer configuração (formação) das médias da população. Dessa forma, temos que o teste de Bonferroni protege a taxa de erro da família dos testes. Isso ilustra a taxa de erro conhecida como taxa de erro por família, que como vimos representa o valor esperado de erros na família.
O teste de Bonferroni pode ser usado para quaisquer que sejam os dados balanceados ou não balanceados. Não é um teste exato, sendo baseado em uma aproximação conhecida como primeira desigualdade de Bonferroni. Em algumas situações, o teste de Bonferroni se mostra bastante “conservativo” (fraco), isto é, a taxa de erro da família de testes (FWER) é muito menor do que o nível de significância $ \alpha $ estabelecido. Para a família de todas as comparações duas a duas, irá produzir intervalos de confiança maiores que o teste de Tukey ou Tukey-Kramer.
Para tamanhos de amostras iguais (dados balanceados), o teste de Bonferroni considera duas médias significativamente diferentes se o valor absoluto de suas diferenças amostrais ultrapassar
$$LSD=t_{(\alpha^{,},N-k)}\sqrt{2\frac{QME}{n}},$$
e para tamanhos de amostras diferentes (dados não balanceados)
$$LSD=t_{(\alpha^{,},N-k)}\sqrt{QME\left(\frac{1}{n_{i}}+\frac{1}{n_{j}}\right)}$$
em que $ \alpha^{,}=\frac{1}{2}(\alpha/c) $ e $ c $ é o número de comparações duas a duas (ou também podemos dizer que é o número de intervalos em estudo). O quantil $ t_{(\alpha^{,},N-k)} $ é da distribuição de probabilidade $ t $-Student com parâmetro $ N-k $
(ver Tabela do Teste de Bonferroni no apêndice). Temos assim que a margem de erro da equação anterior depende do número de comparações.
Dado uma família de taxa de erros (FWER) de $ \alpha $, o intervalo de confiança para $ \mu_i-\mu_j $ é calculado usando a seguinte expressão
$$\bar{y}_{i.}-\bar{y}_{j.}-t_{(\alpha,N-k)}\sqrt{QME\left(\dfrac{1}{n_{i}}+\dfrac{1}{n_{j}}\right)}\leq\mu_{i}-\mu_{j} \leq \bar{y}_{i.}-\bar{y}_{j.}+t_{(\alpha,N-k)}\sqrt{QME\left(\dfrac{1}{n_{i}}+ \dfrac{1}{n_{j}}\right)},$$
Exemplo 3.3.1
Voltando ao Exemplo 1 (resistência da fibra sintética), vamos calcular o valor de LSD para o Teste de Bonferroni e verificar quais níveis são iguais.
| Fator | Resistência_da_Fibra |
|---|---|
| 15 | 7 |
| 15 | 7 |
| 15 | 15 |
| 15 | 11 |
| 15 | 9 |
| 20 | 12 |
| 20 | 17 |
| 20 | 12 |
| 20 | 18 |
| 20 | 18 |
| 25 | 14 |
| 25 | 18 |
| 25 | 18 |
| 25 | 19 |
| 25 | 19 |
| 30 | 19 |
| 30 | 25 |
| 30 | 22 |
| 30 | 19 |
| 30 | 23 |
| 35 | 7 |
| 35 | 10 |
| 35 | 11 |
| 35 | 15 |
| 35 | 11 |
Tabela 9.3.20: dados do Exemplo 1
Como os dados são balanceados, temos que
$$LSD=t_{(\alpha^{,},N-k)}\sqrt{2\frac{QME}{n}}$$
$$LSD= t_{(\frac{1}{2}(\alpha/\binom{5}{2}),25-5)}\sqrt{2\frac{8,06}{5}}$$
$$LSD= t_{(\frac{1}{2}(0,05/10),20)}\sqrt{2\frac{8,06}{5}}$$
$$LSD= 3,153\sqrt{3,224}$$
$$LSD= 5,662$$
Rejeitamos a igualdade entre os níveis se
$ \mid \overline{y}_{i.}-\overline{y}_{j.} \mid > 5,662 $
| $ \mid \overline{y}_{i.}-\overline{y}_{j.} \mid $ | Resultado | $ \mid \overline{y}_{i.}-\overline{y}_{j.} \mid $ | Resultado |
|---|---|---|---|
| $ \mid \overline{y}_{15}-\overline{y}_{20} \mid $ | $ 5,6 $ | $ \mid \overline{y}_{20}-\overline{y}_{30} \mid $ | $ 6,2 $ |
| $ \mid \overline{y}_{15}-\overline{y}_{25} \mid $ | $ 7,8 $ | $ \mid \overline{y}_{20}-\overline{y}_{35} \mid $ | $ 4,6 $ |
| $ \mid \overline{y}_{15}-\overline{y}_{30} \mid $ | $ 11,8 $ | $ \mid \overline{y}_{25}-\overline{y}_{30} \mid $ | $ 4,0 $ |
| $ \mid \overline{y}_{15}-\overline{y}_{35} \mid $ | $ 1,0 $ | $ \mid \overline{y}_{25}-\overline{y}_{35} \mid $ | $ 6,8 $ |
| $ \mid \overline{y}_{20}-\overline{y}_{25} \mid $ | $ 2,2 $ | $ \mid \overline{y}_{30}-\overline{y}_{35} \mid $ | $ 10,8 $ |
Tabela 9.3.21: Diferença entre os níveis
Conclusão
Ao considerarmos um nível de significância de $ 5 \char37 $, não rejeitamos a hipótese de igualdade entre as médias dos níveis: (15,35); (20,25); (20,35) e (25,30).
| Fator | Centro | Limite Inferior | Limite Superior | P-valor |
|---|---|---|---|---|
| 20-15 | 5.6 | -0.0621 | 11.2621 | 0.0541 |
| 25-15 | 7.8 | 2.1379 | 13.4621 | 0.0031 |
| 30-15 | 11.8 | 6.1379 | 17.4621 | 0 |
| 35-15 | 1 | -4.6621 | 6.6621 | 1 |
| 25-20 | 2.2 | -3.4621 | 7.8621 | 1 |
| 30-20 | 6.2 | 0.5379 | 11.8621 | 0.0251 |
| 20-35 | 4.6 | -1.0621 | 10.2621 | 0.186 |
| 30-25 | 4 | -1.6621 | 9.6621 | 0.3754 |
| 25-35 | 6.8 | 1.1379 | 12.4621 | 0.0116 |
| 30-35 | 10.8 | 5.1379 | 16.4621 | 0.0001 |
Tabela 9.3.22: Comparações Múltiplas por Fisher-Bonferroni
Figura 9.3.5: Intervalos de Confiança por Fisher-Bonferroni
Exemplo 3.3.2
Voltando ao Exemplo 3.2.1 (modelos de pacotes e volumes de vendas), vamos calcular o valor de LSD e verificar quais tratamentos são iguais.
| Fator | Vendas |
|---|---|
| 1 | 11 |
| 1 | 17 |
| 1 | 16 |
| 1 | 14 |
| 1 | 15 |
| 2 | 12 |
| 2 | 10 |
| 2 | 15 |
| 2 | 19 |
| 2 | 11 |
| 3 | 23 |
| 3 | 20 |
| 3 | 18 |
| 3 | 17 |
| 4 | 27 |
| 4 | 33 |
| 4 | 22 |
| 4 | 26 |
| 4 | 28 |
Tabela 9.3.23: dados do Exemplo 3.2.1
Como os dados não são balanceados, temos que
$$LSD=t_{(\alpha^{,},N-k)}\sqrt{QME\left(\frac{1}{n_{i}}+\frac{1}{n_{j}}\right)},$$
em que $ \alpha^{,}=\frac{1}{2}(\alpha/c) $, $ c=\binom{4}{2} $ e $ \alpha=0,05 $.
Observemos que n1= n2= n4 . Dessa maneira, teremos aqui dois valores distintos para LSD, o valor para comparar o nível 3 com os demais e o valor que compara os níveis com mesmo tamanho de amostras (1, 2 e 4). Calculemos aqui para ilustrar, o valor da LSD para as diferenças entre as médias $ \mu_1 $ e $ \mu_2 $ e para $ \mu_1 $ e $ \mu_3 $.
$$LSD=t_{(\alpha^{,},N-k)}\sqrt{2\frac{QME}{n}}=t_{(\frac{1}{2}(\alpha/c),19-4)}\sqrt{2 \frac{10,55}{5}}=3,036\sqrt{2\frac{10,55}{5}}=6,236.$$
$$LSD=t_{(\alpha^{,},N-k)}\sqrt{QME\left(\frac{1}{n_{1}}+\frac{1}{n_{3}}\right)}=t_{(\frac{1}{2}(\alpha/c),19-4)}\sqrt{10,55\left(\frac{1}{5}+\frac{1}{4}\right)}=6,615.$$
Rejeitamos as igualdades entre as médias dos níveis se $ |\bar{y_{1}}-\bar{y_{2}}|>6,236 $; $ |\bar{y_{1}}-\bar{y_{3}}|>6,615 $; $ |\bar{y_{1}}-\bar{y_{4}}|>6,236 $; $ |\bar{y_{2}}-\bar{y_{3}}|>6,615 $; $ |\bar{y_{2}}-\bar{y_{4}}|>6,236 $ e $ |\bar{y_{3}}-\bar{y_{4}}|>6,615. $
| $ |\bar{y_{i.}}-\bar{y_{j.}}| $ | Resultado | $ |\bar{y_{i.}}-\bar{y_{j.}}| $ | Resultado |
|---|---|---|---|
| $ |\bar{y_{1.}}-\bar{y_{2.}}| $ | $ 1,2 $ | $ |\bar{y_{2.}}-\bar{y_{3.}}| $ | $ 6,1 $ |
| $ |\bar{y_{1.}}-\bar{y_{3.}}| $ | $ 4,9 $ | $ |\bar{y_{2.}}-\bar{y_{4.}}| $ | $ 13,8 $ |
| $ |\bar{y_{1.}}-\bar{y_{4.}}| $ | $ 12,6 $ | $ |\bar{y_{3.}}-\bar{y_{4.}}| $ | $ 7,7 $ |
Tabela 9.3.24: Diferença entre os níveis
Conclusão
Ao considerarmos um nível de significância de $ 5 \char37 $, não rejeitamos a hipótese de igualdade entre as médias dos níveis (1,2), (1,3) e (2,3).
| Fator | Centro | Limite Inferior | Limite Superior | P-valor |
|---|---|---|---|---|
| 1-2 | 1.2 | -5.0363 | 7.4363 | 1 |
| 3-1 | 4.9 | -1.7146 | 11.5146 | 0.2397 |
| 4-1 | 12.6 | 6.3637 | 18.8363 | 0.0001 |
| 3-2 | 6.1 | -0.5146 | 12.7146 | 0.0808 |
| 4-2 | 13.8 | 7.5637 | 20.0363 | 0 |
| 4-3 | 7.7 | 1.0854 | 14.3146 | 0.018 |
Tabela 9.3.25: Comparações Múltiplas por Fisher-Bonferroni
Figura 9.3.6: Intervalos de Confiança
3.4 - Teste de Scheffe
O método proposto por Scheffe (1959) é também conhecido como teste de Scheffe da diferença completamente significativa (fully significant difference (FSD)) e como teste de Scheffe da diferença globalmente significativa (globally significant difference(GSD)). É um método exato no sentido em que, para as famílias (finitas) envolvendo todos os contrastes das $ k $ médias, a FWER é exatamente $ \alpha $.
O Teste de Scheffe pode ser usado quando as comparações são selecionadas depois de olhar para os dados e incluem os contrastes, que nem todos são aos pares. Também pode ser utilizado quando um grande número de contrastes, nem todos aos pares, são especificados antes de coletar os dados.
Dada uma FWER de valor $ \alpha $, o intervalo de confiança para o contraste
é calculado utilizando a seguinte fórmula
$$\sum\limits_{i=1}^{k}c_i\bar{y_{i}}\pm\sqrt{(k-1)F_{(\alpha,k-1,N-k)}}\sqrt{QME\sum\limits_{i=1}^{k}\frac{c_{i}^{2}}{n_{i}}},$$
em que o quantil $ F_{\alpha,k-1,v} $ é da distribuição $ F $ com parâmetros $ k-1 $ e $ v $ (ver Tabela do Teste de Scheffe no apêndice). A margem de erro da expressão anterior não depende do número de contrastes, mas sim do número de médias no contraste.
O método de Sheffe também pode ser usado para a família de todas as comparações duas a duas, mas quase sempre resultará em intervalos de confiança maiores que os métodos estudados anteriormente (Tukey, Tukey-Kramer, Fisher e Bonferroni). Dado uma FWER de $ \alpha $, o intervalo de confiança para $ \mu_i-\mu_j $ é calculado usando a seguinte expressão
$$\bar{y_{i.}}-\bar{y_{j.}}\pm\sqrt{(k-1)F_{\alpha,k-1,N-k}}\sqrt{QME\left(\frac{1}{n_i}+\frac{1}{n_j}\right)}.$$
Dessa forma, temos que o Teste de Scheffe considera duas médias significativamente diferentes se o valor absoluto de suas diferenças amostrais ultrapassar
$$FSD=\sqrt{(k-1)F_{(\alpha,k-1,N-k)}}\sqrt{QME\left(\frac{1}{n_i}+\frac{1}{n_j}\right)}.$$
Em outras palavras, rejeitamos a igualdade da média de dois níveis se
$$|\bar{y_{i.}}-\bar{y_{j.}}|> FSD$$
Uma observação trazida por alguns autores é que, pelo fato desse procedimento ser extremamente conservador, quando o interesse está apenas na comparação duas a duas, o teste de Scheffe não é adequado. Recomendam ainda que se o número de contrastes utilizados no estudo não é consideravelmente maior que o número de grupos, e os contrastes não foram sugeridos pelos dados, o procedimento de Bonferroni, provavelmente será mais poderoso que Scheffe. Contudo, se os contrastes forem sugeridos pelos dados, o método de Scheffe deve ser empregado ao invés de Bonferroni, desde que todos os contrastes possíveis tenham sido considerados implicitamente.
Exemplo 3.4.1
Para os dados do Exemplo 1, vamos calcular o valor de FSD e verificar quais níveis são iguais.
| Fator | Resistência_da_Fibra |
|---|---|
| 15 | 7 |
| 15 | 7 |
| 15 | 15 |
| 15 | 11 |
| 15 | 9 |
| 20 | 12 |
| 20 | 17 |
| 20 | 12 |
| 20 | 18 |
| 20 | 18 |
| 25 | 14 |
| 25 | 18 |
| 25 | 18 |
| 25 | 19 |
| 25 | 19 |
| 30 | 19 |
| 30 | 25 |
| 30 | 22 |
| 30 | 19 |
| 30 | 23 |
| 35 | 7 |
| 35 | 10 |
| 35 | 11 |
| 35 | 15 |
| 35 | 11 |
Tabela 9.3.26: dados do Exemplo 1
Como os dados são balanceadoos, temos que:
$$FSD=\sqrt{(k-1)F_{(\alpha,k-1,N-k)}}\sqrt{2\frac{QME}{n}}$$
$$FSD=\sqrt{(5-1)F_{(0.05,5-1,25-4)}}\sqrt{2\frac{8,06}{5}}$$
$$FSD= \sqrt{(5-1)2,866}\sqrt{3,224}$$
$$FSD=6,079$$
Rejeitamos a igualdade entre dois níveis se
$ \mid \overline{y}_{i.}-\overline{y}_{j.} \mid > 6,079 $
| $ \mid \overline{y}_{i.}-\overline{y}_{j.} \mid $ | Resultado | $ \mid \overline{y}_{i.}-\overline{y}_{j.} \mid $ | Resultado |
|---|---|---|---|
| $ \mid \overline{y}_{15}-\overline{y}_{20} \mid $ | $ 5,6 $ | $ \mid \overline{y}_{20}-\overline{y}_{30} \mid $ | $ 6,2 $ |
| $ \mid \overline{y}_{15}-\overline{y}_{25} \mid $ | $ 7,8 $ | $ \mid \overline{y}_{20}-\overline{y}_{35} \mid $ | $ 4,6 $ |
| $ \mid \overline{y}_{15}-\overline{y}_{30} \mid $ | $ 11,8 $ | $ \mid \overline{y}_{25}-\overline{y}_{30} \mid $ | $ 4,0 $ |
| $ \mid \overline{y}_{15}-\overline{y}_{35} \mid $ | $ 1,0 $ | $ \mid \overline{y}_{25}-\overline{y}_{35} \mid $ | $ 6,8 $ |
| $ \mid \overline{y}_{20}-\overline{y}_{25} \mid $ | $ 2,2 $ | $ \mid \overline{y}_{30}-\overline{y}_{35} \mid $ | $ 10,8 $ |
Tabela 9.3.27: Diferença entre os níveis
Usando o software Action temos os seguintes resultados:
| G.L. | Soma de Quadrados | Quadrado Médio | Estat.F | P.valor | |
|---|---|---|---|---|---|
| Fator | 4 | 475.76 | 118.94 | 14.7568 | 0 |
| Resíduos | 20 | 161.2 | 8.06 |
Tabela 9.3.28: Tabela da ANOVA
| Centro | Limite Inferior | Limite Superior | P-valor |
|---|---|---|---|
| 20 - 15 | 5.6 | -1.0079 | 12.2079 |
| 25 - 15 | 7.8 | 1.1921 | 14.4079 |
| 30 - 15 | 11.8 | 5.1921 | 18.4079 |
| 35 - 15 | 1 | -5.6079 | 7.6079 |
| 25 - 20 | 2.2 | -4.4079 | 8.8079 |
| 30 - 20 | 6.2 | -0.4079 | 12.8079 |
| 20 - 35 | 4.6 | -2.0079 | 11.2079 |
| 30 - 25 | 4 | -2.6079 | 10.6079 |
| 25 - 35 | 6.8 | 0.1921 | 13.4079 |
| 30 - 35 | 10.8 | 4.1921 | 17.4079 |
Tabela 9.3.29: Comparações Múltiplas por Scheffé
Figura9.3.7: Intervalos de Confiança
Conclusão
Ao considerarmos um nível de significância de $ 5 \char37 $, não rejeitamos a hipótese de igualdade entre as médias dos níveis: $ (20,15),(15,35); (20,25); (20,35); (25,30) $
Exemplo 3.4.2
Voltando ao Exemplo 3.2.1 (modelos de pacotes e volumes de vendas), vamos calcular o valor de LSD e verificar quais tratamentos são iguais.
| Fator | Vendas |
|---|---|
| 1 | 11 |
| 1 | 17 |
| 1 | 16 |
| 1 | 14 |
| 1 | 15 |
| 2 | 12 |
| 2 | 10 |
| 2 | 15 |
| 2 | 19 |
| 2 | 11 |
| 3 | 23 |
| 3 | 20 |
| 3 | 18 |
| 3 | 17 |
| 4 | 27 |
| 4 | 33 |
| 4 | 22 |
| 4 | 26 |
| 4 | 28 |
Tabela 9.3.30: dados do exemplo 3.2.1
Como os dados não são balanceados, temos que
$$FSD=\sqrt{(k-1)F_{\alpha,k-1,N-k}}\sqrt{QME\left(\frac{1}{n_i}+\frac{1}{n_j}\right)}.$$
Observemos que $n_1= n_2= n_4$ . Dessa maneira, teremos aqui dois valores distintos para FSD, o valor para comparar o nível 3 com os demais e o valor que compara os níveis com mesmo tamanho de amostras (1, 2 e 4). Calculemos aqui para ilustrar, o valor da FSD para as diferenças entre as médias $ \mu_1 $ e $ \mu_2 $ e para $ \mu_1 $ e $ \mu_3 $.
$$FSD=\sqrt{(k-1)F_{(\alpha,k-1,N-k)}}\sqrt{2\frac{QME}{n}}=\sqrt{3\times F_{(0.05,3,15)}}\sqrt{2\frac{10,55}{5}}=6,450$$
$$FSD=\sqrt{(k-1)F_{\alpha,k-1,N-k}}\sqrt{QME\left(\frac{1}{n_i}+\frac{1}{n_j}\right)}=\sqrt{3\times F_{(0.05,3,15)}}\sqrt{10,55\left(\frac{1}{5}+\frac{1}{4}\right)}=6,841$$
Como os dados não são balanceados e temos neste exemplos dois valores distintos para FSD, consideramos aqui a média aritmética das duas taxas, ou seja, $ FSD=\frac{6,841+6,450}{2}=6,645 $.
Assim, rejeitamos a igualdades entre dois níveis se
$$|\bar{y_{i.}}-\bar{y_{j.}}|>6,645$$
| $ |\bar{y_{i.}}-\bar{y_{j.}}| $ | Resultado | $ |\bar{y_{i.}}-\bar{y_{j.}}| $ | Resultado |
|---|---|---|---|
| $ |\bar{y_{1.}}-\bar{y_{2.}}| $ | $ 1,2 $ | $ |\bar{y_{2.}}-\bar{y_{3.}}| $ | $ 6,1 $ |
| $ |\bar{y_{1.}}-\bar{y_{3.}}| $ | $ 4,9 $ | $ |\bar{y_{2.}}-\bar{y_{4.}}| $ | $ 13,8 $ |
| $ |\bar{y_{1.}}-\bar{y_{4.}}| $ | $ 12,6 $ | $ |\bar{y_{3.}}-\bar{y_{4.}}| $ | $ 7,7 $ |
Tabela 9.3.31: Diferença entre os níveis
Usando o software Action temos os seguintes resultados:
| G.L. | Soma de Quadrados | Quadrado Médio | Estat.F | P.valor | |
|---|---|---|---|---|---|
| Fator | 3 | 588.2211 | 196.0737 | 18.5911 | 0 |
| Resíduos | 15 | 158.2 | 10.5467 |
Tabela 9.3.32: Tabela da ANOVA
| Centro | Limite Inferior | Limite Superior | P-valor |
|---|---|---|---|
| 1 - 2 | 1.2 | -5.1044 | 7.5044 |
| 3 - 1 | 4.9 | -1.7868 | 11.5868 |
| 4 - 1 | 12.6 | 6.2956 | 18.9044 |
| 3 - 2 | 6.1 | -0.5868 | 12.7868 |
| 4 - 2 | 13.8 | 7.4956 | 20.1044 |
| 4 - 3 | 7.7 | 1.0132 | 14.3868 |
Tabela 9.3.33: Comparações Múltiplas por Scheffé
Figura 9.3.8: Intervalos de Confiança
Conclusão
Ao considerarmos um nível de significância de $ 5 \char37 $, não rejeitamos a hipótese de igualdade entre as médias dos níveis (1,2), (1,3) e (2,3).
Exemplo 3.4.3 (Intervalos de confiança para diferentes contrastes das médias)
Os dados na tabela abaixo resultaram de um experimento executado em um delineamento (planejamento) inteiramente casualizado, em que cada um dos quatro tratamentos foi repetido cinco vezes. Para exemplificar, vamos considerar como os tratamentos 4 métodos de ensinos que foram aplicados cada um em 5 grupos de crianças em que, para cada aplicação de um método temos o desempenho médio de cada grupo de crianças.
| Métodos | Desempenho | Total | Média | Grupos | ||||
|---|---|---|---|---|---|---|---|---|
| $i$ | $ Y_{i1} $ | $ Y_{i2} $ | $ Y_{i3} $ | $ Y_{i4} $ | $ Y_{i5} $ | $ Y_{i} $ | $ \bar{Y}_{i.} $ | $ n_{i} $ |
| 1 | 7,2 | 6,7 | 5,6 | 4,4 | 5,2 | 29,1 | 5,82 | 5 |
| 2 | 8,8 | 6,5 | 7,1 | 9,4 | 5,7 | 37,5 | 7,5 | 5 |
| 3 | 7,8 | 9,9 | 8,3 | 7 | 9,1 | 42,1 | 8,42 | 5 |
| 4 | 4,9 | 4,6 | 6,2 | 5 | 6,3 | 27 | 5,4 | 5 |
Tabela 9.3.34: Número do desempenho médio de cada grupo de crianças por diferentes métodos
Para efetuarmos as análises do software Action devemos montar a tabela da seguinte maneira:
| Método | Desempenho médio |
|---|---|
| 1 | 7,2 |
| 1 | 6,7 |
| 1 | 5,6 |
| 1 | 4,4 |
| 1 | 5,2 |
| 2 | 8,8 |
| 2 | 6,5 |
| 2 | 7,1 |
| 2 | 9,4 |
| 2 | 5,7 |
| 3 | 7,8 |
| 3 | 9,9 |
| 3 | 8,3 |
| 3 | 7 |
| 3 | 9,1 |
| 4 | 4,9 |
| 4 | 4,6 |
| 4 | 6,2 |
| 4 | 5 |
| 4 | 6,3 |
Tabela 9.3.35: dados organizados
Usando o software Action, a tabela da ANOVA para esses dados é
| G.L. | Soma de Quadrados | Quadrado Médio | Estat.F | P.valor | |
|---|---|---|---|---|---|
| Fator | 3 | 30.1695 | 10.0565 | 7.1845 | 0.0029 |
| Resíduos | 16 | 22.396 | 1.3997 |
Tabela 9.3.36: Tabela da ANOVA
Neste exemplo temos interesse em encontrar intervalos de confiança para diferentes contrastes das médias. Como vimos anteriormente, um contraste arbitrário é definido por
$$C=\sum\limits_{i=1}^{k}c_i\mu_i \quad \hbox{em que,}\quad \sum\limits_{i=1}^{k}c_i=0.$$
Estimamos $ C $ por $ \hat{C}=\sum\limits_{i=1}^{k}c_{i}\bar{Y_{i.}}, $ para que a variância estimada seja $ S^{2}_{\hat{C}}=QME\sum\limits_{i=1}^{k}\frac{c_{i}^{2}}{n_{i}}. $
Assim, como visto acima, todos os intervalos de confiança são dados por
$$\hat{C}=\sum\limits_{i=1}^{k}c_i\bar{y_{i}}\pm\sqrt{(k-1)F_{(\alpha,k-1,N-k)}}\sqrt{QME\sum\limits_{i=1}^{k}\frac{c_{i}^{2}}{n_{1}}}.$$
Neste exemplo, desejamos estimar e contruir intervalos de confiança para os seguintes contrastes:
$$C_{1}=\frac{\mu_1+\mu_2}{2}-\frac{\mu_{3}+\mu_{4}}{2}$$
$$C_{2}=\frac{\mu_1+\mu_2}{2}-\frac{\mu_{3}+\mu_{4}}{2}$$
Os pontos estimados são:
$$\hat{C_{1}}=\frac{\bar{Y_{1}}+\bar{Y_{2}}}{2}-\frac{\bar{Y_{3}}+\bar{Y_{4}}}{2}=\frac{5,82+7,5}{2}-\frac{8,42+5,4}{2}=-0,25$$
$$\hat{C_{1}}=\frac{\bar{Y_{1}}+\bar{Y_{3}}}{2}-\frac{\bar{Y_{2}}+\bar{Y_{4}}}{2}=\frac{5,82+8,42}{2}-\frac{7,5+5,4}{2}=0,67$$
Pela tabela da Anova acima temos que QME=1,40. Aplicando as fórmulas anteriores obtemos em ambos os casos que
$$S_{\hat{C}}^{2}=QME\sum\limits_{i=1}^{k}\frac{c_{i}^{2}}{n_{i}}=1,4\sum\limits_{i=1}^{4} \frac{c_{i}^{2}}{5}=1,40\times\left(\frac{4\times(1/2)^{2}}{5}\right)=1,40\times 0,2=0,28.$$
Dessa maneira, um intervalo de confiança de 95% para os contrastes $ C1_{1} $ e $ C_{2} $ são dados por
$$\sum\limits_{i=1}^{k}c_i\bar{y_{i}}\pm\sqrt{(k-1)F_{(\alpha,k-1,N-k)}}\sqrt{QME\sum\limits_{i=1}^{k}\frac{c_{i}^{2}}{n_{1}}},$$
em que $ F_{\alpha,k-1,N-k}=F_{0,05;3;16}=3,239 $.
Assim, os limites de confiança para $ C_{1} $ e $ C_{2} $ serão respectivamente $ -0.25\pm\sqrt{(4-1)F_{(0,05;3;16)}}\sqrt{0,28}=1,631 $ e $ 0,67\pm\sqrt{(4-1)F_{(0,05;3;16)}}\sqrt{0,28}=1,631 $. Portanto, os intervalos de confiança são dados por
$$-1,881\leq C_{1}\leq1,381$$
$$-0,961\leq C_{2}\leq2,301$$
3.5 - Teste de Dunnett
Comparações de médias com um controle ou com um valor referência
Teste de Dunnett
Dunnett (1955) foi pioneiro no conceito de que, quando um controle está presente, as comparações de interesse preliminar podem ser as comparações de cada novo tratamento com o controle. Por exemplo, o controle pode ser um placebo, um tratamento “padrão”, ou qualquer outro tratamento específico (como uma nova droga). Suponhamos que $μ_1,…,μ_{j-1}$ são as médias dos novos tratamentos e $μ_j$ é a média do controle. Quando realizamos comparações múltiplas com um controle, os parâmetros de interesse primários são $μ_i-μ_j$ para $ i=1, \ldots, j-1 $, a diferença entre cada nova média de tratamento $μ_i$ e a média do controle $μ_j$, ou seja, queremos testar as hipóteses
$$ \begin{cases} H_0: \mu_i = \mu_j \cr H_1: \mu_{i} \neq \mu_{j} \end{cases}$$
O método de Dunnett é uma modificação do teste $ t $ usual. A menor diferença significativa neste caso é dada por
$$d=d^{\ast}_{\alpha}(k,N-k) \sqrt{2\times\frac{QME}{n}}~~~~~~~~~~~~~\hbox{(dados~balanceados)}.$$
$$d=d_{\alpha}^{\ast}(k,N-k) \sqrt{QME\left(\frac{1}{n_{i}}+\frac{1}{n_{j}}\right)}~~~~~\hbox{(dados~não~balanceados)}.$$
em que $ d^{\ast}_{\alpha}(k,N-k) $ é um valor tabelado proposto por Dunnet (ver Tabela do Teste de Dunnett no Apêndice), que depende do número de níveis (k) e dos graus de liberdade dos erros (N-k).
Se tomarmos o nível $ j $ como controle, rejeitamos a igualdade entre a média do nível $ i $ e a média do nível $ j $ se:
$ \mid \overline{y}_{i.}-\overline{y}_{j.} \mid > d. $
Exemplo 3.5.1
Consideremos o efeito do cigarro em doenças pulmonares. Nesse caso, tomemos as doenças pulmonares medidas de pessoas não fumantes (NF) e 5 grupos de fumantes classificados como FP: fumante passivo; NI: pessoas que fumam, mas não inalam a fumaça; FL: pessoas que fumam de 1 a 10 cigarros por dia; FM: pessoas que fumam de 11 a 39 cigarros por dia e FE: pessoas que fumam mais de 40 cigarros por dia. Tomamos os não fumantes como o grupo de controle, e estamos interessados em saber o quanto fumar pode afetar a saúde pulmonar em termos da capacidade da força vital (CFV), em relação a não fumar. Tomamos nesse exemplo α=0,05. Os dados desse exemplo estão na sequência.
| Grupo | CFV |
|---|---|
| NF | 3,7890 |
| NF | 3,6953 |
| NF | 3,9272 |
| NF | 3,9563 |
| NF | 3,7490 |
| NF | 3,1549 |
| NF | 3,4596 |
| NF | 2,8963 |
| NF | 2,3569 |
| NF | 2,7896 |
| NF | 3,1549 |
| FP | 3,5633 |
| FP | 2,8318 |
| FP | 3,2156 |
| FP | 3,2136 |
| FP | 3,1877 |
| FP | 3,2451 |
| FP | 3,1050 |
| FP | 3,2312 |
| FP | 3,2014 |
| FP | 3,1877 |
| FP | 3,6395 |
| NI | 3,1492 |
| NI | 3,1945 |
| NI | 2,9791 |
| NI | 3,0127 |
| NI | 2,9985 |
| NI | 2,8963 |
| NI | 3,2520 |
| NI | 3,6271 |
| NI | 3,4651 |
| NI | 2,8963 |
| NI | 3,6271 |
| FL | 2,8356 |
| FL | 3,1546 |
| FL | 3,1579 |
| FL | 2,4663 |
| FL | 2,9863 |
| FL | 3,0356 |
| FL | 3,5669 |
| FL | 3,2619 |
| FL | 3,3480 |
| FL | 3,5669 |
| FL | 3,2619 |
| FM | 2,9865 |
| FM | 2,8384 |
| FM | 2,8000 |
| FM | 2,8963 |
| FM | 2,6934 |
| FM | 2,8183 |
| FM | 2,8963 |
| FM | 2,6934 |
| FM | 2,8183 |
| FM | 2,5693 |
| FM | 2,8183 |
| FE | 2,6397 |
| FE | 2,3976 |
| FE | 2,4112 |
| FE | 2,2356 |
| FE | 2,5282 |
| FE | 2,8963 |
| FE | 2,6539 |
| FE | 2,5550 |
| FE | 2,8957 |
| FE | 2,3694 |
| FE | 2,5550 |
Tabela 9.3.37: dados do exemplo 3.5.1
Usando o software Action, a tabela da ANOVA para esses dados é
| G.L. | Soma de Quadrados | Quadrado Médio | Estat. F | P-valor | |
|---|---|---|---|---|---|
| Grupo | 5 | 5.0908 | 1.0182 | 11.0008 | 0 |
| Resíduos | 60 | 5.5532 | 0.0926 |
Tabela 9.3.38: Tabela da ANOVA
Como os dados são balanceados, temos que:
$$d=d^{\ast}_{\alpha}(k,N-k) \sqrt{2\frac{QME}{n}}$$
$$d=d^{\ast}_{0,05}(6,66-6) \sqrt{2\frac{0,09255}{6}}$$
$$d=2,58\sqrt{0.03085}$$
$$d=0,4531$$
Dessa forma, rejeitamos a igualdade entre as médias dos dois grupos se
$ \mid \overline{y}_{i.}-\overline{y}_{NF} \mid >0,4531. $
| $ \mid \overline{y}_{i.}-\overline{y}_{NF} \mid $ | Resultados | $ \mid \overline{y}_{i.}-\overline{y}_{NF} \mid $ | Resultados |
|---|---|---|---|
| $ \mid \overline{y}_{FP}-\overline{y}_{NF} \mid $ | $ 0,118 $ | $ \mid \overline{y}_{FM}-\overline{y}_{NF} \mid $ | $ 0,554 $ |
| $ \mid \overline{y}_{NI}-\overline{y}_{NF} \mid $ | $ 0,166 $ | $ \mid \overline{y}_{FE}-\overline{y}_{NF} \mid $ | $ 0,799 $ |
| $ \mid \overline{y}_{FL}-\overline{y}_{NF} \mid $ | $ 0,207 $ |
Tabela 9.3.39: Diferença entre os níveis
Usando o software Action temos os seguintes resultados:
| Média | Limite Inferior | Limite Superior | P-Valor | |
|---|---|---|---|---|
| FE - NF | -0.7992 | -1.1341 | -0.4644 | 0 |
| FL - NF | -0.2079 | -0.5428 | 0.1269 | 0.366 |
| FM - NF | -0.5546 | -0.8894 | -0.2197 | 0.0003 |
| FP - NF | -0.1188 | -0.4537 | 0.216 | 0.8267 |
| NI - NF | -0.1665 | -0.5013 | 0.1684 | 0.5758 |
Tabela 9.3.40: Teste de Dunnett
Figura 9.3.9: Intervalos de Confiança
Conclusão
Ao considerarmos um nível de significância de 5%, não rejeitamos a hipótese de igualdade entre os grupos (NF, NP) e (NF, NI).
Exemplo 3.5.2
Considerando os dados do Exemplo 1, vamos calcular o valor de d e verificar quais tratamentos são iguais. Usaremos o nível 25 como nível controle.
| Fator | Resistência_da_Fibra |
|---|---|
| 15 | 7 |
| 15 | 7 |
| 15 | 15 |
| 15 | 11 |
| 15 | 9 |
| 20 | 12 |
| 20 | 17 |
| 20 | 12 |
| 20 | 18 |
| 20 | 18 |
| 25 | 14 |
| 25 | 18 |
| 25 | 18 |
| 25 | 19 |
| 25 | 19 |
| 30 | 19 |
| 30 | 25 |
| 30 | 22 |
| 30 | 19 |
| 30 | 23 |
| 35 | 7 |
| 35 | 10 |
| 35 | 11 |
| 35 | 15 |
| 35 | 11 |
Tabela 9.2.41: dados do Exemplo 1
Como os dados são balanceados, temos que:
$$d=d^{\ast}_{\alpha}(k,N-k) \sqrt{2\frac{QME}{n}}$$
$$d=d_{0,05}(5;20) \sqrt{2\frac{8,06}{5}}$$
$$d=2,65\sqrt{3,224}$$
$$d=4,7582$$
Rejeitamos a igualdade entre as médias dos dois tratamentos se:
$ \mid \overline{y}_{i.}-\overline{y}_{25} \mid > 4,7582. $
| $ \mid \overline{y}_{i.}-\overline{y}_{25} \mid $ | Resultados | $ \mid \overline{y}_{i.}-\overline{y}_{25} \mid $ | Resultados |
|---|---|---|---|
| $ \mid \overline{y}_{15}-\overline{y}_{25} \mid $ | $ 7,8 $ | $ \mid \overline{y}_{30}-\overline{y}_{25} \mid $ | $ 4,0 $ |
| $ \mid \overline{y}_{20}-\overline{y}_{25} \mid $ | $ 2,2 $ | $ \mid \overline{y}_{35}-\overline{y}_{25} \mid $ | $ 6,8 $ |
Tabela 9.2.42: Diferença entre as médias
Usando o software Action temos os seguintes resultados:
| Média | Limite Inferior | Limite Superior | P-Valor | |
|---|---|---|---|---|
| 15 - 25 | -7.8 | -12.5587 | -3.0413 | 0.0011 |
| 20 - 25 | -2.2 | -6.9587 | 2.5587 | 0.5632 |
| 30 - 25 | 4 | -0.7587 | 8.7587 | 0.1158 |
| 35 - 25 | -6.8 | -11.5587 | -2.0413 | 0.0042 |
Tabela 9.2.43: Teste de Dunnet
Figura 9.3.10: Intervalos de Confiança
Conclusão
Ao considerarmos um nível de significância de 5%, não rejeitamos a hipótese de igualdade entre as médias dos níveis: (20,25) e (30,25).
3.6 - Teste de HSU
Teste de HSU (Multiple Comparisons with the Best-MCB)
Vimos anteriormente o problema de compararmos os tratamentos de estudo com um tratamento controle que é usado como uma “referência” (Teste de Dunnet). Em algumas aplicações, a referência relevante (desconhecida) é o “melhor” tratamento, que é, o tratamento que tem maior valor de média (largest) ou menor (smallest), dependendo da análise de interesse. O teste proposto por Jason Hsu, tem como característica comparar todos os tratamentos com o melhor.
Como motivação, consideremos a seguinte situação. Suponhamos que entre cinco tratamentos que estão sendo comparados, dois tratamentos são tão ruins que, a maioria dos pacientes que receberam um dos dois morreram dentro de um curto período de tempo. Então, possivelmente não é de interesse primordial saber qual desses dois tratamentos é pior, a inferência de que nenhum é melhor é suficiente. Suponhamos que o segundo melhor tratamento (entre os três restantes) é quase tão bom quanto o melhor tratamento verdadeiro. Assim, a inferência estatística que identifica ambos como praticamente o melhor pode ser de interesse, pois podem ter outras considerações que impactam na escolha do tratamento. Dessa maneira, nestas situações todas as comparações duas a duas não são de interesse. A principal questão aqui é “Quais comparações são de interesse preliminar?”
Podemos caracterizar as comparações de interesse principais nessas situações como “comparações múltiplas com o melhor.” Assim, se um efeito do tratamento maior é melhor, mesmo que o melhor tratamento seja desconhecido, podemos definir os parâmetros de interesse preliminar como
$$\max_{j=1,\ldots,k}\mu_{j}-\mu_{i},i=1,\ldots,k,\quad \tag{3.6.1}$$
a diferença entre o efeito do melhor tratamento verdadeiro e cada um dos $ k $ efeitos do tratamento.
Contudo, na maioria dos casos tona-se vantajoso comparar cada tratamento com o melhor dos outros tratamentos. Suponhamos que o maior efeito do tratamento implica em um tratamento melhor. Então os parâmetros
$$\mu_{i}-\max_{j\neq i}\mu_{j}, i=1,\ldots,k$$
contém todas as informações que os parâmetros dados pela expressão (3.6.1).
Naturalmente, se o menor efeito do tratamento implica no melhor tratamento, então por simetria os parâmetros de interesse preliminares são
$$\mu_{i}-\min_{j\neq i}\mu_{j},i=1,\ldots,k.$$
Supondo que o melhor é a maior média entre os níveis do fator, vamos considerar um conjunto de intervalos com nível de confiança de $ (1-\alpha)100 \char37 $ simultâneos para a diferença entre a média do i-ésimo nível do fator e o máximo entre as médias dos demais níveis do fator. O cálculo dos limites desses intervalos são obtidos usando as seguintes equações:
$$D^{-}_{i}=-\left[\overline{y}_{i.} - \max_{j \neq i} (\overline{y}_{j.})-d_{\alpha}(k,N-k)\sqrt{2\left(\frac{QME}{n}\right)}~\right]^- \qquad \hbox{Limite Inferior}$$
$$D^{+}_{i} = \left[ \overline{y}_{i.} - \max_{j \neq i} (\overline{y}_{j.}) + d_{\alpha}(k,N-k)\sqrt{2 \left( \frac{QME}{n} \right)} ~ \right]^+ \qquad \hbox{Limite Superior}$$
sendo que $ d_{\alpha}(k,N-k) $ é um valor tabelado (ver Tabela hsu no Apêndice) que depende do número de níveis ($ k $) e do número de graus de liberdade dos erros ($ N-k $) e $ n_i $ é o número de réplicas do nível $ i $ (para dados não balanceados). Para dados balanceados todos os $ n_i $ são iguais.
Se o intervalo ($ D^-_i~;~D^+_i $) assumir somente valores positivos, consideramos que o $ i $-ésimo nível do fator é o melhor.
Agora, suponhamos que o melhor á a menor média entre os níveis do fator, ou o a maior média é melhor, mas temos interesse em fazer comparação múltipla com o “pior” tratamento, assim os parâmetros de interesse são $ \mu_{i}-\min_{j \neq i}\mu_{j},i=1,\ldots,k $. Considerando um conjunto de intervalos com nível de confiança de $ (1-\alpha)100 \char37 $ simultâneos para a diferença entre a média do i-ésimo nível do fator e o mínimo entre as médias dos demais níveis do fator. O cálculo dos limites desses intervalos são obtidos usando as seguintes equações:
$$D^{-}_{i} = -\left[\overline{y}_{i.} - \min_{j \neq i}(\overline{y}_{j.}) - d_{\alpha}(k,N-k)\sqrt{2\left(\frac{\text{QME}}{n_i}\right)}~\right]^-~~~~~~\hbox{Limite Inferior}$$
$$D^{+}_{i} = \left[\overline{y}_{i.} - \min_{j \neq i}(\overline{y}_{j.}) +d_{\alpha}(k,N-k)\sqrt{2\left(\frac{\text{QME}}{n_i}\right)}~\right]^+~~~~~~\hbox{Limite Superior}$$
sendo que $ d_{\alpha}(k,N-k) $ é um valor tabelado (ver Tabela do Teste HSU no Apêndice) que depende do número de níveis ($ k $) e do número de graus de liberdade dos erros ($ N-k $) e $ n_i $ é o número de réplicas do nível $ i $ (para dados não balanceados). Para dados balanceados todos os $ n_i $ são iguais.
Se o intervalo ($ D^-_i~;~D^+_i $) assumir somente valores negativos, consideramos que o $ i $-ésimo nível do fator é o melhor.
Para simplificar a análise e disposição dos resultados em um gráfico, realizamos a seguinte transformação dos limites dos intervalos de confiança. Para cada valor de $ D_i $, calculamos:
$$[D^{-}_{i} ]^\prime = \hbox{min} \lbrace 0, D^{-}_{i} \rbrace = \begin{cases} D^{-}_{i} \quad \hbox{se } x < 0 \cr 0 \qquad \hbox{caso contrário} \end{cases} \qquad \hbox{ e } \tag{3.4.1}$$
$$[D^{+}_{i} ]^\prime = \hbox{max} \lbrace 0, D^{-}_{i} \rbrace = \begin{cases} D^{+}_{i} \quad \hbox{se } x < 0 \cr 0 \qquad \hbox{caso contrário} \end{cases} \qquad \quad \tag{3.4.2}$$
Exemplo 3.6.1
Voltando ao Exemplo 1, da resistência da fibra sintética, vamos calcular os Intervalos de Confiança para todos os níveis, supondo que quanto maior a resistência da fibra sintética melhor.
| Fator | Resistencia_da_Fibra |
|---|---|
| 15 | 7 |
| 15 | 7 |
| 15 | 15 |
| 15 | 11 |
| 15 | 9 |
| 20 | 12 |
| 20 | 17 |
| 20 | 12 |
| 20 | 18 |
| 20 | 18 |
| 25 | 14 |
| 25 | 18 |
| 25 | 18 |
| 25 | 19 |
| 25 | 19 |
| 30 | 19 |
| 30 | 25 |
| 30 | 22 |
| 30 | 19 |
| 30 | 23 |
| 35 | 7 |
| 35 | 10 |
| 35 | 11 |
| 35 | 15 |
| 35 | 11 |
Tabela 9.3.44: Dados do Exemplo 1
| Nível | $ \overline{y}_{i.} $ | $\max_{j \neq i}(\overline{y}_{j.})$ | $ \overline{y}_{i.}-\max_{j \neq i}(\overline{y}_{j.}) $ |
|---|---|---|---|
| $ 15 $ | $ 9,8 $ | $ 21,6 $ | $ -11,8 $ |
| $ 20 $ | $ 15,4 $ | $ 21,6 $ | $ -6,2 $ |
| $ 25 $ | $ 17,6 $ | $ 21,6 $ | $ -4,0 $ |
| $ 30 $ | $ 21,6 $ | $ 17,6 $ | $ 4,0 $ |
| $ 35 $ | $ 10,8 $ | $ 21,6 $ | $ -10,8 $ |
Tabela 9.3.45: Máximo e Mínimo das médias entre os níveis
Como $ d_{\alpha}(k,N-k)=2,305 $, $ QME=8,06 $ e $ n=5 $. Então:
$$d_{\alpha}(k,N-k)\sqrt{2 \left( \frac{QME}n\right)}=4,138$$
Para o nível $ 15 $, temos que:
$$D^-_1=-[-11,8 - 4,138]^-$$
$$=-[-15,938]^-$$
$$=-15,938$$
$$D^+_1=[-11,8 + 4,138]^+$$
$$=[-7,662]^+$$
$$=0$$
Repetindo este procedimento para os demais níveis, obtemos
| Nível | $ D^-_i $ | Centro | $ D^+_i $ |
|---|---|---|---|
| $ 15 $ | $ -15,938 $ | $ -11,8 $ | $ 0 $ |
| $ 20 $ | $ -10,338 $ | $ -6,2 $ | $ 0 $ |
| $ 25 $ | $ -8,138 $ | $ -4,0 $ | $ 0,138 $ |
| $ 30 $ | $ -0,138 $ | $ 4,0 $ | $ 8,138 $ |
| $ 35 $ | $ -14,938 $ | $ -10,8 $ | $ 0 $ |
Tabela 9.3.46: Intervalos de Confiança calculados
Como o Intervalo de Confiança referente ao nível 30, possui grandes partes dos valores positivos, podemos dizer que ele é o melhor entre os demais.
Usando o software Action temos os seguintes resultados:
| Nível | Média | Limite Inferior | Limite Superior |
|---|---|---|---|
| 15 | -11.8 | -15.939 | 0 |
| 20 | -6.2 | -10.339 | 0 |
| 25 | -4 | -8.139 | 0.139 |
| 30 | 4 | -0.139 | 8.139 |
| 35 | -10.8 | -14.939 | 0 |
Tabela 9.3.47: Teste de HSU: Maior é o melhor
Figura 9.3.11: Intervalos de Confiança
Conclusão
Como o intervalo de confiança referente ao nível $ 30 $, possui grandes partes dos valores positivos, podemos dizer que ele é o melhor entre os demais.
Exemplo 3.6.2
A presença de insetos prejudiciais em campos de exploração agrícola pode ser detectada examinando os insetos presos nas placas cobertas com um material pegajoso erguidas nos campos. Foram relatados o número de besouros na folha do cereal presos quando 24 placas soram colocadas no campo de aveia em um determinado mês. Haviam 24 placas associadas em 4 grupos (6 placas em cada grupo) de acordo com as cores verde, branco, roxo e azul. Ao nível de significância de 0,05% vamos aplicar o Teste de HSU para esse exemplo. Os dados para esse exemplo estão na sequência.
| Cor | Insetos |
|---|---|
| verde | 45 |
| verde | 59 |
| verde | 48 |
| verde | 46 |
| verde | 38 |
| verde | 47 |
| branco | 21 |
| branco | 12 |
| branco | 14 |
| branco | 17 |
| branco | 13 |
| branco | 17 |
| roxo | 37 |
| roxo | 32 |
| roxo | 15 |
| roxo | 25 |
| roxo | 39 |
| roxo | 41 |
| azul | 16 |
| azul | 11 |
| azul | 20 |
| azul | 21 |
| azul | 14 |
| azul | 7 |
Tabela 9.3.48: dados do Exemplo 3.6.2
| Cor | $ \bar{y_{i}} $ | $ \min_{j}(\bar{y_{j}}) $ | $ \overline{y}_{i.} - \min_{j\neq i}(\overline{y}_{j.}) $ |
|---|---|---|---|
| Verde | $ 47,17 $ | $ 14,83 $ | $ 32,33 $ |
| Branco | $ 15,67 $ | $ 14,83 $ | $ 0,833 $ |
| Roxo | $ 31,5 $ | $ 14,83 $ | $ 16,67 $ |
| Azul | $ 14,83 $ | $ 15,67 $ | $ -0,833 $ |
Tabela 9.3.49: Máximos e Mínimos entre as médias dos níveis
Usando o software Action a tabela da ANOVA para esses dados é
| G.L. | Soma de Quadrados | Quadrado Médio | Estat. F | P-valor | |
|---|---|---|---|---|---|
| Cor | 3 | 4218.4583 | 1406.1528 | 30.5519 | 0 |
| Resíduos | 20 | 920.5 | 46.025 |
Tabela 9.3.50: Tabela da ANOVA
Temos que $ d_{o,05}(4,20)=2,192 $, $ QME=46,025 $ e $ n=6 $. Dessa maneira,
$$d_{\alpha}(k,N-k)\sqrt{2\left(\frac{QME}{n}\right)}= 8,585$$
Para a cor verde, temos:
$$D_{1}^{-}=-(47,17-14,83-8,585)^{-}=-(20,7)^{-}=0$$
$$D_{1}^{+}=(47,17-14,83+8,585)^{+}=(43,98)^{+}=40,919$$
Repetindo esse procedimento para as demais cores (níveis), obtemos:
| Cor | $ D_{i}^{-} $ | Média | $ D_{i}^{+} $ |
|---|---|---|---|
| Verde | 0 | 32,333 | 40,919 |
| Azul | -9,419 | -0,833 | 7,752 |
| Branco | -7,752 | 0,833 | 9,419 |
| Roxo | 0 | 16,667 | 25,252 |
Tabela 9.3.51: Intervalos de Confiança calculados
Como o intervalo de confiança referente à cor azul possui grandes partes dos valores negativos, podemos dizer que ele é o melhor entre os demais.
Usando o software Action temos os seguintes resultados:
| Nível | Média | Limite Inferior | Limite Superior |
|---|---|---|---|
| azul | -0.833 | -9.419 | 7.752 |
| branco | 0.833 | -7.752 | 9.419 |
| roxo | 16.667 | 0 | 25.252 |
| verde | 32.333 | 0 | 40.919 |
Tabela 9.3.52: Teste de HSU: Menor é o melhor
Figura 9.3.12: Intervalos de Confiança
Conclusão
Como o intervalo de confiança referente à cor azul possui grandes partes dos valores negativos, podemos dizer que ele é o melhor entre os demais.