6.5 Testes de Hipóteses
5 - Testes de hipóteses
Neste módulo, apresentamos uma descrição detalhada dos testes de hipóteses e suas aplicações. Os testes de hipóteses são métodos científicos para a tomada de decisão baseado em dados.
5.1 - Introdução
Neste capítulo, vamos discutir as ideias fundamentais sobre testes de hipóteses. Ao ser feita determinada afirmação sobre uma população, mais especificamente sobre um parâmetro dessa população, é natural desejar saber se os resultados experimentais provenientes de uma amostra contrariam, ou não, tal afirmação. Para isso, fazemos um teste de hipóteses. Nesta seção vamos estudar o procedimento básico de teste de hipótese sobre determinado parâmetro de uma população.
Vamos supor uma situação em que um fabricante quer saber se um determinado tipo de barra produzido por sua fábrica atende a exigência de ter um comprimento médio de 70 cm. Na verdade, o que o fabricante está fazendo é levantando hipóteses sobre uma característica (parâmetro), neste caso a média $\mu$ (média do comprimento), de sua produção (população) de barras. Eventualmente ele poderia fazer conjecturas a respeito da distribuição da variável aleatória que representa o comprimento de barra, ou ainda, poderia estar questionando a proporção de defeituosas, etc. Essas conjecturas ou suposições são chamadas de hipóteses estatísticas. De maneira genérica, podemos enunciar: hipótese estatística é uma afirmação ou conjectura sobre um parâmetro, ou parâmetros; pode também referir-se ao tipo ou natureza da população.
Uma hipótese estatística, como a formulada acima em relação a média dos comprimentos das barras, é chamada de Hipótese Nula e será denotada por $H_0$. O termo “Hipótese Nula” é usado para ver se alguma hipótese estabelecida inicialmente pode ser rejeitada ou não. A ideia é de estabelecer uma hipótese nula comum mesmo em um raciocínio não-estatístico. É exatamente o que é feito em processos criminais, onde um acusado (réu) é dito ser inocente até que se prove o contrário. A pressuposição de inocência é uma hipótese nula.
Vamos supor, por exemplo, que queremos mostrar que um método de fabricação é tão eficiente quanto outro. Para isso poderíamos formular a hipótese de que os dois métodos são igualmente eficientes e buscar evidências (nos dados) contra ou a favor desta hipótese.
A hipótese que usamos como alternativa à hipótese nula, isto é, a hipótese que aceitamos quando a hipótese nula é rejeitada é chamada Hipótese Alternativa e será denotada por $H_{1}$. Assim, considerando o exemplo do réu, formulamos as hipóteses:
$$\begin{cases}H_0: \ \hbox{O réu é inocente} \cr H_1: \ \hbox{O réu é culpado}\end{cases}$$
Observação: Alguns autores denotam $H_{1}$ por $H_{A}$.
Agora voltemos ao exemplo introdutório do fabricante de barras. O tal fabricante está interessado em decidir se as barras tem uma média igual a 70 cm ou diferente de 70 cm. Nesse caso, as hipóteses seriam:
$$\begin{cases}H_0: \mu=70 \cr H_1: \mu\neq 70\end{cases}$$
Ainda com relação a esse exemplo poderíamos ter hipóteses do tipo:
$$(1)\begin{cases} {l}H_0: \mu=70 \cr H_1: \mu \ > \ 70\end{cases} \quad (2)\begin{cases}H_0: \mu=70 \cr H_1: \mu \ < \ 70\end{cases} \quad (3)\begin{cases}H_0: \mu=70 \cr H_1: \mu\neq 70\end{cases} \quad (4)\begin{cases}H_0: \mu=70 \cr H_1: \mu=75\end{cases}$$
Em todas as situações a hipótese nula $H_0$ é do tipo “simples”, enquanto que $H_1$ é do tipo “composta” em (1), (2), (3), e do tipo “simples” em (4). Casos como as situações (1) e (2) são chamados de testes unilaterais. Consideremos, agora, um exemplo para ilustrarmos a situação (1).
Exemplo 5.1.1
Um gerente de produção está estudando a possibilidade de comprar uma nova máquina de estampar partes metálicas. Seja $\mu_0$ o número médio de partes estampadas por hora pela máquina velha e $\mu$ a média da máquina nova. O gerente não quer comprar a máquina nova a menos que ela seja mais produtiva que a máquina velha. Vamos encontrar as hipóteses.
O gerente deve usar a hipótese nula $\mu = \mu_0$ e a hipótese alternativa $\mu \ > \ \mu_0$. Ou seja,
$$\begin{cases}H_0: \mu=\mu_0 \cr H_1: \mu \ > \ \mu_0\end{cases}$$
Assim, o gerente deve optar por comprar a máquina nova somente se a hipótese nula for rejeitada.
Regra de decisão
A regra de decisão nos permite distinguir entre as duas hipóteses. Esta é definida a partir do estimador de máxima verossimilhança do parâmetro e está sempre baseada na hipótese $H_1$.
Região de Rejeição
No Exemplo 5.1.1, tomamos o estimador $\overline{X}$ para o parâmetro de interesse $\mu$ para determinarmos a regra de decisão, que é definida por: rejeitamos $H_0$ se $\overline{X} \ > \ X_C$, no qual $X_C$ é o valor crítico para a média amostral. Se a média amostral for maior que o valor crítico $X_C$, temos evidência para assumir que a média da população é maior que $\mu_0$. Assim, no caso do Exemplo 5.1.1 temos evidência para assumir que a nova máquina apresenta uma média de produção maior que a máquina velha. A região $R_C= \lbrace\overline{X} \ >\ X_C\rbrace$ que nos leva a rejeição da hipótese $H_0$ é a região de rejeição (ou região crítica).
Figura 6.5.1: Representação da região crítica unilateral
Para cada tipo de hipótese determinamos uma região de rejeição apropriada, sempre conforme a hipótese $H_1$. Por exemplo, para testarmos as hipóteses
$$\begin{cases}H_0: \mu=\mu_0 \cr H_1: \mu\neq\mu_0,\end{cases}$$
tomamos como região crítica $R_C=\lbrace\overline{X} \ > \ X_{C_2}\quad {ou}\quad \overline{X} \ < \ X_{C_1}\rbrace$. Os valores $X_{C_1}$ e $X_{C_2}$ são os valores críticos para o teste.
Figura 6.5.2: Representação da região crítica bilateral
Independente dos valores críticos utilizados para determinar a região crítica, as decisões que tomamos estão sujeitas a erros. Através da discussão destes erros, definiremos um método para encontrar valores críticos apropriados.
5.1.1 - Erros cometidos nos testes de hipóteses
São dois os tipos de erros que podemos cometer na realização de um teste de hipóteses:
-
Rejeitar a hipótese $H_0$, quando ela é verdadeira.
-
Não rejeitar a hipótese $H_0$, quando ela é falsa.
A Tabela 6.5.1 a seguir resume as situações acima.
| Aceitar H0 | Rejeitar H0 | |
|---|---|---|
| H0 verdadeira | Decisão correta | Erro do tipo I |
| H0 falsa | Erro do tipo II | Decisão correta |
Tabela 6.5.1: Tipos de erro
Se a hipótese $H_0$ for verdadeira e não rejeitada ou falsa e rejeitada, a decisão estará correta. No entanto, se a hipótese $H_0$ for rejeitada sendo verdadeira, ou se não for rejeitada sendo falsa, a decisão estará errada. O primeiro destes erros é chamado de Erro do Tipo I e a probabilidade de cometê-lo é denotada pela letra grega $\alpha$ (alfa); o segundo é chamado de Erro do Tipo II e a probabilidade de cometê-lo é denotada pela letra grega $\beta$ (beta). Assim temos,
$$\alpha=\mathbb{P}(\hbox{Erro do tipo I})=P(\hbox{rejeitar} \ H_0 \ | \ H_0 \ \hbox{verdadeira});$$
$$\beta=\mathbb{P}(\hbox{Erro do tipo II})=P(\hbox{aceitar} \ H_0 \ | \ H_0 \ \hbox{falsa}).$$
Considere um teste unilateral dado pelas hipóteses:
$$\begin{cases}H_0: \mu=\mu_0 \cr H_1: \mu \ < \ \mu_0\end{cases}$$
Neste caso, a região de rejeição é determinada por $\lbrace\overline{X} \ < \ X_C\rbrace$, e a interpretação dos erros pode ser vista como:
$$\alpha=\mathbb{P}(\overline{X} \ < \ X_C \ | \ \mu=\mu_0);$$
$$\beta=\mathbb{P}(\overline{X} \ > \ X_C \ | \ \mu \ < \ \mu_0).$$
A situação ideal é aquela em que ambas as probabilidades, $\alpha$ e $\beta$, são próximas de zero. No entanto, é fácil ver que a medida que diminuímos $\alpha$, $\beta$ aumenta. A Figura a seguir apresenta esta relação.
Figura 6.5.3: Representação dos erros
Para um teste de hipóteses do tipo acima, onde estamos interessados em testar a média de uma população, utilizamos a expressão
$$Z=\frac{\overline{X}-\mu_0}{\cfrac{\sigma}{\sqrt{n}}},$$
que é a estatística do teste de hipóteses. A partir do Teorema Central do Limite, sabemos que, desde que tenhamos um tamanho amostral suficientemente grande, esta estatística tem distribuição normal padrão, isto é,
$$Z\sim N(0,1).$$
A partir dos valores de $Z$ e da especificação do erro cometido, podemos definir a região crítica do teste.
Vamos considerar que o erro mais importante a ser evitado seja o Erro do Tipo I. A probabilidade de ocorrer o erro do tipo I $(\alpha)$ é denominada nível de significância do teste. O complementar do nível de significância $(1 - \alpha)$ é denominado nível de confiança. Supondo que o nível de significância $\alpha$ seja conhecido, temos condições de determinar o(s) valor(es) crítico(s). Se considerarmos o teste bilateral
$$\begin{cases}H_0:\mu=\mu_0 \cr H_1: \mu\neq\mu_0\end{cases},$$
A figura a seguir representa a região de rejeição para um valor fixo de $\alpha$.
Figura 6.5.4: Representação de região de rejeição bilateral
Se considerarmos o teste unilateral à direita
$$\begin{cases}H_0:\mu=\mu_0 \cr H_1: \mu \ > \ \mu_0\end{cases},$$
A região crítica é representada segundo a figura abaixo.
Figura 6.5.5: Representação de região de rejeição unilateral à direita
E, se considerarmos o teste unilateral à esquerda
$$\begin{cases}H_0:\mu=\mu_0 \cr H_1: \mu \ < \ \mu_0\end{cases},$$
a região crítica é representada segundo a figura abaixo.
Figura 6.5.6: Representação de região de rejeição unilateral à esquerda
Os valores $-Z_{\alpha}$ e $Z_{\alpha}$ nas duas últimas figuras são tais que as áreas à esquerda e à direita, respectivamente, sob a curva Normal padrão, valem $\alpha$. Agora, os valores $-Z_{\alpha/2}$ e $Z_{\alpha/2}$, na primeira figura, são tais que as áreas à esquerda e à direita, respectivamente, sob a curva Normal padrão, valem $\frac{\alpha}{2}$.
Como foi dito inicialmente, o objetivo do teste de hipótese é determinar, através de uma estatística, se a hipótese nula é aceitável ou não. Essa decisão é tomada considerando a região de rejeição ou região crítica (RC). Caso o valor observado da estatística pertença à região de rejeição, rejeitamos $H_0$; caso contrário, não rejeitamos $H_0$. Analogamente, definimos a região de aceitação (complementar da região de rejeição): caso o valor observado pertença à região de aceitação, não rejeitamos $H_0$; se não pertencer, rejeitamos.
De acordo com a Tabela de distribuição Normal, se o nível de significância é $0,05$, os valores críticos são $-1,645$ ou $1,645$ para as alternativas unilaterais e $-1,96$ e $1,96$ para a alternativa bilateral; se o nível de significância é $0,01$, os valores críticos são $-2,33$ ou $2,33$ para as alternativas unilaterais e $-2,575$ e $2,575$ para a alternativa bilateral. A Tabela 6.5.2 a seguir apresenta alguns critérios para o teste de hipótese.
| Hipótese Alternativa | Rejeita $H_0$ se | Aceita $H_0$ se |
|---|---|---|
| $\mu \ < \ \mu_0$ | $Z \ < \ -Z_{\alpha}$ | $ Z\geq -Z_{\alpha} $ |
| $\mu \ > \ \mu_0$ | $Z \ > \ Z_{\alpha}$ | $ Z\leq Z_{\alpha} $ |
| $ \mu\neq\mu_0 $ | $Z \ < \ -Z_{\alpha/2}$ ou $Z \ > \ Z_{\alpha/2}$ | $ -Z_{\alpha/2}\leq Z\leq Z_{\alpha/2} $ |
Tabela 6.5.2: Regiões de rejeição em relação às hipóteses
Exemplo 5.1.1.1
Um supervisor da qualidade quer testar, com base numa amostra aleatória de tamanho $n = 35$ e para um nível de significância $\alpha = 0,05$, se a profundidade média de um furo numa determinada peça é $72,4$ mm. O que podemos dizer se ele obteve $\overline{x} = 73,2$ mm e se sabe, de informações anteriores, que $\sigma = 2,1$ mm?
1. Primeiro vamos estabelecer as hipóteses:
$$\begin{cases}H_0: \mu=72,4 \cr H_1:\mu\neq 72,4\end{cases}$$
2. Como $\alpha= 0,05$, temos que $Z_{\alpha/2}=Z_{0,025}=1,96$.
3. Critério: rejeitar $H_0$ se $Z_{\text{obs}}\ < \ -1,96$ ou se $Z_{\text{obs}} \ > \ 1,96$ em que
$$Z_{\text{obs}}=\frac{\overline{x}-\mu_0}{\frac{\sigma}{\sqrt{n}}}$$
4. Substituindo $\mu_0 = 72,4$, $\sigma = 2,1$, $n = 35$, $\overline{x} = 73,2$ na equação acima, obtemos
$$Z_{\text{obs}}=\frac{73,2-72,4}{\frac{2,1}{\sqrt{35}}}=2,25$$
5. Conclusão: Como $Z_{\text{obs}}= 2,25 \ > \ 1,96$, a hipótese nula deve ser rejeitada. Em outras palavras, não podemos assumir que a média populacional $\mu$ seja igual a $72,4$, isto é, a diferença entre $73,2$ e $72,4$ é significativa. Veja a Figura 6.5.7 abaixo
Figura 6.5.7: Representação de região de rejeição
5.1.2 - Cálculo e interpretação do p-valor
P-valor
O p-valor, também denominado nível descritivo do teste, é a probabilidade de que a estatística do teste (como variável aleatória) tenha valor extremo em relação ao valor observado (estatística) quando a hipótese $H_0$ é verdadeira.
Para exemplificar a definição de p-valor, considere um teste de hipóteses para a média no qual o valor da estatística é dado por $Z_{\text{obs}}$, ver exemplo 5.1.1.1. As figuras a seguir representam, respectivamente, o p-valor nos casos em que temos um teste de hipóteses bilateral com rejeição da hipótese nula e sem rejeição da hipótese nula.
Figura 6.5.8: Teste de hipóteses bilateral para média, caso de rejeição da hipótese nula e caso de não rejeição
A seguir, temos a figura de um teste de hipóteses unilateral para média.
Figura 6.5.9: Teste de hipóteses unilateral à direita para média, caso de rejeição da hipótese nula e caso de não rejeição
Observe que se o p-valor é menor que o nível de significância proposto ($\alpha$), então $Z_{\text{obs}}$ está na região crítica e portanto, rejeitamos a hipótese nula $H_0$ . Por outro lado, se o p-valor é maior que o nível de significância, não rejeitamos a hipótese nula. Além disso, quanto menor for o p-valor, mais “distante” estamos da hipótese nula $H_0$. Portanto, o p-valor tem mais informações sobre a evidência contra $H_0$ e assim o experimentador tem mais informações para decidir sobre $H_0$ com o nível de significância apropriado.
Também podemos interpretar o p-valor como o menor valor do nível de significância para o qual rejeitamos $H_0$. Desta forma, se o nível de significância $(\alpha)$ proposto para o teste for menor que o p-valor não rejeitamos a hipótese $H_0$.
Em muitas situações, a região de rejeição de um teste de hipótese com nível de significância $\alpha$ apresenta seguinte forma:
Rejeitamos $H_0$ se e somente se $W(X) \geq c_{\alpha}$,
em que $W(X)$ é a estatística do teste apropriada para o problema, e a constante $c_\alpha$ é escolhida de modo que o teste tenha nível de significância $\alpha$. Neste caso, o p-valor para o ponto amostral $x$ é definido matematicamente como
$$p(x)=\sup_{\theta \in \Theta_{0}}P_{\theta}[W(X) \geq W(x)],$$
em que $\theta$ é um parâmetro pertencente ao espaço paramétrico $\Theta$ sob a hipótese nula $(H_0)$.
Voltando ao Exemplo 5.1.1.1, vamos calcular o p-valor do teste de médias. No decorrer deste módulo calculamos o p-valor para todos os testes estatísticos clássicos.
Neste caso, como temos um teste bilateral, segue que o p-valor é dado por
$$\text{P-valor}=\mathbb{P}[Z \ > \ |Z_{\text{obs}}|]+\mathbb{P}[Z \ < \ -|Z_{\text{obs}}|]=$$ $$= \mathbb{P}[Z \ > \ 2,25]+\mathbb{P}[ Z \ < -2.25]=0,0122+0,0122=0,0244.$$
Figura 6.5.10: Representação do teste de hipóteses bilateral do Exemplo 5.1.1.1
Portanto, podemos concluir que, para qualquer nível de significância maior que 0,0244, temos evidências para rejeitar a hipótese nula.
Análise do p-valor
Consideremos um teste de hipóteses no qual $R_{\alpha}$ é a região de rejeição com nível de significância $\alpha$. Suponha que, para diferentes valores de $\alpha$, essas regiões podem ser encaixadas no sentido que
$$R_{\alpha}\subset R_{\alpha^{,}}, \quad \hbox{para qualquer} \quad \alpha < \alpha^{,}. \tag{5.1.2.1}$$
Sob essa situação, além de conseguirmos saber se a hipótese é rejeitada ou não, conseguimos ainda determinar o p-valor, que aqui é definido por
$$p=p(X)=\inf \lbrace\alpha : X \in R_{\alpha}\rbrace,$$
no qual $X$ representa a amostra.
O p-valor nos fornece uma ideia de quanto os dados contradizem a hipótese nula. Além disso, ele permite que diferentes experimentadores utilizem seus respectivos níveis de significância para avaliar os resultados do teste de hipóteses.
Exemplo 5.1.2.1
Considere uma amostra de tamanho um de uma população $X$ com distribuição $N(\mu, \sigma^{2})$, com $\sigma^{2}$ conhecido.Consideremos sob $H_{0}$, $\mu=0$ e sob $H_{1}$, $\mu=\mu_{1}$, para algum $\mu_{1}>0$. Seja $\Phi$ a função de distribuição acumulada da normal padrão e $z_{1-\alpha}$ o quantil $1-\alpha$ da distribuição normal padrão. Então, a região de rejeição pode ser denotada como
$$R_{\alpha}=\lbrace X:X >\sigma z_{1-\alpha} \rbrace = \lbrace X: \Phi\left(\frac{X}{\sigma}\right)> 1-\alpha\rbrace= \lbrace X: 1- \Phi\left(\frac{X}{\sigma}\right)<\alpha\rbrace.$$
Dessa maneira, para um valor observado de $X$ dado, o ínfimo sobre todos $\alpha$ em que a última desigualdade se mantém é $$p = 1- \Phi(\frac{X}{\sigma}).$$
Alternativamente, podemos escrever que o p-valor é $\mathbb{P}_0[X \geq x ]$, em que $x$ é o valor observado de $X$. Notemos ainda que sob a hipótese nula, $\mu=0$, a distribuição de $p$ é dada da seguinte maneira
$$\mathbb{P}_0 [p\leq u ]= \mathbb{P}_0 \left[1-\Phi\left(\frac{X}{\sigma}\right)\leq u\right]=\mathbb{P}_0 \left[\Phi\left(\frac{X}{\sigma}\right)\geq 1-u\right]=u,$$
pois $\Phi(X/\sigma)$ é uniformemente distribuído sobre $(0,1)$, portanto $p$ é uniformemente distribuído em $(0,1)$. Esse resultado segue da transformação integral de probabilidade (probability integral transformation), que garante que:
Se $X$ tem uma função de distribuição contínua $F$, então $F(X)$ é uniformemente distribuído sobre $(0,1)$.
O Lema a seguir traz uma propriedade geral do p-valor.
Lema
Suponhamos que $X$ tem distribuição de probabilidade $\mathbb{P}_\theta$, para algum $\theta \in \Theta$. Consideremos $\theta \in \Theta_0$, em que $\Theta_0$ representa o espaço paramétrico sob a hipótese nula $H_0$. Assumimos ainda que as regiões de rejeição satisfazem $(5.1.2.1).$
i) Se
$$\sup_{\theta\in \Theta_{0}}\mathbb{P}_{\theta}[X \in R_{\alpha}]\leq \alpha\quad \hbox{para todo}\quad 0<\alpha<1,\tag{5.1.2.2}$$
então a distribuição de $p$ sobre $\theta\in\Theta_0$ satisfaz
$$\mathbb{P}_{\theta}[p\leq u]\leq u \quad \hbox{para todo}\quad 0\leq u\leq 1.$$
Prova
Se $\theta\in \Theta_0$, pela definição do p-valor, $p=p(X)=\inf\lbrace\alpha : X \in R_{\alpha}\rbrace$ e, temos que, para todo $v> u$, $[p\leq u]\subset[X\in R_{v}]$, o que implica em $\mathbb{P}_{\theta}[p\leq u]\leq \mathbb{P}_{\theta}[X \in R_{v}].$ Assim, escrevendo
$$\lim_{v\rightarrow u^{+}}\mathbb{P}_{\theta}[p\leq u]\leq \lim_{v\rightarrow u^{+}}\mathbb{P}_{\theta}[X \in R_{v}],$$
como $(5.1.2.2)$ é válido, segue que $\mathbb{P}_{\theta}[p\leq u]\leq u.$
ii) Se, para $\theta\in\Theta_0$,
$$\mathbb{P}_{\theta} [X \in R_α] = \alpha \quad \hbox{para todo} \quad 0 < \alpha < 1,\tag{5.1.2.3}$$
então
$$\mathbb{P}_\theta [p\leq u]=u \quad \hbox{para todo} \quad 0\leq u \leq 1,$$
ou seja, $p$ é uniformemente distribuído sobre $(0,1)$.
Prova
Novamente pela definição do p-valor, temos que se $[X\in R_u]$ então $[p\leq u]$. Dessa forma, segue que
$$\mathbb{P}_θ [p\leq u] \quad \geq \quad \mathbb{P}_θ [X \in R_u].$$
Assim, por $(5.1.2.3)$ temos que $\mathbb{P}_θ [p\leq u]\geq u $. Do resultado obtido em (i), concluímos que $\mathbb{P}_θ [p\leq u]=u, $ ou seja, $p$ tem distribuição uniforme em $(0,1)$.
Passos para realização do teste de hipóteses
-
Estabelecer as hipóteses;
-
Determinar o nível de significância do teste (α);
-
Determinar a região de rejeição;
-
Calcular o p-valor
A seguir, vamos aplicar os conceitos discutidos acima para tratar diversos exemplos de testes de hipóteses.
5.1.3 - Poder do teste
Seja $T$ um teste estatístico com região crítica $C$ para avaliarmos hipóteses a respeito do parâmetro $\theta$. A função poder do teste é a probabilidade de rejeitarmos $H_0$ dado o valor de $\theta$. Neste caso, temos que
$$\pi(\theta)=\mathbb{P}[\hbox{rejeitar} \ H_0|\theta]=\mathbb{P}[T\in C|\theta],$$
para todo valor de $\theta$.
Suponha que queremos testar a hipótese $H_0:\mu=\mu_0$ contra a hipótese alternativa $H_1:\mu\neq\mu_0$. De forma ideal, nós gostaríamos de rejeitar a hipótese $H_0$ para todo valor de $\mu$ em $H_1$ com probabilidade 1, e da mesma forma, nós gostaríamos de não rejeitar (aceitar) a hipótese $H_0$ para todo valor de $\mu$ em $H_0$ com probabilidade 1 (Figura 6.5.11 a seguir).
Figura 6.5.11: Representação do Poder de Teste
O Poder do Teste tem como objetivo conhecer o quanto o teste de hipóteses controla um erro do tipo II, ou qual a probabilidade de rejeitar a hipótese nula se realmente for falsa. Na prática, é importante que se tenham testes com nível de significância próximos do nível de significância nominal e que o poder seja alto, mesmo em situações de amostras pequenas.
O poder de um teste de hipóteses é afetado por três fatores:
-
Tamanho da amostra: Mantendo todos os outros parâmetros iguais, quanto maior o tamanho da amostra, maior o poder do teste.
-
Nível de Significância: Quanto maior o nível de significância, maior o poder do teste. Se você aumenta o nível de significância, você reduz a região de aceitação. Como resultado, você tem maior chance de rejeitar a hipótese nula. Isto significa que você tem menos chance de aceitar a hipótese nula quando ela é falsa, isto é, menor chance de cometer um erro do tipo II. Então, o poder do teste aumenta.
-
O verdadeiro valor do parâmetro a ser testado: Quanto maior a diferença entre o “verdadeiro” valor do parâmetro e o valor especificado pela hipótese nula, maior o poder do teste.
Novamente, consideremos a estatística
$$Z=\cfrac{\overline{X}-\mu_0}{\cfrac{\sigma}{\sqrt{n}}}$$
e o teste de hipóteses
$$\begin{cases}H_0: \mu=\mu_0 \cr H_1:\mu\neq \mu_0\end{cases}$$
O Erro do tipo II é o erro cometido ao aceitar a hipótese nula $H_{0}$ quando esta é falsa $H_{1}$ é verdadeira.
$$\mathbb{P}(\text{Erro do tipo II}) = \mathbb{P}(\text{aceitar} \ H_0| H_1 \text{é verdadeira}) = \beta$$
Para que isto seja possível, suponha que a hipótese nula é falsa e que o verdadeiro valor da média é $\mu = \mu_0+\delta$. Então, a estatística do teste é
$$Z_0=\frac{\overline{X}-\mu_0}{\sigma/\sqrt{n}}=\frac{\overline{X}-(\mu_0+\delta)}{\sigma/\sqrt{n}}+\frac{\delta}{\sigma/\sqrt{n}}.$$
Portanto, a distribuição de $Z_0$ quando $\mu=\mu_0+\delta$ é
$$Z_0\sim N\left(\frac{\delta}{\sigma/\sqrt{n}},1\right).$$
E, com isso, para um teste bilateral, temos que a probabilidade de erro do tipo II é a probabilidade de que $Z_0$ esteja entre $-z_{\alpha/2}$ e $z_{\alpha/2}$ dado que $H_1$ é verdadeira. Esta probabilidade é calculada da seguinte maneira
$$\beta=\Phi\left(z_{\alpha/2}-\frac{\delta\sqrt{n}}{\sigma}\right)-\Phi\left(-z_{\alpha/2}-\frac{\delta\sqrt{n}}{\sigma}\right)$$
onde $\Phi$ é a função distribuição acumulada da distribuição normal padrão.
Para os testes unilaterais à direita e à esquerda, temos que as probabilidades de erro do tipo II são dadas, respectivamente por
$$\Phi\left(z_\alpha-\frac{\delta\sqrt{n}}{\sigma}\right) \quad \hbox{e} \quad 1-\Phi\left(-z_\alpha-\frac{\delta\sqrt{n}}{\sigma}\right).$$
O Poder do Teste é calculado como sendo 1 menos a probabilidade do erro do tipo II, ou seja, $1-\beta$. Neste caso, as fórmulas utilizadas para o cálculo do poder são
$$\text{Poder} \ =1-\Phi\left(z_{\alpha/2}-\frac{\delta}{\sigma}\sqrt{n}\right)+\Phi\left(-z_{\alpha/2}-\frac{\delta}{\sigma}\sqrt{n}\right)$$
se o teste é bilateral. Se o teste é unilateral à esquerda, a fórmula utilizada é
$$\text{Poder} \ =\Phi\left(-z_{\alpha}-\frac{\delta}{\sigma}\sqrt{n}\right)$$
e se é unilateral à direita, então
$$\text{Poder} \ =1-\Phi\left(z_{\alpha}-\frac{\delta}{\sigma}\sqrt{n}\right)$$
onde $\Phi$ é a função distribuição acumulada de uma variável aleatória com distribuição normal padrão.
Considere novamente o Exemplo 5.1.1.1. Suponha que queiramos calcular o poder do teste de hipóteses em detectar uma diferença $\delta = 1$ entre as hipóteses nula e alternativa. Como $n = 35$, $\alpha = 0,05$ e $\sigma = 2,1$, temos que a probabilidade de erro do tipo II é dada por
$$\beta=\Phi\left(z_{\alpha/2}-\frac{\delta\sqrt{n}}{\sigma}\right)-\Phi\left(-z_{\alpha/2}-\frac{\delta\sqrt{n}}{\sigma}\right)=\Phi(-0,8572)-\Phi(-4,7772)=0,1957.$$
Deste modo, temos que o poder do teste de hipóteses em detectar uma diferença $\delta = 1$ entre as hipóteses nula e alternativa é dado por
$$\text{Poder} \ =1-\beta=1-0,1957=0,8043,$$
ou seja, o poder é de, aproximadamente, 80,43%.
5.1.4 - Teste da razão de verossimilhanças
Seja $X_1, \ldots, X_n$ uma amostra aleatória independente e igualmente distribuída de uma população com função de probabilidade ou função densidade de probabilidade $f(x|\theta)$ em que $\theta$ é o parâmetro ou vetor paramétrico de interesse. Neste caso, a função de verossimilhança é dada por
$$L(\theta|\textbf{x}) = f(\textbf{x}|\theta) = \prod_{i=1}^nf(x_i|\theta).$$
Definição 5.1.4.1
A estatística do teste da razão de verossimilhanças para testar $H_0: \theta\in\Theta_0$ contra $H_1:\theta\in\Theta_1$ é dada por
$$\lambda(\textbf{x}) = \frac{\sup_{\theta\in\Theta_0}L(\theta|\textbf{x})}{\sup_{\theta\in\Theta}L(\theta|\textbf{x})}$$
em que $\Theta$ é o espaço paramétrico irrestrito e $\Theta_0$ é o espaço paramétrico restrito à hipótese nula. O teste da razão de verossimilhanças tem uma região crítica da forma $\lbrace\textbf{x};\lambda(\textbf{x})\leq c\rbrace$ com $0\leq c\leq 1$. Denotando $\hat{\theta}$ como o estimador de máxima verossimilhança de $\theta$ sobre o espaço $\Theta$ e $\hat{\theta}_0$ o estimador de máxima verossimilhança de $\theta$ sobre o espaço $\Theta_0$, a estatística do teste da razão de verossimilhanças pode ser escrito como
$$\lambda(\textbf{x}) = \frac{L(\hat{\theta}_0|\textbf{x})}{L(\hat{\theta}|\textbf{x})}.$$
Exemplo 3.1.4.1
Seja $X_1,\ldots,X_n$ uma amostra aleatória independente e igualmente distribuída da população com distribuição normal $N(\theta,1)$. Considere as hipóteses $H_0:\theta = \theta_0$ versus $H_1:\theta\neq\theta_0$. Como há apenas um valor de $\theta$ especificado por $H_0$, a hipótese é simples e o numerador de $\lambda(\textbf{x})$ é $L(\theta_0|\textbf{x})$. Agora, sabemos que $\hat{\theta} = \bar{X}$ é o estimador de máxima verossimilhança de $\theta$ sobre o espaço paramétrico irrestrito $\Theta$. Logo, o denominador de $\lambda(\textbf{x})$ é $L(\bar{x}|\textbf{x})$ e a estatística do teste da razão de verossimilhanças é
$$\lambda(\textbf{x}) = \frac{L(\theta_0|\textbf{x})}{L(\bar{x}|\textbf{x})}=\frac{\exp\left[-\sum_{i=1}^n(x_i-\theta_0)^2/2\right]}{\exp\left[-\sum_{i=1}^n(x_i-\bar{x})^2/2\right]}=\exp\lbrace\left(-\sum_{i=1}^n(x_i-\theta_0)^2+\sum_{i=1}^n(x_i-\bar{x})^2\right)/2\rbrace$$
e como $\sum_{i=1}^n(x_i-\theta_0)^2 = \sum_{i=1}^n(x_i-\bar{x})^2+n(\bar{x}-\theta_0)^2$, a estatística do teste da razão de verossimilhanças é dada por
$$\lambda(\textbf{x}) = \exp\lbrace\frac{-n(\bar{x}-\theta_0)^2}{2}\rbrace.$$
Como a região crítica é dada por $RC = \lbrace\textbf{x}: \lambda(\textbf{x})\leq c\rbrace$, segue que
$$\lambda(\textbf{x})\leq c \Leftrightarrow\exp\lbrace\frac{-n(\bar{x}-\theta_0)^2}{2}\rbrace\leq c \Leftrightarrow |\bar{x}-\theta_0|\geq\sqrt{-2\log(c)/n}.$$
Portanto, a região crítica é dada por $RC = \lbrace\textbf{x};|\bar{x}-\theta_0|\geq\sqrt{-2\log(c)/n}\rbrace$ e, como $0\leq c\leq 1$, temos que $0\leq \sqrt{-2\log(c)/n} \ < \ \infty$. Fixando o nível de significância $\alpha$, podemos determinar o valor de $c$. Suponho que $\alpha = 0,05$, temos que
$$\mathbb{P}\left(\textbf{x}\in RC|H_0 \ \hbox{é verdadeira}\right) = \alpha \Rightarrow\mathbb{P} \left(|\bar{X}-\theta_0|\geq\sqrt{-2\log(c)/n}\right) = 0,05$$
de onde segue que
$$\Rightarrow\mathbb{P}\left(\left| \frac{\bar{X}-\theta_0}{1/\sqrt{n}}\right|\geq \frac{\sqrt {-2\log(c)/n}}{1/\sqrt{n}}\right) = 0,05\Rightarrow\mathbb{P}\left(\sqrt{n}|\bar{X}-\theta_0|\geq 1,96\right) = 0,05$$
onde consideramos que $z_{\alpha/2}=1,96$ e, portanto, a região crítica do teste é
$$RC = \lbrace\textbf{x}:\sqrt{n}|\bar{x}-\theta_0|\geq 1,96\rbrace.$$
5.1.5 - Testes uniformemente mais poderosos
O objetivo desta seção é, fixado o nível de significância (erro do tipo I) $\alpha$, encontrar uma região crítica $R_C$ que tenha a menor probabilidade de erro do tipo II e, desta forma, um maior poder para o teste de hipóteses dentre todos os testes com nível menor ou igual a $\alpha$. O seguinte resultado, conhecido como Lema de Neyman-Pearson considera o teste mais poderoso de nível $\alpha$ para testar $H_0:\theta=\theta_0$ versus $H_1:\theta = \theta_1$.
Teorema 5.1.5.1 (Lema de Neyman-Pearson)
Suponha que as hipóteses $H_0:\theta=\theta_0$ e $H_1:\theta=\theta_1$ (hipóteses simples), com um função de probabilidade ou função densidade de probabilidade correspondente a $\theta_i$, $f(\textbf{x}|\theta_i)$, $i = 0,1$. Considere um teste com região crítica $RC$ satisfazendo
$$\textbf{x}\in R_C \ \hbox{se} \ f(\textbf{x}|\theta_1) \ > \ kf(\textbf{x}|\theta_0) \ \hbox{e} \ \textbf{x}\notin R_C \ \hbox{se} \ f(\textbf{x}|\theta_1) \ < \ \ kf(\textbf{x}|\theta_0)$$
De forma análoga,
$$\lambda(\textbf{x})=\frac{f(\textbf{x}|\theta_1)}{f(\textbf{x}|\theta_0)}> k$$
para algum $k\geq 0$ e $\alpha = \mathbb{P}(\textbf{X}\in \ R_C|H_0 \ \hbox{é verdadeira})$. Então o teste é o mais poderoso.
Observação 5.1.5.1
Se $f(\textbf{x}|\theta_1) = kf(\textbf{x}|\theta_0)$ qualquer decisão pode ser tomada. Note que o teste com região crítica
$$R_C = \lbrace\textbf{x}:f(\textbf{x}|\theta_1) \ > \ kf(\textbf{x}|\theta_0)\rbrace=\lbrace \textbf{x}: \lambda(\textbf{x})=\frac{f(\textbf{x}|\theta_1)}{f(\textbf{x}|\theta_0)} \ > \ k\rbrace$$
é o teste de razão de verossimilhanças. Colocando a função de verossimilhança sob $H_0$, $L(\theta_0|\textbf{x})$, e sob $H_1$, $L(\theta_1|\textbf{x})$, o teste mais poderoso rejeita $H_0$ quando $L(\theta_1|\textbf{x})|L(\theta_0|\textbf{x})\geq k$.
Exemplo 5.1.5.1
Seja $X_1,\ldots,X_n$ uma amostra aleatória independente e igualmente distribuída de tamanho $n$ da variável aleatória $X\sim N(\mu,\sigma^2)$ com $\mu$ conhecido. Vamos encontrar o teste mais poderoso para testar $H_0:\sigma^2=\sigma_0^2$ versus $H_1:\sigma^2 = \sigma_1^2$ ($\sigma_1^2 \ > \ \sigma_0^2$)
Pelo Lema de Neyman-Pearson, temos que o teste mais poderoso rejeita $H_0$ quando $\frac{L_1(\textbf{x})}{L_0(\textbf{x})} \ > \ 0$. Então:
$$\frac{L_1(\textbf{x})}{L_0(\textbf{x})}=\frac{(1/\sqrt{2\pi\sigma_1^2})\exp[-\sum_{i=1}^n(x_i-\mu)^2/2\sigma_1^2]}{(1/\sqrt{2\pi\sigma_0^2})\exp[-\sum_{i=1}^n(x_i-\mu)^2/2\sigma_0^2]}$$
que é equivalente a
$$\sum_{i=1}^n(x_i-\mu)^2 \ > \ \frac{\log\left(k\left(\frac{\sigma_1}{\sigma_0}\right)^n\right)}{\frac{1}{2}\left(\frac{1}{\sigma_0^2}+\frac{1}{\sigma_1^2}\right)}=c.$$
Portanto, a região crítica do teste mais poderoso é dada por
$$R_C^\ast = \lbrace\textbf{x}:\sum_{i=1}^n(x_i-\mu)^2 \ > \ c\rbrace.$$
Agora, fixando $\alpha$, determinamos o valor de $c$ pela solução da equação
$$\alpha = \mathbb{P}\left(\textbf{X}\in \ R_C^\ast |H_0 \ \hbox{é verdadeira}\right) \Rightarrow \alpha = \mathbb{P}\left(\sum_{i=1}^n(X_i-\mu)^2 \ > \ c\right) = \mathbb{P}\left(\sum_{i=1}^n\frac{(X_i-\mu)^2}{\sigma_0^2} \ > \ \frac{c}{\sigma_0^2}\right).$$
Mas, sob $H_0$, temos que
$$\frac{X_i-\mu}{\sigma_0}\sim N(0,1) \Rightarrow \frac{(X_i-\mu)^2}{\sigma_0^2}\sim\chi_1^2\Rightarrow \sum_{i=1}^n\frac{(X_i-\mu)^2}{\sigma_0^2}\sim\chi^2_n$$
e então, fixando $n$, $\alpha$ e $\sigma_0^2$ podemos obter o valor $c$ a partir de uma distribuição qui-quadrado com $n$ graus de liberdade.
Definição 5.1.5.1
Um teste com região crítica $RC^\ast$ é dito ser uniformemente mais poderoso (UMP) para testar $H_0:\theta=\theta_0$ versus $H_1:\theta\in\Theta_1$, se ele é mais poderoso de nível $\alpha$ para testar $H_0:\theta=\theta_0$ versus $H_1:\theta=\theta_1$ para qualquer $\theta_1\in\Theta_1$.
Portanto, já verificamos as seguintes situações:
1) Testes mais poderosos (MP) de $H_0$ simples versus $H_1$ simples.
2) Testes uniformemente mais poderosos (UMP) de $H_0$ simples versus $H_1$ composta.
Considere agora as hipóteses $H_0:\theta\in\Theta_0$ versus $H_1:\theta\in\Theta_1$. O resultado a seguir estabelece condições para que se tenha o teste uniformemente mais poderoso para testar estas hipóteses.
Teorema 5.1.5.2
Se $X_1,\ldots,X_n$ segue uma distribuição da família exponencial, então o teste uniformemente mais poderoso para testar $H_0:\theta=\theta_0$ versus $H_1:\theta \ > \ \theta_0$ é também mais poderoso para testar $H_0:\theta\leq\theta_0$ versus $H_1:\theta \ > \ \theta_0$. Temos também que o teste uniformemente mais poderoso para testar $H_0:\theta=\theta_0$ versus $H_1:\theta \ < \ \theta_0$ é uniformemente mais poderoso para testar $H_0:\theta\geq \theta_0$ versus $H_1:\theta \ < \ \theta_0$.
Outra propriedade importante dos testes uniformemente mais poderosos é que, se uma família de distribuições pertence à família exponencial, ou seja, $$f(\textbf{x}|\theta) = h(\textbf{x})\exp \lbrace T(\textbf{x})c(\theta)+d(\theta)\rbrace$$
então $T(\textbf{X})$ é uma estatística suficiente. Se a função $c(\theta)$ for estritamente crescente em $\theta$, então o teste UMP de nível $\alpha$ tem região crítica dada por $RC = \lbrace\textbf{x}:T(\textbf{x}\geq c)\rbrace$ para testar as hipóteses $H_0:\theta\leq\theta_0$ versus $H_1:\theta \ > \ \theta_0$. Se as hipóteses forem invertidas, $H_0:\theta\geq\theta_0$ versus $H_1:\theta \ < \ \theta_0$ então o teste uniformemente mais poderoso com nível $\alpha$ tem $R_C = \lbrace\textbf{x}: T(\textbf{x}) \ < \ c\rbrace$.
5.2 - Teste para média (teste t)
Considere uma população da qual retiramos uma amostra $X_1,X_2,\ldots,X_n$. Estamos interessados em realizar inferência sobre a média populacional $\mu$.
Figura 6.5.12: Fluxograma de Inferência Estatística
Se não conhecemos o valor do desvio padrão populacional $\sigma$ e a amostra é pequena, $n < 30$, devemos substituir a expressão
$$Z=\frac{\overline{X}-\mu_0}{\frac{\sigma}{\sqrt{n}}}$$
pela expressão
$$T=\frac{\overline{X}-\mu_0}{\frac{s}{\sqrt{n}}}$$
onde $T$ tem distribuição t de Student com $n-1$ graus de liberdade. Para facilitar a execução do teste, podemos seguir os passos:
1. Estabelecer as hipóteses:
Fixamos $H_0:\mu=\mu_0$. Dependendo da informação que fornece o problema que estamos estudando, a hipótese alternativa pode ter uma das três formas abaixo:
- $H_1: \mu\neq\mu_0 \quad \text{(teste bilateral)}$;
- $H_1: \mu \ > \ \mu_0 \quad \text{(teste unilateral à direita)}$;
- $H_1: \mu \ < \ \mu_0 \quad \text{(teste unilateral à esquerda)}$.
2. Fixar o nível de significância $\alpha$.
3. Determinar a região crítica.
- Se o teste é bilateral, determinamos os pontos críticos $ -t_{\alpha/2} $ e $ t_{\alpha/2} $ tais que $ \mathbb{P}[T \ > \ t_{\alpha/2}]=\mathbb{P}[T \ < -t_{\alpha/2}]=\alpha/2 $ a partir da distribuição t de Student com $ n-1 $ graus de liberdade.
Figura 6.5.13: Teste bilateral a partir da distribuição t de Student
- Se o teste é unilateral, determinamos o ponto crítico $ t_{\alpha} $ tal que $ \mathbb{P}[T \ > \ t_{\alpha}]=\alpha $.
Figura 6.5.14: Teste unilateral à direita a partir da distribuição t de Student
- Se o teste é unilateral à esquerda, determinamos o ponto $ -t_{\alpha} $ tal que $ \mathbb{P}[T \ < \ -t_{\alpha}]=\alpha $.
Figura 6.5.15: Teste unilateral à esquerda a partir da distribuição t de Student
4. Calcular, sob a hipótese nula, o valor:
$$T_{\text{obs}}=\frac{\overline{x}-\mu_0}{\frac{s}{\sqrt{n}}}$$
onde
- $ \overline{x} $: valor da média amostral.
- $ \mu_0 $: valor da média populacional sob a hipótese nula.
- $ s $: valor do desvio padrão amostral.
- $ n $: tamanho da amostra.
5. Critério:
- Teste bilateral: se $ T_{\text{obs}} \ > \ t_{\alpha/2} $ ou se $ T_{\text{obs}} \ < \ -t_{-\alpha/2} $, rejeitamos $ H_0 $. Caso contrário, não rejeitamos $ H_0 $.
- Teste unilateral à direita: se $ T_{\text{obs}} \ > t_{\alpha} $, rejeitamos $ H_0 $. Caso contrário, não rejeitamos $ H_0 $.
- Teste unilateral à esquerda: se $ T_{\text{obs}} \ < \ -t_{\alpha} $, rejeitamos $ H_0 $. Caso contrário, não rejeitamos $ H_0 $.
6. O p-valor no teste bilateral é dado por
$$\text{p-valor} = \mathbb{P}[|t| \ > \ |T_{\text{obs}}||H_0]=2\mathbb{P}[T \ > \ |T_{\text{obs}}| | H_0].$$
Se o teste é unilateral à direita, o p-valor é dado por
$$\text{p-valor} = \mathbb{P}[T \ > \ T_{\text{obs}}|H_0]$$
e, se o teste é unilateral à esquerda, o p-valor é dado por
$$\text{p-valor} = \mathbb{P}[T\ < \ T_{\text{obs}}|H_0].$$
7. Como vimos na Seção 4.1.2 o intervalo de confiança é dado por
$$IC(\mu,1-\alpha)=\left(\overline{X}-t_{\alpha/2}\frac{s}{\sqrt{n}};\overline{X}+t_{\alpha/2}\frac{s}{\sqrt{n}}\right)$$
se o teste é bilateral. Se o teste é unilateral à direita, então o intervalo de confiança para o parâmetro $\mu$ é dado por
$$IC(\mu,1-\alpha)=\left(\overline{X}-t_{\alpha}\frac{s}{\sqrt{n}};\infty\right)$$
e, se o teste é unilateral à esquerda, então o intervalo de confiança para o parâmetro $\mu$ é dado por
$$IC(\mu,1-\alpha)=\left(-\infty;\overline{X}+t_{\alpha}\frac{s}{\sqrt{n}}\right).$$
8. O Erro do tipo II é cometido ao aceitar $H_0$ quando esta é falsa ($H_1$ é verdadeira).
$$\mathbb{P}[\hbox{erro do tipo II}]=\mathbb{P}[\hbox{Aceitar} \ H_0 | H_1 \ \hbox{é verdadeira}]=\beta.$$
Para isto, suponha que a hipótese nula é falsa e que o verdadeiro valor da média é $\mu = \mu_0+\delta$. Então, a estatística do teste é
$$T_0=\frac{\overline{X}-\mu_0}{S/\sqrt{n}}=\frac{\overline{X}-(\mu_0+\delta)+\delta}{s/\sqrt{n}}.$$
que pode ser escrita na forma
$$T_0=\frac{\overline{X}-\mu_0}{s/\sqrt{n}}=\frac{\frac{\overline{X}-(\mu_0+\delta)+\delta}{\sigma/\sqrt{n}}}{\sqrt{\frac{(n-1)s^2}{\sigma^2(n-1)}}}.$$
Como
$$\frac{\overline{X}-(\mu_0+\delta)+\delta)}{\sigma/\sqrt{n}}\sim N\left(\frac{\delta}{\sigma/\sqrt{n}},1\right) \quad \hbox{e} \quad \frac{(n-1)s^2}{\sigma^2}\sim\chi_{n-1}^2$$
segue que $T_0$ tem distribuição t de Student não central com parâmetro de não-centralidade $\frac{\delta\sqrt{n}}{\sigma}$ e $n - 1$ graus de liberdade. Então, temos que para o teste bilateral, a probabilidade de erro do tipo II é a probabilidade de $T_0$ estar entre $-t_{\alpha/2}$ e $t_{\alpha/2}$, isto é
$$\beta=\Psi(t_{\alpha/2})-\Psi(-t_{\alpha/2})$$
e, para os casos unilaterais à direita e à esquerda, as probabilidades de erro do tipo II são dadas, respectivamente, por
$$\Psi(t_{\alpha}) \quad \hbox{e} \quad 1-\Psi(-t_{\alpha})$$
onde $\Psi$ é a função distribuição acumulada da variável aleatória t não central com parâmetro de não-centralidade $\frac{\delta\sqrt{n}}{\sigma}$ e $n-1$ graus de liberdade.
9. O poder do teste é calculado como 1 menos a probabilidade de erro do tipo II, ou seja, $1-\beta$.
Podemos também utilizar o software Action para calcular o poder (dado o tamanho amostral) ou o tamanho amostral necessário para detectar determinada diferença, com um poder previamente especificado. No Action, temos como parâmetros o tamanho da amostra ($n$), a diferença entre as hipóteses nula e alternativa ($\delta$), o valor do poder ($P$), o nível de significância do teste ($\alpha$) e o desvio-padrão ($\sigma$). Para calcular o poder, fornecemos os valores de $n,\delta,\alpha$ e $\sigma$. As fórmulas utilizadas são
$$\text{Poder} \ =1-\Psi(t_{\alpha/2})+\Psi(-t_{\alpha/2})$$
se o teste é bilateral. Se o teste é unilateral à esquerda, então
$$\text{Poder} \ =\Psi(-t_{\alpha})$$
e se o teste é unilateral à direita, então $$\text{Poder} \ = 1-\Psi(t_{\alpha})$$
onde $\Psi$ é a função distribuição acumulada da variável aleatória contínua com distribuição t de Student não central com $n - 1$ graus de liberdade e parâmetro de não-centralidade $\frac{\delta}{\sigma}\sqrt{n}$.
Já para o cálculo do tamanho da amostra necessária para que o teste detecte uma diferença pré-determinada entre as hipóteses nula e alternativa, com um determinado poder, basta lançarmos os valores da diferença $\delta$, do desvio-padrão $\sigma$, do nível de significância $\alpha$ e do poder $P$. Com isso, o Action nos fornece o valor do tamanho amostral $n$. As fórmulas utilizadas para cada teste são as mesmas acima, basta resolvê-las isolando $n$.
Exemplo 5.2.1
Um engenheiro de produção quer testar, com base nos dados da Tabela 6.5.3 a seguir, e para um nível de significância $\alpha = 0,05$, se a altura média de uma haste está próxima do valor nominal de $1055$ mm. Uma amostra de $20$ hastes foi analisada as medidas obtidas são dadas a seguir.
| 903,88 | 1036,92 | 1098,04 | 1011,26 |
| 1020,70 | 915,38 | 1014,53 | 1097,79 |
| 934,52 | 1214,08 | 993,45 | 1120,19 |
| 860,41 | 1039,19 | 950,38 | 941,83 |
| 936,78 | 1086,98 | 1144,94 | 1066,12 |
Tabela 6.5.3: altura da amostra de 20 hastes
Usando o software Action temos os seguintes resultados:
Figura 6.5.16: Boxplot dos dados
A partir dos dados, temos que $\overline{x} = 1019,37$ e $s = 91,37$. Para $\alpha = 0,05$ e $n= 20$ temos, pela tabela da distribuição t de Student que $t_{\alpha/2} = 2,093$. Com isso, rejeitamos $H_0$ se $t_{\text{obs}} \ < \ -2,093$ ou se $t_{\text{obs}} \ > \ 2,093$, onde
$$t_{\text{obs}}=\frac{\overline{x}-\mu_0}{\frac{s}{\sqrt{n}}}.$$
Substituindo $\mu_0 = 1055$, $\overline{x} = 1019,37$, $n = 20$ e $s = 91,37$ na equação obtemos:
$$t_{\text{obs}}=\frac{1019,37-1055}{\frac{91,37}{\sqrt{20}}}=-1,74.$$
Assim, como $t_{\text{obs}}$ é maior que $-2,093$ e menor que $2,093$, a hipótese nula não deve ser rejeitada. Em outras palavras, a diferença entre $\overline{x}=1019,37$ e $\mu = 1055$ não é significativa.
Figura 6.5.17: Teste bilateral t de Student
O p-valor é dado por
$$\text{p-valor} = \mathbb{P}[|t| \ > \ |t_{\text{obs}}| \ | \ H_0]=\mathbb{P}[t \ > \ 1,74 \ | \ H_0]+\mathbb{P}[t \ < \ -1,74 \ | \ H_0]=0,097$$
Como $\overline{x} = 1019,37$, $s = 91,37$, $n = 20$ e $\alpha = 0,05$, o intervalo de confiança é dado por
$$\left(1019,37-2,093\frac{91,37}{\sqrt{20}};1019,37+2,093\frac{91,37}{\sqrt{20}}\right)=(976,60;1062,13).$$
| Resultados | |
|---|---|
| Estatística T | -1.744 |
| Graus de Liberdade | 19 |
| P-valor | 0.0973 |
| Média Amostral | 1019.3685 |
| Desvio Padrão Amostral | 91.3686 |
| Tamanho da Amostra | 20 |
| Hipótese Alternativa Diferente de | 1055 |
| Nível de Confiança | 0.95 |
| Limite Inferior | 976.6067 |
| Limite Superior | 1062.1303 |
Tabela 6.5.4: Tabela dos resultados obtidos pela Action Stat
Para calcular o poder do teste em detectar uma diferença $\delta = 35,63$, utilizamos o software Action. Neste caso, temos como valores $n = 20$, $\delta = 35,63$, $\alpha = 0,05$, desvio-padrão $\hat{\sigma} = s = 91,37$ e tipo do teste bilateral. Então, lançando esses valores no Action, nos é fornecido o resultado do poder como sendo $0,38069$. Os resultados calculados e o gráfico são dados a seguir
| Poder do teste | N | Diferença | Nível de significância | Desvio | Hipótese |
|---|---|---|---|---|---|
| 0,380692 | 20 | 35,63 | 0,05 | 91,37 | Bilateral |
Tabela 6.5.5: Tabela dos resultados calculados
Figura 6.5.18: Gráfico de Pontos dos dados
Suponha que neste exercício queremos calcular o tamanho da amostra necessário para garantir a rejeição da hipótese nula com probabilidade no mínimo $0,9$ quando a diferença entre o valor verdadeiro da média e seu valor hipotético é no máximo $35,63$, dado um desvio padrão $\hat{\sigma} = s = 91,37$. Para resolver este problema, utilizamos o Action, fornecendo os valores $\alpha = 0,05$, $\delta = 35,63$, $\sigma = 91,37$ e poder igual a $0,9$. Como resultado temos $n = 72$.
Os resultados calculados e o gráfico são dados a seguir
| Poder do teste | N | Diferença | Nível de significância | Desvio | Hipótese |
|---|---|---|---|---|---|
| 0,90385 | 72 | 35,63 | 0,05 | 91,37 | Bilateral |
Tabela 6.5.6: Resultados obtidos do teste de hipóteses
Figura 6.5.19: Gráfico da Curva de Poder de teste (n=72)
5.3 - Teste para proporção
Vamos considerar uma população em que a proporção de indivíduos portadores de certa característica é $p$. Definimos a variável aleatória $X$ como sendo 1 se o individuo tiver a característica e 0 (zero) caso contrário. Assim, temos que $X \sim \ \text{Bernoulli}(p)$. Retiremos uma amostra $X_1,\ldots,X_n$ desta população. Cada $X_i$, com $i = 1,\ldots,n$, tem distribuição de $\text{Bernoulli}(p)$, isto é, $$X_1,X_2,\ldots,X_n\sim \ \hbox{Bernoulli(p)}$$
com média $p$ e variância $p(1-p)$.
Figura 6.5.20: Fluxograma de Inferência Estatística com amostra de distribuição Bernoulli
Para um teste de proporções, utilizaremos as seguintes abordagens: Teste para proporção utilizando o teorema central do limite, teste qui-quadrado de Pearson e binomial exata.
5.3.1 - Teste para proporção utilizando o Teorema Central do Limite
Aproximação normal
Pelo teorema central do limite, $\overline{X}$ terá distribuição aproximadamente normal, com média p e variância $\frac{p(1-p)}{n}$, ou seja, $$\overline{X}\sim N\left(p,\frac{p(1-p)}{n}\right).$$
Observamos que $\overline{X}$ é um estimador de máxima verossimilhança para $p$, a proporção populacional, e, desse modo, para $n$ suficientemente grande podemos considerar a distribuição amostral de $\hat{p}=\overline{X}$ como aproximadamente normal: $$\hat{p}\sim N\left(p,\frac{p(1-p)}{n}\right).$$
Daí, temos que $$Z=\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}\sim N(0,1).$$
Vejamos os passos para a construção do teste para proporção.
1. Estabelecer as hipóteses
$$\begin{cases}H_0: p=p_0 \cr H_1: p\neq p_0\end{cases} \quad \begin{cases}H_0:p=p_0 \cr H_1: p \ < \ p_0\end{cases} \quad \begin{cases} H_0:p=p_0 \cr H_1: p \ > \ p_0\end{cases}$$
se o teste é bilateral, unilateral à esquerda ou unilateral à direita, respectivamente.
2. Fixar o nível de significância $\alpha$.
3. Determinar a região crítica.
- Se o teste é bilateral, determinamos os pontos $-Z_{\alpha/2}$ e $Z_{\alpha/2}$ usando a tabela da distribuição normal, tais que $\mathbb{P}[Z \ > \ Z_{\alpha/2}]=\mathbb{P}[Z \ < \ -Z_{\alpha/2}]=\alpha/2$.
Figura 6.5.21: Teste bilateral de hipóteses Z Normal
- Se o teste é unilateral à direita, determinamos o ponto crítico $Z_{\alpha}$ tal que $\mathbb{P}[Z \ > \ Z_{\alpha}]=\alpha$.
Figura 6.5.22: Teste unilateral à direita de hipóteses Z Normal
- Se o teste é unilateral à esquerda, determinamos o ponto crítico $-Z_{\alpha}$ tal que $\mathbb{P}[Z \ < \ -Z_{\alpha}]=\alpha$.
Figura 6.5.23: Teste unilateral à esquerda de hipóteses Z Normal
4. Calcular, sob a hipótese nula, o valor $$Z_{\text{obs}}=\frac{\hat{p}-p_0}{\sqrt{p_0(1-p_0)/n}}.$$
5. Critério:
-
Se o teste é bilateral e $Z_{\text{obs}} \ > \ Z_{\alpha/2}$ ou $Z_{\text{obs}} \ < \ -Z_{\alpha/2}$, rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
-
Se o teste é unilateral à direita e $Z_{\text{obs}} \ > \ Z_{\alpha}$, rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
-
Se o teste é unilateral à esquerda e $Z_{\text{obs}} \ < \ -Z{\alpha}$, rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
6. O p-valor é determinado por $$\hbox{p-valor} = \mathbb{P}[|Z| \ > \ |Z_{\text{obs}}| |H_0]=2\mathbb{P}[Z \ > \ |Z_{\text{obs}}| | H_0]$$
no teste bilateral. Se o teste é unilateral à direita, o p-valor é determinado por $$\hbox{p-valor} = \mathbb{P}[Z \ > \ Z_{\text{obs}} | H_0]$$
e, se o teste é unilateral à esquerda $$\hbox{p-valor} = \mathbb{P}[Z \ < \ Z_{\text{obs}} | H_0].$$
7. Como foi visto na Seção 4.2.1 , o intervalo de confiança é dado por $$IC(p,1-\alpha)=\left(\hat{p}-Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}};\hat{p}+Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right)$$
se o teste é bilateral. Observamos aqui que o limite inferior do intervalo de confiança não pode ser inferior a zero e o limite superior não deve ser superior a um, uma vez que estamos calculando o intervalo de confiança para uma proporção e não faz sentido considerar uma proporção negativa ou maior do que um neste caso. No caso em que o teste é unilateral à direita, o intervalo de confiança para o parâmetro $p$ é dado por $$IC(p,1-\alpha)=\left(\hat{p}-Z_{\alpha}\sqrt{\frac{\hat{p}(1-\hat{p}}{n}};1\right)$$
e, se o teste é unilateral à esquerda, o intervalo de confiança para o parâmetro $p$ é dado por $$IC(p,1-\alpha)=\left(0;\hat{p}+Z_{\alpha}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right).$$
8. Para se calcular o poder (dado um tamanho amostral) ou o tamanho amostral necessário para se obter determinado poder para o teste de uma proporção, utilizamos o software Action. O Action recebe como parâmetros o tamanho da amostra ($n$), a proporção da hipótese nula ($p_0$), a proporção da hipótese alternativa ($p$), o valor do poder ($P$) e o nível de significância ($\alpha$). Então, para se calcular o poder de um teste de proporção em detectar uma diferença entre a proporção da hipótese nula ($p_0$) e uma proporção $p$ diferente da hipótese nula, a um nível de significância $\alpha$ específico, as fórmulas utilizadas pelo Action são dadas por $$P=1-\Phi(Z_{\alpha/2}-(2\arcsin(\sqrt{p_0})-2\arcsin(\sqrt{p}))\sqrt{n})+\Phi(-Z_{\alpha/2}-(2\arcsin(\sqrt{p_0})-2\arcsin(\sqrt{p}))\sqrt{n})$$
para o teste bilateral. Se o teste é unilateral à esquerda, $$P=\Phi(-Z_{\alpha}-(2\arcsin(\sqrt{p_0})-2\arcsin(\sqrt{p}))\sqrt{n})$$
e se o teste é unilateral à direita, $$P=1-\Phi(Z_{\alpha}-(2\arcsin(\sqrt{p_0})-2\arcsin(\sqrt{p}))\sqrt{n})$$
onde $\Phi$ é a função de distribuição acumulada de uma variável aleatória com distribuição normal padrão. A transformação não-linear $\phi=2\arcsin(\sqrt{p})$ é utilizada na tentativa de detectar poderes iguais para diferenças iguais entre as proporções $p$ e $p_0$.
Já para o cálculo do tamanho da amostra necessária para que o teste detecte uma diferença entre a proporção hipotética $p_0$ e a proporção real $p$, com determinado poder, basta lançarmos os valores das proporções $p_0$ e $p$, do poder $P$ e do nível de significância $\alpha$. Com isso, o Action nos fornece o valor do tamanho da amostra.
Exemplo 5.3.1.1
Um fabricante garante que $90%$ das peças que fornece à linha de produção de uma determinada fábrica estão de acordo com as especificações exigidas. A análise de uma amostra de $200$ peças revelou $25$ defeituosas. A um nível de $5%$, podemos dizer que é verdadeira a afirmação do fabricante?
1. Estabelecemos as hipóteses
$$\begin{cases}H_0: p=0,9 \cr H_1: p \ < \ 0,9\end{cases}$$
2. Fixemos o nível de significância $\alpha = 0,05$.
3. Como $\alpha = 0,05$, $-Z_{\alpha}=-1,64$.
4. Temos que $\hat{p}=0,875$ e, sob a hipótese nula, $p_0=0,9$. Assim, $$Z_{\text{obs}}=\frac{0,875-0,9}{\sqrt{(0,9)(0,1)/200}}=-1,178.$$
Figura 6.5.24: Representação da região de rejeição e $Z_{obs}$
5. Conclusão: como $-1,64 = -Z_{\alpha} \ < \ Z_{\text{obs}}= -1,178$, não rejeitamos $H_0$. Portanto, temos evidências de que a afirmação do fabricante é verdadeira.
6. Vamos agora calcular o P-valor: $$\text{P-valor} \ = \mathbb{P}[Z \ < \ Z_{\text{obs}}| H_0]=\mathbb{P}[Z \ < \ -1,178 | H_0]=0,1192.$$
7. Como $n = 200$, $\hat{p} = 0,875$, $-Z_{\alpha} = -1,64$, temos que o intervalo de confiança é $$\left(0;0,875+1,64\sqrt{\frac{0,875(1-0,875)}{200}}\right)=(0;0,9134).$$
Usando o software Action temos os seguintes resultados:
| Variáveis | Quantidade | Proporções |
|---|---|---|
| Sucesso | 175 | 0,875 |
| Fracasso | 25 | 0,125 |
Tabela 6.5.7: Informações sobre a amostra
| Informação | Sucesso |
|---|---|
| Z | -1,178511 |
| P-valor | 0,1192964 |
| Limite Inferior | 0 |
| Limite Superior | 0,9134655 |
| Hipótese Alternativa | Menor que 0.9 |
Tabela 6.5.8: Resultados do teste para proporção
8. Se queremos calcular o poder do teste em detectar a diferença entre a proporção hipotética $p_0 = 0,9$ e uma proporção real $p=0,8$ a um nível de significância $\alpha = 0,05$, lançamos os valores correspondentes no software Action, escolhendo o teste unilateral à esquerda (Menor que), donde obtemos que $\text{Poder} \ = 0,9910$ aproximadamente. Os resultados estão calculados na Tabela 6.5.9 a seguir
| Estatística | Valor |
|---|---|
| Tamanho da amostra | 200 |
| p | 0,8 |
| p0 | 0,9 |
| Poder | 0,991072 |
| Nível de significância | 0,05 |
| Hipótese Alternativa | Menor que |
Tabela 6.5.9: Estatísticas para o cálculo do Poder de Teste (n=200)
Suponha que estivéssemos no teste unilateral à esquerda e quiséssemos calcular o tamanho amostral necessário para se detectar a diferença entre a proporção hipotética $p_0 = 0,9$ e uma proporção real $p= 0,8$ a um nível de significância $\alpha = 0,05$ e com um poder de $0,9$. Então, usando o Action, nos seria fornecido um tamanho amostral $n = 106,3$. Ou seja, seria necessário uma amostra de tamanho $107$.
Os resultados podem ser conferidos na tabela abaixo
| Estatística | Valor |
|---|---|
| Tamanho da amostra | 106,33156 |
| p | 0,8 |
| p0 | 0,9 |
| Poder | 0,9 |
| Nível de significância | 0,05 |
| Hipótese Alternativa | Menor que |
Tabela 6.5.10: Estatísticas para o cálculo do tamanho da amostra
Aproximação Normal com Correção de Continuidade
Sugere-se que seja feita uma correção de continuidade ao se realizar um teste de uma proporção pelo fato de se aproximar a distribuição Binomial, que é discreta, por uma Normal, que é contínua. Essa correção consiste em substituir a equação $$Z=\frac{\hat{p}-p}{\sqrt{\frac{p(1-p)}{n}}}\sim N(0,1)$$
por
$$Z_c=\begin{cases}\dfrac{(\hat{p}-p_0)+1/(2n)}{\sqrt{p_0(1-p_0)/n}} \ \hbox{se} \ \hat{p}- p_0 \ < \ 0 \cr \cr \dfrac{(\hat{p}-p_0)-1/(2n)}{\sqrt{p_0(1-p_0)/n}} \hbox{se} \ \hat{p}-p_0 \ > \ 0\end{cases}$$
A ideia é evitar que a rejeição de $H_0$ seja resultante da aproximação feita, o que poderia ocorrer eventualmente quando $Z$ fosse bastante próximo do valor crítico.
Observação
O teste é realizado de maneira análoga ao visto anteriormente.
Exemplo 5.3.1.2
Considerando o Exemplo 5.3.1.1, vamos realizar o teste para proporção utilizando a aproximação Normal com correção de continuidade.
1. Estabelecemos as hipóteses
$$\begin{cases}H_0: p=0,9 \cr H_1: p \ < \ 0,9\end{cases}$$
2. Fixamos o nível de significância $\alpha = 0,05$.
3. Como $\alpha = 0,05$, temos que $-Z_{0,05} = -1,64$.
4. $\hat{p} = 0,875$ e, sob a hipótese nula, $p_0 = 0,9$. Assim, como $\hat{p} - p_0 = 0,875 - 0,9 = -0,025 \ < \ 0$, temos pela equação de $Z_c$ que $$Z_c=\frac{(0,875-0,9)+1/400}{\sqrt{(0,9)(0,1)/200}}=-1,061.$$
5. Conclusão: como $Z_c = -1,061 \ > \ -1,64$, não rejeitamos $H_0$. Portanto, temos evidências de que a afirmação do fabricante é verdadeira.
6. Vamos agora calcular o p-valor: $$\text{p-valor} = \mathbb{P}[Z \ < \ -1,061 | H_0]=0,1444.$$
7. Temos que $n = 200$, $\hat{p} = 0,875$, $Z_{\alpha} = 1,64$. Além disso, $\hat{p} = 0,875 \ > \ 0,5$ o que implica que $p_c = 0,875+1/400 = 0,8775$. Assim, temos que o intervalo de confiança é dado por $$\left(0;0,8775+1,64\sqrt{\frac{0,8775(1-0,8775)}{200}}\right)=(0;\ 0,9156).$$
Usando o software Action temos os seguintes resultados:
| Variáveis | Quantidade | Proporções |
|---|---|---|
| Sucesso | 175 | 0,875 |
| Fracasso | 25 | 0,125 |
Tabela 6.5.11: Informações sobre a amostra
| Informação | Valor |
|---|---|
| Z | -1,06066017 |
| P-valor | 0,144422183 |
| Limite Inferior | 0 |
| Limite Superior | 0,915633254 |
| Hipótese Alternativa | Menor que |
Tabela 6.5.12: Resultados do teste para proporção
5.3.2 - Teste qui-quadrado de Pearson
Aproximação Normal
Este é outro tipo de teste assintótico para uma proporção. Consideremos, como no caso anterior, uma amostra aleatória simples $X_1,\ldots,X_n$ onde cada $X_i$, com $i = 1,\ldots,n$, tem distribuição de $\text{Bernoulli}(p)$, isto é, $$X_1,\ldots,X_n\sim \hbox{Bernoulli(p)}.$$
Se $n$ é suficientemente grande, a estatística de Pearson, dada por $$Q^2=\sum_{j=1}^2\frac{(O_j-E_j)^2}{E_j}\sim\chi_1^2$$
tem aproximadamente distribuição qui-quadrado com 1 grau de liberdade, no qual $O_1$ é o número de sucessos e $E_1=np$ é a frequência esperada relativa ao número de sucessos, $O_2=n-O_1$ e $E_2 = n(1-p)$, onde $n = O_1+O_2$ é o tamanho da amostra.
Lembramos que uma distribuição qui-quadrado com 1 grau de liberdade é igual a uma distribuição normal padronizada ao quadrado, ou seja, se $Z \sim N(0,1)$, então $$\chi_1^2 = Z^2.$$
Neste caso, se $y$ é tal que $\mathbb{P}[\chi_1^2 \ > \ y] = \alpha$, então como $\chi_1^2 = Z^2$, temos que $$\mathbb{P}[\chi_1^2 \ > \ y]=\mathbb{P}[Z^2 \ > \ y]=\mathbb{P}[Z \ < \ -\sqrt{y}] + \mathbb{P}[Z \ > \ \sqrt{y}],$$
ou seja, $$\mathbb{P}[Z \ < \ -\sqrt{y}]+\mathbb{P}[Z \ > \ \sqrt{y}]=\alpha.$$
Desta forma, podemos realizar o teste utilizando a distribuição normal padrão ao invés da qui-quadrado, o que é mais vantajoso, já que podemos considerar a sua simetria.
Vamos ver os passos para realizar o teste Qui-Quadrado de Pearson.
1. Estabelecer as hipóteses
$$\begin{cases} H_0: p = p_0 \cr H_1: p \neq p_0 \end{cases}$$
se o teste for bilateral,
$$\begin{cases} H_0: p = p_0 \cr H_1: p \ > \ p_0 \end{cases}$$
se o teste é unilateral à direita ou
$$\begin{cases}H_0: p = p_0 \cr H_1: p \ < \ p_0\end{cases}$$
se o teste é unilateral à esquerda
2. Fixar o nível de significância $\alpha$.
3. Determinar a região crítica.
- Teste bilateral.
Se o teste é bilateral, devemos encontrar um ponto crítico da distribuição $\chi_1^2$, baseado nos pontos críticos da distribuição normal padrão $Z$. Os pontos críticos da distribuição normal padrão são $-Z_{\alpha/2}$ e $Z_{\alpha/2}$.
Figura 6.5.25: Teste bilateral a partir da distribuição normal padrão
Como $Z^2 = \chi_1^2$, temos que $$\alpha=\mathbb{P}[Z \ < \ -Z_{\alpha/2}]+\mathbb{P}[Z \ > \ Z_{\alpha/2}]=\mathbb{P}[Z^2 \ > \ Z_{\alpha/2}^2]=P[\chi_1^2 \ > \ Z_{\alpha/2}^2].$$
Portanto, o ponto crítico da distribuição qui-quadrado com um grau de liberdade é $Z_{\alpha/2}^2$.
Figura 6.5.26: Teste unilateral a partir da distribuição $\chi^2_1$
- Testes unilaterais.
Se o teste é unilateral à direita ou a esquerda, devemos determinar o ponto crítico da distribuição $\chi_1^2$ baseado nos pontos críticos da distribuição normal padrão $Z$. Os pontos críticos para a distribuição normal $Z$ são dados por $-Z_{\alpha}$ para o teste unilateral à esquerda ou $Z_{\alpha}$ para o teste unilateral à direita.
Figura 6.5.27: Teste unilateral à esquerda e à direita a partir da distribuição normal padrão
Para o caso unilateral à esquerda, como $Z^2 = \chi_1^2$, temos que $$Z \ < \ -Z_{\alpha} \Rightarrow |Z| \ > \ Z_{\alpha} \Rightarrow Z^2 \ > \ Z_{\alpha}^2 \ \Rightarrow \chi_1^2 \ > \ Z_{\alpha}^2$$
e, no caso unilateral á direita, temos que $$Z \ > \ Z_{\alpha} \ \Rightarrow Z^2 \ > \ Z_{\alpha}^2 \ \Rightarrow \chi_1^2 \ > \ Z_{\alpha}^2$$
Portanto, o ponto crítico da distribuição qui-quadrado com um grau de liberdade é $Z_{\alpha}^2$. Podemos observar também que $$\mathbb{P}[\chi_1^2 \ > \ Z_{\alpha}^2]=\mathbb{P}[Z \ > \ Z_{\alpha}]+\mathbb{P}[Z \ < \ -Z_{\alpha}] = 2\alpha.$$
Figura 6.5.28: Teste unilateral à esquerda e à direita a partir da distribuição $\chi^2_1$
4. Calcular, sob a hipótese nula, a estatística de Pearson $$Q^2_{\text{obs}}=\sum_{j=1}^2\frac{(O_j-E_j)^2}{E_j}.$$
5. Critério
-
Se o teste é bilateral e $Q^2_{\text{obs}}\geq Z_{\alpha/2}^2$, rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
-
Se o teste é unilateral à esquerda temos duas possibilidades:
-
Se $O_1\leq E_1$ e $Q^2_{\text{obs}}\geq Z_{\alpha}^2$ rejeitamos $H_0$, caso contrário, não rejeitamos $H_0$.
-
Se $O_1 \ > \ E_1$ não rejeitamos $H_0$ qualquer que seja o valor de $Q^2_{\text{obs}}$.
- Se o teste é unilateral à direita também temos duas possibilidades:
-
Se $O_1 \ < \ E_1$ então não rejeitamos $H_0$, qualquer que seja o valor de $Q^2_{\text{obs}}$.
-
Se $O_1 \geq E_1$ e $Q^2_{\text{obs}}\geq Z_{\alpha}^2$ rejeitamos $H_0$, caso contrário, não rejeitamos $H_0$.
6. O p-valor é determinado por $$\text{p-valor} \ = \mathbb{P}\left[\chi_1^2 \ > \ Q^2_{\text{obs}}|H_0\right]$$
se o teste é bilateral,
$$\text{p-valor} = \begin{cases}\dfrac{1-P\left[\chi_1^2 \ < Q^2_{\text{obs}}\right]}{2} \ \hbox{se} \ O_1\leq np \cr \cr \dfrac{1+P\left[\chi_1^2 \ < Q^2_{\text{obs}}\right]}{2} \ \hbox{se} \ O_1 \ > \ np \end{cases}$$
se o teste é unilateral à esquerda ou
$$\text{p-valor} \ = \begin{cases}\dfrac{1+P\left[\chi_1^2 \ < Q^2_{\text{obs}}\right]}{2} \ \hbox{se} \ O_1\leq np \cr \dfrac{1-P\left[\chi_1^2 \ < Q^2_{\text{obs}}\right]}{2} \ \hbox{se} \ O_1 \ > \ np \end{cases}$$
se o teste é unilateral à direita.
Podemos calcular o poder do teste ou o tamanho amostral necessário para se obter determinado poder utilizando o Action. Os parâmetros utilizados pelo Action são o tamanho da amostra ($n$), as proporções ($p_0$) da hipótese nula e ($p$) da hipótese alternativa, os graus de liberdade ($df$), o valor do poder ($P$) e o nível de significância ($\alpha$). Para o cálculo do poder, a fórmula utilizada é $$\text{Poder} = \Gamma(\chi_{\alpha})$$
tal que $\Gamma$ é a função densidade acumulada da distribuição qui-quadrado não-central com $df$ graus de liberdade e parâmetro de não centralidade $\varphi$ dado por $$\varphi=n\sum_{i=1}^2\frac{(p_{1i}-p_{0i})^2}{p_{0i}}$$
onde $p_{0i}$ são as probabilidades sob a hipótese nula e $p_{1i}$ as probabilidades sob a hipótese alternativa, satisfazendo $$\sum_{i=1}^2p_{0i}=1 \quad \hbox{e} \quad \sum_{i=1}^2p_{1i}=1.$$
Exemplo 5.3.2.1
Resolver o Exemplo 5.3.1.1 utilizando o teste qui-quadrado de Pearson.
1. Estabelecemos as hipóteses
$$\begin{cases} H_0: p = 0,9 \cr H_1: p \ < \ 0,9\end{cases}$$
2. Fixamos o nível de significância $\alpha = 0,05$.
3. Como $\alpha = 0,05$, $-Z_{\alpha} = -1,6448$. Desta forma, temos que $(-Z_{\alpha})^2 = 2,7055$.
4. Temos que $O_1 = 175$ e, sob a hipótese nula, $p_0 = 0,9$. Logo $E_1 = 0,9 \times 200 = 180$. Além disso, $O_2 = 25$ e $E_2 = 0,1\times 200 = 20$. Assim, $$Q_{\text{obs}}^2=\frac{(175-180)^2}{180}+\frac{(25-20)^2}{20}=1,3889.$$
5. Conclusão: como $O_1 \leq E_1$ e $Q^2_{\text{obs}} = 1,3889 \ < 2,7055$ não rejeitamos $H_0$. Portanto, temos evidências de que a afirmação do fabricante é verdadeira.
Figura 6.5.29: Representação da região de rejeição e $Q^2_{\text{obs}}$
6. O p-valor é dado por $$\text{p-valor} \ = \dfrac{1-\mathbb{P}[\chi_1^2 \ < \ Q_{\text{obs}}^2]}{2} = \dfrac{1-\mathbb{P}[\chi_1^2 \ < \ 1,3889]}{2}= 0,1193.$$
| Resultados | Valores |
|---|---|
| Estatística de Pearson | 1.388889 |
| Graus de Liberdade | 1 |
| P-valor | 0.1192964 |
| Proporção de sucesso na amostra | 0.875 |
| Hipótese Alternativa | Menor que 0.9 |
| Nível de Confiança | 95% |
| Limite Inferior | 0 |
| Limite Superior | 0.9085292 |
Tabela 6.5.13: Resultados da Action Stat do teste para proporção
Aproximação normal com correção de continuidade
Ao aplicar o Teste Qui-Quadrado de Pearson estamos, novamente, aproximando uma distribuição discreta por uma contínua. Assim, sugere-se uma correção de continuidade, neste caso também chamada de correção de Yates.
Os passos para a realização deste teste são análogos aos do caso anterior, com uma única diferença: se o valor $Q^2$ for maior que o valor crítico substituiremos a equação $$Q^2=\sum_{j=1}^2\frac{(O_j-E_j)^2}{E_j}$$
pela sua correção $Q^2_c$ dada por $$Q^2_c=\sum_{j=1}^2\frac{(|O_j-E_j|-0,5)^2}{E_j}.$$
Observações
1) Evidentemente, não é preciso usar a correção de Yates se o valor obtido $Q^2$ for menor que ponto crítico, pois o novo valor será menor que o primeiro, continuando a não ser significativo.
2) A ideia aqui também é evitar que a rejeição de $H_0$ seja resultante da aproximação feita, o que poderia ocorrer eventualmente quando $Q^2_{\text{obs}}$ fosse bastante próximo do valor crítico.
Exemplo 5.3.2.2
Consideremos que de $75$ peças, $12$ são defeituosas. O fabricante garante que $90%$ dessas peças estão de acordo como as especificações exigidas. Ao nível de $5%$ de significância, podemos falar que é válida a afirmação do fabricante? (Resolva utilizando a correção de continuidade.)
1. Estabelecemos as hipóteses
$$\begin{cases}H_0: p=0,9 \cr H_1: p \ < \ 0,9\end{cases}$$
2. Fixemos o nível de significância $\alpha = 0,05$.
3. Como $\alpha = 0,05$, $Z_{\alpha}^2 = 2,7055$.
4. Temos que $O_1 = 63$ e, sob a hipótese nula, $p_0 = 0,9$. Logo, $E_1 = 0,9\times 75 = 67,5$. Além disso, $O_2 = 12$ e $E_2 = 0,1\times 75 = 7,5$. Assim, $$Q^2=\frac{(63-67,5)^2}{67,5}+\frac{(12-7,5)^2}{7,5}=3.$$
Como $Q^2 \ > \ 2,7055$, calculamos $Q^2_c$. $$Q^2_c=\frac{(|63-67,5|-0,5)^2}{67,5}+\frac{(|13-7,5|-0,5)^2}{7,5}=0,2370+2,1333=2,3703.$$
| Variáveis | Quantidade |
|---|---|
| Sucesso | 63 |
| Fracasso | 12 |
Tabela 6.5.14: Informações sobre a amostra
| Informação | Valor |
|---|---|
| Estatística de Pearson | 2,37037037 |
| Graus de Liberdade | 1 |
| P-valor | 0,06183 |
| Proporção de sucesso na amostra | 0,84 |
| Intervalo de Confiança | 95% |
| Limite Inferior | 0 |
| Limite Superior | 0,9029 |
| Hipótese Alternativa | Menor que |
Tabela 6.5.15: Resultados do teste para proporção
5. Conclusão: como $Q^2_c = 2,3073 \ < \ 2,7055$ não rejeitamos $H_0$. Portanto, temos evidências de que a afirmação do fabricante é verdadeira.
Observações
1) Conforme vimos na Observação 1 acima, se revolvermos o Exemplo 5.3.2.1 utilizando a correção de continuidade não rejeitamos a hipótese nula.
2) Realizando o Exemplo 5.3.2.2 sem utilizar a correção de continuidade, obtemos $$Q^2=\frac{(63-67,5)^2}{67,5}+\frac{(12-7,5)^2}{7,5}=3$$
e, como $Q^2 = 3 \ > \ 2,7055$ rejeitamos $H_0$, ao contrário do teste com correção.
Assim, realizando o teste com a correção de continuidade, evitamos a rejeição de $H_0$, que ocorreu no teste sem a correção devido à aproximação assintótica.
5.3.3 - Teste binomial exata
Consideremos, como nos casos anteriores, uma amostra aleatória simples $X_1,\ldots,X_n$ onde cada $X_i$, com $i = 1,\ldots,n$, tem distribuição de $\text{Bernoulli}(p)$, isto é, $$X_1,\ldots,X_n\sim \hbox{Bernoulli(p)}.$$
Consideremos $$Y = \hbox{número de sucessos}.$$
Neste caso, $Y$ é uma variável aleatória com distribuição $\text{Binomial}(n,p)$. O teste de proporções binomial exata é um teste de proporções composto das seguintes etapas:
1. Para os testes bilateral e unilaterais à esquerda e à diretia estabelecemos uma das seguintes hipóteses, respectivamente.
$$\begin{cases}H_0: p = p_0 \cr H_1: p\neq p_0\end{cases} \qquad \begin{cases}H_0:p = p_0 \cr H_1:p \ < \ p_0\end{cases} \qquad \begin{cases}H_0: p = p_0 \cr H_1:p \ > \ p_0\end{cases}$$
2. Fixamos o nível de significância $\alpha$.
3. Determinamos a região crítica.
-
Se o teste é bilateral, determinamos os valores $t_1$ e $t_2$ da tabela da distribuição Binomial tais que $\mathbb{P}(X \ < \ t_1) = \mathbb{P}(X \ > \ t_2)\approx\frac{\alpha}{2}$.
-
Se o teste é unilateral à esquerda, determinamos o valor $t$ na tabela da distribuição Binomial tal que $\mathbb{P}(X \ < \ t)\approx\alpha$.
-
Se o teste é unilateral à direita, determinamos o valor $t$ na tabela da distribuição Binomial tal que $\mathbb{P}(X \ > \ t)\approx\alpha$.
4. Determinar a estatística $Y = \text{número de sucessos}$.
5. Utilizamos os seguintes critérios para rejeitar ou não o teste de hipóteses:
-
Se o teste é bilateral e $Y \ > \ t_2$ ou $Y \ < \ t_1$ rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
-
Se o teste é unilateral à esquerda e $Y \ < \ t$, rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
-
Se o teste é unilateral à direita e $Y \ > \ t$, rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
6. O p-valor é dado por $\text{p-valor} \ = \mathbb{P}[X\leq Y|H_0]=\mathbb{P}[X\leq Y|p = p_0].$
Exemplo 5.3.3.1
Um industrial afirma que seu processo de fabricação produz $90%$ de peças dentro das especificações. Deseja-se investigar se este processo de fabricação ainda está sob controle. Uma amostra de $15$ peças foi analisada e foram constatadas $10$ peças dentro das especificações. Ao nível de $5%$ de significância, podemos dizer ser verdadeira essa afirmação?
1. As hipóteses a serem testadas são
$$\begin{cases}H_0: p = 0,9 \cr H_1: p \ < \ 0,9\end{cases}$$
2. fixar o nível de significância $\alpha = 0,05$.
3. Determinar a região crítica. Neste caso, determinar o valor $t$, tal que $\mathbb{P}(X \ < \ t)\approx\alpha$, tendo $p_0 = 0,9$ e $n= 15$. Desta forma, temos que $t = 11$.
4. A estatística $Y = \text{número de sucessos}$ é igual a 10.
5. Conclusão: como $Y = 10 \ < \ 11 = t$, rejeitamos $H_0$. Assim, há evidências de que a afirmação não é verdadeira.
6. O p-valor é dado por $$\text{p-valor} \ = \mathbb{P}[X\leq Y |H_0]=\mathbb{P}[X\leq 10|p=0,9]=0,0127.$$
Usando o software Action temos os seguintes resultados:
| Variáveis | Quantidade |
|---|---|
| Sucesso | 10 |
| Fracasso | 5 |
Tabela 6.5.16: Informações sobre a amostra
| Informação | Valor |
|---|---|
| Estatística | 0,0172 |
| P-valor | 0,127204 |
| Limite Inferior | 0 |
| Limite Superior | 0,915633254 |
| Hipótese Alternativa | Menor que |
Tabela 6.5.17: Resultados do teste para proporção
5.4 - Teste para taxa
Consideremos uma população e $X$ uma variável aleatória que representa determinada característica desta população com distribuição de Poisson com parâmetro $\lambda$. Retiremos uma amostra aleatória $X_1,\ldots,X_n$ desta população. Cada $X_i = 1,\ldots,n$ tem distribuição de Poisson com parâmetro $\lambda$, isto é, $$X_1,\ldots,X_n \sim \ \text{Poisson}(\lambda).$$
Como $$\hat{\lambda}=\sum_{i=1}^n\frac{X_i}{n}$$
é um estimador de máxima verossimilhança para $\lambda$, então, utilizando o Teorema Central do Limite, temos que $$\hat{\lambda}=\sum_{i=1}^n\frac{X_i}{n}\sim N\left(\lambda,\frac{\lambda}{n}\right)$$
o que implica que $$Z=\frac{\hat{\lambda}-\lambda}{\sqrt{\lambda/n}}\sim N(0,1).$$
Agora vamos ver os passos para se realizar o teste para taxa:
1. Estabelecer as hipóteses.
Fixamos $H_0: \lambda = \lambda_0$. Dependendo da informação que fornece o problema que estivermos estudando, a hipótese alternativa pode ter uma das três formas abaixo: $$H_1:\lambda\neq\lambda_0 \quad \text{(teste bilateral)};$$
$$H_1:\lambda \ > \ \lambda_0 \quad \text{(teste unilateral à direita)};$$
$$H_1:\lambda \ < \ \lambda_0 \quad \text{(teste unilateral à esquerda)};$$
2. Fixar o nível de significância $\alpha$.
3. Determinar a região crítica.
- Se o teste é bilateral, determinamos os pontos críticos $Z_{\alpha/2}$ e $-Z_{\alpha/2}$ tais que $$\mathbb{P}[Z \ > \ Z_{\alpha/2}] = \mathbb{P}[Z\ < \ -Z_{\alpha/2}]=\frac{\alpha}{2}$$
Figura 6.5.30: Representação da região de rejeição de teste bilateral
- Se o teste é unilateral à direita, determinamos o valor crítico $Z_{\alpha}$ tal que $$\mathbb{P}[Z \ > \ Z_{\alpha}]=\alpha$$
Figura 6.5.31: Representação da região de rejeição de teste unilateral à direita
- Se o teste é unilateral à esquerda, determinamos o valor crítico $-Z_{\alpha}$ tal que $$\mathbb{P}[Z \ < \ -Z_{\alpha}]=\alpha$$
Figura 6.5.32: Representação da região de rejeição de teste unilateral à esquerda
4. Calcular, sob a hipótese nula, o valor $$Z_{\text{obs}}=\frac{\hat{\lambda}-\lambda_0}{\sqrt{\lambda_0/n}}.$$
5. Critério:
-
Teste bilateral: Se $Z_{\text{obs}} \ > \ Z_{\alpha/2}$ ou se $Z_{\text{obs}} \ < \ -Z_{\alpha/2}$, rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
-
Teste unilateral à direita: Se $Z_{\text{obs}} \ > \ Z_{\alpha}$, rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
-
Teste unilateral à esquerda: Se $Z_{\text{obs}} \ < \ -Z_{\alpha}$, rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
6. O p-valor é dado por $$\text{p-valor} = \mathbb{P}[|Z| \ > \ |Z_{\text{obs}}||H_0]=2\mathbb{P}[Z \ > \ |Z_{\text{obs}}| |H_0]$$
no caso bilateral.
No caso unilateral à direita é determinado por $$\text{p-valor} = \mathbb{P}[Z \ > \ Z_{\text{obs}}| H_0]$$
e no caso unilateral à esquerda, por $$\text{p-valor} = \mathbb{P}[Z \ < \ Z_{\text{obs}} | H_0].$$
7. Como vimos na Seção 4.3 , o intervalo de confiança para o parâmetro $\lambda$ é dado por $$IC(\lambda,1-\alpha)=\left(\hat{\lambda}-Z_{\alpha/2}\sqrt{\frac{\hat{\lambda}}{n}};\hat{\lambda}+Z_{\alpha/2}\sqrt{\frac{\hat{\lambda}}{n}}\right).$$
se o teste é bilateral. Caso o teste seja unilateral à direita, então o intervalo de confiança para o parâmetro $\lambda$ é dado por $$IC(\lambda,1-\alpha)=\left(\hat{\lambda}-Z_{\alpha}\sqrt{\frac{\hat{\lambda}}{n}};\infty\right)$$
e se o teste é unilateral à esquerda, então o intervalo de confiança para o parâmetro é dado por $$IC(\lambda,1-\alpha)=\left(0;\hat{\lambda}+Z_{\alpha}\sqrt{\frac{\hat{\lambda}}{n}}\right)$$
8. O erro do tipo II é calculado ao se aceitar $H_0$ quando esta é falsa ($H_1$ é verdadeira). $$\mathbb{P}[\hbox{Erro do tipo II}]=\mathbb{P}[\hbox{Aceitar} H_0| H_1 \hbox{é verdadeira}]=\beta.$$
9. O poder do teste é calculado por: 1 menos a probabilidade de erro do tipo II, ou seja $$\text{Poder} \ = 1-\beta.$$
Como trata-se de um teste normal, para o cálculo do poder ou do tamanho amostral, utilizamos as mesmas técnicas utilizadas para o teste para a média com variância conhecida, ou seja, no Action, se queremos calcular o poder do teste, lançamos como parâmetro o tamanho da amostra ($n$), a diferença ($\delta$), o nível de significância ($\alpha$) e o desvio-padrão ($\sigma$). Analogamente, podemos calcular o tamanho amostral necessário para que o teste detecte uma diferença específica com determinado poder.
Exemplo 5.4.1
O gerente de produção de uma empresa tem como objetivo avaliar a performance de uma nova metodologia de ensino para novos operários contratados. Com a metodologia antiga, tem-se uma taxa média de $4$ erros por operário na primeira semana de trabalho. Em uma amostra de $25$ operários foi aplicada a nova metodologia e observou-se que a média foi de $5$ erros por semana. Com essas informações podemos falar que há diferença significativa entre a antiga e a nova metodologia?
1. Primeiro, vamos estabelecer as hipóteses:
$$\begin{cases}H_0: \lambda = 4 \cr H_1: \lambda \ < \ 4\end{cases}$$
uma vez que estamos querendo testar se a nova metodologia é melhor que a antiga, isto é, se ela possui uma taxa média de erros menor que a antiga.
2. Fixemos o nível de significância $\alpha = 0,05$.
3. Como $\alpha = 0,05$, $-Z_{\alpha}=-Z_{0,05}=-1,64$.
4. Temos que $\hat{\lambda} = 5$ e, sob a hipótese nula, $\lambda_0=4$. Assim, $$Z_{\text{obs}}=\frac{5-4}{\sqrt{4/25}}=2,5.$$
5. Conclusão: como $Z_{\text{obs}} = 2,5 \ > \ -1,64$, não rejeitamos $H_0$. Assim, não temos evidências de que a taxa média de erros da nova metodologia é menor que a antiga.
Figura 6.5.33: Representação do teste unilateral à esquerda
6. Vamos agora calcular o p-valor: $$\text{p-valor} \ = \mathbb{P}[Z \ < \ Z_{\text{obs}}|H_0]=\mathbb{P}[Z \ < \ 2,5|H_0]=0,9937903.$$
7. Como $n=25$, $\hat{\lambda} = 5$ e $Z_{\alpha/2} = 1,64$, temos que o intervalo de confiança é dado por $$\left(0;\ 5+1,64\sqrt{\frac{5}{25}}\right)=(0;\ 5,735601).$$
| Informação | Valor |
|---|---|
| Taxa Média amostral | 5 |
| Hipótese nula | 4 |
| Estatística | 2,5 |
| p-valor | 0,9938 |
| Limite Inferior | 0 |
| Limite Superior | 5,7356009 |
| Hipótese Alternativa | Menor que |
Tabela 6.5.18: Resultados do teste para taxa
Utilizando o software Action, vamos calcular o poder do teste em detectar uma diferença $\delta = -1$. Como o desvio padrão é $\sigma = 2$, o tamanho da amostra é $n= 25$ e o nível de significância é $\alpha = 0,05$, temos os seguintes resultados.
| Informação | Valor |
|---|---|
| Poder do teste | 0,80376 |
| Tamanho Amostral | 25 |
| Diferença | -1 |
| Nível de significância | 0,05 |
| Desvio | 2 |
| Hipótese Alternativa | Menor que |
Tabela 6.5.19: Resultados do poder de teste
O gráfico é mostrado na figura abaixo
Figura 6.5.34: Gráfico do poder de teste (n=25)
5.5 - Teste para variância
Seja $X_1,X_2,\ldots,X_n$ uma amostra aleatória de tamanho $n$ retirada de uma população normal $N(\mu,\sigma^2)$. Suponha que desejamos testar uma hipótese sobre a variância $\sigma^2$ desta população.
Usando o Corolário 2.3.3, sabemos que a estatística $$Q=\frac{(n-1)s^2}{\sigma^2}$$
tem distribuição qui-quadrado com $n-1$ graus de liberdade. Denotamos $Q \sim \chi_{(n-1)}^2$. Para executar este tipo de teste, podemos seguir os passos:
1. Estabelecer uma das hipóteses (bilateral, unilateral à direita ou unilateral à esquerda)
$$\begin{cases}H_0:\sigma^2=\sigma_0^2 \cr H_1:\sigma^2\neq\sigma_0^2\end{cases} \quad \begin{cases}H_0:\sigma^2=\sigma_0^2 \cr H_1:\sigma^2 \ > \ \sigma_0^2\end{cases} \ \hbox{ou} \ \begin{cases}H_0:\sigma^2=\sigma_0^2 \cr H_1:\sigma^2 \ < \ \sigma_0^2\end{cases}$$
OBS: As hipóteses $H_0$ podem ser substituídas por $H_0:\sigma^2 \geq \sigma_0^2$, $H_0:\sigma^2\leq\sigma_0^2$, $H_0:\sigma^2 \ > \ \sigma_0^2$ ou $H_0:\sigma^2 \ < \ \sigma_0^2$.
2. Fixar o nível de significância $\alpha$.
3. Determinar a região crítica.
- Se o teste é bilateral, devemos determinar os pontos críticos $Q_{\alpha/2}$ e $Q_{1-\alpha/2}$ tais que $\mathbb{P}[Q \ < \ Q_{\alpha/2}]=\alpha/2$ e $\mathbb{P}[Q \ > \ Q_{1-\alpha/2}]=\alpha/2$ utilizando a tabela da distribuição qui-quadrado com $n-1$ graus de liberdade.
Figura 6.5.35: Representação do teste bilateral de distribuição qui-quadrado $\chi^2_{n-1}$
- Se o teste é unilateral à direita, devemos determinar o ponto crítico $Q_{1-\alpha}$ tal que $\mathbb{P}[Q \ > \ Q_{1-\alpha}]=\alpha$.
Figura 6.5.36: Representação do teste unilateral de distribuição qui-quadrado $\chi^2_{n-1}$ à direita
- Se o teste é unilateral à esquerda, devemos determinar o ponto crítico $Q_{\alpha}$ tal que $\mathbb{P}[Q \ < \ Q_{\alpha}]=\alpha$.
Figura 6.5.37: Representação do teste unilateral de distribuição qui-quadrado $\chi^2_{n-1}$ à esquerda
4. Calcular, sob a hipótese nula, o valor $$Q_{\text{obs}}=\frac{(n-1)s^2}{\sigma_0^2}$$
5. Critério:
-
Teste bilateral: Se $Q_{\text{obs}} \ > \ Q_{\alpha/2}$ ou se $Q_{\text{obs}} \ < \ Q_{1-\alpha/2}$, rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
-
Teste unilateral à direita: se $Q_{\text{obs}} \ > \ Q_{1-\alpha}$, rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
-
Teste unilateral à esquerda: se $Q_{\text{obs}} \ < \ Q_{\alpha}$, rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
6. O p-valor é dado por $$\text{p-valor} = 2.\min \lbrace \mathbb{P}[Q \ > \ Q_{\text{obs}}|H_0], \ \mathbb{P}[Q \ < \ Q_{\text{obs}}|H_0] \rbrace $$
no caso bilateral.
No caso unilateral à direita, o p-valor é dado por $$\text{p-valor} = \mathbb{P}[Q \ > \ Q_{\text{obs}}|H_0]$$
e, no caso unilateral à esquerda, o p-valor é dado por $$\text{p-valor} = \mathbb{P}[Q \ < \ Q_{\text{obs}}|H_0].$$
7. Como vimos na Seção 4.4, o intervalo de confiança para a variância populacional $\sigma^2$ é dado por $$IC(\sigma^2,1-\alpha)=\left(\frac{(n-1)s^2}{Q_{1-\alpha/2}};\frac{(n-1)s^2}{Q_{\alpha/2}}\right)$$
se o teste é bilateral. Se o teste é unilateral à direita, o intervalo de confiança é dado por $$IC(\sigma^2,1-\alpha)=\left(\frac{(n-1)s^2}{Q_{1-\alpha}};\infty\right)$$
e se o teste é unilateral à esquerda, o intervalo de confiança é dado por $$IC(\sigma^2,1-\alpha)=\left(0;\frac{(n-1)s^2}{Q_{\alpha}}\right).$$
Exemplo 5.5.1
Uma máquina de preenchimento automático é utilizada para encher garrafas com detergente líquido. Uma amostra aleatória de $20$ garrafas resulta em uma variância da amostra do volume de enchimento de $s^2 = 0,0153 \ \text{onças fluídas}^2$. Se a variância do volume de enchimento exceder $0,01 \ \text{onças fluídas}^2$, existirá uma proporção inaceitável de garrafas cujo enchimento não foi completo ou foi em demasia. Há evidência nos dados da amostra sugerindo que o fabricante tenha um problema com garrafas com falta ou excesso de detergente? Use $\alpha = 0,05$ e considere que o volume de enchimentos tem distribuição normal.
O parâmetro de interesse é a variância da população
1. Primeiro vamos estabelecer as hipóteses:
$$\begin{cases}H_0:\sigma^2=0,01 \cr H_1:\sigma^2 \ > \ 0,01\end{cases}$$
2. Como $\alpha = 0,05$ temos que $Q_{0,95} = 30,14$.
3. Critério: Rejeitar $H_0$ se $Q_{\text{obs}} \ > \ 30,14$.
4. Calcular $Q_{\text{obs}}$, dado por $$Q_{\text{obs}}=\frac{(n-1)s^2}{\sigma_0^2}=\frac{19(0,0153)}{0,01}=29,07$$
5. Conclusão: como $Q_{\text{obs}} = 29,07 \ < \ 30,14$, a hipótese nula não deve ser rejeitada. Ou seja, não há evidências de que a variância do volume de enchimento exceda $0,01 \ \text{onças fluídas}^2$.
Figura 6.5.38: Representação do teste unilateral de distribuição qui-quadrado $\chi^2_{n-1}$ à direita
6. Vamos agora calcular o p-valor: $$\text{p-valor} = \mathbb{P}[Q \ > \ Q_{\text{obs}}] = \mathbb{P}[Q \ > \ 29,07] = 0,064892.$$
7. Como $n = 20$, $s^2 = 0,0153$ e $Q_{0,95} = 30,14$, segue que o intervalo de confiança para $\sigma^2$ com 95% de confiança é dado por
$$IC(\sigma^2,95\char37)=\left(\frac{(n-1)s^2}{Q_{0,95}};\infty\right)=(0,00964,\infty).$$
| Informação | Valor |
|---|---|
| Variância Amostral | 0,0153 |
| Graus de Liberdade | 19 |
| Hipótese Nula | 0,01 |
| Hipótese Alternativa: Maior que | 0,01 |
| Estatística | 30,14 |
| Limite Inferior | 0,00964 |
| Limite Superior | infinito |
Tabela 6.5.19: Resultados do teste para variância
5.6 - Teste para comparação de duas variâncias (Teste F)
Suponha que queremos comparar as variâncias $\sigma_1^2$ e $\sigma_2^2$ de duas populações Normais independentes. Para isso, retiramos uma amostra aleatória $X_1,X_2,\ldots,X_{n_1}$ da população 1, com distribuição $N(\mu_1,\sigma_1^2)$, e uma amostra $Y_1,Y_2,\ldots,Y_{n_2}$ da população 2, com distribuição $N(\mu_2,\sigma_2^2)$.
Como vimos anteriormente, $$Q_1=\frac{(n_1-1)}{\sigma_1^2}s_1^2\sim\chi_{n_1-1}^2 \quad (\hbox{Qui-quadrado com} \ n_1 - 1 \ \hbox{graus de liberdade})$$
$$Q_2=\frac{(n_2-1)}{\sigma_2^2}s_2^2\sim\chi_{n_2-1}^2 \quad (\hbox{Qui-quadrado com} \ n_2 - 1 \ \hbox{graus de liberdade})$$
onde $s_1^2$ é a variância amostral da população 1 e $s_2^2$ a variância amostral da população 2. Neste caso, a expressão $F$ definida por $$F=\frac{\frac{Q_1}{n_1-1}}{\frac{Q_2}{n_2-1}}=\frac{\frac{s_1^2}{\sigma_1^2}}{\frac{s_2^2}{\sigma_2^2}}=\frac{s_1^2}{s_2^2}\frac{\sigma_2^2}{\sigma_1^2}$$
tem distribuição $F$ de Snedecor com $n_1-1$ graus de liberdade no numerador e $n_2-1$ graus de liberdade no denominador, a qual denotamos por $F_{(n_1-1;n_2-1)}$.
Para executar o teste, podemos realizar os seguintes passos:
1. Estabelecer uma das seguintes hipóteses
$$\begin{cases}H_0:\sigma_1^2=\sigma_2^2 \cr H_1:\sigma_1^2\neq\sigma_2^2\end{cases} \quad \begin{cases}H_0:\sigma_1^2=\sigma_2^2 \cr H_1:\sigma_1^2 \ > \ \sigma_2^2\end{cases} \ \hbox{ou} \ \begin{cases}H_0:\sigma_1^2=\sigma_2^2 \cr H_1:\sigma_1^2 \ < \ \sigma_2^2\end{cases}$$
que são equivalentes às hipóteses
$$\begin{cases}H_0:\dfrac{\sigma_1^2}{\sigma_2^2}=1 \cr H_1:\dfrac{\sigma_1^2}{\sigma_2^2}\neq 1\end{cases} \quad \begin{cases}H_0:\dfrac{\sigma_1^2}{\sigma_2^2}=1 \cr H_1:\dfrac{\sigma_1^2}{\sigma_2^2} \ > \ 1\end{cases} \ \hbox{ou} \begin{cases}H_0:\dfrac{\sigma_1^2}{\sigma_2^2}=1 \cr H_1:\dfrac{\sigma_1^2}{\sigma_2^2} \ < \ 1\end{cases}$$
2. Fixar o nível de significância $\alpha$.
3. Determinar a região crítica.
- Se o teste é bilateral, devemos determinar os pontos críticos $F_{\alpha/2}$ e $F_{1-\alpha/2}$ da distribuição $F$ com $n_1-1$ graus de liberdade no numerador e $n_2-1$ graus de liberdade no denominador usando a tabela da distribuição Fisher-Snedecor de modo que $\mathbb{P}[F \ < \ F_{\alpha/2}]=\mathbb{P}[F \ > \ F_{1-\alpha/2}]=\alpha/2$.
Figura 6.5.39: Representação do teste bilateral de distribuição Fisher-Snedecor
- Se o teste é unilateral à direita, determinamos o ponto $F_{1-\alpha}$ tal que $\mathbb{P}[F \ > \ F_{1-\alpha}]=\alpha$.
Figura 6.5.40: Representação do teste unilateral à direita de distribuição Fisher-Snedecor
- Se o teste é unilateral à esquerda, determinamos o ponto $F_{\alpha}$ tal que $\mathbb{P}[F \ < \ F_{\alpha}]=\alpha$.
Figura 6.5.41: Representação do teste unilateral à esquerda de distribuição Fisher-Snedecor
4. Calcular, sob a hipótese nula, o valor $$F_{obs}=\frac{s_1^2}{s_2^2}$$
5. Critério:
-
Teste bilateral: Se $F_{obs} \ > \ F_{1-\alpha/2}$ ou $F_{obs} \ < \ F_{\alpha/2}$ devemos rejeitar $H_0$, caso contrário, não rejeitamos $H_0$.
-
Teste unilateral à esquerda: Se $F_{obs} \ < \ F_{\alpha}$ devemos rejeitar $H_0$. Caso contrário, não rejeitamos $H_0$.
-
Teste unilateral à direita: Se $F_{obs} \ > \ F_{1-\alpha}$ devemos rejeitar $H_0$. Caso contrário, não rejeitamos $H_0$.
6. O p-valor é dado por $$\text{p-valor} \ = 2\min\lbrace\mathbb{P}[F \ > \ F_{\text{obs}}|H_0]; \mathbb{P}[F \ < \ F_{\text{obs}}|H_0]\rbrace.$$
no teste bilateral. Já no teste unilateral à direita, o p-valor é dado por $$\text{p-valor} \ = \mathbb{P}[F \ > \ F_{\text{obs}}|H_0]$$
e, no teste unilateral à esquerda, o p-valor é dado por $$\text{p-valor} \ = \mathbb{P}[F \ < \ F_{\text{obs}}|H_0]$$
7. O intervalo de confiança para a razão entre as variâncias, como vimos na Seção 4.5, é dado por $$IC\left(\frac{\sigma_1^2}{\sigma_2^2},1-\alpha\right)=\left(\frac{1}{F_{(1-\alpha/2)}}\frac{s_1^2}{s_2^2};\frac{1}{F_{(\alpha/2)}}\frac{s_1^2}{s_2^2}\right)$$
se o teste é bilateral. Caso o teste seja unilateral à direita, então o intervalo de confiança para a razão entre as variâncias é dado por $$IC\left(\frac{\sigma_1^2}{\sigma_2^2},1-\alpha\right)=\left(\frac{1}{F_{1-\alpha}}\frac{s_1^2}{s_2^2};\infty\right)$$
e, se o teste é unilateral à esquerda, então o intervalo de confiança para a razão entre as variâncias é dado por $$IC\left(\frac{\sigma_1^2}{\sigma_2^2},1-\alpha\right)=\left(0,\frac{1}{F_{\alpha}}\frac{s_1^2}{s_2^2}\right).$$
Exemplo 5.6.1
Um analista da qualidade quer avaliar se existe diferença entre as variabilidades na produção de eixo comando desenvolvido por dois sistemas de usinagem. A Tabela 6.5.20 a seguir apresenta as medições de duas populações independentes com distribuição Normal. Podemos dizer que as variâncias de ambas são iguais?
| Sistema de Usinagem | Medição | Sistema de Usinagem | Medição |
|---|---|---|---|
| 1 | 18.7997 | 2 | 21.1609 |
| 1 | 20.5035 | 2 | 26.1371 |
| 1 | 18.6214 | 2 | 21.4737 |
| 1 | 19.9192 | 2 | 30.9934 |
| 1 | 21.117 | 2 | 22.8421 |
| 1 | 20.8353 | 2 | 24.4133 |
| 1 | 17.527 | 2 | 20.4137 |
| 1 | 17.078 | 2 | 25.5475 |
| 1 | 17.6197 | 2 | 21.8791 |
| 1 | 21.4255 | 2 | 22.6706 |
| 1 | 18.7545 | 2 | 24.7531 |
| 1 | 19.2026 | 2 | 25.7219 |
| 1 | 18.4187 | 2 | 22.6389 |
| 1 | 20.7641 | 2 | 26.2308 |
| 1 | 21.0553 | 2 | 26.7998 |
| 1 | 17.5905 | 2 | 28.4708 |
| 1 | 18.7561 | 2 | 26.9941 |
| 1 | 18.9772 | 2 | 25.1489 |
| 1 | 20.3084 | 2 | 24.6179 |
| 1 | 18.8988 | 2 | 27.0194 |
| 1 | 19.1688 | 2 | 25.0589 |
| 1 | 19.2898 | 2 | 22.1119 |
| 1 | 22.059 | 2 | 20.3069 |
| 1 | 18.5854 | 2 | 23.6758 |
| 1 | 17.8896 | 2 | 27.1201 |
| 2 | 29.6136 | ||
| 2 | 25.9948 | ||
| 2 | 18.223 | ||
| 2 | 23.7336 | ||
| 2 | 22.4208 |
Tabela 6.5.20: Medições de duas populações independentes com distribuição Normal
Da amostra 1, temos que $$\overline{x}_1=\frac{18,7997+\ldots+21,0553}{25}=19,3266$$
$$s_1=\sqrt{\frac{(18,7997-19,3266)^2+\ldots+(21,0553-19,3266)^2}{25-1}}=1,36234$$
Da amostra 2, temos que $$\overline{x}_2=\frac{21,1609+\ldots+22,4208}{30}=24,4729$$
$$s_2=\sqrt{\frac{(21,1609-24,4729)^2+\ldots+(22,4208-24,4729)^2}{30-1}}=2,88760$$
Vamos estabelecer as hipóteses
$$\begin{cases}H_0:\sigma_1^2=\sigma_2^2 \cr H_1:\sigma_1^2\neq\sigma_2^2\end{cases}$$
Fixemos o nível de significância $\alpha = 0,05$.
Como $s_1 = 1,36$ e $s_2 = 2,89$ temos que $$F_{obs}=\frac{(1,36)^2}{(2,89)^2}=0,223.$$
Observando a tabela da distribuição Fisher-Snedecor com $24$ graus de liberdade no numerador e $29$ no denominador temos que $F_{(24;29;0,975)} = 2,154$ e $F_{(24;29;0,025)} = 0,451$.
Como $F_{\text{obs}}=0,223 \ < \ F_{(24;29;0,025)} = 0,451$, rejeitamos $H_0$.
Figura 6.5.42: Representação da região crítica
Agora vamos calcular o p-valor. $$\text{p-valor} = 2\min\lbrace\mathbb{P}[F \ > \ 0,223 | H_0];\mathbb{P}[F \ < \ 0,223 | H_0]\rbrace=0,000358.$$
O intervalo de confiança é dado por $$IC(\sigma_1^2/\sigma_2^2,1-\alpha)=\left(\frac{1}{2,154}\times\frac{1,8496}{8,3347};\frac{1}{0,451}\times\frac{1,8496}{8,3347}\right)=(0,103;0,494).$$
uma vez que o teste é bilateral.
Veja a seguir os resultados obtidos pelo software Action.
| Informação | Valor |
|---|---|
| Estatística F | 0,2226 |
| Graus de liberdade (Numerador) | 24 |
| Graus de liberdade (Denominador) | 29 |
| P-valor | 0,00035785 |
| Desvio padrão da amostra 1 | 1,362342862 |
| Desvio padrão da amostra 2 | 2,887603214 |
| Intervalo de Confiança para $\frac{\sigma_1^2}{\sigma^2_2}$ | 95% |
| Limite Inferior | 0,103335823 |
| Limite Superior | 0,493571669 |
Tabela 5.6.21: Teste para Duas Variâncias
| Limite inferior | Desvio padrão | Limite superior | |
|---|---|---|---|
| Amostra 1 | 1,0638 | 1,3623 | 1,8952 |
| Amostra 2 | 2,2997 | 2,8876 | 3,8818 |
Tabela 5.6.22: Intervalo de Confiança para Desvio Padrão
Figura 6.5.43: Representação dos Intervalos de Confiança
5.7 - Teste para comparação de duas médias (Teste t)
Suponha que queremos comparar duas médias de duas populações independentes e ambas com distribuição Normal. Da população 1 retiramos uma amostra aleatória $X_1,X_2,\ldots,X_{n_1}$ de tamanho $n_1$ e da população 2 retiramos uma amostra aleatória $Y_1,Y_2,\ldots,Y_{n_2}$ de tamanho $n_2$.
Vamos supor que $X\sim N(\mu_1,\sigma_1^2)$ e $Y\sim N(\mu_2,\sigma_2^2)$. Assim temos que $$\overline{X}\sim N\left(\mu_1,\frac{\sigma_1^2}{n_1}\right) \quad \hbox{e} \quad \overline{Y}\sim N\left(\mu_2,\frac{\sigma_2^2}{n_2}\right).$$
Além disso, $$\overline{X}-\overline{Y}\sim N\left(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+ \frac{\sigma_2^2}{n_2} \right).$$
Consideramos dois casos distintos para o teste de hipóteses para comparação de duas médias. O primeiro caso em que temos as variâncias das populações desconhecidas, porém iguais e o segundo caso em que temos as variâncias desconhecidas e distintas.
5.7.1 - Comparação de Médias: Variâncias iguais
Consideraremos agora, que as variâncias das populações são iguais, porém, desconhecidas, ou seja, $\sigma_1^2 = \sigma_2^2 = \sigma^2$. Denotamos $s^2_i$ a variância amostral da amostra $i=1,2$. Como as amostras são independentes, obtemos que $$\frac{(n_1-1)s^2_1}{\sigma^2} \quad \text{e} \quad \frac{(n_2-1)s^2_2}{\sigma^2}$$ são variáveis aleatórias independentes com distribuição qui-quadrado com $n_1-1$ e $n_2-1$ graus de liberdade, respectivamente. Como a soma de distribuições qui-quadrado independentes também tem distribuição qui-quadrado com os graus de liberdade dado pela soma, obtemos que $$\frac{(n_1-1)s^2_1}{\sigma^2} + \frac{(n_2-1)s^2_2}{\sigma^2}=\frac{(n_1-1)s^2_1 + (n_2-1)s^2_2}{\sigma^2}$$ tem distribuição qui-quadrado com $n_1 + n_2 -2$ graus de liberdade. Por outro lado, dado que as variância são iguais, temos que $$\frac{\bar{X} - \bar{Y} - (\mu_1 - \mu_2)}{\sigma \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} } $$ tem distribuição normal com média zero e variância $1$.
A partir de propriedades da distribuição amostral da média e da distribuição amostral da variância para populações normais, sabemos que a média amostral e a variância amostral são variáveis aleatórias independentes. Desta forma, podemos aplicar a definição de distribuição t-Student para obtemos que a variável aleatória $$T = \frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$$ que tem distribuição t-Student com $n_1+n_2-2$ graus de liberdade. Aqui, $s_p$ é o desvio padrão agrupado (pooled) que é dado por $$s_p=\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}}$$
onde
-
$s_1^2$: variância da amostra proveniente da população 1.
-
$s_2^2$: variância da amostra proveniente da população 2.
Para realizar o teste para igualdade de duas médias com variâncias iguais, porém desconhecidas, devemos realizar os seguintes passos:
1. Estabelecer uma das hipóteses, por exemplo:
$$\begin{cases}H_0: \mu_1=\mu_2 \cr H_1: \mu_1\neq\mu_2\end{cases} \quad \begin{cases}H_0:\mu_1=\mu_2 \cr H_1:\mu_1 \ > \ \mu_2 \end{cases} \ \hbox{ou} \ \begin{cases}H_0:\mu_1=\mu_2 \cr H_1:\mu_1 \ < \ \mu_2 \end{cases}$$
2. Fixar o nível de significância $\alpha$.
3. Determinar a região crítica.
- Se o teste é bilateral, determinamos os pontos críticos $-t_{\alpha/2}$ e $t_{\alpha/2}$ tais que $\mathbb{P}[T \ < \ -t_{\alpha/2}]=\mathbb{P}[T \ > \ t_{\alpha/2}]=\alpha/2$.
Figura 6.5.44: Representação de teste bilateral de distribuição t-student
- Se o teste é unilateral à direita, determinamos o ponto crítico $t_{\alpha}$ tal que $\mathbb{P}[T \ > \ t_{\alpha}]=\alpha$.
Figura 6.5.45: Representação de teste unilateral à direita de distribuição t-student
- Se o teste é unilateral à esquerda, determinamos o ponto crítico $-t_{\alpha}$ tal que $\mathbb{P}[T \ < \ -t_{\alpha}]=\alpha$.
Figura 6.5.46: Representação de teste unilateral à esquerda de distribuição t-student
4. Calcular $T_{\text{obs}}$ que é o valor da variável $T$ sob a hipótese nula. Como $$T=\frac{(\overline{x}-\overline{y})-(\mu_1-\mu_2)}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$$
temos que $T_{\text{obs}}$ é dada por $$T_{\text{obs}}=\frac{(\overline{x}-\overline{y})}{s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}.$$
5. Critério:
-
Teste bilateral: Se $T_{\text{obs}} \ < \ -t_{\alpha/2}$ ou $T_{\text{obs}} \ > \ t_{\alpha/2}$, rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
-
Teste unilateral à direita: Se $T_{\text{obs}} \ > \ t_{\alpha}$ rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
-
Teste unilateral à esquerda: Se $T_{\text{obs}} \ < \ -t_{\alpha}$ rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
6. O p-valor é determinado por $$\text{p-valor} = \mathbb{P}[|T| \ > \ |T_{\text{obs}}| | H_0] = 2\mathbb{P}[T \ > \ |T_{\text{obs}}| |H_0].$$
se o teste é bilateral. Se o teste é unilateral à direita, o p-valor é dado por $$\text{p-valor} = \mathbb{P}[T \ > \ T_{\text{obs}} | H_0]$$
e se o teste é unilateral à esquerda, o p-valor é dado por $$\text{p-valor} = \mathbb{P}[T \ < \ T_{\text{obs}} | H_0].$$
7. Como vimos na Seção 4.6.2, se considerarmos b o número de graus de liberdade, ou seja, $b=n_1+n_2-2$, o intervalo de confiança para a diferença de duas médias com variâncias desconhecidas, porém iguais, é dado por $$IC(\mu_1-\mu_2,1-\alpha)=\left((\overline{X}-\overline{Y})-t_{(b,\alpha/2)}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}};\ (\overline{X}-\overline{Y})+t_{(b,\alpha/2)}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\right)$$
se o teste é bilateral. No caso em que o teste é unilateral à direita, o intervalo de confiança é dado por
$$IC(\mu_1-\mu_2,1-\alpha)=\left((\overline{X}-\overline{Y})-t_{(b,\alpha)}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}};\ \infty\right)$$
e, se o teste é unilateral à esquerda, o intervalo de confiança será dado por $$IC(\mu_1-\mu_2,1-\alpha)=\left(-\infty;\ (\overline{X}-\overline{Y})+t_{(b,\alpha)}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\right).$$
8. O erro do tipo II é calculado ao se aceitar $H_0$ quando esta é falsa ($H_1$ é verdadeira).
Suponha, por exemplo que a hipótese nula é falsa e que a verdadeira diferença entre as médias seja $\Delta = \mu_1-\mu_2$. Então, analogamente ao caso de uma amostra, temos que $$\frac{\overline{X_1}-\overline{X_2}}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$$
tem distribuição $t$ não central, com $n_1+n_2-2$ graus de liberdade e parâmetro de não-centralidade $$\frac{\Delta}{\sigma\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}.$$
Com isso, concluímos que o erro do tipo II é dado por
-
$\beta = \psi(t_{\alpha/2})-\psi(-t_{\alpha/2})$ se o teste é bilateral;
-
$\beta = \psi(t_{\alpha})$ se o teste é unilateral à direita;
-
$\beta = 1-\psi(-t_{\alpha})$ se o teste é unilateral à esquerda.
onde $\psi$ é a função distribuição acumulada da distribuição $t$ não central com $n_1+n_2-2$ graus de liberdade e parâmetro de não-centralidade $\frac{\Delta}{\sigma\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$.
9. O poder do teste é calculado como 1 menos a probabilidade de erro do tipo II, ou seja, $$P = 1-\beta$$
Utilizamos o software Action para o cálculo do poder (dado o tamanho amostral) ou o cálculo do tamanho amostral necessário para o teste detectar certa diferença entre as diferenças entre as médias, com um determinado poder. No Action, temos como parâmetros o tamanho da primeira amostra ($n_1$), o tamanho da segunda amostra ($n_2$), a diferença a ser detectada ($\Delta$), o poder ($P$), o nível de significância ($\alpha$) e o desvio-padrão ($\sigma$). Então, para calcular o poder do teste, lançamos os valores de $n_1,n_2,\Delta,\alpha$ e $\sigma$ e nos é fornecido o poder do teste. As fórmulas utilizadas para o cálculo do poder são $$P=1-\Psi(t_{\alpha/2})+\Psi(-t_{\alpha/2})$$
para o teste bilateral, $$P = \Psi(-t_{\alpha})$$
para o teste unilateral à esquerda e $$P = 1-\Psi(t_{\alpha})$$
para o teste unilateral à direita. Aqui $\Psi$ é a função distribuição acumulada da distribuição $t$ não central com $n_1+n_2-2$ graus de liberdade e parâmetro de não-centralidade $\varphi = \frac{\Delta}{\sigma\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$.
Já para o cálculo do tamanho da amostra necessária para que o teste detecte uma diferença pré-determinada entre as hipóteses nula e alternativa, com um determinado poder, basta lançarmos os valores da diferença $\Delta$, do desvio-padrão $\sigma$, do nível de significância $\alpha$ e do poder $P$. Com isso, o Action nos fornece o valor do tamanho das amostras $n = n_1 = n_2$. As fórmulas utilizadas para cada teste são as mesmas acima, basta reescrevê-las isolando $n$.
Exemplo 5.7.1.1
Para ilustrar a aplicação deste teste de hipótese, considere os dados de duas amostras apresentadas a seguir e, a um nível de significância $\alpha = 0,05$, decida se existe diferença significativa entre as médias populacionais $\mu_1$ e $\mu_2$.
| Grupo | Medição | Grupo | Medição |
|---|---|---|---|
| 1 | 18.8000 | 2 | 22.284 |
| 1 | 20.5040 | 2 | 21.901 |
| 1 | 18.6210 | 2 | 25.302 |
| 1 | 19.9190 | 2 | 22.447 |
| 1 | 21.1170 | 2 | 22.771 |
| 1 | 17.5910 | 2 | 22.057 |
| 1 | 18.7560 | 2 | 22.881 |
| 1 | 18.9770 | 2 | 17.968 |
| 1 | 20.3080 | 2 | 23.382 |
| 1 | 18.8990 | 2 | 21.043 |
| 1 | 20.8350 | 2 | 22.629 |
| 1 | 17.5270 | 2 | 22.86 |
| 1 | 17.0780 | 2 | 24.515 |
| 1 | 17.6200 | 2 | 22.426 |
| 1 | 21.4260 | 2 | 21.203 |
| 1 | 19.1690 | 2 | 24.62 |
| 1 | 19.2900 | 2 | 22.058 |
| 1 | 22.0590 | 2 | 23.15 |
| 1 | 18.5850 | 2 | 22.787 |
| 1 | 17.8900 | 2 | 24.009 |
| 1 | 18.7550 | 2 | 21.491 |
| 1 | 19.2030 | 2 | 22.699 |
| 1 | 18.4190 | 2 | 24.662 |
| 1 | 20.7640 | 2 | 21.983 |
| 1 | 21.0550 | 2 | 21.917 |
| 2 | 21.198 | ||
| 2 | 22.909 | ||
| 2 | 23.327 | ||
| 2 | 24.534 | ||
| 2 | 21.152 |
Tabela 6.5.23: Medições de duas amostras de variâncias iguais
Vamos testar se as médias das amostras 1 e 2 são iguais ou diferente, portanto
1. Estabelecemos as hipóteses
$$\begin{cases}H_0:\mu_1=\mu_2 \cr H_1:\mu_1\neq\mu_2\end{cases}$$
que são equivalentes as hipóteses
$$\begin{cases}H_0:\mu_1-\mu_2=0 \cr H_1:\mu_1-\mu_2\neq0\end{cases}$$
Temos a partir dos dados que a média e o desvio padrão da amostra 1 são $\overline{x} = 19,3267$ e $s_1 = 1,36228$, respectivamente. A média e desvio padrão da amostra 2 são $\overline{y} = 22,6055$ e $s_2 = 1,43822$, respectivamente. O tamanho de cada amostra é $n_1 = 25$ e $n_2 = 30$. Com isso, temos que o desvio padrão agrupado (pooled) é dado por $$s_p=\sqrt{\frac{(25-1)(1,36228)^2+(30-1)(1,43822)^2}{25+30-2}}=1,40434.$$
2. Para este exemplo, fixamos o nível de significância $\alpha = 0,05$.
3. Como o teste é bilateral e sabendo que o número de graus de liberdade é $b = n_1+n_2-2 = 53$, encontramos na Tabela da distribuição $t$ de Student os seguintes valores críticos $-t_{0,025} = -2,005$ e $t_{0,025} = 2,005$.
4. Calculamos o valor da estatística $T_{\text{obs}}$. $$T_{\text{obs}}=\frac{(19,3267-22,6055)}{1,40434\sqrt{\left(\frac{1}{25}+\frac{1}{30}\right)}}=-8,62.$$
5. Como $T_{\text{obs}} \ < \ -2,005$, rejeitamos a hipótese nula, ou seja, rejeitamos a hipótese de que as médias são iguais.
6. Vamos agora calcular o p-valor. Como o teste é bilateral, temos que $$\text{p-valor} = \mathbb{P}[|T| \ > \ |T_{obs}||H_0] = 2\mathbb{P}[T \ > \ 8,62] = 1,15E - 11.$$
7. Já o intervalo de confiança para a diferença $\mu_1-\mu_2$ é dado por $$IC(\mu_1-\mu_2,1-\alpha)=\left((\overline{X}-\overline{Y})-t_{(b,\alpha/2)}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}};(\overline{X}-\overline{Y})+t_{(b,\alpha/2)}s_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}\right),$$
ou seja, $$IC(\mu_1-\mu_2,1-\alpha)=(-4,041;-2,516).$$
Os resultados obtidos no Action são dados na tabela a seguir.
| Informação | Valor |
|---|---|
| Estatística T | -8.621733 |
| Graus de Liberdade | 53 |
| P-valor | 1.151931e-11 |
| Média de 1 | 19.32668 |
| Média de 2 | 22.6055 |
| Desvio Padrão de 1 | 1.362278 |
| Desvio Padrão de 2 | 1.43822 |
| Desvio Padrão Agrupado | 1.40434 |
| Tamanho de 1 | 25 |
| Tamanho de 2 | 30 |
| Hipótese Alternativa Diferente de | 0 |
| Nível de Confiança | 95% |
| Limite Inferior | -4.041599 |
| Limite Superior | -2.516041 |
Tabela 5.6.24: Resultados do teste para comparação de duas médias (variâncias iguais)
Vamos calcular o poder do teste ao se aceitar $H_0$ quando esta é falsa ($H_1$ é verdadeira), para uma diferença $\Delta = 3,2$ entre as diferenças das médias. Faremos isso utilizando o software Action. Como $n_1 = 25$, $n_2 = 30$, $\alpha = 0,05$ e $s_p = 1,40434$, temos que o cálculo do poder é dado por
$$P=1-\Psi(z_{0,025})+\Psi(z_{0,025})=1-0+0=1$$
Figura 6.5.47: Curva do poder de teste
Suponha agora que dado o tamanho de uma das amostras $N = 30$, queremos calcular o tamanho da outra amostra necessário para detectar uma diferença $\Delta = 1,2$ entre as hipóteses nula e alternativa com um poder de, no mínimo, $0,9$, com desvio padrão $1,40434$.
Os resultados obtidos no Action são dados na tabela a seguir.
Figura 6.5.48: Curva do poder de teste
Temos que ambas as amostras devem conter $30$ elementos na amostra para ter no mínimo $0,9$ de poder, com uma diferença $\Delta = 1,2$ e desvio padrão $1,40434$.
5.7.2 - Comparação de médias: variâncias diferentes
Vejamos agora como realizar um teste para igualdade das médias tendo variâncias desconhecidas e diferentes ($\sigma_1^2\neq\sigma_2^2$).
Para isto consideramos a variável $T$ tal que $$T=\frac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}\sim t_{\nu}$$
ou seja, a variável $T$ dada tem distribuição $t$ de Student com $\nu$ graus de liberdade, onde $$\nu=\frac{\left(\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}\right)^2}{\frac{\left(\frac{s_1^2}{n_1}\right)^2}{n_1-1}+\frac{\left(\frac{s_2^2}{n_2}\right)^2}{n_2-1}}.$$
Na prática, podemos seguir os passos
1. Estabelecer as hipóteses
$$\begin{cases}H_0:\mu_1 = \mu_2 \cr H_1:\mu_1\neq \mu_2\end{cases} \quad \begin{cases}H_0:\mu_1=\mu_2 \cr H_1:\mu_1 \ > \ \mu_2\end{cases} \ \hbox{ou} \ \begin{cases}H_0:\mu_1=\mu_2 \cr H_1:\mu_1 \ < \ \mu_2\end{cases}$$
ou as hipóteses equivalentes
$$\begin{cases}H_0:\mu_1-\mu_2=0 \cr H_1:\mu_1-\mu_2\neq 0\end{cases} \quad \begin{cases} H_0:\mu_1-\mu_2=0 \cr H_1:\mu_1-\mu_2 \ > \ 0 \end{cases} \ \hbox{ou} \ \begin{cases}H_0:\mu_1-\mu_2=0 \cr H_1:\mu_1-\mu_2 \ < \ 0 \end{cases}$$
2. Fixar o nível de significância $\alpha$.
3. Determinar a região crítica.
- Se o teste é bilateral, devemos determinar os pontos críticos $-t_{\alpha/2}$ e $t_{\alpha/2}$ da distribuição $t$ de Student com $\nu$ graus de liberdade tais que $\mathbb{P}[T \ > \ t_{\alpha/2}]=\mathbb{P}[T \ < \ -t_{\alpha/2}]=\alpha/2$.
Figura 6.5.49: Representação de região crítica de teste bilateral de distribuição t-student
- Se o teste é unilateral à direita, determinamos o ponto crítico $t_{\alpha}$ tal que $\mathbb{P}[T \ > \ t_{\alpha}]=\alpha$.
Figura 6.5.50: Representação de região crítica de teste unilateral à direita de distribuição t-student
- Se o teste é unilateral à esquerda, determinamos o ponto crítico $-t_{\alpha}$ tal que $\mathbb{P}[T \ < \ -t_{\alpha}] = \alpha$.
Figura 6.5.51: Representação de região crítica de teste unilateral à esquerda de distribuição t-student
4. Calcular, sob $H_0$,
$$T_{\text{obs}}=\frac{(\overline{x}-\overline{y})}{\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}}.$$
5. Conclusão:
-
Teste bilateral: Se $T_{\text{obs}} \ < \ -t_{\alpha/2}$ ou $T_{\text{obs}} \ > \ t_{\alpha/2}$, rejeitamos $H_0$.Caso contrário, não rejeitamos $H_0$.
-
Teste unilateral à esquerda: Se $T_{\text{obs}} \ < \ -T_{\alpha}$ rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
-
Teste unilateral à direita: Se $T_{\text{obs}} \ > \ T_{\alpha}$ rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
6. Temos que o p-valor é dado por $$\hbox{p-valor} = \mathbb{P}[|t| \ > \ |T_{\text{obs}}||H_0]=2\mathbb{P}[t \ > \ |T_{\text{obs}}| | H_0]$$
se o teste é bilateral. Se o teste é unilateral à direita o p-valor é dado por $$\hbox{p-valor} = \mathbb{P}[t \ > \ T_{\text{obs}}|H_0]$$
e se o teste é unilateral à esquerda, o p-valor é dado por $$\hbox{p-valor} = \mathbb{P}[t \ < \ T_{\text{obs}}|H_0]$$
onde $t$ tem distribuição $t$ de Student com $\nu$ graus de liberdade.
7. O intervalo de confiança, como visto na Seção 4.6.3 é dado por $$IC(\mu_1-\mu_2,1-\alpha)=\left((\overline{X}-\overline{Y})-t_{(\nu,\alpha/2)}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}};(\overline{X}-\overline{Y})+t_{(\nu,\alpha/2)}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}\right)$$
se o teste é bilateral. Caso o teste seja unilateral à esquerda, o intervalo de confiança é dado por $$IC(\mu_1-\mu_2,1-\alpha)=\left(-\infty;(\overline{X}-\overline{Y})+t_{(\nu,\alpha)}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}\right)$$
e, se o teste é unilateral à direita, então o intervalo de confiança é dado por $$IC(\mu_1-\mu_2,1-\alpha)=\left((\overline{X}-\overline{Y})-t_{(\nu,\alpha)}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}};\infty\right).$$
Exemplo 5.7.2.1
Compare as médias das amostras dadas no Exemplo 5.6.1, considerando que as variâncias são desconhecidas e diferentes.
1. Inicialmente estabelecemos as hipóteses
$$\begin{cases}H_0:\mu_1=\mu_2 \cr H_1:\mu_1\neq\mu_2\end{cases}$$
que são equivalentes às hipóteses
$$\begin{cases}H_0:\mu_1-\mu_2=0 \cr H_1:\mu_1-\mu_2\neq0\end{cases}$$
A partir dos dados, temos que a média e o desvio padrão da amostra 1 são $\overline{x} = 19,3267$ e $s_1 = 1,36228$, respectivamente. A média e o desvio padrão da amostra 2 são $\overline{y} = 24,4729$ e $s_2 = 2,8876$, respectivamente. O tamanho de cada amostra é $n_1 = 25$ e $n_2 = 30$. Com isso, temos que a quantidade de graus de liberdade é dada por: $$\nu=\frac{\left(\frac{(1,36228)^2}{25}+\frac{(2,8876)^2}{30}\right)^2}{\frac{\left(\frac{(1,36228)^2}{25}\right)^2}{25-1}+\frac{\left(\frac{(2,8876)^2}{30}\right)^2}{30-1}}=42,86563.$$
2. Fixamos o nível de significância $\alpha = 0,05$.
3. Como o teste é bilateral e temos $\nu=42,86563$ graus de liberdade, segue que os pontos críticos são $-t_{0,025} = -2,017$ e $t_{0,025} = 2,017$.
4. Calculamos a estatística $T_{\text{obs}}$. $$T_{\text{obs}}=\frac{(19,3267-24,4729)}{\sqrt{\left(\frac{(1,36228)^2}{25}+\frac{(2,8876)^2}{30}\right)}}=-8,6734.$$
5. Como $T_{\text{obs}} \ < \ -2,017$, rejeitamos a hipótese de que as médias $\mu_1$ e $\mu_2$ são iguais.
O p-valor é dado por $$\text{p-valor}=\mathbb{P}[|t| \ > \ |T_{\text{obs}}||H_0]=2\mathbb{P}[t \ > \ |T_{\text{obs}}| |H_0]=5,53E - 11.$$
Já o intervalo de confiança é $$IC(\mu_1-\mu_2,1-\alpha)=\left((\overline{X}-\overline{Y})-t_{(\nu,\alpha/2)}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}};(\overline{X}-\overline{Y})+t_{(\nu,\alpha/2)}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}\right),$$
ou seja, $$IC(\mu_1-\mu_2,1-\alpha)=(-6,3432;-3,9494).$$
Veja a seguir os resultados obtidos pelo software Action.
| Informação | Valor |
|---|---|
| Estatística T | -8.671819 |
| Graus de Liberdade | 42.86563 |
| P-valor | 5.561165e-11 |
| Média de 1 | 19.32668 |
| Média de 2 | 24.47288 |
| Desvio Padrão de 1 | 1.362278 |
| Desvio Padrão de 2 | 2.887603 |
| Desvio Padrão Agrupado | 1.40434 |
| Tamanho de 1 | 25 |
| Tamanho de 2 | 30 |
| Hipótese Alternativa Diferente de | 0 |
| Nível de Confiança | 95% |
| Limite Inferior | -6.343187 |
| Limite Superior | -3.949365 |
Tabela 5.6.25: Resultados do teste para comparação de duas médias (variâncias diferentes e desconhecidas)
5.8 - Teste t pareado
Para realizarmos os testes de igualdade de variâncias e os testes de médias, precisamos que as duas populações sejam independentes. Porém, na prática, temos algumas situações onde as populações não são independentes. Numa situação de comparação inter laboratorial onde dois laboratórios medem a mesma peça, por exemplo, as medidas entre os laboratórios não são independentes. Neste caso, utilizamos o teste $t$ pareado.
Consideremos duas amostras dependentes $X_1,\ldots,X_n$ e $Y_1,\ldots,Y_n$. Neste caso consideraremos observações pareadas, isto é, podemos considerar que temos na realidade uma amostra de pares $(X_1,Y_1), \ldots, (X_n,Y_n)$. Vamos definir $D_i = X_i-Y_i$, para $i = 1,2,\ldots,n$. Assim obteremos a amostra $D_1,\ldots,D_n$, resultante das diferenças entre os valores de cada par. Aqui, apesar das amostras serem dependentes, vamos considerar que $D_i\sim N(\mu_D,\sigma_D^2)$.
Para realizar o teste $t$ pareado devemos primeiramente estabelecer uma das hipóteses
$$\begin{cases}H_0:\mu_D=0 \cr H_1:\mu_D\neq 0\end{cases} \quad \begin{cases} H_0:\mu_D=0 \cr H_1:\mu_D \ > \ 0\end{cases} \ \hbox{ou} \ \begin{cases}H_0:\mu_D=0 \cr H_1:\mu_D \ < \ 0\end{cases}$$
O parâmetro $\mu_D$ será estimado pela média amostral das diferenças, ou seja, $\overline{D}$, O parâmetro $\sigma_D^2$ será estimado pela variância amostral das diferenças, ou seja, $$s_D^2=\frac{\sum_{i=1}^n(D_i-\overline{D})^2}{n-1}.$$
O teste será realizado pela expressão $$T=\frac{\overline{D}-\mu_D}{\frac{s_D}{\sqrt{n}}}$$
que sob $H_0$ segue uma distribuição $t$ de Student com $n - 1$ graus de liberdade. Tudo o que foi dito para o teste $t$ comum serve para o teste $T$ pareado, basta substituir a média por $\mu_D$ e o desvio padrão amostral por $s_D$. Com isto, temos que a um nível de significância $\alpha$:
1. Os pontos críticos são determinados por $t_{\alpha/2}$ e $-t_{\alpha/2}$ para o caso bilateral, $t_{\alpha}$ para o caso unilateral à direita e $-t_{\alpha}$ para o unilateral à esquerda.
2. Calculamos sob a hipótese nula, o valor $$T_{\text{obs}}=\frac{\overline{D}-\mu_D}{\frac{s_D}{\sqrt{n}}}$$
3. Critério:
- Teste bilateral: se $T_{\text{obs}} \ > \ t_{\alpha/2}$ ou $T_{obs} \ < \ -t_{\alpha/2}$ rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
Figura 6.5.52: Representação de região crítica de teste bilateral de distribuição t-student
- Teste unilateral à direita: se $T_{\text{obs}} \ > \ t_{\alpha}$ rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
Figura 6.5.53: Representação de região crítica de teste unilateral à direita de distribuição t-student
- Teste unilateral à esquerda: se $T_{\text{obs}} \ < \ -t_{\alpha}$ rejeitamos $H_0$. Caso contrário não rejeitamos $H_0$.
Figura 6.5.54: Representação de região crítica de teste unilateral à esquerda de distribuição t-student
4. O p-valor no caso bilateral é dado por $$\text{p-valor} = \mathbb{P}[|t| \ > \ |T_{\text{obs}}||H_0] = 2\mathbb{P}[t \ > \ |T_{\text{obs}}| | H_0].$$
Se o teste é unilateral à direita, o p-valor é dado por $$\text{p-valor} = \mathbb{P}[t \ > \ T_{\text{obs}}|H_0]$$
e se o teste é unilateral à esquerda, o p-valor é dado por $$\text{p-valor} = \mathbb{P}[t \ < \ T_{\text{obs}}|H_0]$$
5. O intervalo de confiança para o parâmetro $\mu_D$ é dado por $$IC(\mu_D,1-\alpha)=\left(\overline{D}-t_{\alpha/2}\frac{s_D}{\sqrt{n}};\overline{D}+t_{\alpha/2}\frac{s_D}{\sqrt{n}}\right)$$
para o caso bilateral. Se o teste é unilateral à direita, o intervalo de confiança para o parâmetro $\mu_D$ é dado por $$IC(\mu_D,1-\alpha)=\left(\overline{D}-t_{\alpha}\frac{s_D}{\sqrt{n}};\infty\right)$$
e, se o teste é unilateral à esquerda, o intervalo de confiança para o parâmetro $\mu_D$ é dado por $$IC(\mu_D,1-\alpha)=\left(-\infty;\overline{D}+t_{\alpha}\frac{s_D}{\sqrt{n}}\right).$$
6. A probabilidade de erro do tipo II é dada por $$\beta=\Psi(t_{\alpha/2})-\Psi(-t_{\alpha/2})$$
para o caso bilateral e, para os casos unilaterial à direita e à esquerda, as probabilidades de erro do tipo II são dadas, respectivamente, por $$\beta=\Psi(t_{\alpha})\quad \hbox{e}\quad \beta=1-\Psi(-t_{\alpha})$$
onde $\Psi$ é a função densidade acumulada da distribuição $t$ com $n - 1$ graus de liberdade e parâmetro de não-centralidade $\frac{\delta\sqrt{n}}{s_D}$.
7. Para calcular o poder do teste ou o tamanho amostral, utilizamos o software Action da mesma forma que no teste $T$ comum.
Exemplo 5.8.1
Consideremos $X_1,\ldots,X_{20}$ uma amostra de medições do laboratório da Empresa $A$ e $Y_1,\ldots,Y_{20}$ uma amostra de medições do laboratório da Empresa $B$. Os testes dos dois laboratórios são realizados no mesmo padrão, por isso, existe uma correlação entre eles, ou seja, as amostras são dependentes. Avalie a compatibilidade das medições entre o laboratório da empresa $A$ e do laboratório da empresa $B$.
| Laboratório da Empresa A ($X_i$) | Laboratório da Empresa B ($Y_i$) | Diferença ($D_i$) |
|---|---|---|
| 1,00552 | 0,01942 | 0,98610 |
| -1,49928 | -0,46512 | -1,03416 |
| 0,21367 | 0,53218 | -0,31851 |
| 0,44658 | -0,14844 | 0,59502 |
| 0,62766 | -0,60021 | 1,22787 |
| 0,31091 | 0,06495 | 0,24596 |
| -0,83878 | 0,33013 | -1,16891 |
| -0,29054 | 0,12116 | -0,41170 |
| -0,08487 | 0,74269 | -0,82756 |
| -1,26465 | -1,64232 | 0,37767 |
| -0,06353 | 0,05497 | -0,11850 |
| -1,07632 | 0,76342 | -1,83974 |
| -1,34134 | 1,74131 | -3,08265 |
| -0,55062 | -0,06392 | -0,48670 |
| 1,61848 | -1,88146 | 3,49994 |
| 0,50997 | -0,76135 | 1,27132 |
| 0,76027 | -0,23009 | 0,99036 |
| 0,68061 | -1,16800 | 1,84861 |
| -1,91464 | 0,88392 | -2,79856 |
| -0,20072 | 0,96512 | -1,16584 |
Tabela 6.5.26: Duas amostras de medições do laboratório da Empresa $A$ e do laboratório da Empresa $B$
Neste caso, para minimizarmos o impacto desta correlação, tomamos a diferença entre as medições dos dois laboratórios e aplicamos um teste $T$ pareado.
Temos que $\overline{D} = -0,110499$ e $s_D = 1,56908$ então, sob $H_0$, $$T_{\text{obs}}=\frac{-0,11}{\frac{1,57}{\sqrt{20}}}=-0,31$$
Considerando $\alpha = 0,05$, encontramos na tabela $t$ de Student com $19$ graus de liberdade os valores críticos $-t_{0,025} = -2,093$ e $t_{0,025} = 2,093$. Assim, como $-2,093 \ < \ T_{\text{obs}} \ < \ 2,093$, podemos dizer que não temos evidências para rejeitar a hipótese de que as médias são iguais.
O p-valor é dado por $$\text{p-valor}=\mathbb{P}[|t| \ > \ |T_{\text{obs}}||H_0]= 2\mathbb{P}[t \ > \ |T_{\text{obs}}| | H_0]=0,7562.$$
O intervalo de confiança é dado por $$IC(\mu_D,0,95)=\left(-0,1105-2,093\frac{1,569}{\sqrt{20}};-0,1105+2,093\frac{1,569}{\sqrt{20}}\right)=(-0,8449;0,6239).$$
Veja a seguir os resultados obtidos pelo software Action.
| Informação | Valor |
|---|---|
| Estatística T | -0.3149408 |
| Graus de Liberdade | 19 |
| P-valor | 0.7562392 |
| Média de 1 | -0.147581 |
| Média de 2 | -0.037082 |
| Desvio Padrão das diferenças | 1.569078 |
| Tamanho das Amostras | 20 |
| Hipótese Alternativa Diferente de | 0 |
| Nível de Confiança | 95% |
| Limite Inferior | -0.84485 |
| Limite Superior | 0.623852 |
Tabela 5.6.27: Resultados do teste para comparação de duas médias (Teste t-pareado)
Vamos utilizar o Action para calcular o poder do teste em detectar uma diferença $\delta = 1,2$ entre o valor real e o hipotético. Então lançando os valores $n = 20$, $\delta = 1,2$, $\sigma = 1,56908$ e $\alpha = 0,05$ temos como resultado $P = 0,90024$.
A probabilidade de erro do tipo II é dada por $$\beta=\Psi(t_{0,025})-\Psi(-t_{-0,025})=0,099762$$
de onde concluímos que o poder do teste em detectar esta diferença é $$P=1-\beta=1-0,99762=0,90024.$$
Veja a seguir os resultados obtidos pelo software Action.
| Informação | Valor |
|---|---|
| Poder | 0.9002383 |
| Tamanho da amostra | 20 |
| Diferença | 1.2 |
| Nível de significância | 0.05 |
| Desvio padrão | 1.56908 |
| Hipótese Alternativa | Diferente |
Tabela 6.5.28: Resultados do poder de teste para comparação de duas médias (Teste t-pareado)
Figura 6.5.55: Representação da Curva de Poder de Teste T pareado
Exemplo 5.8.2
A fim de determinar a eficiência de um medicamento antitérmico, a temperatura corporal (em graus Celsius) de 20 indivíduos foi medida. Em seguida, foi administrado o medicamento e após uma hora a temperatura foi medida novamente. Os resultados podem ser encontrados na Tabela 6.5.27 abaixo.
| Indivíduo | Temperatura antes | Temperatura depois |
|---|---|---|
| 1 | 37.5 | 37.8 |
| 2 | 36 | 36.4 |
| 3 | 39 | 37.6 |
| 4 | 38 | 37.2 |
| 5 | 37.8 | 36.9 |
| 6 | 38.5 | 37.7 |
| 7 | 36.9 | 36.8 |
| 8 | 39.4 | 38.1 |
| 9 | 37.2 | 36.7 |
| 10 | 38.1 | 37.3 |
| 11 | 39.3 | 38 |
| 12 | 37.5 | 37.1 |
| 13 | 38.5 | 36.6 |
| 14 | 39 | 37.5 |
| 15 | 36.9 | 37 |
| 16 | 37 | 36.2 |
| 17 | 38.5 | 37.6 |
| 18 | 39 | 36.8 |
| 19 | 36.2 | 36.4 |
| 20 | 36.8 | 36.8 |
Tabela 6.5.29: Amostra de efeitos de um medicamento antitérmico
Como estamos querendo avaliar se houve ou não diminuição da temperatura dos indivíduos e como existe uma dependência clara entre as amostras de antes e após a administração do medicamento, já que as amostras estão relacionadas aos mesmos indivíduos, devemos utilizar o teste T pareado.
Já que queremos avaliar a eficiência do medicamento, queremos testar as seguintes hipóteses
$$\begin{cases}H_0:\mu_D = 0 \cr H_1:\mu_D \ > \ 0\end{cases}$$
pois as diferenças $D_i$’s são calculadas entre os elementos da primeira amostra e da segunda amostra e, com a hipótese alternativa $H_1$, estamos testando se a média das diferenças da população antes da aplicação do medicamento é maior do que a média após a aplicação, isto é, a aplicação do medicamento diminui a média populacional das temperaturas?
A seguir, calculamos as diferenças $D_i = X_i - Y_i$.
| Indivíduo | Diferença | Indivíduo | Diferença |
|---|---|---|---|
| 1 | -0,3 | 11 | 1,3 |
| 2 | -0,4 | 12 | 0,4 |
| 3 | 1,4 | 13 | 1,9 |
| 4 | 0,8 | 14 | 1,5 |
| 5 | 0,9 | 15 | -0,1 |
| 6 | 0,8 | 16 | 0,8 |
| 7 | 0,1 | 17 | 0,9 |
| 8 | 1,3 | 18 | 2,2 |
| 9 | 0,5 | 19 | -0,2 |
| 10 | 0,8 | 20 | 0 |
Tabela 6.5.30: Diferenças das temperaturas corporais de cada indivíduo
A partir da tabela das diferenças, temos que a média das diferenças é dada por $\overline{D} = 0,73$ e o desvio-padrão das diferenças é dado por $s_D = 0,735634$. Neste caso, temos que a estatística do teste, sob $H_0$ é dada por $$T_{\text{obs}} = \frac{0,73}{\frac{0,735634}{\sqrt{20}}} = 4,438.$$
Considerando $\alpha = 0,05$, temos da distribuição $t$ de Student com $19$ graus de liberdade que $t_{0,05} = 1,729$. Assim, como $1,729 = t_{0,05} \ < \ 4,438 = T_{\text{obs}}$, podemos dizer que temos evidência para rejeitar a hipótese de que as médias entre as populações são iguais, ou seja, temos evidências de que a média de temperatura antes da administração do medicamento é maior do que a média após. Com isso, podemos assumir que o medicamento é eficiente.
O p-valor é dado por $$\text{p-valor} = \mathbb{P}\left[t \ > \ T_{\text{obs}}|H_0\right] = \mathbb{P}\left[t \ > \ 4,438|H_0\right] = 1,41 \times 10^{-4}.$$
O intervalo de confiança com nível $0,95$, é dado por $$IC(\mu_D,0,95) = \left(0,73 - 1,729\frac{0,735634}{\sqrt{20}};\infty\right) = \left(0,4455;\infty\right).$$
Veja a seguir os resultados obtidos pelo software Action.
| Informação | Valor |
|---|---|
| Estatística T | 4.437883 |
| Graus de Liberdade | 19 |
| P-valor | 0.0001411638 |
| Média de Temperatura antes | 37.855 |
| Média de Temperatura depois | 37.125 |
| Desvio Padrão das diferenças | 0.7356343 |
| Tamanho das Amostras | 20 |
| Hipótese Alternativa Maior que | 0 |
| Nível de Confiança | 95% |
| Limite Inferior | 0.44557 |
| Limite Superior | Infinito |
Tabela 5.6.31: Resultados do teste para comparação de duas médias (Teste t-pareado)
Vamos utilizar o Action para calcular o poder do teste em detectar uma diferença média de temperatura $\delta = 0,6$ graus entre o valor real e o hipotético. Então, lançando os valores $n = 20$, $\delta = 0,6$, $\sigma = 0,735634$ e $\alpha = 0,05$ temos como resultado $P = 0,96915$.
A probabilidade de erro do tipo II é dada por $$\beta=\Psi(t_{0,05})=0,03085$$
de onde concluímos que o poder do teste em detectar esta diferença é $$P=1-\beta=1-0,03085=0,96915.$$
Veja a seguir os resultados obtidos pelo software Action.
| Informação | Valor |
|---|---|
| Poder | 0.9691524 |
| Tamanho da amostra | 20 |
| Diferença | 0.6 |
| Nível de significância | 0.05 |
| Desvio padrão | 0.735634 |
| Hipótese Alternativa | Maior que |
Tabela 6.5.32: Resultados do poder de teste para comparação de duas médias (Teste t-pareado)
Figura 6.5.56: Representação da Curva de Poder de Teste T pareado
5.9 - Teste para comparação de duas proporções
Consideremos $X$ e $Y$ variáveis aleatórias que representam determinada característica de duas populações com distribuição de Bernoulli com parâmetros $p_1$ e $p_2$ respectivamente.
Retiremos duas amostras aleatórias independentes, $X_1,\ldots,X_{n_1}$ e $Y_1,\ldots,Y_{n_2}$, dessas populações. Cada $X_i$, $i = 1,\ldots,n_1$ e cada $Y_j$, $j = 1,\ldots,n_2$, tem distribuição de Bernoulli com parâmetros $p_1$ e $p_2$ respectivamente, isto é,
$$X_1,\ldots,X_{n_1}\sim\hbox{Bernoulli}(p_1) \quad \text{e} \quad Y_1,\ldots,Y_{n_2}\sim\hbox{Bernoulli}(p_2)$$
com médias $p_1$ e $p_2$ e variâncias $\sigma_1^2 = p_1(1-p_1)$ e $\sigma_2^2 = p_2(1-p_2)$, respectivamente.
As variáveis $\hat{p}_1 = \overline{X}$ e $\hat{p}_2=\overline{Y}$ são estimadores de máxima verossimilhança para $p_1$ e $p_2$, respectivamente, e tem distribuição amostral aproximadamente normal: $$\hat{p}_1\sim N\left(p_1,\frac{p_1(1-p_1)}{n_1}\right)\quad\text{e}\quad\hat{p}_2\sim N\left(p_2,\frac{p_2(1-p_2)}{n_2}\right).$$
Assim, temos que $$\hat{p}_1-\hat{p}_2\sim N\left(p_1-p_2,\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}\right)$$
ou seja, $$\frac{\hat{p}_1-\hat{p}_2-(p_1-p_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}}\sim N(0,1).$$
Para realizarmos o teste para duas proporções com aproximação Normal vamos considerar a hipótese nula $p_1 = p_2$. Assim, sob a hipótese nula, $\hat{p}_1-\hat{p}_2$ tem distribuição Normal com média $\mu = 0$ e desvio padrão $$\sigma=\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}=\sqrt{\frac{p(1-p)}{n_1}+\frac{p(1-p)}{n_2}}$$
onde $p = p_1 = p_2$.
Como não conhecemos o valor $p$, vamos estimá-lo como uma média ponderada de $\hat{p}_1$ e $\hat{p}_2$: $$\hat{p}=\frac{n_1\hat{p}_1+n_2\hat{p}_2}{n_1+n_2}$$
Este é o valor que será utilizado em lugar de $p$ para o cálculo de $\sigma$. Portanto, temos que $$Z=\frac{\hat{p}_1-\hat{p}_2}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n_1}+\frac{\hat{p}(1-\hat{p})}{n_2}}}\sim N(0,1)$$
Tendo essas informações, vejamos os passos padra se construir um teste de hipóteses para duas proporções:
1. Estabelecer alguma das hipóteses
$$\begin{cases}H_0:p_1=p_2 \cr H_1:p_1\neq p_2\end{cases} \quad \begin{cases}H_0:p_1=p_2 \cr H_1:p_1 \ > \ p_2\end{cases} \ \hbox{ou} \ \begin{cases}H_0:p_1=p_2 \cr H_1:p_1 \ < \ p_2\end{cases}$$
ou seja
$$\begin{cases}H_0:p_1-p_2=0 \cr H_1:p_1-p_2\neq0\end{cases} \quad \begin{cases}H_0:p_1-p_2=0 \cr H_1:p_1-p_2 \ > \ 0\end{cases} \ \hbox{ou} \ \begin{cases}H_0:p_1-p_2=0 \cr H_1:p_1-p_2 \ < \ 0\end{cases}$$
2. Fixar o nível de significância $\alpha$.
3. Determinar a região crítica.
- Se o teste é bilateral, devemos determinar os pontos críticos $Z_{\alpha/2}$ e $-Z_{\alpha/2}$ tais que $\mathbb{P}[Z \ > \ Z_{\alpha/2}]=\mathbb{P}[Z \ < \ -Z_{\alpha/2}]=\alpha/2$.
Figura 6.5.57: Representação do teste bilateral de distribuição normal
- Se o teste é unilateral à direita, devemos determinar o ponto crítico $Z_{\alpha}$ tal que $\mathbb{P}[Z \ > \ Z_{\alpha}]=\alpha$.
Figura 6.5.58: Representação do teste unilateral à direita de distribuição normal
- Se o teste é unilateral à esquerda, determinamos o ponto crítico $-Z_{\alpha}$ tal que $\mathbb{P}[Z \ < \ -Z_{\alpha}]=\alpha$.
Figura 6.5.59: Representação do teste unilateral à esquerda de distribuição normal
4. Calcular o valor de $\hat{p}$.
5. Calcular, sob a hipótese nula, o valor $$Z_{\text{obs}}=\frac{\hat{p}_1-\hat{p}_2}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n_1}+\frac{\hat{p}(1-\hat{p})}{n_2}}}$$
6. Critérios:
-
Para o caso bilateral, se $Z_{\text{obs}} \ > \ z_{\alpha/2}$ ou $Z_{\text{obs}} \ < \ -z_{\alpha/2}$, rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
-
Para o caso unilateral à direita, se $Z_{\text{obs}} \ > \ z_{\alpha}$, rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
-
Para o caso unilateral à esquerda, se $Z_{\text{obs}} \ < \ -z_{\alpha}$, rejeitamos $H_0$. Caso contrário, não rejeitamos $H_0$.
7. Para calcular o poder necessário para que o teste de duas proporções detecte a diferença entre as proporções $p_1$ e $p_2$, utilizamos o software Action. O Action recebe como parâmetros o tamanho da primeira amostra ($n_1$), o tamanho da segunda amostra ($n_2$), as propoções ($p_1$) e ($p_2$), o valor do poder ($P$) e o nível de significância ($\alpha$). As fórmula utilizadas são dadas por $$1-\Phi\left(z_{\alpha/2}-(2\arcsin(\sqrt{p_1})-2\arcsin(\sqrt{p_2}))\sqrt{\frac{n_1n_2}{n_1+n_2}}\right)+$$
$$\qquad\qquad+\Phi\left(-z_{\alpha/2}-(2\arcsin(\sqrt{p_1})-2\arcsin(\sqrt{p_2}))\sqrt{\frac{n_1n_2}{n_1+n_2}}\right)$$
para o teste bilateral, $$\Phi\left(-z_{\alpha}-(2\arcsin(\sqrt{p_1})-2\arcsin(\sqrt{p_2}))\sqrt{\frac{n_1n_2}{n_1+n_2}}\right)$$
para o teste unilateral à esquerda e $$1-\Phi\left(z_{\alpha}-(2\arcsin(\sqrt{p_1})-2\arcsin(\sqrt{p_2}))\sqrt{\frac{n_1n_2}{n_1+n_2}}\right)$$
para o teste unilateral à direita.
Já para o cálculo do tamanho das amostras necessárias para que o teste detecte uma diferença entre as proporções $p_1$ e $p_2$, com determinado poder, basta lançarmos os valores das proporções $p_1$ e $p_2$, do poder $P$ e do nível de significância $\alpha$. Com isso, o Action nos fornece o valor dos tamanhos das amostras. As fórmulas utilizadas seguem das acima, isolando $n$ em funções dos demais parâmetros.
Exemplo 5.9.1
Uma empresa que presta serviços de assessoria econômica a outras empresas está interessada em comparar a taxa de reclamações sobre os seus serviços em dois dos seus escritórios em duas cidades diferentes. Suponha que a empresa tenha selecionado aleatoriamente $100$ serviços realizados pelo escritório da cidade $A$ e foi constatado que em $12$ deles houve algum tipo de reclamação. Já do escritório da cidade B foram selecionados $120$ serviços e $18$ receberam algum tipo de reclamação. A empresa deseja saber se estes resultados são suficientes para se concluir que os dois escritórios apresentam diferença significativa entre suas taxas de aprovação.
Primeiramente, vejamos que as proporções amostrais de aprovação sobre os serviços dos escritórios das cidades $A$ e $B$ são, respectivamente, $\hat{p}_1 = 0,88$ e $\hat{p}_2 = 0,85$.
1. Queremos testar as seguintes hipóteses:
$$\begin{cases}H_0:p_1=p_2 \cr H_1:p_1\neq p_2\end{cases}$$
ou seja
$$\begin{cases}H_0:p_1-p_2=0 \cr H_1:p_1-p_2\neq 0\end{cases}$$
2. Fixemos o nível de significância $\alpha = 0,05$.
3. Como $\alpha = 0,05$, temos que $-z_{\alpha/2} = -1,96$ e $z_{\alpha/2} = 1,96$.
4. Como $n_1 = 100$, $n_2 = 120$, $\hat{p}_1 = 0,88$ e $\hat{p}_2 = 0,85$, temos que $$\hat{p}=\frac{n_1\hat{p}_1+n_2\hat{p}_2}{n_1+n_2}=\frac{100\times 0,88+120\times 0,85}{220}=\frac{190}{220}=0,864.$$
5. Assim temos, sob a hipótese nula, que $$Z_{\text{obs}}=\frac{\hat{p}_1-\hat{p}_2}{\sqrt{\frac{\hat{p}(1-\hat{p})}{n_1}+\frac{\hat{p}(1-\hat{p})}{n_2}}}=\frac{0,03}{0,0464}=0,645.$$
6. Conclusão: como $-1,96 \ < \ Z_{\text{obs}} = 0,645 \ < \ 1,96$ não se deve rejeitar a hipótese nula de igualdade entre as proporções com base nos dados amostrais obtidos. Assim, ao nível de significância de $5%$, há evidências de que as taxas de aprovação sobre os serviços prestados pelos escritórios da empresa nas cidades $A$ e $B$ são iguais.
Veja a seguir os resultados obtidos pelo software Action.
| Quantidade | Proporções | |
|---|---|---|
| Sucesso | 88 | 0.88 |
| Fracasso | 12 | 0.12 |
Tabela 6.5.33: Resultados - Conjunto de Dados 1 (da cidade A)
| Quantidade | Proporções | |
|---|---|---|
| Sucesso | 102 | 0.85 |
| Fracasso | 18 | 0.15 |
Tabela 6.5.34: Resultados - Conjunto de Dados 2 (da cidade B)
| Informação | Valor |
|---|---|
| Estatística Z | 0.6456331 |
| P-valor | 0.518517 |
| Proporção de Sucesso na Amostra 1 | 0.88 |
| Proporção de Sucesso na Amostra 2 | 0.85 |
| Hipótese Alternativa Diferente de | 0 |
| Nível de Confiança | 95% |
| Limite Inferior | -0.06021159 |
| Limite Superior | 0.1202116 |
Tabela 5.6.35: Resultados do teste para comparação de duas proporções
7. Vamos calcular o poder do teste em detectar a diferença entre as proporções $p_1 = 0,88$ e $p_2 = 0,85$. Para isto, utilizamos o software Action. Lançando os valores $n_1 = 100$, $n_2 = 120$, $p_1 = 0,88$, $p_2 = 0,85$, a um nível de significância $\alpha = 0,05$, nos é fornecido o poder $P = 0,099$.
O Poder é calculado a seguir: $$P=1-\Phi\left(z_{\alpha/2}-(2\arcsin(\sqrt{p_1})-2\arcsin(\sqrt{p_2}))\sqrt{\frac{n_1n_2}{n_1+n_2}}\right)+$$
$$\qquad\qquad+\Phi\left(-z_{\alpha/2}-(2\arcsin(\sqrt{p_1})-2\arcsin(\sqrt{p_2}))\sqrt{\frac{n_1n_2}{n_1+n_2}} \right)=$$
$$=0,099522497$$
para o teste bilateral.