6.6 Testes de Normalidade
6 - Testes de normalidade
Os testes de normalidade são utilizados para verificar se a distribuição de probabilidade associada a um conjunto de dados pode ser aproximada pela distribuição normal. As principais técnicas discutidas são:
6.1 - Técnica gráfica
Papel de Probabilidade e QQ-plot
Método gráfico é uma técnica utilizada para verificar a adequação de um determinado modelo estatístico aos dados. A técnica que iremos descrever é simples de utilizar e pode ser aplicada a inúmeros tipos de modelos estatísticos. Vamos considerar o modelo Normal com média $\mu$ e variância $\sigma^2$. Para maiores informações sobre a distribuição normal consultar o capítulo 6.2 - Distribuição normal. Se $X\sim N(\mu,\sigma^2)$, a transformação $$Z=\frac{X-\mu}{\sigma}$$
tem distribuição normal padrão (média zero e variância 1). Vamos denotar a distribuição acumulada de $Z$ por $\Phi$. Se $F$ é a função distribuição acumulada da distribuição normal com média $\mu$ e variância $\sigma^2$, temos que $$F(x)=\mathbb{P}[X \leq x ]=\mathbb{P}\left[Z\leq \frac{x-\mu}{\sigma}\right]=\Phi\left(\frac{x-\mu}{\sigma}\right).$$
Aplicando a função $\Phi^{-1}$ em ambos os lados, temos $$\Phi^{-1}(F(x))=\frac{x-\mu}{\sigma}$$
de onde obtemos que $$x=\sigma\Phi^{-1}(F(x))+\mu$$
onde $\Phi^{-1}(F(x))$ é o quantil da distribuição Normal padrão, calculado no ponto $F(x)$. Como a expressão acima tem o formato de uma expressão linear, ao fazermos o gráfico entre $x$ e $\Phi^{-1}(F(x))$ devemos esperar um comportamento linear dos pontos, se a distribuição Normal for realmente adequada. Com isso, podemos construir o Papel de Probabilidade ou QQ-Plot a partir das seguintes etapas:
-
Considere uma amostra $x_1,\ldots,x_n$;
-
Ordene os elementos da amostra, ou seja, $x_{(1)}\leq x_{(2)}\leq\ldots\leq x_{(n)}$;
-
Calcule $n$ valores $d_i = \dfrac{i-a}{n+1-2\cdot a}$, com $i = 1,\ldots,n. \quad a= \dfrac{3}{8}$, se $n \leq 10; a= \dfrac{1}{2}$, caso contrário. A correção é necessário para que não tenhamos $d_i=1$, pois neste caso, teríamos que $\phi^{-1} (1) = \infty$. Estas constantes não são padrão, dependendo do autor (ou software de estatísticas) elas podem mudar.
-
Calcule os quantis da distribuição Normal padrão para cada um dos valores $d_i$, isto é, $$\Phi^{-1}(d_{i}), \quad \quad i=1, \ldots, n;$$
5.1) (Caso Papel de Probabilidade) Faça um gráfico com os pontos $(x_{(i)}, \Phi^{-1}(d_{i})), \quad i=1, \ldots, n;$ ou
5.2) (Caso QQ-plot) Faça um gráfico com os pontos $(\Phi^{-1}(d_{i}), x_{(i)}), \quad i=1, \ldots, n;$ e
avalie a normalidade dos dados. Para isto, devemos verificar o comportamento linear dos pontos. Quanto “mais linear” for o gráfico, melhor a normalidade dos dados.
Exemplo 6.1.1
Avaliar a normalidade dos dados referentes à medição de 10 peças.
| Amostra |
|---|
| 1,90642 |
| 2,10288 |
| 1,52229 |
| 2,61826 |
| 1,42738 |
| 2,22488 |
| 1,69742 |
| 3,15435 |
| 1,98492 |
| 1,99568 |
Tabela 6.6.1: Amostra (1) de medição de peças
Ordenando os elementos da amostra, temos que
| $x_{(1)}$ | 1,42738 |
| $x_{(2)}$ | 1,52229 |
| $x_{(3)}$ | 1,69742 |
| $x_{(4)}$ | 1,90642 |
| $x_{(5)}$ | 1,98492 |
| $x_{(6)}$ | 1,99568 |
| $x_{(7)}$ | 2,10288 |
| $x_{(8)}$ | 2,22488 |
| $x_{(9)}$ | 2,61826 |
| $x_{(10)}$ | 3,15435 |
Tabela 6.6.2: Amostra ordenada
Vamos agora calcular os valores $d_i$’s, para $i = 1,\ldots,10$. Temos que, $n=10, a=\frac{3}{8}=0,375$. Os resultados são os seguintes:
$$d_{1}=\frac{1-0,375}{10+1-2\cdot0,375}=0,060976$$
$$d_{2}=\frac{2-0,375}{10+1-2\cdot0,375}=0,158537$$
$$d_{3}=\frac{3-0,375}{10+1-2\cdot0,375}=0,256098$$
$$d_{4}=\frac{4-0,375}{10+1-2\cdot0,375}=0,353659$$
$$d_{5}=\frac{5-0,375}{10+1-2\cdot0,375}=0,451220$$
$$d_{6}=\frac{6-0,375}{10+1-2\cdot0,375}=0,548780$$
$$d_{7}=\frac{7-0,375}{10+1-2\cdot0,375}=0,646341$$
$$d_{8}=\frac{8-0,375}{10+1-2\cdot0,375}=0,743902$$
$$d_{9}=\frac{9-0,375}{10+1-2\cdot0,375}=0,841463$$
$$d_{10}=\frac{10-0,375}{10+1-2\cdot0,375}=0,939024$$
Desta forma, calculando os quantis $\Phi^{-1}(d_i)$ temos que
| $x_{(i)}$ | $d_i$ | $\Phi^{-1}(d_i)$ |
|---|---|---|
| 1,42738 | 0,060976 | -1,54664 |
| 1,52229 | 0,158537 | -1,00049 |
| 1,69742 | 0,256098 | -0,65542 |
| 1,90642 | 0,353659 | -0,37546 |
| 1,98492 | 0,45122 | -0,12258 |
| 1,99568 | 0,54878 | 0,122581 |
| 2,10288 | 0,646341 | 0,375462 |
| 2,22488 | 0,743902 | 0,655424 |
| 2,61826 | 0,841463 | 1,000491 |
| 3,15435 | 0,939024 | 1,546635 |
Tabela 6.6.3: Estatísticas da amostra calculadas
Plotando os pontos da forma $(x_{(i)},\Phi^{-1}(d_i))$ temos o papel de probabilidade dado por
Figura 6.6.1: Gráfico de Papel de probabilidade
Também, se plotando os pontos da forma $(\Phi^{-1}(d_i), x_{(i)},)$ temos o QQ-plot dado por
Figura 6.6.2: Gráfico QQ-plot
Como demonstrado acima, a normalidade dos dados está relacionada com a linearidade do gráfico, quanto “mais linear” for o gráfico melhor a normalidade dos dados. No exemplo acima, os pontos estão próximos da reta o que é um bom indicativo da normalidade dos dados.
Histograma
Podemos comparar a histograma da distribuição dos dados com a função densidade teórica, neste caso, a distribuição normal com média e desvio padrão correspondentes.
Figura 6.6.3: Histograma da distribuição dos dados com a função densidade teórica
Empírica
Comparamos a função da distribuição empírica com a função da distribuição acumulada teórica.
Figura 6.6.4: Função de distribuição empírica e FDA teórica
6.2 - Teste de Kolmogorov-Smirnov
Grande parte dos problemas que encontramos em estatística são tratados com a hipótese que os dados são retirados de uma população com uma distribuição de probabilidade específica. O formato desta distribuição pode ser um dos objetivos da análise. Por exemplo, suponha que um pequeno número de observações foram retiradas de uma população com distribuição desconhecida e que estamos interessados em testar hipóteses sobre a média desta população. O teste paramétrico tradicional, baseado na distribuição t-student, é obtido sob o hipótese de que a população tem distribuição normal. Nesse sentido, surge a necessidade de certificarmos se essa suposição pode ser assumida. Em alguns casos, assumir a normalidade dos dados é o primeiro passo que tomamos para simplificar nossas análise. Para dar suporte a esta suposição, consideramos, dentre outros, o teste de Kolmogorov - Smirnov.
O teste de Kolmogorov - Smirnov pode ser utilizado para avaliar as hipóteses:
$$\begin{cases} H_0: \hbox{Os dados seguem uma distribuição normal} \cr H_1: \hbox{Os dados não seguem uma distribuição normal.}\end{cases}$$
Este teste observa a máxima diferença absoluta entre a função de distribuição acumulada assumida para os dados, no caso a Normal, e a função de distribuição empírica dos dados. Como critério, comparamos esta diferença com um valor crítico, para um dado nível de significância.
Considere uma amostra aleatória simples $X_1, X_2 , \cdots , X_n$ de uma população com função de distribuição acumulada contínua $F_X$ desconhecida. A estatística utilizada para o teste é: $$D_n=\sup_x|F(x)-F_n(x)|$$
Esta função corresponde a distância máxima vertical entre os gráficos de $F(x)$ e $F_n(x)$ sobre a amplitude dos possíveis valores de $x$. Em $D_n$ temos que
-
$F(x)$ representa a função de distribuição acumulada assumida para os dados;
-
$F_n(x)$ representa a função de distribuição acumulada empírica dos dados.
Neste caso, queremos testar a hipótese $H_0 : F_X = F$ contra a hipótese alternativa $H_1 : F_X \neq F$. Para isto, tomamos $X_{(1)}, X_{(2)}, \cdots , X_{(n)}$ as observações aleatórias ordenadas de forma crescente da população com função de distribuição contínua $F_X$. No caso de análise da normalidade dos dados, assumimos $F$ a função de distribuição da normal.
A função de distribuição acumulada assumida para os dados é definida por $F(x_{(i)}) = \mathbb{P}(X\leq x_{(i)})$ e a função de distribuição acumulada empírica é definida por uma função escada, dada pela fórmula: $$F_n(x)=\frac{1}{n}\sum_{i=1}^n \mathbb{I}_{\lbrace(-\infty,x]\rbrace}(x_{(i)})$$
onde $\mathbb{I}_A$ é a função indicadora. A função indicadora é definida da seguinte forma:
$$\mathbb{I}_{A}=\begin{cases} 1; \ \hbox{se} \ x\in A \cr 0; \ \hbox{caso contrário}\end{cases}$$
Observe que a função da distribuição empírica $F_n(x)$ corresponde à proporção de valores menores ou iguais a $x$. Tal função também pode ser escrita da seguinte forma
$$F_{n}(x)=\begin{cases}0, \hbox{se} \quad x< x_{(1)}\cr\frac{k}{n}, \hbox{se} \quad x_{(k)}\leq x< x_{(k + 1)}\cr1,\hbox{se} \quad x>x_{(n)} \end{cases}$$
Sob $H_0$, a distribuição assintótica da estatística de kolmogorov-Smirnov é dada por $$\lim_{n \rightarrow \infty}P\left[\sqrt{n} D_n \leq x\right] = 1-2 \sum_{j=1}^{\infty} (-1)^{j-1} \exp^{-2j^2x^2}.$$
Esta distribuição assintótica é válida quando temos conhecimento completo sobre a distribuição de $H_0$, entretanto, na prática, $H_0$ especifica uma famíla de distribuições de probabilidade. Neste caso, a distribuição assintótica da estatística de Kolmogorov-Smirnov não conhecida e foi determinada via simulação.
Como a função de distribuição empírica $F_n$ é descontínua e a função de distribuição hipotética é contínua, vamos considerar duas outras estatísticas: $$D^+=\sup_{x_{(i)}}|F(x_{(i)})-F_n(x_{(i)})|$$
$$D^-=\sup_{x_{(i)}}|F(x_{(i)})-F_n(x_{(i-1)})|$$
para calcularmos a estatística de kolmogorov-Smirnov. Essas estatísticas medem as distâncias (vertical) entre os gráficos das duas funções, teórica e empírica, nos pontos $x_{(i-1)}$ e $x_{(i)}$. Com isso, podemos utilizar como estatística de teste $$D_n=\max(D^+,D^-)$$
Se $D_n$ é maior que o valor crítico, rejeitamos a hipótese de normalidade dos dados com $(1-\alpha)100\char37$ de confiança. Caso contrário, não rejeitamos a hipótese de normalidade.
Resumo das estatísticas de teste.
| x(ordenado) | $F_{n}(x) $ | $F(x)=\mathbb{P}\left(z_{(i)}\leq\frac{\displaystyle x_{(i)}- \overline{x}}{\displaystyle s} \right)$ | $\mid F(x_{i})-F_{n}(x_{(i)})\mid$ | $\mid F(x_{(i)})-F_{n}(x_{(i-1)})\mid$ |
|---|---|---|---|---|
| $$x_{(1)}$$ $$x_{(2)}$$ $$\vdots$$ | $$\frac{1}{n}$$ $$\frac{2}{n}$$ $$\vdots$$ | $$F(x)=\mathbb{P}\left(z_{(1)} \leq\frac{\displaystyle x_{(1)}-\overline{x}}{\displaystyle s}\right)$$ $$F(x)=\mathbb{P}\left(z_{(2)} \leq\frac{\displaystyle x_{(2)}-\overline{x}}{\displaystyle s}\right)$$ $$\vdots$$ | $$\mid F(x_{(1)})-F_{n}(x_{(1)})\mid$$ $$\mid F(x_{(2)})-F_{n}(x_{(2)})\mid$$ $$\vdots$$ | $$\mid F(x_{(1)})-0 \mid$$ $$\mid F(x_{(2)})-F_{n}(x_{(1)})\mid$$ $$\vdots$$ |
| $$\vdots$$ $$x_{(n-1)}$$ $$x_{(n)}$$ | $$\frac{n-1}{n}$$ $$1$$ | $$F(x)=\mathbb{P} \left(z_{(n-1)} \leq \frac{\displaystyle x_{(n-1)}-\overline{x}}{\displaystyle s}\right) $$ $$F(x)=\mathbb{P} \left(z_{(n)}\leq\frac{\displaystyle x_{(n)}-\overline{x}}{\displaystyle s}\right)$$ | $$\mid F(x_{(n-1)})-F_{n}x_{(n-1)}\mid$$ $$ \mid F(x_{(n)})-F_{n}(x_{(n)})\mid$$ | $$\mid F(x_{(n-1)})-F_{n}(x_{(n-2)})\mid $$ $$\mid F(x_{(n)})-F_{n}(x_{(n-1)})\mid$$ |
Tabela 6.6.4: Estatísticas de teste.
OBS: O valor de $\mathbb{P}\left(Z_{(i)}\leq\frac{x_{(i)}-\bar{x}}{s}\right)$ é encontrado na tabela da distribuição normal padrão.
A tabela de valores críticos para a estatística do teste de Komolgorov-Smirnov $(D_n)$ é dada a seguir.
Níveis de significância
| n | 0,2 | 0,1 | 0,05 | 0,01 |
|---|---|---|---|---|
| 5 | 0,45 | 0,51 | 0,56 | 0,67 |
| 10 | 0,32 | 0,37 | 0,41 | 0,49 |
| 15 | 0,27 | 0,30 | 0,34 | 0,40 |
| 20 | 0,23 | 0,26 | 0,29 | 0,36 |
| 25 | 0,21 | 0,24 | 0,27 | 0,32 |
| 30 | 0,19 | 0,22 | 0,24 | 0,29 |
| 35 | 0,18 | 0,20 | 0,23 | 0,27 |
| 40 | 0,17 | 0,19 | 0,21 | 0,25 |
| 45 | 0,16 | 0,18 | 0,20 | 0,24 |
| 50 | 0,15 | 0,17 | 0,19 | 0,23 |
| Valores maiores | $ \frac{1,07}{\sqrt{n}} $ | $ \frac{1,22}{\sqrt{n}} $ | $ \frac{1,36}{\sqrt{n}} $ | $ \frac{1,63}{\sqrt{n}} $ |
Tabela 6.6.5: A tabela de valores críticos para a estatística do teste de Komolgorov-Smirnov $(D_n)$ de diferentes níveis de significância
Exemplo 6.2.1
Avaliar a normalidade dos dados referente a medição de 10 peças.
| 1,90642 |
| 2,10288 |
| 1,52229 |
| 2,61826 |
| 1,42738 |
| 2,22488 |
| 1,69742 |
| 3,15435 |
| 1,98492 |
| 1,99568 |
Tabela 6.6.6: Amostra (1) de medição de peças
Solução
Após ordenarmos os dados, obtemos o valor de $F_n(x_{(i)})$ fazendo a razão entre a posição $i$ e o valor total de dados, $n$. O valor de $F(x_{(i)})$ é encontrado na tabela da distribuição normal padrão, após transformarmos os dados pela relação $$Z_{(i)}=\frac{x_{(i)}-\overline{x}}{s}$$
onde $\overline{x}$ é a média aritmética e $s$ é o desvio padrão dos dados.
| Dados | $ F_n(x) $ empírica | $ F(x) $ teórica | $ |F(x_{(i)})-F_n(x_{(i)})| $ | $ |F(x_{(i)})-F_n(x_{(i-1)})| $ |
|---|---|---|---|---|
| 1,42738 | 0,1 | 0,1086547 | 0,0086547 | 0,1086547 |
| 1,52229 | 0,2 | 0,1469448 | 0,0530552 | 0,0469448 |
| 1,69742 | 0,3 | 0,2388688 | 0,0611312 | 0,0388688 |
| 1,90642 | 0,4 | 0,3803466 | 0,0196534 | 0,0803466 |
| 1,98492 | 0,5 | 0,4394702 | 0,0605298 | 0,0394702 |
| 1,99568 | 0,6 | 0,4477126 | 0,1522874 | 0,0522874 |
| 2,10288 | 0,7 | 0,5304822 | 0,1695178 | 0,0695178 |
| 2,22488 | 0,8 | 0,6229025 | 0,1770975 | 0,0770975 |
| 2,61826 | 0,9 | 0,8590611 | 0,0409389 | 0,0590611 |
| 3,15435 | 1,0 | 0,9828237 | 0,0171763 | 0,0828237 |
| Máximo | 0,1770975 | 0,1086547 |
Tabela 6.6.7: Estatísitcas de teste calculadas
Com isso, $$D_n=\max(0,1770975;0,1086547)=0,1770975.$$
Considerando $\alpha = 0,05$ e $n = 10$, encontramos pela tabela de valores críticos o valor $0,41$. Como $D_n = 0,1770975 \ < \ 0,41$, não temos evidências para rejeitar a hipótese de normalidade dos dados.
Veja a seguir os resultados obtidos pelo software Action.
| Estatísticas | P-valores | |
|---|---|---|
| Kolmogorov - Smirnov | 0.1771 | 0.5012 |
Tabela 6.6.8: Resultados do teste de normalidade Kolmogorov - Smirnov
Figura 6.6.5: Gráfico de Papel de probabilidade
6.3 - Teste de Anderson-Darling
O teste de Anderson-Darling pode ser utilizado para avaliar as seguintes hipóteses:
$$\begin{cases}H_0: \ \hbox{A amostra segue uma distribuição normal.} \cr H_1: \hbox{A amostra não segue uma distribuição normal.} \end{cases}$$
Para a distribuição Normal com função densidade de probabilidade $$f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \ (-\infty < x < \infty).$$
a seguinte tabela fornece alguns valores de quantis e a estatística de Anderson Darling modificada, dada por $$A^2_m=\left(1+\frac{0,75}{n}+\frac{2,25}{n^2}\right)A^2.$$
Caso 0: O parâmetro $\theta (\mu,\sigma^2)$ é totalmente conhecido.
Caso 1: $\mu$ é conhecido e $\sigma^2$ é estimado por $s^2$.
Caso 2: $\sigma^2$ é conhecido e $\mu$ é estimado por $\overline{X}$.
Caso 3: Nenhum dos componentes de $\theta = (\mu,\sigma^2)$ é conhecido e são estimados por ($\overline{X},s^2$)
| Caso | Modificação | 15,0 | 10,0 | 5,0 | 2,5 | 1,0 |
|---|---|---|---|---|---|---|
| Caso 0 | - | 1,610 | 1,933 | 2,492 | 3,070 | 3,857 |
| Caso 1 | - | 0,784 | 0,897 | 1,088 | 1,281 | 1,541 |
| Caso 2 | - | 1,443 | 1,761 | 2,315 | 2,890 | 3,682 |
| Caso 3 | $A²(1+(0,75/n)+(2,25/n²))$ | 0,560 | 0,632 | 0,751 | 0,870 | 1,029 |
Tabela 6.6.8: Alguns valores de quantis e a estatística de Anderson Darling modificada
Em relação ao cálculo do p-valor, temos que este depende do valor da estatística de Anderson-Darling modificada $A^{2}_{m}$. A partir do valor desta é utilizada uma interpolação que aproxima uma função exponencial. Apresentamos na tabela a seguir o cálculo do p-valor.
| $ A^{2}_{m} $ | P-valor |
|---|---|
| $ A^{2}_{m} < 0,200 $ | p-valor = 1 - exp(-13,436 + 101,14 * $A²_{m}$ - 223,73 * ($A^{2}_{m})^{2}$) |
| $ 0,200 < A^{2}_{m} < 0,340 $ | p-valor = 1 - exp(-8,318 + 42,796 * $A²_{m}$ - 59,938 * ($A^{2}_{m})^{2}$) |
| $ 0,340 < A^{2}_{m} < 0,600 $ | p-valor = exp(0,9177 - 4,279 * $A²_{m}$ - 1,38 * ($A^{2}_{m})^{2}$) |
| $ A^{2}_{m} > 0,600 $ | p-valor = exp(1,2937 - 5,709 * $A²_{m}$ + 0,0186 * ($A^{2}_{m})^{2}$) |
Tabela 6.6.9: Cálculo do p-valor dependendo do valor da estatística de Anderson Darling modificada
Exemplo 6.3.1:
Considere novamente o Exemplo 6.1.1 sobre a medição de 10 peças.
| 1,90642 | 2,22488 |
| 2,10288 | 1,69742 |
| 1,52229 | 3,15435 |
| 2,61826 | 1,98492 |
| 1,42738 | 1,99568 |
Tabela 6.6.10: Amostra (1) de medição de peças
Vamos testar
$$\begin{cases}H_0: \ \hbox{os dados seguem uma distribuição normal} \ N(\mu,\sigma^2) \cr H_1: \ \hbox{os dados não seguem uma distribuição normal} \end{cases}$$
A média dos dados é $\bar{X} = 2,0634$ e o desvio padrão é $s = 0,5156$.
| Dados | Dados ordenados | $ F(x_i) $ | $ \ln(F(x_i)) $ | $ \ln(1-F(x_i)) $ |
|---|---|---|---|---|
| 1,90642 | 1,42738 | 0,10865 | -2,21958 | -0,11502 |
| 2,10288 | 1,52229 | 0,14694 | -1,91770 | -0,15893 |
| 1,52229 | 1,69742 | 0,23887 | -1,43184 | -0,27295 |
| 2,61826 | 1,90642 | 0,38035 | -0,96667 | -0,47860 |
| 1,42738 | 1,98492 | 0,43947 | -0,82219 | -0,57887 |
| 2,22488 | 1,99568 | 0,44771 | -0,80360 | -0,59369 |
| 1,69742 | 2,10288 | 0,53048 | -0,63397 | -0,75605 |
| 3,15435 | 2,22488 | 0,62290 | -0,47337 | -0,97523 |
| 1,98492 | 2,61826 | 0,85906 | -0,15192 | -1,95942 |
| 1,99568 | 3,15435 | 0,98282 | -0,01733 | -4,06422 |
Tabela 6.6.11: Estatísticas de teste calculadas
Utilizando a fórmula $(\star)$, temos que $$D = -103,4169.$$
$$A^2=-n-\frac{D}{n}=-10+\frac{103,4169}{10}=0,3416856.$$
A estatística de Anderson Darling modificada para este caso (Caso 3 com μ e σ desconhecidos) é dada por: $$A_m^2=A^2\left(1+\frac{0,75}{n}+\frac{2,25}{n^2}\right)=0,375.$$
Como a estatística modificada resultou em $A^{2}_{m} = 0,375$, temos que o cálculo do p-valor é dado por:
$$\hbox{p-valor} = \exp(0,9177 - 4,279 \times A²_{m} + 1,38 \times (A^{2}_{m})^{2})=$$ $$\exp(0,9177 - 4,279 \times 0,375 + 1,38 \times (0,375)^{2})=0,414374$$
Então, existe forte evidência de que os dados provém de uma distribuição Normal.
Veja a seguir, os resultados obtidos a partir do software Action.
| Estatísticas | P-valores | |
|---|---|---|
| Anderson - Darling | 0.3417 | 0.4144 |
Tabela 6.6.12: Resultados do teste de normalidade Anderson Darling
Figura 6.6.6: Gráfico de Papel de probabilidade
Exemplo 6.3.2
Considere as seguintes medidas de peso de homens (em pounds): 148, 154, 158, 160, 161, 162, 166, 170, 182, 195, 236. Vamos testar:
$$\begin{cases}H_0: \ \hbox{os dados seguem uma distribuição normal} \ N(\mu,\sigma^2) \cr H_1: \ \hbox{os dados não seguem uma distribuição normal} \end{cases}$$
A média dos dados é $\bar{x} = 172$ e o desvio padrão é $s = 24,9520$.
Calculando o valor de A²
| Dados | Dados ordenados | $ F(x_i) $ | $ \ln(F(x_i)) $ | $ \ln(1-F(x_i)) $ |
|---|---|---|---|---|
| 154 | 148 | 0,168063 | -1,78341 | -0,184 |
| 148 | 154 | 0,235336 | -1,44674 | -0,26832 |
| 170 | 158 | 0,287372 | -1,24698 | -0,3388 |
| 161 | 160 | 0,315285 | -1,15428 | -0,37875 |
| 160 | 161 | 0,329662 | -1,10969 | -0,39997 |
| 166 | 162 | 0,344295 | -1,06626 | -0,42204 |
| 162 | 166 | 0,404986 | -0,9039 | -0,51917 |
| 158 | 170 | 0,468057 | -0,75916 | -0,63122 |
| 182 | 182 | 0,655705 | -0,42204 | -1,06626 |
| 195 | 195 | 0,821676 | -0,19641 | -1,72415 |
| 236 | 236 | 0,99484 | -0,00517 | -5,26684 |
Tabela 6.6.13: Estatísticas de teste calculadas
Utilizando a fórmula $(\star)$, temos: $$D= -131,4145.$$
$$A^2=-\frac{D}{n}-n=\frac{131,4145}{11}-11=0,9467719.$$
A estatística de Anderson Darling modificada para esse caso (Caso 3 com $\mu$ e $\sigma$ desconhecidos) é dada por: $$A_m^2=A^2\left(1+\frac{0,75}{n}+\frac{2,25}{n^2}\right)=0,9467719\times(1+0,06818182+0,01859504)=1,02893.$$
Temos que o p-valor é dado por:
$$\hbox{p-valor} = \exp(1,2937 - 5,709 \times A²_{m} + 0,0186 \times (A^{2}_{m})^{2})=$$ $$\exp(1,2937 - 5,709 \times 1,02893 + 0,0186 \times (1,02893)^{2}) = 0,01044824 \simeq 1 \char37$$
Portanto, o p-valor é aproximadamente 1%. Então, existe forte evidência de que os dados não provém de uma distribuição Normal.
Veja a seguir os resultados obtidos pelo software Action.
| Estatísticas | P-valores | |
|---|---|---|
| Anderson - Darling | 0.9468 | 0.0105 |
Tabela 6.6.14: Resultados do teste de normalidade Anderson Darling
Figura 6.6.7: Gráfico de Papel de probabilidade
6.4 - Teste de Shapiro-Wilk
O teste Shapiro-Wilk, proposto em 1965, é baseado na estatística W dada por: $$W=\frac{b^2}{\displaystyle\sum_{i=1}^n (x_{(i)}-\bar{x})^2}$$
em que $x_{i}$ são os valores da amostra ordenados ($x_{(1)}$ é o menor). A constante b é determinada da seguinte forma
$$b=\begin{cases}\displaystyle\sum_{i=1}^{n/2}a_{n-i+1}\times (x_{(n-i+1)}-x_{(i)}) \ \hbox{se n é par} \cr \cr \displaystyle\sum_{i=1}^{(n+1)/2}a_{n-i+1}\times (x_{(n-i+1)}-x_{(i)}) \ \hbox{se n é ímpar}\end{cases}$$
em que $a_{n-i+1}$ são constantes geradas pelas médias, variâncias e covariâncias das estatísticas de ordem de uma amostra de tamanho n de uma distribuição Normal. Seus valores, tabelados, são dados abaixo.
| i\n | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 0,7071 | 0,7071 | 0,6872 | 0,6646 | 0,6431 | 0,6233 | 0,6062 | 0,5888 | 0,5739 | 0,5601 | 0,5475 | 0,5359 | |
| 2 | 0,1677 | 0,2413 | 0,2806 | 0,3031 | 0,3164 | 0,3244 | 0,3291 | 0,3315 | 0,3325 | 0,3325 | |||
| 3 | 0,0875 | 0,1401 | 0,1743 | 0,1976 | 0,2141 | 0,2260 | 0,2347 | 0,2412 | |||||
| 4 | 0,0561 | 0,0947 | 0,1224 | 0,1429 | 0,1586 | 0,1707 | |||||||
| 5 | 0,0399 | 0,0695 | 0,0922 | 0,1099 | |||||||||
| 6 | 0,0303 | 0,0539 | |||||||||||
| i\n | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | |
| 1 | 0,5251 | 0,5150 | 0,5056 | 0,4968 | 0,4886 | 0,4808 | 0,4734 | 0,4643 | 0,4590 | 0,4542 | 0,4493 | 0,4450 | |
| 2 | 0,3318 | 0,3306 | 0,3290 | 0,3273 | 0,3253 | 0,3232 | 0,3211 | 0,3185 | 0,3156 | 0,3126 | 0,3098 | 0,3069 | |
| 3 | 0,2460 | 0,2495 | 0,2521 | 0,2540 | 0,2553 | 0,2561 | 0,2565 | 0,2578 | 0,2571 | 0,2563 | 0,2554 | 0,2543 | |
| 4 | 0,1802 | 0,1878 | 0,1939 | 0,1988 | 0,2027 | 0,2059 | 0,2085 | 0,2119 | 0,2131 | 0,2139 | 0,2145 | 0,2148 | |
| 5 | 0,1240 | 0,1353 | 0,1447 | 0,1524 | 0,1587 | 0,1641 | 0,1686 | 0,1736 | 0,1764 | 0,1787 | 0,1807 | 0,1822 | |
| 6 | 0,0727 | 0,0880 | 0,1005 | 0,1109 | 0,1197 | 0,1271 | 0,1334 | 0,1399 | 0,1443 | 0,1480 | 0,1512 | 0,1539 | |
| 7 | 0,0240 | 0,0433 | 0,0593 | 0,0725 | 0,0837 | 0,0932 | 0,1013 | 0,1092 | 0,115 | 0,1201 | 0,1245 | 0,1283 | |
| 8 | 0,0196 | 0,0359 | 0,0496 | 0,0612 | 0,0711 | 0,0804 | 0,0878 | 0,0941 | 0,0997 | 0,1046 | |||
| 9 | 0,0163 | 0,0303 | 0,0422 | 0,0530 | 0,0618 | 0,0696 | 0,0764 | 0,0823 | |||||
| 10 | 0,0140 | 0,0263 | 0,0368 | 0,0459 | 0,0539 | 0,061 | |||||||
| 11 | 0,0122 | 0,0228 | 0,0321 | 0,0403 | |||||||||
| 12 | 0,0107 | 0,0200 | |||||||||||
| 13 | 0,0000 | ||||||||||||
| i\n | 26 | 27 | 28 | 29 | 30 | 31 | 32 | 33 | 34 | 35 | 36 | 37 | |
| 1 | 0,4407 | 0,4366 | 0,4328 | 0,4291 | 0,4254 | 0,4220 | 0,4188 | 0,4156 | 0,4127 | 0,4096 | 0,4068 | 0,4040 | |
| 2 | 0,3043 | 0,3018 | 0,2992 | 0,2968 | 0,2944 | 0,2921 | 0,2898 | 0,2876 | 0,2854 | 0,2834 | 0,2813 | 0,2794 | |
| 3 | 0,2533 | 0,2522 | 0,2510 | 0,2499 | 0,2487 | 0,2475 | 0,2463 | 0,2451 | 0,2439 | 0,2427 | 0,2415 | 0,2403 | |
| 4 | 0,2151 | 0,2152 | 0,2151 | 0,2150 | 0,2148 | 0,2145 | 0,2141 | 0,2137 | 0,2132 | 0,1227 | 0,2121 | 0,2116 | |
| 5 | 0,1836 | 0,1848 | 0,1857 | 0,1864 | 0,1870 | 0,1874 | 0,1878 | 0,1880 | 0,1882 | 0,1883 | 0,1883 | 0,1883 | |
| 6 | 0,1563 | 0,1584 | 0,1601 | 0,1616 | 0,1630 | 0,1641 | 0,1651 | 0,1660 | 0,1667 | 0,1673 | 0,1678 | 0,1683 | |
| 7 | 0,1316 | 0,1346 | 0,1372 | 0,1395 | 0,1415 | 0,1433 | 0,1449 | 0,1463 | 0,1475 | 0,1487 | 0,1496 | 0,1505 | |
| 8 | 0,1089 | 0,1128 | 0,1162 | 0,1192 | 0,1219 | 0,1243 | 0,1265 | 0,1284 | 0,1301 | 0,1317 | 0,1331 | 0,1344 | |
| 9 | 0,0876 | 0,0923 | 0,0965 | 0,1002 | 0,1036 | 0,1066 | 0,1093 | 0,1118 | 0,1140 | 0,1160 | 0,1179 | 0,1196 | |
| 10 | 0,0672 | 0,0728 | 0,0778 | 0,0822 | 0,0862 | 0,0899 | 0,0931 | 0,0961 | 0,0988 | 0,1013 | 0,1036 | 0,1056 | |
| 11 | 0,0476 | 0,0540 | 0,0598 | 0,065 | 0,0697 | 0,0739 | 0,0777 | 0,0812 | 0,0844 | 0,0873 | 0,0900 | 0,0924 | |
| 12 | 0,0284 | 0,0358 | 0,0424 | 0,0483 | 0,0537 | 0,0585 | 0,0629 | 0,0669 | 0,0706 | 0,0739 | 0,0770 | 0,0798 | |
| 13 | 0,0094 | 0,0178 | 0,0253 | 0,032 | 0,0381 | 0,0435 | 0,0485 | 0,0530 | 0,0572 | 0,0610 | 0,0645 | 0,0677 | |
| 14 | 0,0000 | 0,0084 | 0,0159 | 0,0227 | 0,0289 | 0,0344 | 0,0395 | 0,0441 | 0,0484 | 0,0523 | 0,0559 | ||
| 15 | 0 | 0,0076 | 0,0144 | 0,0206 | 0,0262 | 0,0314 | 0,0361 | 0,0404 | 0,0444 | ||||
| 16 | 0,0000 | 0,0068 | 0,0131 | 0,0187 | 0,0239 | 0,0287 | 0,0331 | ||||||
| 17 | 0,0000 | 0,0062 | 0,0119 | 0,0172 | 0,0220 | ||||||||
| 18 | 0,0000 | 0,0057 | 0,0110 | ||||||||||
| 19 | 0,0000 | ||||||||||||
| i\n | 38 | 39 | 40 | 41 | 42 | 43 | 44 | 45 | 46 | 47 | 48 | 49 | 50 |
| 1 | 0,4015 | 0,3989 | 0,3964 | 0,3940 | 0,3917 | 0,3894 | 0,3872 | 0,3850 | 0,3830 | 0,3808 | 0,3789 | 0,3770 | 0,3751 |
| 2 | 0,2774 | 0,2755 | 0,2737 | 0,2719 | 0,2701 | 0,2684 | 0,2667 | 0,2651 | 0,2635 | 0,2620 | 0,2604 | 0,2589 | 0,2574 |
| 3 | 0,2391 | 0,2380 | 0,2368 | 0,2357 | 0,2345 | 0,2334 | 0,2323 | 0,2313 | 0,2302 | 0,2291 | 0,2281 | 0,2271 | 0,2260 |
| 4 | 0,2110 | 0,2104 | 0,2098 | 0,2091 | 0,2085 | 0,2078 | 0,2072 | 0,2065 | 0,2058 | 0,2052 | 0,2045 | 0,2038 | 0,2032 |
| 5 | 0,1881 | 0,1880 | 0,1878 | 0,1876 | 0,1874 | 0,1871 | 0,1868 | 0,1865 | 0,1862 | 0,1859 | 0,1855 | 0,1851 | 0,1847 |
| 6 | 0,1686 | 0,1689 | 0,1691 | 0,1693 | 0,1694 | 0,1695 | 0,1695 | 0,1695 | 0,1695 | 0,1695 | 0,1693 | 0,1692 | 0,1691 |
| 7 | 0,1513 | 0,1520 | 0,1526 | 0,1531 | 0,1535 | 0,1539 | 0,1542 | 0,1545 | 0,1548 | 0,1550 | 0,1551 | 0,1553 | 0,1554 |
| 8 | 0,1356 | 0,1366 | 0,1376 | 0,1384 | 0,1392 | 0,1398 | 0,1405 | 0,1410 | 0,1415 | 0,1420 | 0,1423 | 0,1427 | 0,1430 |
| 9 | 0,1211 | 0,1225 | 0,1237 | 0,1249 | 0,1259 | 0,1269 | 0,1278 | 0,1286 | 0,1293 | 0,1300 | 0,1306 | 0,1312 | 0,1317 |
| 10 | 0,1075 | 0,1092 | 0,1108 | 0,1123 | 0,1136 | 0,1149 | 0,1160 | 0,1170 | 0,1180 | 0,1189 | 0,1197 | 0,1205 | 0,1212 |
| 11 | 0,0947 | 0,0967 | 0,0986 | 0,1004 | 0,1020 | 0,1035 | 0,1049 | 0,1062 | 0,1073 | 0,1085 | 0,1095 | 0,1105 | 0,1113 |
| 12 | 0,0824 | 0,0848 | 0,0870 | 0,0891 | 0,0909 | 0,0927 | 0,0943 | 0,0959 | 0,0972 | 0,0986 | 0,0998 | 0,1010 | 0,1020 |
| 13 | 0,0706 | 0,0733 | 0,0759 | 0,0782 | 0,0804 | 0,0824 | 0,0842 | 0,0860 | 0,0876 | 0,0892 | 0,0906 | 0,0919 | 0,0932 |
| 14 | 0,0592 | 0,0622 | 0,0651 | 0,0677 | 0,0701 | 0,0724 | 0,0745 | 0,0765 | 0,0783 | 0,0801 | 0,0817 | 0,0832 | 0,0846 |
| 15 | 0,0481 | 0,0515 | 0,0546 | 0,0575 | 0,0602 | 0,0628 | 0,0651 | 0,0673 | 0,0694 | 0,0713 | 0,0731 | 0,0748 | 0,0764 |
| 16 | 0,0372 | 0,0409 | 0,0444 | 0,0476 | 0,0506 | 0,0534 | 0,0560 | 0,0584 | 0,0607 | 0,0628 | 0,0648 | 0,0667 | 0,0685 |
| 17 | 0,0264 | 0,0305 | 0,0343 | 0,0379 | 0,0411 | 0,0442 | 0,0471 | 0,0497 | 0,0522 | 0,0546 | 0,0568 | 0,0588 | 0,0608 |
| 18 | 0,0158 | 0,0203 | 0,0244 | 0,0283 | 0,0318 | 0,0352 | 0,0383 | 0,0412 | 0,0439 | 0,0465 | 0,0489 | 0,0511 | 0,0532 |
| 19 | 0,0053 | 0,0101 | 0,0146 | 0,0188 | 0,0227 | 0,0263 | 0,0296 | 0,0328 | 0,0357 | 0,0385 | 0,0411 | 0,0436 | 0,0459 |
| 20 | 0,0000 | 0,0049 | 0,0094 | 0,0136 | 0,0175 | 0,0211 | 0,0245 | 0,0277 | 0,0307 | 0,0335 | 0,0361 | 0,0386 | |
| 21 | 0,0000 | 0,0045 | 0,0087 | 0,0126 | 0,0163 | 0,0197 | 0,0229 | 0,0259 | 0,0288 | 0,0314 | |||
| 22 | 0,0000 | 0,0042 | 0,0081 | 0,0118 | 0,0153 | 0,0185 | 0,0215 | 0,0244 | |||||
| 23 | 0,0000 | 0,0039 | 0,0076 | 0,0111 | 0,0143 | 0,0174 | |||||||
| 24 | 0,0000 | 0,0037 | 0,0071 | 0,0104 | |||||||||
| 25 | 0,0000 | 0,0350 |
Tabela 6.6.15: Valores da estatística constante $a$ de Shapiro-Wilk
Para realizar o teste de Shapiro-Wilk, devemos:
1. Formulação da Hipótese:
$$\displaystyle \begin{cases}H_0: \hbox{A amostra provém de uma população Normal} \cr H_1: \hbox{A amostra não provém de uma população Normal}\end{cases}$$
2. Estabelecer o Nível de significância do teste (α), normalmente 0,05;
3. Calcular a estatística de teste:
-
Ordenar as n observações da amostra: $x_{(1)}$, $x_{(2)}$, $x_{(3)}$, …, $x_{(n)}$;
-
Calcular $\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2$;
-
Calcular b;
-
Calcular W.
4. Tomar a decisão: Rejeitar $H_{0}$ ao nível de significância α se $W_{\hbox{calculado }}$< $W_α$ (os valores críticos da estatística W de Shapiro-Wilk são dados na Tabela 6.6.16 abaixo).
Níveis de significância:
| N | 0,01 | 0,02 | 0,05 | 0,1 | 0,5 | 0,9 | 0,95 | 0,98 | 0,99 |
|---|---|---|---|---|---|---|---|---|---|
| 3 | 0,753 | 0,756 | 0,767 | 0,789 | 0,959 | 0,998 | 0,999 | 1,000 | 1,000 |
| 4 | 0,687 | 0,707 | 0,748 | 0,792 | 0,935 | 0,987 | 0,992 | 0,996 | 0,997 |
| 5 | 0,686 | 0,715 | 0,762 | 0,806 | 0,927 | 0,979 | 0,986 | 0,991 | 0,993 |
| 6 | 0,713 | 0,743 | 0,788 | 0,826 | 0,927 | 0,974 | 0,981 | 0,986 | 0,989 |
| 7 | 0,730 | 0,760 | 0,803 | 0,838 | 0,928 | 0,972 | 0,979 | 0,985 | 0,988 |
| 8 | 0,749 | 0,778 | 0,818 | 0,851 | 0,932 | 0,972 | 0,978 | 0,984 | 0,987 |
| 9 | 0,764 | 0,791 | 0,829 | 0,859 | 0,935 | 0,972 | 0,978 | 0,984 | 0,986 |
| 10 | 0,781 | 0,806 | 0,842 | 0,869 | 0,938 | 0,972 | 0,978 | 0,983 | 0,986 |
| 11 | 0,792 | 0,817 | 0,850 | 0,876 | 0,940 | 0,973 | 0,979 | 0,984 | 0,986 |
| 12 | 0,805 | 0,828 | 0,859 | 0,883 | 0,943 | 0,973 | 0,979 | 0,984 | 0,986 |
| 13 | 0,814 | 0,837 | 0,866 | 0,889 | 0,945 | 0,974 | 0,979 | 0,984 | 0,986 |
| 14 | 0,825 | 0,846 | 0,874 | 0,895 | 0,947 | 0,975 | 0,980 | 0,984 | 0,986 |
| 15 | 0,835 | 0,855 | 0,881 | 0,901 | 0,950 | 0,975 | 0,980 | 0,984 | 0,987 |
| 16 | 0,844 | 0,863 | 0,887 | 0,906 | 0,952 | 0,976 | 0,981 | 0,985 | 0,987 |
| 17 | 0,851 | 0,869 | 0,892 | 0,910 | 0,954 | 0,977 | 0,981 | 0,985 | 0,987 |
| 18 | 0,858 | 0,874 | 0,897 | 0,914 | 0,956 | 0,978 | 0,982 | 0,986 | 0,988 |
| 19 | 0,863 | 0,879 | 0,901 | 0,917 | 0,957 | 0,978 | 0,982 | 0,986 | 0,988 |
| 20 | 0,868 | 0,884 | 0,905 | 0,920 | 0,959 | 0,979 | 0,983 | 0,986 | 0,988 |
| 21 | 0,873 | 0,888 | 0,908 | 0,923 | 0,960 | 0,980 | 0,983 | 0,987 | 0,989 |
| 22 | 0,878 | 0,892 | 0,911 | 0,926 | 0,961 | 0,980 | 0,984 | 0,987 | 0,989 |
| 23 | 0,881 | 0,895 | 0,914 | 0,928 | 0,962 | 0,981 | 0,984 | 0,987 | 0,989 |
| 24 | 0,884 | 0,898 | 0,916 | 0,930 | 0,963 | 0,981 | 0,984 | 0,987 | 0,989 |
| 25 | 0,888 | 0,901 | 0,918 | 0,931 | 0,964 | 0,981 | 0,985 | 0,988 | 0,989 |
| 26 | 0,891 | 0,904 | 0,920 | 0,933 | 0,965 | 0,982 | 0,985 | 0,988 | 0,989 |
| 27 | 0,894 | 0,906 | 0,923 | 0,935 | 0,965 | 0,982 | 0,985 | 0,988 | 0,990 |
| 28 | 0,896 | 0,908 | 0,924 | 0,936 | 0,966 | 0,982 | 0,985 | 0,988 | 0,990 |
| 29 | 0,898 | 0,910 | 0,926 | 0,937 | 0,966 | 0,982 | 0,985 | 0,988 | 0,990 |
| 30 | 0,900 | 0,912 | 0,927 | 0,939 | 0,967 | 0,983 | 0,985 | 0,988 | 0,990 |
| 31 | 0,902 | 0,914 | 0,929 | 0,940 | 0,967 | 0,983 | 0,986 | 0,988 | 0,990 |
| 32 | 0,904 | 0,915 | 0,930 | 0,941 | 0,968 | 0,983 | 0,986 | 0,988 | 0,990 |
| 33 | 0,906 | 0,917 | 0,931 | 0,942 | 0,968 | 0,983 | 0,986 | 0,989 | 0,990 |
| 34 | 0,908 | 0,919 | 0,933 | 0,943 | 0,969 | 0,983 | 0,986 | 0,989 | 0,990 |
| 35 | 0,910 | 0,920 | 0,934 | 0,944 | 0,969 | 0,984 | 0,986 | 0,989 | 0,990 |
| 36 | 0,912 | 0,922 | 0,935 | 0,945 | 0,970 | 0,984 | 0,986 | 0,989 | 0,990 |
| 37 | 0,914 | 0,924 | 0,936 | 0,946 | 0,970 | 0,984 | 0,987 | 0,989 | 0,990 |
| 38 | 0,916 | 0,925 | 0,938 | 0,947 | 0,971 | 0,984 | 0,987 | 0,989 | 0,990 |
| 39 | 0,917 | 0,927 | 0,939 | 0,948 | 0,971 | 0,984 | 0,987 | 0,989 | 0,991 |
| 40 | 0,919 | 0,928 | 0,940 | 0,949 | 0,972 | 0,985 | 0,987 | 0,989 | 0,991 |
| 41 | 0,920 | 0,929 | 0,941 | 0,950 | 0,972 | 0,985 | 0,987 | 0,989 | 0,991 |
| 42 | 0,922 | 0,930 | 0,942 | 0,951 | 0,972 | 0,985 | 0,987 | 0,989 | 0,991 |
| 43 | 0,923 | 0,932 | 0,943 | 0,951 | 0,973 | 0,985 | 0,987 | 0,990 | 0,991 |
| 44 | 0,924 | 0,933 | 0,944 | 0,952 | 0,973 | 0,985 | 0,987 | 0,990 | 0,991 |
| 45 | 0,926 | 0,934 | 0,945 | 0,953 | 0,973 | 0,985 | 0,988 | 0,990 | 0,991 |
| 46 | 0,927 | 0,935 | 0,945 | 0,953 | 0,974 | 0,985 | 0,988 | 0,990 | 0,991 |
| 47 | 0,928 | 0,936 | 0,946 | 0,954 | 0,974 | 0,985 | 0,988 | 0,990 | 0,991 |
| 48 | 0,929 | 0,937 | 0,947 | 0,954 | 0,974 | 0,985 | 0,988 | 0,990 | 0,991 |
| 49 | 0,929 | 0,938 | 0,947 | 0,955 | 0,974 | 0,985 | 0,988 | 0,990 | 0,991 |
| 50 | 0,930 | 0,939 | 0,947 | 0,955 | 0,974 | 0,985 | 0,988 | 0,990 | 0,991 |
Tabela 6.6.16: A tabela de valores críticos para a estatística do teste de Shapiro Wilk $W_{\alpha}$ de diferentes níveis de significância
Exemplo 6.4.1
Considere novamente o Exemplo 6.1.1 sobre a medição de 10 peças.
| 1,90642 | 2,22488 |
| 2,10288 | 1,69742 |
| 1,52229 | 3,15435 |
| 2,61826 | 1,98492 |
| 1,42738 | 1,99568 |
Tabela 6.6.17: Amostra (1) de medição de peças
Vamos testar
$$\begin{cases}H_0: \ \hbox{os dados seguem uma distribuição normal} \ N(\mu,\sigma^2) \cr H_1: \ \hbox{os dados não seguem uma distribuição normal} \end{cases}$$
Primeiramente, ordenamos os dados da amostra
| $x_{(1)}$ | 1,42738 |
| $x_{(2)}$ | 1,52229 |
| $x_{(3)}$ | 1,69742 |
| $x_{(4)}$ | 1,90642 |
| $x_{(5)}$ | 1,98492 |
| $x_{(6)}$ | 1,99568 |
| $x_{(7)}$ | 2,10288 |
| $x_{(8)}$ | 2,22488 |
| $x_{(9)}$ | 2,61826 |
| $x_{(10)}$ | 3,15435 |
Tabela 6.6.18: Amostra ordenada
Temos que $\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2=2,392327$ e
| $i$ | $n-i+1$ | $a_{n-i+1}$ | $x_{(n-i+1)}$ | $x_{(i)}$ | $a_{n-i+1(x(n-i+1)-x(i))}$ |
|---|---|---|---|---|---|
| 1 | 10 | 0,5739 | 3,15435 | 1,42738 | 0,991108 |
| 2 | 9 | 0,3291 | 2,61826 | 1,52229 | 0,360684 |
| 3 | 8 | 0,2141 | 2,22488 | 1,69742 | 0,112929 |
| 4 | 7 | 0,1224 | 2,10288 | 1,90642 | 0,024047 |
| 5 | 6 | 0,0399 | 1,99568 | 1,98492 | 0,000429 |
Tabela 6.6.19: Estatísticas de teste calculadas
Desta forma, segue que b = 1,484197 e, por fim, $W$ é dado por $$W=\frac{b^2}{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2}=\frac{2,217708}{2,392327}=0,927.$$
Pela regra de decisão do teste, $W_{\hbox{calculado}} = 0,927 > W_{(0,05;10)} = 0,842$, com o p-valor calculado por $\mathbb{P}[W > W_{\hbox{calculado}}] = 0,4162 > α = 0,05$. Assim, podemos afirmar com nível de significância de 5% que a amostra provém de uma população normal.
Veja a seguir os resultados obtidos pelo software Action.
| Estatísticas | P-valores | |
|---|---|---|
| Shapiro - Wilk | 0.9267 | 0.4162 |
Tabela 6.6.20: Resultados do teste de normalidade Anderson Darling
Figura 6.6.8: Gráfico de Papel de probabilidade
Exemplo 6.4.2
Avaliar a normalidade dos dados referente a medição de 10 peças.
8; 9; 10; 10; 10; 12; 12; 16; 19; 24
Em seguida, calculamos $\displaystyle\sum_{i=1}^n (x_i-\bar{x})^2=236$ e a constante b:
| $i$ | $n-i+1$ | $a_{n-i+1}$ | $x_{(n-i+1)}$ | $x_{(i)}$ | $a_{n-i+1(x(n-i+1)-x(i))}$ |
|---|---|---|---|---|---|
| 1 | 10 | 0,5739 | 24 | 8 | 9,1824 |
| 2 | 9 | 0,3291 | 19 | 9 | 3,2910 |
| 3 | 8 | 0,2141 | 16 | 10 | 1,2846 |
| 4 | 7 | 0,1224 | 12 | 10 | 0,2448 |
| 5 | 6 | 0,0399 | 12 | 10 | 0,0798 |
| b=14,0826 |
Tabela 6.6.21: Estatísticas do teste de normalidade Shapiro-Wilk
e por fim, $W$: $$W=\frac{b^2}{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2}=\frac{14,0826^2}{236}=0,840.$$
Pela regra de decisão do teste, $W{\hbox{calculado}}$ = 0,840 < $W_{(0,05;10)}$ = 0,842, com o p-valor calculado por P[W > $W{\hbox{calculado}}$] = 0,0443 < α = 0,05. Assim, podemos afirmar com nível de significância de 5% que a amostra não provém de uma população normal. Esse fato é confirmado pela aleatoriedade dos pontos em torno da reta.
Veja a seguir os resultados obtidos pelo software Action.
| Estatísticas | P-valores | |
|---|---|---|
| Shapiro - Wilk | 0.8401 | 0.0443 |
Tabela 6.6.22: Resultados do teste de normalidade Shapiro Wilk
Figura 6.6.9: Gráfico de Papel de probabilidade
6.5 - Teste de Ryan-Joiner
O teste de Ryan-Joiner é utilizado para testar se os dados provém de uma população com distribuição normal. É similar ao teste de Shapiro-Wilk, pois também se baseia na relação linear entre a estatística de ordem da distribuição normal de uma amostra de tamanho $n$ e a amostra da população em estudo após ser ordenada.
Suponha que $\mathbf{X}=X_1, X_2, \dots,X_n$ represente o vetor contendo uma amostra de tamanho $n$ da população de interesse. Denotando por $\mathbf{Y}=Y_1,Y_2, \dots,Y_n$ o vetor ordenado de forma crescente dos elementos de $\mathbf{X}$, ou seja, $Y_1=\min(\mathbf{X})$ e $Y_n=\max(\mathbf{X})$ e analogamente para os termos intermediários, por fim, seja $\mathbf{Z}=Z_1,Z_2, \dots,Z_n$ um vetor contendo os valores dos quantis teóricos de uma distribuição $N(0,1)$, dado por
$$Z_i=\Phi ^{-1} \left(\frac{i-3/8}{n+1/4}\right) \qquad i=1,2,\dots,n$$
em que $\left(\dfrac{i-3/8}{n+1/4}\right)$ é conhecido como posição de plotagem.
O teste de Ryan-Joiner se resume em estudar o gráfico normal de probabilidade entre $\mathbf{Z}$ e $\mathbf{Y}$ atravéz do método de regressão linear (veja com mais detalhes papel de probabilidade), caso a amostra $\mathbf{X}$ provenha de uma população normal esperamos que $\mathbf{Z}$ e $\mathbf{Y}$ tenha, de fato, uma relação linear. A ideia central do teste está em estudar o quão significativa é essa relação, para isso Ryan-Joiner propôs a estatística de teste baseada no coeficiente de correlação amostral de Pearson, dada por $$r=\frac{\displaystyle\sum_{i=1}^{n} \left(Y_i-\bar{Y}\right) \left( Z_i - \bar{Z} \right)}{\displaystyle\sqrt{\sum_{i=1}^{n} \left(Y_i-\bar{Y}\right)^2 } \sqrt{\displaystyle\sum_{i=1}^{n} \left( Z_i - \bar{Z} \right)^2}}$$
O teste de Ryan-Joiner rejeita a hipótese de normalidade dos dados se $ r \ \leq c_{\alpha}$ onde $c_{\alpha}$ é o valor crítico do teste. Porém, sob $H_0$, a distribuição de $r$ depende de $n$, ou seja, para tamanhos de amostras diferentes temos distribuições diferentes e consequentemente valores críticos distintos.
Por sua vez, o $\hbox{p-valor}$ é calculado sendo a probabilidade de $r$ ser menor que $r_{\hbox{obs}}$ considerando que $H_0$ é verdadeira, ou seja, $\hbox{p-valor}=\mathbf{P} [ r \ < \ r_{\hbox{obs}} | H_0 ]$, porém, como mencionado a distribuição de $r$, sob $H_0$, depende do tamanho da amostra, portanto necessitamos de apoio computacional para o calculo do p-valor e $c_{\alpha}$.
De maneira prática, o teste de Ryan-Joiner é realizado pelos seguintes passos:
-
Fixar as hipóteses
-
$$\begin{cases} H_0: \hbox{A amostra provém de população com distribuição normal}; \cr H_1: \hbox{A amostra não provém de população com distribuição normal}.\end{cases}$$
-
Definir o tamanho da amostra $n$;
-
Ordenar a amostra $x_1,x_2, \dots ,x_n$ em $y_1,y_2, \dots, y_n$;
-
Calcular os quantis $z_1,z_2, \dots ,z_n$;
-
Calcular
-
$r=\frac{\displaystyle\sum_{i=1}^{n} \left(Y_i-\bar{Y}\right) \left( Z_i - \bar{Z} \right)}{\sqrt{\displaystyle\sum_{i=1}^{n} \left(Y_i-\bar{Y}\right)^2 } \sqrt{\displaystyle\sum_{i=1}^{n} \left( Z_i - \bar{Z} \right)^2}}$;
-
Fixar o nível de significância $\alpha$;
-
Calcular $c_\alpha$;
-
Se $r\ \leq \ c_\alpha$, a um nível de significância $\alpha$, rejeitar $H_0$, caso contrário, não rejeitar $H_0$.
Exemplo 6.5.1
Considere novamente o exemplo $(6.1.1)$ de medidas de 10 peças:
Dados:
| 1,90642 | 2,10288 | 1,52229 | 2,61826 | 1,42738 | 2,22488 | 1,69742 | 3,15435 | 1,98492 | 1,99568 |
Tabela 6.6.23: Amostra (1) de medição de peças
Para o exemplo em questão, temos $n=10$. Os dados ordenados e os quantis teóricos para $i=1,2, \dots,10$ são dados pela Tabela 6.6.24 a seguir:
| y1 | 1,42738 | z1 | -1,5466353 |
| y2 | 1,52229 | z2 | -1,0004905 |
| y3 | 1,69742 | z3 | -0,6554235 |
| y4 | 1,90642 | z4 | -0,3754618 |
| y5 | 1,98492 | z5 | -0,1225808 |
| y6 | 1,99568 | z6 | 0,1225808 |
| y7 | 2,10288 | z7 | 0,3754618 |
| y8 | 2,22488 | z8 | 0,6554235 |
| y9 | 2,61826 | z9 | 1,0004905 |
| y10 | 3,15435 | z10 | 1,5466353 |
Tabela 6.6.24: Amostra ordenada e seus quantis teóricos
O coeficiente de correlação de Pearson é dado por: $$r=\frac{\displaystyle\sum_{i=1}^{n} \left(Y_i-\bar{Y}\right)\left( Z_i - \bar{Z} \right)}{\sqrt{\displaystyle\sum_{i=1}^{n} \left(Y_i-\bar{Y}\right)^2 } \sqrt{\displaystyle\sum_{i=1}^{n} \left( Z_i - \bar{Z} \right)^2}}=\frac{4,188292}{\sqrt{2,39237} \sqrt{7,957279}} =\frac{4,188292}{1,546715 \times 2,820865}=0,959408$$
Utilizando o nível de confiança $\alpha=0,05$, com $n=10$, temos que $c_{0,05}=0,9173243$. Como $r=0,9599408 \ > \ c_{0,05}=0,9173243$ não rejeitamos $H_0$ a um nível de significância de 5%, ou seja, não rejeitamos que a amostra provém de uma população normal. Além disso, $\hbox{p-valor}=\mathbf{P}[r \ < \ r_{obs}]=\mathbf{P}[r \ < \ 0,9599408]=0,3244$, que é maior que o nível de significância $\alpha=0,05$ reforçando a conclusão.
| Estatísticas | P-valores | |
|---|---|---|
| Ryan - Joiner | 0.9599 | 0.3094 |
Tabela 6.6.25: Resultados do teste de normalidade Ryan-Joiner
Figura 6.6.10: Gráfico de Papel de probabilidade
Exemplo 6.5.2
Considere novamente os dados de medição de 10 peças do exemplo 6.4.2:
Medições:
| 8 | 9 | 10 | 10 | 10 | 12 | 12 | 16 | 19 | 24 |
Tabela 6.6.26: Amostra (2) de medição de peças
Para o exemplo em questão, novamente temos $n=10$. Os dados ordenados e os quantis teóricos para $i=1,2, \dots,10$ são dados pelas tabelas a seguir:
| y1 | 8 | z1 | -1,5466353 |
| y2 | 9 | z2 | -1,0004905 |
| y3 | 10 | z3 | -0,6554235 |
| y4 | 10 | z4 | -0,3754618 |
| y5 | 10 | z5 | -0,1225808 |
| y6 | 12 | z6 | 0,1225808 |
| y7 | 12 | z7 | 0,3754618 |
| y8 | 16 | z8 | 0,6554235 |
| y9 | 19 | z9 | 1,0004905 |
| y10 | 24 | z10 | 1,5466353 |
Tabela 6.6.27: Amostra ordenada e seus quantis teóricos
O coeficiente de correlação de Pearson é dado por: $$r=\frac{\displaystyle\sum_{i=1}^{n} \left(Y_i-\bar{Y}\right)\left( Z_i - \bar{Z} \right)}{\sqrt{\displaystyle\sum_{i=1}^{n} \left(Y_i-\bar{Y}\right)^2 } \sqrt{\displaystyle\sum_{i=1}^{n} \left( Z_i - \bar{Z} \right)^2}}=\frac{39,6797}{\sqrt{236}\sqrt{7,957279}} =\frac{39,6797}{15,36229\times2820865}=0,915611$$
Utilizando o nível de confiança $\alpha=0,05$, com $n=10$, temos que $c_{0,05}=0,9173243$.
Como $r=0,915611\ < \ c_{0,05}=0,9173243$ rejeitamos $H_0$ a um nível de significância de 5%, ou seja, rejeitamos que a amostra provém de uma população normal. Além disso, $\hbox{p-valor}=\mathbf{P}[r \ < \ r_{obs}]=\mathbf{P}[r \ < \ 0,9599408]= 0,0485$, que é menor que o nível de significância $\alpha=0,05$ reforçando a conclusão.
| Estatísticas | P-valores | |
|---|---|---|
| Ryan - Joiner | 0.9157 | 0.0467 |
Tabela 6.6.28: Resultados do teste de normalidade Ryan-Joiner
Figura 6.6.11: Gráfico de Papel de probabilidade