6.6 Testes de Normalidade

6 - Testes de normalidade

Os testes de normalidade são utilizados para verificar se a distribuição de probabilidade associada a um conjunto de dados pode ser aproximada pela distribuição normal. As principais técnicas discutidas são:

6.1 - Técnica gráfica

Papel de Probabilidade e QQ-plot

Método gráfico é uma técnica utilizada para verificar a adequação de um determinado modelo estatístico aos dados. A técnica que iremos descrever é simples de utilizar e pode ser aplicada a inúmeros tipos de modelos estatísticos. Vamos considerar o modelo Normal com média $\mu$ e variância $\sigma^2$. Para maiores informações sobre a distribuição normal consultar o capítulo 6.2 - Distribuição normal. Se $X\sim N(\mu,\sigma^2)$, a transformação $$Z=\frac{X-\mu}{\sigma}$$

tem distribuição normal padrão (média zero e variância 1). Vamos denotar a distribuição acumulada de $Z$ por $\Phi$. Se $F$ é a função distribuição acumulada da distribuição normal com média $\mu$ e variância $\sigma^2$, temos que $$F(x)=\mathbb{P}[X \leq x ]=\mathbb{P}\left[Z\leq \frac{x-\mu}{\sigma}\right]=\Phi\left(\frac{x-\mu}{\sigma}\right).$$

Aplicando a função $\Phi^{-1}$ em ambos os lados, temos $$\Phi^{-1}(F(x))=\frac{x-\mu}{\sigma}$$

de onde obtemos que $$x=\sigma\Phi^{-1}(F(x))+\mu$$

onde $\Phi^{-1}(F(x))$ é o quantil da distribuição Normal padrão, calculado no ponto $F(x)$. Como a expressão acima tem o formato de uma expressão linear, ao fazermos o gráfico entre $x$ e $\Phi^{-1}(F(x))$ devemos esperar um comportamento linear dos pontos, se a distribuição Normal for realmente adequada. Com isso, podemos construir o Papel de Probabilidade ou QQ-Plot a partir das seguintes etapas:

  1. Considere uma amostra $x_1,\ldots,x_n$;

  2. Ordene os elementos da amostra, ou seja, $x_{(1)}\leq x_{(2)}\leq\ldots\leq x_{(n)}$;

  3. Calcule $n$ valores $d_i = \dfrac{i-a}{n+1-2\cdot a}$, com $i = 1,\ldots,n. \quad a= \dfrac{3}{8}$, se $n \leq 10; a= \dfrac{1}{2}$, caso contrário. A correção é necessário para que não tenhamos $d_i=1$, pois neste caso, teríamos que $\phi^{-1} (1) = \infty$. Estas constantes não são padrão, dependendo do autor (ou software de estatísticas) elas podem mudar.

  4. Calcule os quantis da distribuição Normal padrão para cada um dos valores $d_i$, isto é, $$\Phi^{-1}(d_{i}), \quad \quad i=1, \ldots, n;$$

5.1) (Caso Papel de Probabilidade) Faça um gráfico com os pontos $(x_{(i)}, \Phi^{-1}(d_{i})), \quad i=1, \ldots, n;$ ou

5.2) (Caso QQ-plot) Faça um gráfico com os pontos $(\Phi^{-1}(d_{i}), x_{(i)}), \quad i=1, \ldots, n;$ e

avalie a normalidade dos dados. Para isto, devemos verificar o comportamento linear dos pontos. Quanto “mais linear” for o gráfico, melhor a normalidade dos dados.

Exemplo 6.1.1

Avaliar a normalidade dos dados referentes à medição de 10 peças.

Amostra
1,90642
2,10288
1,52229
2,61826
1,42738
2,22488
1,69742
3,15435
1,98492
1,99568

Tabela 6.6.1: Amostra (1) de medição de peças

Ordenando os elementos da amostra, temos que

$x_{(1)}$ 1,42738
$x_{(2)}$ 1,52229
$x_{(3)}$ 1,69742
$x_{(4)}$ 1,90642
$x_{(5)}$ 1,98492
$x_{(6)}$ 1,99568
$x_{(7)}$ 2,10288
$x_{(8)}$ 2,22488
$x_{(9)}$ 2,61826
$x_{(10)}$ 3,15435

Tabela 6.6.2: Amostra ordenada

Vamos agora calcular os valores $d_i$’s, para $i = 1,\ldots,10$. Temos que, $n=10, a=\frac{3}{8}=0,375$. Os resultados são os seguintes:

$$d_{1}=\frac{1-0,375}{10+1-2\cdot0,375}=0,060976$$

$$d_{2}=\frac{2-0,375}{10+1-2\cdot0,375}=0,158537$$

$$d_{3}=\frac{3-0,375}{10+1-2\cdot0,375}=0,256098$$

$$d_{4}=\frac{4-0,375}{10+1-2\cdot0,375}=0,353659$$

$$d_{5}=\frac{5-0,375}{10+1-2\cdot0,375}=0,451220$$

$$d_{6}=\frac{6-0,375}{10+1-2\cdot0,375}=0,548780$$

$$d_{7}=\frac{7-0,375}{10+1-2\cdot0,375}=0,646341$$

$$d_{8}=\frac{8-0,375}{10+1-2\cdot0,375}=0,743902$$

$$d_{9}=\frac{9-0,375}{10+1-2\cdot0,375}=0,841463$$

$$d_{10}=\frac{10-0,375}{10+1-2\cdot0,375}=0,939024$$

Desta forma, calculando os quantis $\Phi^{-1}(d_i)$ temos que

$x_{(i)}$ $d_i$ $\Phi^{-1}(d_i)$
1,42738 0,060976 -1,54664
1,52229 0,158537 -1,00049
1,69742 0,256098 -0,65542
1,90642 0,353659 -0,37546
1,98492 0,45122 -0,12258
1,99568 0,54878 0,122581
2,10288 0,646341 0,375462
2,22488 0,743902 0,655424
2,61826 0,841463 1,000491
3,15435 0,939024 1,546635

Tabela 6.6.3: Estatísticas da amostra calculadas

Plotando os pontos da forma $(x_{(i)},\Phi^{-1}(d_i))$ temos o papel de probabilidade dado por

Figura6.6.1.svg

Figura 6.6.1: Gráfico de Papel de probabilidade

Também, se plotando os pontos da forma $(\Phi^{-1}(d_i), x_{(i)},)$ temos o QQ-plot dado por

Figura6.6.2.svg

Figura 6.6.2: Gráfico QQ-plot

Como demonstrado acima, a normalidade dos dados está relacionada com a linearidade do gráfico, quanto “mais linear” for o gráfico melhor a normalidade dos dados. No exemplo acima, os pontos estão próximos da reta o que é um bom indicativo da normalidade dos dados.

Histograma

Podemos comparar a histograma da distribuição dos dados com a função densidade teórica, neste caso, a distribuição normal com média e desvio padrão correspondentes.

Figura6.6.3.svg

Figura 6.6.3: Histograma da distribuição dos dados com a função densidade teórica

Empírica

Comparamos a função da distribuição empírica com a função da distribuição acumulada teórica.

Figura6.6.4.svg

Figura 6.6.4: Função de distribuição empírica e FDA teórica

6.2 - Teste de Kolmogorov-Smirnov

Grande parte dos problemas que encontramos em estatística são tratados com a hipótese que os dados são retirados de uma população com uma distribuição de probabilidade específica. O formato desta distribuição pode ser um dos objetivos da análise. Por exemplo, suponha que um pequeno número de observações foram retiradas de uma população com distribuição desconhecida e que estamos interessados em testar hipóteses sobre a média desta população. O teste paramétrico tradicional, baseado na distribuição t-student, é obtido sob o hipótese de que a população tem distribuição normal. Nesse sentido, surge a necessidade de certificarmos se essa suposição pode ser assumida. Em alguns casos, assumir a normalidade dos dados é o primeiro passo que tomamos para simplificar nossas análise. Para dar suporte a esta suposição, consideramos, dentre outros, o teste de Kolmogorov - Smirnov.

O teste de Kolmogorov - Smirnov pode ser utilizado para avaliar as hipóteses:

$$\begin{cases} H_0: \hbox{Os dados seguem uma distribuição normal} \cr H_1: \hbox{Os dados não seguem uma distribuição normal.}\end{cases}$$

Este teste observa a máxima diferença absoluta entre a função de distribuição acumulada assumida para os dados, no caso a Normal, e a função de distribuição empírica dos dados. Como critério, comparamos esta diferença com um valor crítico, para um dado nível de significância.

Considere uma amostra aleatória simples $X_1, X_2 , \cdots , X_n$ de uma população com função de distribuição acumulada contínua $F_X$ desconhecida. A estatística utilizada para o teste é: $$D_n=\sup_x|F(x)-F_n(x)|$$

Esta função corresponde a distância máxima vertical entre os gráficos de $F(x)$ e $F_n(x)$ sobre a amplitude dos possíveis valores de $x$. Em $D_n$ temos que

  • $F(x)$ representa a função de distribuição acumulada assumida para os dados;

  • $F_n(x)$ representa a função de distribuição acumulada empírica dos dados.

Neste caso, queremos testar a hipótese $H_0 : F_X = F$ contra a hipótese alternativa $H_1 : F_X \neq F$. Para isto, tomamos $X_{(1)}, X_{(2)}, \cdots , X_{(n)}$ as observações aleatórias ordenadas de forma crescente da população com função de distribuição contínua $F_X$. No caso de análise da normalidade dos dados, assumimos $F$ a função de distribuição da normal.

A função de distribuição acumulada assumida para os dados é definida por $F(x_{(i)}) = \mathbb{P}(X\leq x_{(i)})$ e a função de distribuição acumulada empírica é definida por uma função escada, dada pela fórmula: $$F_n(x)=\frac{1}{n}\sum_{i=1}^n \mathbb{I}_{\lbrace(-\infty,x]\rbrace}(x_{(i)})$$

onde $\mathbb{I}_A$ é a função indicadora. A função indicadora é definida da seguinte forma:

$$\mathbb{I}_{A}=\begin{cases} 1; \ \hbox{se} \ x\in A \cr 0; \ \hbox{caso contrário}\end{cases}$$

Observe que a função da distribuição empírica $F_n(x)$ corresponde à proporção de valores menores ou iguais a $x$. Tal função também pode ser escrita da seguinte forma

$$F_{n}(x)=\begin{cases}0, \hbox{se} \quad x< x_{(1)}\cr\frac{k}{n}, \hbox{se} \quad x_{(k)}\leq x< x_{(k + 1)}\cr1,\hbox{se} \quad x>x_{(n)} \end{cases}$$

Sob $H_0$, a distribuição assintótica da estatística de kolmogorov-Smirnov é dada por $$\lim_{n \rightarrow \infty}P\left[\sqrt{n} D_n \leq x\right] = 1-2 \sum_{j=1}^{\infty} (-1)^{j-1} \exp^{-2j^2x^2}.$$

Esta distribuição assintótica é válida quando temos conhecimento completo sobre a distribuição de $H_0$, entretanto, na prática, $H_0$ especifica uma famíla de distribuições de probabilidade. Neste caso, a distribuição assintótica da estatística de Kolmogorov-Smirnov não conhecida e foi determinada via simulação.

Como a função de distribuição empírica $F_n$ é descontínua e a função de distribuição hipotética é contínua, vamos considerar duas outras estatísticas: $$D^+=\sup_{x_{(i)}}|F(x_{(i)})-F_n(x_{(i)})|$$

$$D^-=\sup_{x_{(i)}}|F(x_{(i)})-F_n(x_{(i-1)})|$$

para calcularmos a estatística de kolmogorov-Smirnov. Essas estatísticas medem as distâncias (vertical) entre os gráficos das duas funções, teórica e empírica, nos pontos $x_{(i-1)}$ e $x_{(i)}$. Com isso, podemos utilizar como estatística de teste $$D_n=\max(D^+,D^-)$$

Se $D_n$ é maior que o valor crítico, rejeitamos a hipótese de normalidade dos dados com $(1-\alpha)100\char37$ de confiança. Caso contrário, não rejeitamos a hipótese de normalidade.

Resumo das estatísticas de teste.

x(ordenado) $F_{n}(x) $ $F(x)=\mathbb{P}\left(z_{(i)}\leq\frac{\displaystyle x_{(i)}- \overline{x}}{\displaystyle s} \right)$ $\mid F(x_{i})-F_{n}(x_{(i)})\mid$ $\mid F(x_{(i)})-F_{n}(x_{(i-1)})\mid$
$$x_{(1)}$$ $$x_{(2)}$$ $$\vdots$$ $$\frac{1}{n}$$ $$\frac{2}{n}$$ $$\vdots$$ $$F(x)=\mathbb{P}\left(z_{(1)} \leq\frac{\displaystyle x_{(1)}-\overline{x}}{\displaystyle s}\right)$$ $$F(x)=\mathbb{P}\left(z_{(2)} \leq\frac{\displaystyle x_{(2)}-\overline{x}}{\displaystyle s}\right)$$ $$\vdots$$ $$\mid F(x_{(1)})-F_{n}(x_{(1)})\mid$$ $$\mid F(x_{(2)})-F_{n}(x_{(2)})\mid$$ $$\vdots$$ $$\mid F(x_{(1)})-0 \mid$$ $$\mid F(x_{(2)})-F_{n}(x_{(1)})\mid$$ $$\vdots$$
$$\vdots$$ $$x_{(n-1)}$$ $$x_{(n)}$$ $$\frac{n-1}{n}$$ $$1$$ $$F(x)=\mathbb{P} \left(z_{(n-1)} \leq \frac{\displaystyle x_{(n-1)}-\overline{x}}{\displaystyle s}\right) $$ $$F(x)=\mathbb{P} \left(z_{(n)}\leq\frac{\displaystyle x_{(n)}-\overline{x}}{\displaystyle s}\right)$$ $$\mid F(x_{(n-1)})-F_{n}x_{(n-1)}\mid$$ $$ \mid F(x_{(n)})-F_{n}(x_{(n)})\mid$$ $$\mid F(x_{(n-1)})-F_{n}(x_{(n-2)})\mid $$ $$\mid F(x_{(n)})-F_{n}(x_{(n-1)})\mid$$

Tabela 6.6.4: Estatísticas de teste.

OBS: O valor de $\mathbb{P}\left(Z_{(i)}\leq\frac{x_{(i)}-\bar{x}}{s}\right)$ é encontrado na tabela da distribuição normal padrão.

A tabela de valores críticos para a estatística do teste de Komolgorov-Smirnov $(D_n)$ é dada a seguir.

Níveis de significância

n 0,2 0,1 0,05 0,01
5 0,45 0,51 0,56 0,67
10 0,32 0,37 0,41 0,49
15 0,27 0,30 0,34 0,40
20 0,23 0,26 0,29 0,36
25 0,21 0,24 0,27 0,32
30 0,19 0,22 0,24 0,29
35 0,18 0,20 0,23 0,27
40 0,17 0,19 0,21 0,25
45 0,16 0,18 0,20 0,24
50 0,15 0,17 0,19 0,23
Valores maiores $ \frac{1,07}{\sqrt{n}} $ $ \frac{1,22}{\sqrt{n}} $ $ \frac{1,36}{\sqrt{n}} $ $ \frac{1,63}{\sqrt{n}} $

Tabela 6.6.5: A tabela de valores críticos para a estatística do teste de Komolgorov-Smirnov $(D_n)$ de diferentes níveis de significância

Exemplo 6.2.1

Avaliar a normalidade dos dados referente a medição de 10 peças.

1,90642
2,10288
1,52229
2,61826
1,42738
2,22488
1,69742
3,15435
1,98492
1,99568

Tabela 6.6.6: Amostra (1) de medição de peças

Solução

Após ordenarmos os dados, obtemos o valor de $F_n(x_{(i)})$ fazendo a razão entre a posição $i$ e o valor total de dados, $n$. O valor de $F(x_{(i)})$ é encontrado na tabela da distribuição normal padrão, após transformarmos os dados pela relação $$Z_{(i)}=\frac{x_{(i)}-\overline{x}}{s}$$

onde $\overline{x}$ é a média aritmética e $s$ é o desvio padrão dos dados.

Dados $ F_n(x) $ empírica $ F(x) $ teórica $ |F(x_{(i)})-F_n(x_{(i)})| $ $ |F(x_{(i)})-F_n(x_{(i-1)})| $
1,42738 0,1 0,1086547 0,0086547 0,1086547
1,52229 0,2 0,1469448 0,0530552 0,0469448
1,69742 0,3 0,2388688 0,0611312 0,0388688
1,90642 0,4 0,3803466 0,0196534 0,0803466
1,98492 0,5 0,4394702 0,0605298 0,0394702
1,99568 0,6 0,4477126 0,1522874 0,0522874
2,10288 0,7 0,5304822 0,1695178 0,0695178
2,22488 0,8 0,6229025 0,1770975 0,0770975
2,61826 0,9 0,8590611 0,0409389 0,0590611
3,15435 1,0 0,9828237 0,0171763 0,0828237
Máximo 0,1770975 0,1086547

Tabela 6.6.7: Estatísitcas de teste calculadas

Com isso, $$D_n=\max(0,1770975;0,1086547)=0,1770975.$$

Considerando $\alpha = 0,05$ e $n = 10$, encontramos pela tabela de valores críticos o valor $0,41$. Como $D_n = 0,1770975 \ < \ 0,41$, não temos evidências para rejeitar a hipótese de normalidade dos dados.

Veja a seguir os resultados obtidos pelo software Action.

Estatísticas P-valores
Kolmogorov - Smirnov 0.1771 0.5012

Tabela 6.6.8: Resultados do teste de normalidade Kolmogorov - Smirnov

Figura6.6.1.svg

Figura 6.6.5: Gráfico de Papel de probabilidade

6.3 - Teste de Anderson-Darling

O teste de Anderson-Darling pode ser utilizado para avaliar as seguintes hipóteses:

$$\begin{cases}H_0: \ \hbox{A amostra segue uma distribuição normal.} \cr H_1: \hbox{A amostra não segue uma distribuição normal.} \end{cases}$$

Para a distribuição Normal com função densidade de probabilidade $$f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \ (-\infty < x < \infty).$$

a seguinte tabela fornece alguns valores de quantis e a estatística de Anderson Darling modificada, dada por $$A^2_m=\left(1+\frac{0,75}{n}+\frac{2,25}{n^2}\right)A^2.$$

Caso 0: O parâmetro $\theta (\mu,\sigma^2)$ é totalmente conhecido.

Caso 1: $\mu$ é conhecido e $\sigma^2$ é estimado por $s^2$.

Caso 2: $\sigma^2$ é conhecido e $\mu$ é estimado por $\overline{X}$.

Caso 3: Nenhum dos componentes de $\theta = (\mu,\sigma^2)$ é conhecido e são estimados por ($\overline{X},s^2$)

Caso Modificação 15,0 10,0 5,0 2,5 1,0
Caso 0 - 1,610 1,933 2,492 3,070 3,857
Caso 1 - 0,784 0,897 1,088 1,281 1,541
Caso 2 - 1,443 1,761 2,315 2,890 3,682
Caso 3 $A²(1+(0,75/n)+(2,25/n²))$ 0,560 0,632 0,751 0,870 1,029

Tabela 6.6.8: Alguns valores de quantis e a estatística de Anderson Darling modificada

Em relação ao cálculo do p-valor, temos que este depende do valor da estatística de Anderson-Darling modificada $A^{2}_{m}$. A partir do valor desta é utilizada uma interpolação que aproxima uma função exponencial. Apresentamos na tabela a seguir o cálculo do p-valor.

$ A^{2}_{m} $ P-valor
$ A^{2}_{m} < 0,200 $ p-valor = 1 - exp(-13,436 + 101,14 * $A²_{m}$ - 223,73 * ($A^{2}_{m})^{2}$)
$ 0,200 < A^{2}_{m} < 0,340 $ p-valor = 1 - exp(-8,318 + 42,796 * $A²_{m}$ - 59,938 * ($A^{2}_{m})^{2}$)
$ 0,340 < A^{2}_{m} < 0,600 $ p-valor = exp(0,9177 - 4,279 * $A²_{m}$ - 1,38 * ($A^{2}_{m})^{2}$)
$ A^{2}_{m} > 0,600 $ p-valor = exp(1,2937 - 5,709 * $A²_{m}$ + 0,0186 * ($A^{2}_{m})^{2}$)

Tabela 6.6.9: Cálculo do p-valor dependendo do valor da estatística de Anderson Darling modificada

Exemplo 6.3.1:

Considere novamente o Exemplo 6.1.1 sobre a medição de 10 peças.

1,90642 2,22488
2,10288 1,69742
1,52229 3,15435
2,61826 1,98492
1,42738 1,99568

Tabela 6.6.10: Amostra (1) de medição de peças

Vamos testar

$$\begin{cases}H_0: \ \hbox{os dados seguem uma distribuição normal} \ N(\mu,\sigma^2) \cr H_1: \ \hbox{os dados não seguem uma distribuição normal} \end{cases}$$

A média dos dados é $\bar{X} = 2,0634$ e o desvio padrão é $s = 0,5156$.

Dados Dados ordenados $ F(x_i) $ $ \ln(F(x_i)) $ $ \ln(1-F(x_i)) $
1,90642 1,42738 0,10865 -2,21958 -0,11502
2,10288 1,52229 0,14694 -1,91770 -0,15893
1,52229 1,69742 0,23887 -1,43184 -0,27295
2,61826 1,90642 0,38035 -0,96667 -0,47860
1,42738 1,98492 0,43947 -0,82219 -0,57887
2,22488 1,99568 0,44771 -0,80360 -0,59369
1,69742 2,10288 0,53048 -0,63397 -0,75605
3,15435 2,22488 0,62290 -0,47337 -0,97523
1,98492 2,61826 0,85906 -0,15192 -1,95942
1,99568 3,15435 0,98282 -0,01733 -4,06422

Tabela 6.6.11: Estatísticas de teste calculadas

Utilizando a fórmula $(\star)$, temos que $$D = -103,4169.$$

$$A^2=-n-\frac{D}{n}=-10+\frac{103,4169}{10}=0,3416856.$$

A estatística de Anderson Darling modificada para este caso (Caso 3 com μ e σ desconhecidos) é dada por: $$A_m^2=A^2\left(1+\frac{0,75}{n}+\frac{2,25}{n^2}\right)=0,375.$$

Como a estatística modificada resultou em $A^{2}_{m} = 0,375$, temos que o cálculo do p-valor é dado por:

$$\hbox{p-valor} = \exp(0,9177 - 4,279 \times A²_{m} + 1,38 \times (A^{2}_{m})^{2})=$$ $$\exp(0,9177 - 4,279 \times 0,375 + 1,38 \times (0,375)^{2})=0,414374$$

Então, existe forte evidência de que os dados provém de uma distribuição Normal.

Veja a seguir, os resultados obtidos a partir do software Action.

Estatísticas P-valores
Anderson - Darling 0.3417 0.4144

Tabela 6.6.12: Resultados do teste de normalidade Anderson Darling

Figura6.6.1.svg

Figura 6.6.6: Gráfico de Papel de probabilidade

Exemplo 6.3.2

Considere as seguintes medidas de peso de homens (em pounds): 148, 154, 158, 160, 161, 162, 166, 170, 182, 195, 236. Vamos testar:

$$\begin{cases}H_0: \ \hbox{os dados seguem uma distribuição normal} \ N(\mu,\sigma^2) \cr H_1: \ \hbox{os dados não seguem uma distribuição normal} \end{cases}$$

A média dos dados é $\bar{x} = 172$ e o desvio padrão é $s = 24,9520$.

Calculando o valor de A²

Dados Dados ordenados $ F(x_i) $ $ \ln(F(x_i)) $ $ \ln(1-F(x_i)) $
154 148 0,168063 -1,78341 -0,184
148 154 0,235336 -1,44674 -0,26832
170 158 0,287372 -1,24698 -0,3388
161 160 0,315285 -1,15428 -0,37875
160 161 0,329662 -1,10969 -0,39997
166 162 0,344295 -1,06626 -0,42204
162 166 0,404986 -0,9039 -0,51917
158 170 0,468057 -0,75916 -0,63122
182 182 0,655705 -0,42204 -1,06626
195 195 0,821676 -0,19641 -1,72415
236 236 0,99484 -0,00517 -5,26684

Tabela 6.6.13: Estatísticas de teste calculadas

Utilizando a fórmula $(\star)$, temos: $$D= -131,4145.$$

$$A^2=-\frac{D}{n}-n=\frac{131,4145}{11}-11=0,9467719.$$

A estatística de Anderson Darling modificada para esse caso (Caso 3 com $\mu$ e $\sigma$ desconhecidos) é dada por: $$A_m^2=A^2\left(1+\frac{0,75}{n}+\frac{2,25}{n^2}\right)=0,9467719\times(1+0,06818182+0,01859504)=1,02893.$$

Temos que o p-valor é dado por:

$$\hbox{p-valor} = \exp(1,2937 - 5,709 \times A²_{m} + 0,0186 \times (A^{2}_{m})^{2})=$$ $$\exp(1,2937 - 5,709 \times 1,02893 + 0,0186 \times (1,02893)^{2}) = 0,01044824 \simeq 1 \char37$$

Portanto, o p-valor é aproximadamente 1%. Então, existe forte evidência de que os dados não provém de uma distribuição Normal.

Veja a seguir os resultados obtidos pelo software Action.

Estatísticas P-valores
Anderson - Darling 0.9468 0.0105

Tabela 6.6.14: Resultados do teste de normalidade Anderson Darling

Figura6.6.7.svg

Figura 6.6.7: Gráfico de Papel de probabilidade

6.4 - Teste de Shapiro-Wilk

O teste Shapiro-Wilk, proposto em 1965, é baseado na estatística W dada por: $$W=\frac{b^2}{\displaystyle\sum_{i=1}^n (x_{(i)}-\bar{x})^2}$$

em que $x_{i}$ são os valores da amostra ordenados ($x_{(1)}$ é o menor). A constante b é determinada da seguinte forma

$$b=\begin{cases}\displaystyle\sum_{i=1}^{n/2}a_{n-i+1}\times (x_{(n-i+1)}-x_{(i)}) \ \hbox{se n é par} \cr \cr \displaystyle\sum_{i=1}^{(n+1)/2}a_{n-i+1}\times (x_{(n-i+1)}-x_{(i)}) \ \hbox{se n é ímpar}\end{cases}$$

em que $a_{n-i+1}$ são constantes geradas pelas médias, variâncias e covariâncias das estatísticas de ordem de uma amostra de tamanho n de uma distribuição Normal. Seus valores, tabelados, são dados abaixo.

i\n 2 3 4 5 6 7 8 9 10 11 12 13
1 0,7071 0,7071 0,6872 0,6646 0,6431 0,6233 0,6062 0,5888 0,5739 0,5601 0,5475 0,5359
2 0,1677 0,2413 0,2806 0,3031 0,3164 0,3244 0,3291 0,3315 0,3325 0,3325
3 0,0875 0,1401 0,1743 0,1976 0,2141 0,2260 0,2347 0,2412
4 0,0561 0,0947 0,1224 0,1429 0,1586 0,1707
5 0,0399 0,0695 0,0922 0,1099
6 0,0303 0,0539
i\n 14 15 16 17 18 19 20 21 22 23 24 25
1 0,5251 0,5150 0,5056 0,4968 0,4886 0,4808 0,4734 0,4643 0,4590 0,4542 0,4493 0,4450
2 0,3318 0,3306 0,3290 0,3273 0,3253 0,3232 0,3211 0,3185 0,3156 0,3126 0,3098 0,3069
3 0,2460 0,2495 0,2521 0,2540 0,2553 0,2561 0,2565 0,2578 0,2571 0,2563 0,2554 0,2543
4 0,1802 0,1878 0,1939 0,1988 0,2027 0,2059 0,2085 0,2119 0,2131 0,2139 0,2145 0,2148
5 0,1240 0,1353 0,1447 0,1524 0,1587 0,1641 0,1686 0,1736 0,1764 0,1787 0,1807 0,1822
6 0,0727 0,0880 0,1005 0,1109 0,1197 0,1271 0,1334 0,1399 0,1443 0,1480 0,1512 0,1539
7 0,0240 0,0433 0,0593 0,0725 0,0837 0,0932 0,1013 0,1092 0,115 0,1201 0,1245 0,1283
8 0,0196 0,0359 0,0496 0,0612 0,0711 0,0804 0,0878 0,0941 0,0997 0,1046
9 0,0163 0,0303 0,0422 0,0530 0,0618 0,0696 0,0764 0,0823
10 0,0140 0,0263 0,0368 0,0459 0,0539 0,061
11 0,0122 0,0228 0,0321 0,0403
12 0,0107 0,0200
13 0,0000
i\n 26 27 28 29 30 31 32 33 34 35 36 37
1 0,4407 0,4366 0,4328 0,4291 0,4254 0,4220 0,4188 0,4156 0,4127 0,4096 0,4068 0,4040
2 0,3043 0,3018 0,2992 0,2968 0,2944 0,2921 0,2898 0,2876 0,2854 0,2834 0,2813 0,2794
3 0,2533 0,2522 0,2510 0,2499 0,2487 0,2475 0,2463 0,2451 0,2439 0,2427 0,2415 0,2403
4 0,2151 0,2152 0,2151 0,2150 0,2148 0,2145 0,2141 0,2137 0,2132 0,1227 0,2121 0,2116
5 0,1836 0,1848 0,1857 0,1864 0,1870 0,1874 0,1878 0,1880 0,1882 0,1883 0,1883 0,1883
6 0,1563 0,1584 0,1601 0,1616 0,1630 0,1641 0,1651 0,1660 0,1667 0,1673 0,1678 0,1683
7 0,1316 0,1346 0,1372 0,1395 0,1415 0,1433 0,1449 0,1463 0,1475 0,1487 0,1496 0,1505
8 0,1089 0,1128 0,1162 0,1192 0,1219 0,1243 0,1265 0,1284 0,1301 0,1317 0,1331 0,1344
9 0,0876 0,0923 0,0965 0,1002 0,1036 0,1066 0,1093 0,1118 0,1140 0,1160 0,1179 0,1196
10 0,0672 0,0728 0,0778 0,0822 0,0862 0,0899 0,0931 0,0961 0,0988 0,1013 0,1036 0,1056
11 0,0476 0,0540 0,0598 0,065 0,0697 0,0739 0,0777 0,0812 0,0844 0,0873 0,0900 0,0924
12 0,0284 0,0358 0,0424 0,0483 0,0537 0,0585 0,0629 0,0669 0,0706 0,0739 0,0770 0,0798
13 0,0094 0,0178 0,0253 0,032 0,0381 0,0435 0,0485 0,0530 0,0572 0,0610 0,0645 0,0677
14 0,0000 0,0084 0,0159 0,0227 0,0289 0,0344 0,0395 0,0441 0,0484 0,0523 0,0559
15 0 0,0076 0,0144 0,0206 0,0262 0,0314 0,0361 0,0404 0,0444
16 0,0000 0,0068 0,0131 0,0187 0,0239 0,0287 0,0331
17 0,0000 0,0062 0,0119 0,0172 0,0220
18 0,0000 0,0057 0,0110
19 0,0000
i\n 38 39 40 41 42 43 44 45 46 47 48 49 50
1 0,4015 0,3989 0,3964 0,3940 0,3917 0,3894 0,3872 0,3850 0,3830 0,3808 0,3789 0,3770 0,3751
2 0,2774 0,2755 0,2737 0,2719 0,2701 0,2684 0,2667 0,2651 0,2635 0,2620 0,2604 0,2589 0,2574
3 0,2391 0,2380 0,2368 0,2357 0,2345 0,2334 0,2323 0,2313 0,2302 0,2291 0,2281 0,2271 0,2260
4 0,2110 0,2104 0,2098 0,2091 0,2085 0,2078 0,2072 0,2065 0,2058 0,2052 0,2045 0,2038 0,2032
5 0,1881 0,1880 0,1878 0,1876 0,1874 0,1871 0,1868 0,1865 0,1862 0,1859 0,1855 0,1851 0,1847
6 0,1686 0,1689 0,1691 0,1693 0,1694 0,1695 0,1695 0,1695 0,1695 0,1695 0,1693 0,1692 0,1691
7 0,1513 0,1520 0,1526 0,1531 0,1535 0,1539 0,1542 0,1545 0,1548 0,1550 0,1551 0,1553 0,1554
8 0,1356 0,1366 0,1376 0,1384 0,1392 0,1398 0,1405 0,1410 0,1415 0,1420 0,1423 0,1427 0,1430
9 0,1211 0,1225 0,1237 0,1249 0,1259 0,1269 0,1278 0,1286 0,1293 0,1300 0,1306 0,1312 0,1317
10 0,1075 0,1092 0,1108 0,1123 0,1136 0,1149 0,1160 0,1170 0,1180 0,1189 0,1197 0,1205 0,1212
11 0,0947 0,0967 0,0986 0,1004 0,1020 0,1035 0,1049 0,1062 0,1073 0,1085 0,1095 0,1105 0,1113
12 0,0824 0,0848 0,0870 0,0891 0,0909 0,0927 0,0943 0,0959 0,0972 0,0986 0,0998 0,1010 0,1020
13 0,0706 0,0733 0,0759 0,0782 0,0804 0,0824 0,0842 0,0860 0,0876 0,0892 0,0906 0,0919 0,0932
14 0,0592 0,0622 0,0651 0,0677 0,0701 0,0724 0,0745 0,0765 0,0783 0,0801 0,0817 0,0832 0,0846
15 0,0481 0,0515 0,0546 0,0575 0,0602 0,0628 0,0651 0,0673 0,0694 0,0713 0,0731 0,0748 0,0764
16 0,0372 0,0409 0,0444 0,0476 0,0506 0,0534 0,0560 0,0584 0,0607 0,0628 0,0648 0,0667 0,0685
17 0,0264 0,0305 0,0343 0,0379 0,0411 0,0442 0,0471 0,0497 0,0522 0,0546 0,0568 0,0588 0,0608
18 0,0158 0,0203 0,0244 0,0283 0,0318 0,0352 0,0383 0,0412 0,0439 0,0465 0,0489 0,0511 0,0532
19 0,0053 0,0101 0,0146 0,0188 0,0227 0,0263 0,0296 0,0328 0,0357 0,0385 0,0411 0,0436 0,0459
20 0,0000 0,0049 0,0094 0,0136 0,0175 0,0211 0,0245 0,0277 0,0307 0,0335 0,0361 0,0386
21 0,0000 0,0045 0,0087 0,0126 0,0163 0,0197 0,0229 0,0259 0,0288 0,0314
22 0,0000 0,0042 0,0081 0,0118 0,0153 0,0185 0,0215 0,0244
23 0,0000 0,0039 0,0076 0,0111 0,0143 0,0174
24 0,0000 0,0037 0,0071 0,0104
25 0,0000 0,0350

Tabela 6.6.15: Valores da estatística constante $a$ de Shapiro-Wilk

Para realizar o teste de Shapiro-Wilk, devemos:

1. Formulação da Hipótese:

$$\displaystyle \begin{cases}H_0: \hbox{A amostra provém de uma população Normal} \cr H_1: \hbox{A amostra não provém de uma população Normal}\end{cases}$$

2. Estabelecer o Nível de significância do teste (α), normalmente 0,05;

3. Calcular a estatística de teste:

  • Ordenar as n observações da amostra: $x_{(1)}$, $x_{(2)}$, $x_{(3)}$, …, $x_{(n)}$;

  • Calcular $\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2$;

  • Calcular b;

  • Calcular W.

4. Tomar a decisão: Rejeitar $H_{0}$ ao nível de significância α se $W_{\hbox{calculado }}$< $W_α$ (os valores críticos da estatística W de Shapiro-Wilk são dados na Tabela 6.6.16 abaixo).

Níveis de significância:

N 0,01 0,02 0,05 0,1 0,5 0,9 0,95 0,98 0,99
3 0,753 0,756 0,767 0,789 0,959 0,998 0,999 1,000 1,000
4 0,687 0,707 0,748 0,792 0,935 0,987 0,992 0,996 0,997
5 0,686 0,715 0,762 0,806 0,927 0,979 0,986 0,991 0,993
6 0,713 0,743 0,788 0,826 0,927 0,974 0,981 0,986 0,989
7 0,730 0,760 0,803 0,838 0,928 0,972 0,979 0,985 0,988
8 0,749 0,778 0,818 0,851 0,932 0,972 0,978 0,984 0,987
9 0,764 0,791 0,829 0,859 0,935 0,972 0,978 0,984 0,986
10 0,781 0,806 0,842 0,869 0,938 0,972 0,978 0,983 0,986
11 0,792 0,817 0,850 0,876 0,940 0,973 0,979 0,984 0,986
12 0,805 0,828 0,859 0,883 0,943 0,973 0,979 0,984 0,986
13 0,814 0,837 0,866 0,889 0,945 0,974 0,979 0,984 0,986
14 0,825 0,846 0,874 0,895 0,947 0,975 0,980 0,984 0,986
15 0,835 0,855 0,881 0,901 0,950 0,975 0,980 0,984 0,987
16 0,844 0,863 0,887 0,906 0,952 0,976 0,981 0,985 0,987
17 0,851 0,869 0,892 0,910 0,954 0,977 0,981 0,985 0,987
18 0,858 0,874 0,897 0,914 0,956 0,978 0,982 0,986 0,988
19 0,863 0,879 0,901 0,917 0,957 0,978 0,982 0,986 0,988
20 0,868 0,884 0,905 0,920 0,959 0,979 0,983 0,986 0,988
21 0,873 0,888 0,908 0,923 0,960 0,980 0,983 0,987 0,989
22 0,878 0,892 0,911 0,926 0,961 0,980 0,984 0,987 0,989
23 0,881 0,895 0,914 0,928 0,962 0,981 0,984 0,987 0,989
24 0,884 0,898 0,916 0,930 0,963 0,981 0,984 0,987 0,989
25 0,888 0,901 0,918 0,931 0,964 0,981 0,985 0,988 0,989
26 0,891 0,904 0,920 0,933 0,965 0,982 0,985 0,988 0,989
27 0,894 0,906 0,923 0,935 0,965 0,982 0,985 0,988 0,990
28 0,896 0,908 0,924 0,936 0,966 0,982 0,985 0,988 0,990
29 0,898 0,910 0,926 0,937 0,966 0,982 0,985 0,988 0,990
30 0,900 0,912 0,927 0,939 0,967 0,983 0,985 0,988 0,990
31 0,902 0,914 0,929 0,940 0,967 0,983 0,986 0,988 0,990
32 0,904 0,915 0,930 0,941 0,968 0,983 0,986 0,988 0,990
33 0,906 0,917 0,931 0,942 0,968 0,983 0,986 0,989 0,990
34 0,908 0,919 0,933 0,943 0,969 0,983 0,986 0,989 0,990
35 0,910 0,920 0,934 0,944 0,969 0,984 0,986 0,989 0,990
36 0,912 0,922 0,935 0,945 0,970 0,984 0,986 0,989 0,990
37 0,914 0,924 0,936 0,946 0,970 0,984 0,987 0,989 0,990
38 0,916 0,925 0,938 0,947 0,971 0,984 0,987 0,989 0,990
39 0,917 0,927 0,939 0,948 0,971 0,984 0,987 0,989 0,991
40 0,919 0,928 0,940 0,949 0,972 0,985 0,987 0,989 0,991
41 0,920 0,929 0,941 0,950 0,972 0,985 0,987 0,989 0,991
42 0,922 0,930 0,942 0,951 0,972 0,985 0,987 0,989 0,991
43 0,923 0,932 0,943 0,951 0,973 0,985 0,987 0,990 0,991
44 0,924 0,933 0,944 0,952 0,973 0,985 0,987 0,990 0,991
45 0,926 0,934 0,945 0,953 0,973 0,985 0,988 0,990 0,991
46 0,927 0,935 0,945 0,953 0,974 0,985 0,988 0,990 0,991
47 0,928 0,936 0,946 0,954 0,974 0,985 0,988 0,990 0,991
48 0,929 0,937 0,947 0,954 0,974 0,985 0,988 0,990 0,991
49 0,929 0,938 0,947 0,955 0,974 0,985 0,988 0,990 0,991
50 0,930 0,939 0,947 0,955 0,974 0,985 0,988 0,990 0,991

Tabela 6.6.16: A tabela de valores críticos para a estatística do teste de Shapiro Wilk $W_{\alpha}$ de diferentes níveis de significância

Exemplo 6.4.1

Considere novamente o Exemplo 6.1.1 sobre a medição de 10 peças.

1,90642 2,22488
2,10288 1,69742
1,52229 3,15435
2,61826 1,98492
1,42738 1,99568

Tabela 6.6.17: Amostra (1) de medição de peças

Vamos testar

$$\begin{cases}H_0: \ \hbox{os dados seguem uma distribuição normal} \ N(\mu,\sigma^2) \cr H_1: \ \hbox{os dados não seguem uma distribuição normal} \end{cases}$$

Primeiramente, ordenamos os dados da amostra

$x_{(1)}$ 1,42738
$x_{(2)}$ 1,52229
$x_{(3)}$ 1,69742
$x_{(4)}$ 1,90642
$x_{(5)}$ 1,98492
$x_{(6)}$ 1,99568
$x_{(7)}$ 2,10288
$x_{(8)}$ 2,22488
$x_{(9)}$ 2,61826
$x_{(10)}$ 3,15435

Tabela 6.6.18: Amostra ordenada

Temos que $\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2=2,392327$ e

$i$ $n-i+1$ $a_{n-i+1}$ $x_{(n-i+1)}$ $x_{(i)}$ $a_{n-i+1(x(n-i+1)-x(i))}$
1 10 0,5739 3,15435 1,42738 0,991108
2 9 0,3291 2,61826 1,52229 0,360684
3 8 0,2141 2,22488 1,69742 0,112929
4 7 0,1224 2,10288 1,90642 0,024047
5 6 0,0399 1,99568 1,98492 0,000429

Tabela 6.6.19: Estatísticas de teste calculadas

Desta forma, segue que b = 1,484197 e, por fim, $W$ é dado por $$W=\frac{b^2}{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2}=\frac{2,217708}{2,392327}=0,927.$$

Pela regra de decisão do teste, $W_{\hbox{calculado}} = 0,927 > W_{(0,05;10)} = 0,842$, com o p-valor calculado por $\mathbb{P}[W > W_{\hbox{calculado}}] = 0,4162 > α = 0,05$. Assim, podemos afirmar com nível de significância de 5% que a amostra provém de uma população normal.

Veja a seguir os resultados obtidos pelo software Action.

Estatísticas P-valores
Shapiro - Wilk 0.9267 0.4162

Tabela 6.6.20: Resultados do teste de normalidade Anderson Darling

Figura6.6.1.svg

Figura 6.6.8: Gráfico de Papel de probabilidade

Exemplo 6.4.2

Avaliar a normalidade dos dados referente a medição de 10 peças.

8; 9; 10; 10; 10; 12; 12; 16; 19; 24

Em seguida, calculamos $\displaystyle\sum_{i=1}^n (x_i-\bar{x})^2=236$ e a constante b:

$i$ $n-i+1$ $a_{n-i+1}$ $x_{(n-i+1)}$ $x_{(i)}$ $a_{n-i+1(x(n-i+1)-x(i))}$
1 10 0,5739 24 8 9,1824
2 9 0,3291 19 9 3,2910
3 8 0,2141 16 10 1,2846
4 7 0,1224 12 10 0,2448
5 6 0,0399 12 10 0,0798
b=14,0826

Tabela 6.6.21: Estatísticas do teste de normalidade Shapiro-Wilk

e por fim, $W$: $$W=\frac{b^2}{\displaystyle\sum_{i=1}^n(x_i-\bar{x})^2}=\frac{14,0826^2}{236}=0,840.$$

Pela regra de decisão do teste, $W{\hbox{calculado}}$ = 0,840 < $W_{(0,05;10)}$ = 0,842, com o p-valor calculado por P[W > $W{\hbox{calculado}}$] = 0,0443 < α = 0,05. Assim, podemos afirmar com nível de significância de 5% que a amostra não provém de uma população normal. Esse fato é confirmado pela aleatoriedade dos pontos em torno da reta.

Veja a seguir os resultados obtidos pelo software Action.

Estatísticas P-valores
Shapiro - Wilk 0.8401 0.0443

Tabela 6.6.22: Resultados do teste de normalidade Shapiro Wilk

Figura6.6.9.svg

Figura 6.6.9: Gráfico de Papel de probabilidade

6.5 - Teste de Ryan-Joiner

O teste de Ryan-Joiner é utilizado para testar se os dados provém de uma população com distribuição normal. É similar ao teste de Shapiro-Wilk, pois também se baseia na relação linear entre a estatística de ordem da distribuição normal de uma amostra de tamanho $n$ e a amostra da população em estudo após ser ordenada.

Suponha que $\mathbf{X}=X_1, X_2, \dots,X_n$ represente o vetor contendo uma amostra de tamanho $n$ da população de interesse. Denotando por $\mathbf{Y}=Y_1,Y_2, \dots,Y_n$ o vetor ordenado de forma crescente dos elementos de $\mathbf{X}$, ou seja, $Y_1=\min(\mathbf{X})$ e $Y_n=\max(\mathbf{X})$ e analogamente para os termos intermediários, por fim, seja $\mathbf{Z}=Z_1,Z_2, \dots,Z_n$ um vetor contendo os valores dos quantis teóricos de uma distribuição $N(0,1)$, dado por

$$Z_i=\Phi ^{-1} \left(\frac{i-3/8}{n+1/4}\right) \qquad i=1,2,\dots,n$$

em que $\left(\dfrac{i-3/8}{n+1/4}\right)$ é conhecido como posição de plotagem.

O teste de Ryan-Joiner se resume em estudar o gráfico normal de probabilidade entre $\mathbf{Z}$ e $\mathbf{Y}$ atravéz do método de regressão linear (veja com mais detalhes papel de probabilidade), caso a amostra $\mathbf{X}$ provenha de uma população normal esperamos que $\mathbf{Z}$ e $\mathbf{Y}$ tenha, de fato, uma relação linear. A ideia central do teste está em estudar o quão significativa é essa relação, para isso Ryan-Joiner propôs a estatística de teste baseada no coeficiente de correlação amostral de Pearson, dada por $$r=\frac{\displaystyle\sum_{i=1}^{n} \left(Y_i-\bar{Y}\right) \left( Z_i - \bar{Z} \right)}{\displaystyle\sqrt{\sum_{i=1}^{n} \left(Y_i-\bar{Y}\right)^2 } \sqrt{\displaystyle\sum_{i=1}^{n} \left( Z_i - \bar{Z} \right)^2}}$$

O teste de Ryan-Joiner rejeita a hipótese de normalidade dos dados se $ r \ \leq c_{\alpha}$ onde $c_{\alpha}$ é o valor crítico do teste. Porém, sob $H_0$, a distribuição de $r$ depende de $n$, ou seja, para tamanhos de amostras diferentes temos distribuições diferentes e consequentemente valores críticos distintos.

Por sua vez, o $\hbox{p-valor}$ é calculado sendo a probabilidade de $r$ ser menor que $r_{\hbox{obs}}$ considerando que $H_0$ é verdadeira, ou seja, $\hbox{p-valor}=\mathbf{P} [ r \ < \ r_{\hbox{obs}} | H_0 ]$, porém, como mencionado a distribuição de $r$, sob $H_0$, depende do tamanho da amostra, portanto necessitamos de apoio computacional para o calculo do p-valor e $c_{\alpha}$.

De maneira prática, o teste de Ryan-Joiner é realizado pelos seguintes passos:

  • Fixar as hipóteses

  • $$\begin{cases} H_0: \hbox{A amostra provém de população com distribuição normal}; \cr H_1: \hbox{A amostra não provém de população com distribuição normal}.\end{cases}$$

  • Definir o tamanho da amostra $n$;

  • Ordenar a amostra $x_1,x_2, \dots ,x_n$ em $y_1,y_2, \dots, y_n$;

  • Calcular os quantis $z_1,z_2, \dots ,z_n$;

  • Calcular

  • $r=\frac{\displaystyle\sum_{i=1}^{n} \left(Y_i-\bar{Y}\right) \left( Z_i - \bar{Z} \right)}{\sqrt{\displaystyle\sum_{i=1}^{n} \left(Y_i-\bar{Y}\right)^2 } \sqrt{\displaystyle\sum_{i=1}^{n} \left( Z_i - \bar{Z} \right)^2}}$;

  • Fixar o nível de significância $\alpha$;

  • Calcular $c_\alpha$;

  • Se $r\ \leq \ c_\alpha$, a um nível de significância $\alpha$, rejeitar $H_0$, caso contrário, não rejeitar $H_0$.

Exemplo 6.5.1

Considere novamente o exemplo $(6.1.1)$ de medidas de 10 peças:

Dados:

1,90642 2,10288 1,52229 2,61826 1,42738 2,22488 1,69742 3,15435 1,98492 1,99568

Tabela 6.6.23: Amostra (1) de medição de peças

Para o exemplo em questão, temos $n=10$. Os dados ordenados e os quantis teóricos para $i=1,2, \dots,10$ são dados pela Tabela 6.6.24 a seguir:

y1 1,42738 z1 -1,5466353
y2 1,52229 z2 -1,0004905
y3 1,69742 z3 -0,6554235
y4 1,90642 z4 -0,3754618
y5 1,98492 z5 -0,1225808
y6 1,99568 z6 0,1225808
y7 2,10288 z7 0,3754618
y8 2,22488 z8 0,6554235
y9 2,61826 z9 1,0004905
y10 3,15435 z10 1,5466353

Tabela 6.6.24: Amostra ordenada e seus quantis teóricos

O coeficiente de correlação de Pearson é dado por: $$r=\frac{\displaystyle\sum_{i=1}^{n} \left(Y_i-\bar{Y}\right)\left( Z_i - \bar{Z} \right)}{\sqrt{\displaystyle\sum_{i=1}^{n} \left(Y_i-\bar{Y}\right)^2 } \sqrt{\displaystyle\sum_{i=1}^{n} \left( Z_i - \bar{Z} \right)^2}}=\frac{4,188292}{\sqrt{2,39237} \sqrt{7,957279}} =\frac{4,188292}{1,546715 \times 2,820865}=0,959408$$

Utilizando o nível de confiança $\alpha=0,05$, com $n=10$, temos que $c_{0,05}=0,9173243$. Como $r=0,9599408 \ > \ c_{0,05}=0,9173243$ não rejeitamos $H_0$ a um nível de significância de 5%, ou seja, não rejeitamos que a amostra provém de uma população normal. Além disso, $\hbox{p-valor}=\mathbf{P}[r \ < \ r_{obs}]=\mathbf{P}[r \ < \ 0,9599408]=0,3244$, que é maior que o nível de significância $\alpha=0,05$ reforçando a conclusão.

Estatísticas P-valores
Ryan - Joiner 0.9599 0.3094

Tabela 6.6.25: Resultados do teste de normalidade Ryan-Joiner

Figura6.6.1.svg

Figura 6.6.10: Gráfico de Papel de probabilidade

Exemplo 6.5.2

Considere novamente os dados de medição de 10 peças do exemplo 6.4.2:

Medições:

8 9 10 10 10 12 12 16 19 24

Tabela 6.6.26: Amostra (2) de medição de peças

Para o exemplo em questão, novamente temos $n=10$. Os dados ordenados e os quantis teóricos para $i=1,2, \dots,10$ são dados pelas tabelas a seguir:

y1 8 z1 -1,5466353
y2 9 z2 -1,0004905
y3 10 z3 -0,6554235
y4 10 z4 -0,3754618
y5 10 z5 -0,1225808
y6 12 z6 0,1225808
y7 12 z7 0,3754618
y8 16 z8 0,6554235
y9 19 z9 1,0004905
y10 24 z10 1,5466353

Tabela 6.6.27: Amostra ordenada e seus quantis teóricos

O coeficiente de correlação de Pearson é dado por: $$r=\frac{\displaystyle\sum_{i=1}^{n} \left(Y_i-\bar{Y}\right)\left( Z_i - \bar{Z} \right)}{\sqrt{\displaystyle\sum_{i=1}^{n} \left(Y_i-\bar{Y}\right)^2 } \sqrt{\displaystyle\sum_{i=1}^{n} \left( Z_i - \bar{Z} \right)^2}}=\frac{39,6797}{\sqrt{236}\sqrt{7,957279}} =\frac{39,6797}{15,36229\times2820865}=0,915611$$

Utilizando o nível de confiança $\alpha=0,05$, com $n=10$, temos que $c_{0,05}=0,9173243$.

Como $r=0,915611\ < \ c_{0,05}=0,9173243$ rejeitamos $H_0$ a um nível de significância de 5%, ou seja, rejeitamos que a amostra provém de uma população normal. Além disso, $\hbox{p-valor}=\mathbf{P}[r \ < \ r_{obs}]=\mathbf{P}[r \ < \ 0,9599408]= 0,0485$, que é menor que o nível de significância $\alpha=0,05$ reforçando a conclusão.

Estatísticas P-valores
Ryan - Joiner 0.9157 0.0467

Tabela 6.6.28: Resultados do teste de normalidade Ryan-Joiner

Figura6.6.9.svg

Figura 6.6.11: Gráfico de Papel de probabilidade

October 3, 2025: RevisãoEBeInf (f1096ebf)