5.2 Estatísticas descritivas

2 - Estatísticas descritivas

As estatísticas descritivas são números que resumem e descrevem o conjuntos de dados. As estatísticas descritivas apenas “descrevem” os dados, elas não representam generalizações da amostra para a população. A técnica utilizada para estender conclusões da amostra para a população é a inferência. A seguir, apresentamos as medidas básicas de uma análise descritiva dos dados: as medidas de posição, medidas de dispersão, quartis, coeficiente de assimetria, coeficiente de curtose e o esquema dos cinco números.

2.1 - Medidas de posição

São as estatísticas que representam uma série de dados orientando-nos quanto à posição da distribuição em relação ao eixo horizontal do gráfico da curva de frequência. As medidas de posições mais importantes são média aritmética, mediana e moda. Usaremos as seguintes notações:

$x$: valor de cada indivíduo da amostra.

$\overline{x}$: média amostral.

$n$: tamanho amostral.

Média populacional

A média populacional é calculada somando-se todos os valores da população e dividindo o resultado pelo total de elementos da população. Numa população de $N$ elementos, a média populacional é dada por

$\displaystyle\mu=\frac{x_1+\ldots+x_N}{N}$

Média Amostral

A média amostral, aritmética, ou simplesmente média, é calculada somando-se os valores das observações da amostra e dividindo-se o resultado pelo número de valores. Assim, a média amostral é dada por

$\displaystyle\overline{x}=\frac{x_1+\ldots+x_n}{n}$

Exemplo 2.1.1

Uma amostra de 5 barras de aço foi retirada da linha de produção e seus comprimentos foram medidos. Os valores foram: 4,5; 4,6; 4,5; 4,4; 4,5.

Desta forma, a média é dada por

$\displaystyle\overline{x}=\frac{4,5+4,6+4,5+4,4+4,5}{5}=4,5$

Exemplo 2.1.2

Foram medidos os comprimentos de 5 leitos hospitalares e os valores (em metros) obtidos foram: 2,26; 2,30; 2,31; 2,28; 2,32.

A média é então, dada por

$$\overline{X} = \frac{2,26 + 2,30 + 2,31 + 2,28 + 2,32}{5} = \frac{11,47}{5} = 2,294.$$

Mediana

Para calcular a mediana devemos, em primeiro lugar, ordenar os dados do menor para o maior valor. Se o número de observações for ímpar, a mediana será a observação central. Se o número de observações for par, a mediana será a média aritmética das duas observações centrais. Notação: $\tilde{X}$.

Exemplo 2.1.3

Consideremos os seguintes dados correspondentes aos comprimentos de 8 rolos de fio de aço: 65, 72, 70, 72, 60, 67, 69, 68.

Ordenando os valores temos: 60, 65, 67, 68, 69, 70, 72, 72. Como o número de observações é par, a mediana é dada pela média dos dois valores centrais que são 68 e 69, isto é,

$\displaystyle\tilde{X}=\frac{68+69}{2}=68,5$

Moda

A moda de um conjunto de valores é o valor que apresenta a maior frequência.

Exemplo 2.1.4

Considerando os dados do Exemplo 2.1.3 temos que sua moda é 72, pois este é o valor do conjunto de dados que aparece com maior frequência.

Exemplo 2.1.5

Em um hospital, foram contabilizados o número de pessoas atendidas pela ortopedia durante os 30 dias de um mês. Os valores observados estão apresentados na tabela a seguir.

119 118 125 115 107
128 133 133 121 101
118 143 126 117 141
109 135 115 115 119
131 116 115 124 134
140 129 129 115 119

Tabela 2.1: Número de pessoas atendidas pela ortopedia

A média dos dados é dada por:

$$\overline{X} = \dfrac{119+118+\cdots+115+119}{30}\approx 123$$

Portanto, temos em média aproximadamente 123 pessoas atendidas pela ortopedia, diariamente.

Para o cálculo da mediana, inicialmente ordenamos os dados

101 105 107 109 115 115 115 115 116 117
118 118 119 119 119 121 124 125 126 128
129 129 131 133 133 134 135 140 141 143

Tabela 2.2: Dados ordenados

Como $n$=30 é par, selecionamos as duas observações centrais e calculamos a média

$$\tilde{X} = \dfrac{119+121}{2} = 120$$

Portanto, metade das informações estão localizadas abaixo de 120 e a outra metade acima de 120.

2.2 - Medidas de dispersão

Considere o exemplo de duas linha de produção de uma peça. A medida média do comprimento da peça é de 75cm e ambas as linhas estão produzindo peças com médias próximas desse valor. Podemos considerar que as peças produzidas por ambas as linhas são adequadas?

Figura2.1.svg

Figura 2.1: Dispersão de dados de duas linhas de produção de uma peça

Amplitude

A amplitude é definida como sendo a diferença entre o maior e o menor valor do conjunto de dados. Denotaremos a amplitude por $R$. Portanto, consideremos o conjunto de dados ordenado

$$X_{(1)}\leq X_{(2)}\leq X_{(3)}\leq \cdots \leq X_{(n-1)}\leq X_{(n)}$$

A amplitude $R$ dos dados é dada por:

$$R = X_{(n)} - X_{(1)}$$

Exemplo 2.2.1

Considere o Exemplo 2.1.3. Qual a amplitude deste conjunto de dados?

Como o valor máximo do conjunto é 72 e o valor mínimo é 60, temos que a amplitude é:

$R = 72 - 60 = 12$.

É claro que as peças produzidas pela primeira linha de produção são melhores que a segunda. Isso ocorre porque a dispersão dos elementos em torno da média é menor, ou seja, os elementos estão mais concentrados em torno da média na primeira linha de produção.

Como queremos avaliar a dispersão dos dados em torno da média, esse valor estará relacionado com a distância dos dados em relação à média. Essa distância será chamada de desvio, $d_i$.

$$d_i = X_i - \overline{X}$$

Figura2.2.svg

Figura 2.2: Desvio dos dados de duas linhas de produção de uma peça

No exemplo da imagem acima, temos

$$d_1 + d_2 + d_3 + d_4 = 0$$

O qual nos levaria à conclusão errada de que não existe variação entre os dados. Desta forma, precisamos de alguns medidas estatísticas para poder estudar a dispersão dos dados de forma correta.

Dispersão é sinônimo de variação ou variabilidade. Para medir a dispersão, duas medidas são usadas mais frequentemente: a amplitude e o desvio padrão. Para definirmos desvio padrão é necessário definir variância. A notação mais comumente usada é:

- variância amostral.

σ² - variância populacional.

s - desvio padrão amostral.

σ - desvio padrão populacional.

Variância populacional

A variância de uma população ${x_1,…,x_{N}}$ de $N$ elementos é a medida de dispersão definida como a média do quadrado dos desvios dos elementos em relação à média populacional $μ$. Ou seja, a variância populacional é dada por:

$\displaystyle\sigma^2=\sum_{i=1}^N\frac{(x_i-\mu)^2}{N}$

Variância amostral

A variância de uma amostra ${x_1,…,x_{n}}$ de $n$ elementos é definida como a soma ao quadrado dos desvios dos elementos em relação à sua média $\overline{x}$ dividido por $(n-1)$. Ou seja, a variância amostral é dada por:

$\displaystyle s^2=\sum_{i=1}^n\frac{(x_i-\overline{x})^2}{n-1}$

Ao utilizarmos a média amostral como estimador de $μ$, ao calcular a variância amostral, perdemos 1 grau de liberdade em relação à variância populacional.

Desvio padrão populacional

Sendo a variância uma medida de dimensão igual ao quadrado da dimensão dos dados, pode causar problemas de interpretação. O desvio padrão populacional de um conjunto de dados é igual à raiz quadrada da variância populacional. Desta forma, o desvio padrão populacional é dado por:

$\displaystyle\sigma=\sqrt{\sigma^2}=\sqrt{\sum_{i=1}^N\frac{(x_i-\mu)^2}{N}}$

Desvio padrão amostral

O desvio padrão amostral de um conjunto de dados é igual à raiz quadrada da variância amostral. Desta forma, o desvio padrão amostral é dado por:

$\displaystyle s=\sqrt{s^2}=\sqrt{\sum_{i=1}^n\frac{(x_i-\overline{x})^2}{n-1}}$

O desvio padrão indica em média qual sera o “erro” (desvio) cometido ao tentar substituir cada observação pela medida resumo do conjunto de dados (no caso, a média).

Exemplo 2.2.2

Considere novamente os dados do Exemplo 2.1.3. Calcule o desvio padrão dos dados.

Para calcularmos o desvio padrão devemos primeiramente calcular a média $\overline{x}$, isto é:

$\displaystyle\overline{x}=\frac{65+72+70+72+60+67+69+68}{8}=67,875$

Agora vamos subtrair $\overline{x}$ de cada valor, elevar os resultados ao quadrado e somá-los. Então, dividimos o total dos quadrados pelo número de valores (8 rolos de fio de aço) menos 1, ou seja, por (n-1) e extraímos a raiz quadrada:

$(x-\overline{x})$ $(x-\overline{x})^2$
$65-67,875 = -2,875$ $(-2,875)^2 = 8,265625$
$72-67,875 = 4,125$ $(4,125)^2 = 17,015625$
$70-67,875 = 2,125$ $(2,125)^2 = 4,515625$
$72-67,875 = 4,125$ $(4,125)^2 = 17,015625$
$60-67,875 = -7,875$ $(-7,875)^2 = 62,015625$
$67-67,875 = -0,875$ $(-0,875)^2 = 0,765625$
$69-67,875 = 1,125$ $(1,125)^2 = 1,265625$
$68-67,875 = 0,125$ $(0,125)^2 = 0,015625$
$Total = 110,875$

Tabela 2.3: Cálculo do desvio padrão dos dados

$\displaystyle\frac{110,875}{7}=15,83929\Rightarrow s=\sqrt{15,83929}\Rightarrow s=3,97986$

Portanto, o desvio padrão é 3,97986.

Exemplo 2.2.3

Consideremos o Exemplo 2.1.5, em que foram contabilizados o número de pessoas atendidas pela ortopedia durante os 30 dias de um mês. Os valores observados estão apresentados na Tabela 2.1.

Vimos que $\overline{X} = 123$

Calculando a variância, temos:

$$S^2 = \sum_{i=1}^{n} \frac{(X_i-\overline{X})^2}{n-1}=\sum_{i=1}^{n} \frac{(X_i-123)^2}{30-1}=$$ $$=\frac{(119-123)^2+(118-123)^2+…+(119-123)^2}{29}=106,7586$$

O desvio padrão é dado por

$$S = \sqrt{S^2} = \sqrt{106,7586} = 10,3324$$

Observamos que o desvio-padrão representa pouco menos de 10% do valor da média.

O cálculo da amplitude é dado por

$$R = X_{(30)} - X_{(1)} = 143 - 101 = 42$$

Portanto, o tamanho do intervalo em que os dados estão inseridos é de 42.

Coeficiente de variação

O desvio padrão é bastante afetado pela magnitude dos dados, ou seja, ele não é uma medida resistente. Se quisermos comparar a variabilidade de dois conjuntos de dados podemos usar o coeficiente de variação, que é definido como a razão entre o desvio padrão, $S$, e a média amostral.

Usualmente expresso em porcentagem, o coeficiente de variação é dado pela expressão:

$$CV= \dfrac{S}{\overline{X}}100\%$$

2.3 - Quartis

Uma análise das estatísticas descritivas da amostra é fundamental para resumirmos algumas informações sobre a população. Estas informações são utilizadas para tomada de decisão e formação de modelos estatísticos paramétricos. Definiremos como:

Mínimo: menor elemento da amostra;

Máximo: maior elemento da amostra;

Quartis ($Q1$, $Q2$ e $Q3$): São valores dados a partir do conjunto de observações ordenado em ordem crescente, que dividem a distribuição em quatro partes iguais. O primeiro quartil, $Q1$, é o número que deixa 25% das observações abaixo e 75% acima, enquanto que o terceiro quartil, $Q3$, deixa 75% das observações abaixo e 25% acima. Já $Q2$ é a mediana, deixa 50% das observações abaixo e 50% das observações acima.

Seja $n$ o número total de elementos da amostra e calcule $j(n+1)/4$, para $j=1,2 \ e \ 3$. Desta forma $Q_j$ será um elemento entre $X_k$ e $X_{k+1}$, onde $k$ é o maior inteiro menor ou igual a $j(n+1)/4$ e será calculado da seguinte forma:

$$Q_j=X_k+(\frac{j(n+1)}{4}-k)(X_{k+1}-X_k)$$

Podemos observar que quando $k$ é um valor inteiro, o quantil será o próprio $X_k$, isto é, $Q_j = X_k$ onde

$$k=\frac{j(n=1)}{4},j=1,2,3$$

Uma medida de disperção alternativa ao desvio padrão é a distância interquartil, definida como a diferença entre o terceiro e o primeiro quartil, ou seja,

$$d_q = Q_3 - Q_1.$$

Ele foi desenvolvido no âmbito da estatística a fim de avaliar o grau de espalhamento dos dados (dispersão).

Exemplo 2.3.1

Considere uma amostra de 6 elementos com os seguintes valores: 7,1; 7,4; 7,5; 7,7; 7,8; 7,9.

Deste modo temos que $(\frac{n+1}{4}) = \frac{7}{4} = 1,75$ e com isso $k = 1$, logo

$$Q_1=X_1+(\frac{n+1}{4}-k)(X_{k+1}-X_k)$$ $$=7,1+(1,75-1)(7,4-7,1)=7,1+0,75(0,3)=7,325$$

Também temos que $(\frac{2(n+1)}{4}) = \frac{14}{4} = 3,5$, com isso $k = 3$, logo

$$Q_2=X_3+(\frac{2(n+1)}{4}-k)(X_{k+1}-X_k)=$$ $$7,5+(3,5-3)(7,7-7,5)=7,5+0,5(0,2)=7,6$$

E, temos que $(\frac{3(n+1)}{4})= \frac{21}{4} = 5,25$, com isso $k = 5$, logo

$$Q_3=X_5+(\frac{3(n+1)}{4}-k)(X_{k+1}-X_k)$$ $$=7,8+(5,25-5)(7,9-7,8)=7,8+0,25(0,1)=7,825$$

Exemplo 2.3.2

Considere o Exemplo 2.1.3, calcule os quartis dos dados.

Primeiramente ordenamos os dados, 60, 65, 67, 68, 69, 70, 72, 72.

Deste modo temos que $\frac{(n+1)}{4} = \frac{9}{4} = 2,25$ e com isso $k = 2$, logo

$$Q_1=X_2+(\frac{n+1}{4}-k)(X_{k+1}-X_k)$$ $$=65+(2,25-2)(67-65)=65+0,25(2)=65,5$$

Também temos que $\frac{2(n+1)}{4} = \frac{18}{4} = 4,5$, com isso $k = 4$, logo

$$Q_2=X_4+(\frac{2(n+1)}{4}-k)(X_{k+1}-X_k)$$ $$=68+(4,5-4)(69-68)=68+0,5(1)=68,5$$

E, temos que $\frac{3(n+1)}{4}=\frac{27}{4} = 6,75$, com isso $k = 6$, logo

$$Q_3=X_6+(\frac{3(n+1)}{4}-k)(X_{k+1}-X_k)$$ $$=70+(6,75-6)(72-70)=70+0,75(2)=71,5$$

Exemplo 2.3.3

Suponha que uma amostra dos comprimentos de 11 rolos de fio de aço cujos valores foram 72, 70, 77, 60, 67, 69, 68, 66, 65, 71, 69.

Os dados ordenados de forma crescente são: 60, 65, 66, 67, 68, 68, 69, 70, 71, 72, 77. Então temos que:

Mínimo = 60.

Máximo = 77.

Posição do Q1 = $ \displaystyle\frac{11+1}{4}=3 \Rightarrow Q_1=66 $

Logo, 25% das observações etão abaixo de 66 e 75% das observações estão acima de 66.

Posição do Q3 = $ \displaystyle 3\times\left(\frac{11+1}{4}\right)=9 \Rightarrow Q_3=71 $

Portanto, 75% das observações estão abaixo de 71 e 25% das observações estão acima de 71.

Exemplo 2.3.4

Considere as medidas das alturas de 11 pacientes, dadas abaixo

1,59 1,79 1,68 1,80
1,58 1,60 1,69 1,73
1,87 1,68 1,85

Tabela 2.4: Altura dos pacientes

Ordenando os valores, temos que

$$1,58 \leq 1,59 \leq 1,60 \leq 1,68 \leq 1,68 \leq 1,69 \leq 1,73 \leq 1,79 \leq 1,80 \leq 1,85 \leq 1,87$$

Desta forma, temos que o valor mínimo é 1,58, o valor máximo é 1,87. Dado que temos 11 observações, o cálculo do primeiro quartil é:

$$\dfrac{1(n+1)}{4} = \dfrac{1(11+1)}{4} = 3 \Longrightarrow k = 3$$

$$Q_1=X_3+\left(\frac{n+1}{4}-3\right)(X_{4}-X_3)= X_3 = 1,60$$

Para o segundo quartil temos:

$$\dfrac{2(n+1)}{4} = \dfrac{(2(11+1)}{4} = 6 \Longrightarrow k = 6$$

$$Q_2=X_6+\left(\frac{2(n+1)}{4}-6\right)(X_{7}-X_6)= X_6 = 1,69$$

O terceiro quartil é dado por

$$\dfrac{3(n+1)}{4} = \dfrac{(3(11+1)}{4} = 9 \Longrightarrow k = 9$$

$$Q_3=X_9+\left(\frac{3(n+1)}{4}-9\right)(X_{10}-X_9)= X_9 = 1,80$$

Utilizando o software Action Stat, temos os seguinte resultados:

Estatística descritiva
Mínimo 1.58
1º Quartil 1.6
Média 1.7145
Mediana 1.69
3º Quartil 1.8
Máximo 1.87
Amplitude 0.29

Tabela 2.5: Resultados sobre altura dos pacientes pelo software Action Stat

2.4 - Tri-média

Em muitas aplicações Estatísticas, uma certa parte dos valores extremos da amostra precisam ser descartados para que dessa forma uma análise da tendência central da amostra possa ser realizada. Nessas situações podemos utilizar a Tri-média (Média Truncada), uma medida simples de calcular além de ser um estimador surpreendentemente bom da média aritmética. Ela é considerada resistente e robusta, pois não é muito afetada por outliers. A inclusão da mediana ponderada dá uma forte ênfase ao centro, e ao mesmo tempo os quartis também trazem uma boa representação das bordas.

Para o cálculo da Tri-média, escolhemos um percentual entre 5% e 25%. Então, ordenamos todas as observações da amostra do menor para o maior e removemos o percentual de valores das duas extremidades.

Suponha que queremos calcular a Tri-média excluindo 10% dos maiores e menores elementos em uma amostra com 10 observações. Neste caso, como temos 10 elementos, 10% de 10 é igual a um, ou seja, excluímos o menor e o maior elemento:

Figura2.4.svg

Figura 2.4: Organização de dados para calcular Tri-média

Portanto, $$Tri-média = \sum_{i=2}^9 \dfrac{X_{(i)}}{8}$$

Utilizar os quartis na fórmula fazem com que a tri-média seja mais representativa quanto à magnitude e centralidade dos dados do que a mediana.

Exemplo 2.4.1

Dando continuidade ao Exemplo 2.3.3, suponha que uma amostra dos comprimentos de 11 rolos de fio de aço cujos valores foram 72, 70, 77, 60, 67, 69, 68, 66, 65, 71, 69.

Os dados ordenados de forma crescente são: 60, 65, 66, 67, 68, 68, 69, 70, 71, 72, 77. Então temos que:

Mínimo = 60.

Máximo = 77.

Posição do Q1 = $ \displaystyle\frac{11+1}{4}=3 \Rightarrow Q_1=66 $

Posição do Q3 = $ \displaystyle 3\times\left(\frac{11+1}{4}\right)=9 \Rightarrow Q_3=71 $

Para calcular a Tri-média retiramos o maior e o menor valor do conjunto de dados e calculamos a média dos 9 restantes, então:

Tri-média = $ \displaystyle \frac{65+66+\ldots+72}{9}=68,56 $

Exemplo 2.4.2

Dando continuidade ao Exemplo 2.3.4, considere as medidas das alturas de 11 pacientes, dadas abaixo:

1,59 1,79 1,68 1,80
1,58 1,60 1,69 1,73
1,87 1,68 1,85

Tabela 2.7: Altura dos pacientes

Ordenando os valores, temos que

$$1,58 \leq 1,59 \leq 1,60 \leq 1,68 \leq 1,68 \leq 1,69 \leq 1,73 \leq 1,79 \leq 1,80 \leq 1,85 \leq 1,87$$

Desta forma, temos que o valor mínimo é 1,58, o valor máximo é 1,87. Para calcular a tri-média de 5% da amostra, retiramos o menor e o maior elemento da amostra e calculamos a média dos elementos restantes. Segue que a tri-média é dada por

$Tri-média = \frac{1,59+1,60+1,68+1,68+1,69+1,73+1,79+1,80+1,85}{9}=1,7122$

O primeiro quartil é dado por 1,60 e o terceiro quartil é 1,80, enquanto que a assimetria e a curtose são dadas, respectivamente, por 0,1118 e -1,5698.

Utilizando o software Action Stat, temos os seguinte resultados:

Estatística descritiva
Mínimo 1.58
1º Quartil 1.6
Média 1.7145
Mediana 1.69
3º Quartil 1.8
Máximo 1.87
Amplitude 0.29

Tabela 2.8: Resultados obtidos pela Action Stat

Exemplo 2.4.3

Foi selecionado um lote da produção de 50 abraçadeiras industriais para verificar se os requisitos do cliente estavam sendo atendidos. Para isto, foi medido o diâmetro das 50 abraçadeiras e os valores encontram-se disponíveis na tabela abaixo:

13,35 12,88 13,42 13,03 13,35 13,68 13,69 13,27 13,8 13,21
13,47 13,33 13,05 13,4 13,25 13,34 13,62 13,41 13,15 13,2
13,42 13,68 13,22 13,6 13,46 13,79 13,29 13,26 13,55 13,15
13,39 13,37 13,5 13,38 13,16 13,44 13,42 13,39 13,34 13,63
13,38 13,43 13,35 13,24 13,56 13,79 13,43 13,02 13,71 13,45

Tabela 2.9: Diâmetros das abraçadeiras industriais

Inicialmente, ordenamos os valores obtidos para o cálculo da tri-média

$$12,88 \leq 13,02 \leq 13,03 \leq 13,05 … \leq 13,79 \leq 13,79 \leq 13,80$$

Temos que 6% de 50 é igual a 3. Desta forma excluímos os 3 menores e os 3 maiores elementos do conjunto de dados e calculamos a média dos elementos restantes

$$\textit{\textbf{Tri-media}}=\frac{13,05+13,02+…+13,71}{44}=13,395227$$

2.5 - Coeficiente de Assimetria

O coeficiente de assimetria permite distinguir as distribuições assimétricas. Um valor negativo indica que a cauda do lado esquerdo da função densidade de probabilidade é maior que a do lado direito. Um valor positivo para a assimetria indica que a cauda do lado direito é maior que a do lado esquerdo. Um valor nulo indica que os valores são distribuídos de maneira relativamente iguais em ambos os lados da média, mas não implica necessariamente, uma distribuição simétrica.

Figura2.5.svg

Figura 2.5: Distribuições assimétricas

A fórmula da assimetria é dada por

$$ \displaystyle b_1=\frac{1}{n}\sum\left[\frac{X_i-\overline{X}}{S}\right]^3 $$

Exemplo 2.5.1

Dando continuidade ao Exemplo 2.1.5, em que, em um hospital, foi observado o número de pessoas atendidas pela ortopedia durante os 30 dias de um mês. Os valores observados estão apresentados na Tabela 2.1. Para o cálculo do coeficiente de assimetria desse exemplo precisamos inicialmente o valor da média amostra e do desvio padrão amostral. Vimos que $\overline{X} = 123$ e também que $S = 10,3324$.

Assimetria = $ \displaystyle \frac{1}{30}\left(\frac{(101-123)^3+\ldots+(143-123)^3}{10,3324^3}\right)=0.1164 $

Temos então, que o coeficiente de assimetria é positivo. Portanto esperamos que a cauda do lado direito da densidade de probabilidade é maior do que o do lado esquerdo. Isto significa que o número de pacientes tem tendência de dimensão alta.

Observe pelo Histograma obtido pelo software Action Stat:

Figura2.6.svg

Figura 2.6: Histograma dos dados de um hospital ortopédico

Exemplo 2.5.2

Dando continuidade ao Exemplo 2.4.3, temos um lote da produção de 50 abraçadeiras industriais para verificar se os requisitos do cliente estavam sendo atendidos. Para isto, foi medido o diâmetro das 50 abraçadeiras e os valores encontram-se disponíveis na Tabela 2.8.

Para o cálculo do coeficiente de assimetria desse exemplo precisamos inicialmente o valor da média amostra e do desvio padrão amostral

$$\overline{X} = \sum_{i=1}^{50} \dfrac{X_i}{50} = \dfrac{13,35 + 12,88 + \dots + 13,71 + 13,45}{50} = 13,394$$

$$S = \sqrt{ \sum_{i=1}^{50}\dfrac{\left(X_i - \overline{X}\right)^2}{n-1} } = \

= \sqrt{\dfrac{(13,35-13,394)^2+(12,88-13,394)^2 +\cdots + (13,71-13,394)^2 + (13,45-13,394)^2}{49}} =\

S = 0,206921$$

Desta forma, podemos calcular o coeficiente de assimetria

$$b_1=\dfrac{1}{n}\sum_{i=1}^{50}\left[\dfrac{X_i-\overline{X}}{s}\right]^3 =$$ $$=\dfrac{1}{50}\left[\left(\dfrac{13,35-13,394}{0,206921}\right)^3+\dots+\left(\dfrac{13,45-13,394}{0,206921}\right)^3\right]=-0,02506$$

Temos então que que o coeficiente de assimetria é negativo e portanto esperamos que a cauda do lado esquerdo da densidade de probabilidade é maior do que o do lado direito. Isto significa que o processo tem tendência para produzir abraçadeiras com dimensional baixo. Analisando Histograma gerado pelo Action Stat podemos visualizar este resultado:

Figura2.7.svg

Figura 2.7: Histograma dos dados obtido pela Action Stat

2.6 - Curtose

Curtose é uma medida de dispersão que caracteriza o “achatamento” da curva da função de distribuição. É definida por:

$$ \displaystyle b_2=\frac{1}{n}\sum\left[\frac{x_i-\overline{x}}{s}\right]^4-3 $$

Se $ \displaystyle b_2=0 $, então a função de distribuição tem o mesmo achatamento da distribuição normal, chamamos essas funções de mesócurticas.

Se $ \displaystyle b_2 > 0 $, dizemos que a função de distribuição é leptocúrtica e possui a curva da função de distribuição mais afunilada com um pico mais alto do que a distribuição normal. Neste caso dizemos que essa distribuição possui caudas pesadas.

Se $ \displaystyle b_2 < 0 $, então a funçao de distribuição é mais achatada do que a distribuição normal . Dizemos que esta curva da função de distribuição é platicúrtica.

Figura2.8.svg

Figura 2.8: Tipos de curtose

Exemplo 2.6.1

Dando continuidade ao Exemplo 2.1.5 novamente, em que foi observado o número de pessoas atendidas pela ortopedia durante os 30 dias de um mês. Os valores observados estão apresentados na Tabela 2.1. Vimos que $\overline{X} = 123$ e também que $S = 10,3324$.

Calculando a curtose, temos:

Curtose = $ \displaystyle \frac{1}{30}\left(\frac{(101-123)^4+\ldots+(143-123)^4}{10,3324^4}\right)-3=-0.7313$.

Dizemos então que a curva da distribuição é platicúrtica.

Exemplo 2.6.2

Neste exemplo, suponha uma amostra composta por -3; 1; 1,5; 1,9; 2; 2,1; 2,12; 2,4; 2,49; 2,6; 2,7; 2,71; 5. Então temos

Mínimo = -3.

Máximo = 5.

Para calcular a Tri-média retiramos o maior e o menor valor do conjunto de dados e calculamos a média dos restantes, então:

Tri-média = $ \displaystyle \frac{1+1,5+\ldots+2,71}{12}=2,138 $

Posição do Q1 = $ 1,5 + (3,5-3)(0,4) = 1,7 $

Posição do Q3 = $ 2,6 + (10,5 - 10)(0,1) = 2,65 $

Assimetria = $ \displaystyle \frac{1}{13}\left(\frac{(-3-1,963)^3+\ldots+(5-1,963)^3}{1,756^3}\right)=-1,333 $

Curtose = $ \displaystyle \frac{1}{13}\left(\frac{(-3-1,963)^4+\ldots+(5-1,963)^4}{1,756^4}\right)-3=2,605 $.

Neste caso dizemos que essa distribuição é leptocúrtica e possui caudas pesadas.

Utilizando o Action, obtemos o seguinte histograma:

Figura2.9.svg

Figura 2.9: Histograma dos dados

Observe que a distribuição é leptocúrtica e possui a curva da função de distribuição mais afunilada com um pico mais alto do que a distribuição normal.