6.2 Distribuições amostrais
2 - Distribuições Amostrais
Neste tópico, vamos estudar as distribuições amostrais associadas aos principais modelos estatísticos.
Definição 2.1
Uma amostra aleatória de $n$ elementos de uma população é representada pelas variáveis aleatórias $X_1,X_2,\ldots,X_n$, no qual cada $X_i$, com $i = 1,2,\ldots,n$ representa um elemento da amostra. Se $X_i$ e $X_j$ são independentes e possuem mesma função de probabilidade (ou função densidade de probabilidade), para todo $i\neq j$, dizemos que os elementos da amostra são independentes e igualmente distribuídos (i.i.d).
Definição 2.2
Seja $X_1,X_2,\ldots,X_n$ uma amostra aleatória i.i.d. de tamanho $n$ de uma população e seja $T(x_1,x_2,\ldots,x_n)$ uma função real ou vetorial cujo domínio inclui o espaço amostral de $(X_1,X_2,\ldots,X_n)$. Neste caso, dizemos que a variável ou vetor aleatório $Y = T(x_1,x_2,\ldots,x_n)$ é chamado de estatística. A distribuição de probabilidade da estatística Y é chamada de distribuição amostral de Y. Uma estatística associada a algum parâmetro populacional é também chamada de estimador.
Exemplo 2.1
Seja $X_1,X_2,\ldots,X_n$ uma amostra aleatória de uma população. A média amostral é a média aritmética dos valores da amostra. A média amostral é uma estatística denotada por $\overline{X}$, ou seja,
$$\overline{X}=\frac{X_1+\ldots+X_n}{n}=\frac{1}{n}\sum_{i=1}^n X_i.$$
A variância amostral é a estatística definida por
$$s^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2$$
e o desvio-padrão amostral é a estatística definida por
$$s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2}.$$
Motivação
A média populacional $\mu$ representa a média de todos os indivíduos ou objetos que estão sendo estudados. Mas geralmente, nem todos os indivíduos podem ser medidos. Em geral, somente uma amostra de todos os indivíduos está disponível para nós e a média baseada nesta amostra, $\overline{X}$, é usada para estimar a média populacional $\mu$. Um problema de fundamental importância é saber se a média amostral $\overline{X}$ é um bom estimador da média populacional $\mu$. De maneira similar, quando calculamos o desvio padrão amostral, $s$, este valor pode ser considerado uma boa estimativa do desvio padrão populacional?
Exemplo 2.2
Considere uma urna com 5 bolas, onde cada bola tem um número com os números de 1 a 5. Retirando uma bola da urna, seja $X$ a variável aleatória que assume o número da bola. Utilizando reamostragem com reposição, qual a distribuição amostral da média $\overline{X}$?
Consideremos inicialmente uma única retirada $X_1$ da urna. Como temos uma única retirada, a média $\overline{X} = X_1$. Com isso temos que
| $ \mathbb{P}(\overline{X}=1) $ | 0,2 |
| $ \mathbb{P}(\overline{X}=2) $ | 0,2 |
| $ \mathbb{P}(\overline{X}=3) $ | 0,2 |
| $ \mathbb{P}(\overline{X}=4) $ | 0,2 |
| $ \mathbb{P}(\overline{X}=5) $ | 0,2 |
Tabela 6.2.1: Probabilidades da retirada da bola da urna
Figura 6.2.1: Gráfico de barras para a função de probabilidade da média amostral $\overline{X}$
Então, para uma amostra de tamanho $n=1$, temos que a distribuição amostral da média tem a mesma distribuição da variável aleatória $X$.
Considere agora duas retiradas independentes e com reposição, $X_1$ e $X_2$. A Tabela 6.3 a seguir mostra todos os possíveis valores para a média amostral $\overline{X}$, considerando as retiradas $X_1$ e $X_2$.
| $X_{2}$ \ $X_{1}$ | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| 1 | 1 | 1,5 | 2 | 2,5 | 3 |
| 2 | 1,5 | 2 | 2,5 | 3 | 3,5 |
| 3 | 2 | 2,5 | 3 | 3,5 | 4 |
| 4 | 2,5 | 3 | 3,5 | 4 | 4,5 |
| 5 | 3 | 3,5 | 4 | 4,5 | 5 |
Tabela 6.2.2: Médias de cada evento possível com duas retiradas de bolas da urna
Deste modo, temos que
| $ \mathbb{P}(\overline{X}=1) $ | 1/25 |
| $ \mathbb{P}(\overline{X}=1,5) $ | 2/25 |
| $ \mathbb{P}(\overline{X}=2) $ | 3/25 |
| $ \mathbb{P}(\overline{X}=2,5) $ | 4/25 |
| $ \mathbb{P}(\overline{X}=3) $ | 5/25 |
| $ \mathbb{P}(\overline{X}=3,5) $ | 4/25 |
| $ \mathbb{P}(\overline{X}=4) $ | 3/25 |
| $ \mathbb{P}(\overline{X}=4,5) $ | 2/25 |
| $ \mathbb{P}(\overline{X}=5) $ | 1/25 |
Tabela 6.2.3: Probabilidades de valores para a média amostral $\overline{X}$
Ou seja, temos o seguinte gráfico de barras para a função de probabilidade da média amostral $\overline{X}$.
Figura 6.2.2: Gráfico de barras da distribuição de $\overline{X}$
Considerando 3 retiradas independentes e com reposição temos o seguinte gráfico para a função de probabilidade da média amostral $\overline{X}$
Figura 6.2.3: Gráfico de barras da distribuição de $\overline{X}$
Nas seções a seguir veremos que, quanto maior o tamanho amostral, a distribuição da média amostral tende a uma distribuição normal com média $\mathbb{E}(\overline{X})=\mathbb{E}(X)$ e variância $\text{Var}(\overline{X})= \ \text{Var}(X)/n$.
Com um procedimento análogo, podemos obter as distribuições amostrais de outras estatísticas de interesse. Por exemplo, vamos considerar no mesmo exemplo anterior, duas retiradas da urna com reposição e estudar a distribuição amostral do desvio-padrão $s$. A Tabela 6.5 a seguir mostra todos os possíveis valores para o desvio-padrão $s$, considerando as retiradas $X_1$ e $X_2$.
| $X_{2}$ \ $X_{1}$ | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| 1 | 0 | 0,7071 | 1,4142 | 2,1213 | 2,8284 |
| 2 | 0,7071 | 0 | 0,7071 | 1,4142 | 2,1212 |
| 3 | 1,4142 | 0,7071 | 0 | 0,7071 | 1,4142 |
| 4 | 2,1213 | 1,4142 | 0,7071 | 0 | 0,7171 |
| 5 | 2,8284 | 2,1213 | 1,4142 | 0,7071 | 0 |
Tabela 6.2.4: Valores de desvio padrão $s$ de cada evento possível com duas retiradas de bolas da urna
Deste modo, temos que
| $ \mathbb{P}(s=0) $ | $ 5/25 $ |
| $ \mathbb{P}(s=0,7071) $ | $ 8/25 $ |
| $ \mathbb{P}(s=1,4142) $ | $ 6/25 $ |
| $ \mathbb{P}(s=2,1213) $ | $ 4/25 $ |
| $ \mathbb{P}(s=2,8284) $ | $ 2/25 $ |
Tabela 6.2.5: Probabilidades de valores para o desvio padrão $s$
Figura 6.2.4: Gráfico de barras da distribuição de $s$
2.1 - Lei Fraca dos Grandes Números e Teorema Central do Limite
Seja $f(\cdot,\theta)$ função densidade de probabilidade de uma variável aleatória $X$ cujo valor esperado é denotado por $\mu$. Suponha que queremos estimar $\mu$. Porém em qualquer problema real, podemos somente observar um número finito de valores da variável aleatória $X$. Será então que, usando somente um número finito de valores de $X$ (uma amostra aleatória de tamanho $n$), podemos realizar inferências confiáveis sobre $\mathbb{E}(X)$? A resposta é sim, e isto é o que veremos como aplicação da lei fraca dos grandes números.
A lei fraca dos grandes números estabelece que, para quaisquer dois números suficientemente pequenos $\epsilon$ e $\delta$, com $\epsilon \ > \ 0$ e $0 \ < \ \delta \ < \ 1$, existe um número inteiro $n$ tal que, se uma amostra aleatória de tamanho $n$ ou maior que $n$ é obtida de $f$, a média amostral está “próxima” de $\mu$ com probabilidade maior ou igual que $1 - \delta$.
2.1.1 - Lei Fraca dos Grandes Números
Seja $f(\cdot)$ uma função densidade com média $\mu$ e variância $\sigma^2$ e seja $\overline{X}$ a média amostral de uma variável aleatória de tamanho $n$ com função densidade $f$. Sejam $\epsilon$ e $\delta$ quaisquer dois números especificados que satisfazem $\epsilon \ > \ 0$ e $0 \ < \ \delta \ < \ 1$. Se $n$ é qualquer inteiro maior que $\frac{\sigma^2}{\epsilon^2\delta}$, então
$$\mathbb{P}[-\epsilon \ < \ \overline{X}-\mu \ < \epsilon]\geq 1-\delta.$$
Ou seja, a probabilidade da distância da estimativa da média até a média $\mu$ ser menor que um determinado $\epsilon \ > \ 0$ é maior ou igual que $1-\delta$.
Demonstração
Sabemos que pels Desigualdade de Chebshev,
$$\mathbb{P}(g(X)\geq k)\leq \frac{\mathbb{E}(g(x))}{k}$$
para todo $k \ > \ 0$, para toda variável aleatória $X$ e toda função não negativa $g$. De maneira equivalente, temos que
$$\mathbb{P}(g(x) \ < \ k)\geq 1-\frac{\mathbb{E}(g(X))}{k}.$$
Vamos tomar $g(X)=(\overline{X}-\mu)^2$ e $k = \epsilon^2$. Então
$$\mathbb{P}[-\epsilon \ < \ \overline{X}-\mu \ < \epsilon]=\mathbb{P}[|\overline{X}-\mu| \ < \ \epsilon]=\mathbb{P}[|\overline{X}-\mu|^2 \ < \ \epsilon^2].$$
Mas
$$\mathbb{P}[|\overline{X}-\mu|^2 \ < \ \epsilon^2]\geq 1-\frac{\mathbb{E}(\overline{X}-\mu)^2}{\epsilon^2}=1-\frac{(1/n)\sigma^2}{\epsilon^2}\geq 1-\delta.$$
2.1.2 - Teorema Central do Limite
Assumir que os dados tem uma distribuição normal é altamente conveniente, tanto do ponto de vista teórico como do ponto de vista computacional. Mas isto deixa um problema de fundamental importância: sob quais circunstâncias é razoável assumir que a distribuição normal pode ser usada? Gauss trabalhou neste problema por muito tempo, mas é um resultado de Laplace que é utilizado hoje. Anunciado em 1810, Laplace chamou este resultado de Teorema Central do Limite, que diz que sob a hipótese de amostragem aleatória, quando o tamanho da amostra aumenta, a distribuição de probabilidade da média amostral se aproxima de uma distribuição normal com média $\mu$ e variância $\sigma^2/n$, ou seja, se o tamanho amostral é suficientemente grande, podemos assumir que a média amostral tem uma distribuição normal.
Teorema Central do Limite
Seja $f$ uma densidade com média $\mu$ e variância $\sigma^2$. Seja $\overline{X}$ a média amostral de uma amostra aleatória de tamanho $n$ de $f$. Então, a distribuição da variável aleatória $Z_n$ definida por
$$Z_n=\frac{\overline{X}-E(\overline{X})}{\sqrt{Var(\overline{X})}}=\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}.$$
se aproxima da distribuição normal padrão quando $n$ tende ao infinito. Em outras palavras, $Z_n$ tem distribuição aproximadamente normal com média $0$ e variância $1$ quando $n$ tende ao infinito.
$$Z_{n} \sim \mathcal{N}(0,1) \quad \text{quando } n \to \infty$$
Desse modo, o teorema central do limite nos diz que a distribuição limite de $Z_n$ é uma distribuição normal padrão ou que $\overline{X}$ é assintoticamente distribuída como uma distribuição normal com média $\mu$ e variância $\sigma^2/n$. O mais impressionante do teorema central do limite é o fato de que nada é dito a respeito da função densidade $f$. Ou seja, qualquer que seja a função de distribuição, desde que ela tenha variância finita, $Z_n$ terá uma distribuição aproximadamente normal para amostras suficientemente grandes.
2.2 - Distribuição amostral de uma variável aleatória binomial
A noção de uma distribuição amostral é talvez mais fácil de explicar e ilustrar quando trabalhamos com a distribuição binomial.
Para exemplificar, suponha que queremos determinar a proporção de adultos com idade superior aos 40 que sofrem de artrite. Logo, podemos definir uma variável aleatória $X$ da seguinte maneira
$$ X = \begin{cases} 1, & \text{se o indivíduo é portador de artrite} \cr 0, & \text{se o indivíduo não é portador de artrite} \end{cases} $$
Logo, temos que X é uma variável discreta, com distribuição de Bernoulli tal que
$$\mu=\mathbb{E}(X)=p, \quad \sigma^2= \ \text{Var}(X)=p(1-p).$$
Retirada uma amostra aleatória $X_1, X_2, \ldots, X_n$ sem reposição de tamanho $n$ dessa população, e indicando por $Y_n$ o total de indivíduos portadores de artrite nessa amostra, sabemos que
$$Y_n\sim \ \hbox{Binomial}(n,p)$$
ou seja,
$$\mathbb{P}(Y_n = k) = \binom{n}{k} p^k (1 - p)^{n - k}$$
Figura 6.2.5: Fluxograma de Inferência estatística com uma amostra de distribuição binomial
Vamos definir por $\hat{p}$ a proporção de indivíduos portadores de artrite, ou seja,
$$\hat{p}=\frac{Y_n}{n}.$$
Então, temos que
$$\mathbb{P}(Y_n=k)=\mathbb{P}(\frac{Y_n}{n}=\frac{k}{n})=\mathbb{P}(\hat{p}=\frac{k}{n}),$$
ou seja, a distribuição amostral de $\hat{p}$ é obtida da distribuição de $Y_n$. Observamos que
$$Y_n=X_1+X_2+\ldots+X_n$$
onde cada $X_i$ tem distribuição de Bernoulli com média $\mu = p$ e variância $\sigma^2 = p(1-p)$ com $p$ desconhecido e $X_i$ é independente de $X_j$ se $i\neq j$. Desta forma, podemos escrever que
$$Y_n=\sum_{i=1}^nX_i=n\sum_{i=1}^n\frac{X_i}{n}=n\overline{X}$$
mas, pelo Teorema Central do Limite, $\overline{X}$ terá distribuição aproximadamente normal, com média $p$ e variância $\frac{p(1-p)}{n}$, ou seja,
$$\overline{X}\sim N\left(p,\frac{p(1-p)}{n}\right).$$
Logo, a transformação $Y_n=n\overline{X}$ terá a distribuição $$Y_n\sim N(np,p(1-p)).$$
Podemos observar que $\overline{X}$, na expressão acima, é a própria variável $\hat{p}$ e, desse modo, para $n$ grande podemos considerar a distribuição amostral de $p$ como aproximadamente normal
$$\hat{p}\sim N\left(p,\frac{p(1-p)}{n}\right)$$
Exemplo 2.2.1
Suponha que queremos saber a porcentagem de casamentos que terminam em divórcio entre casais que vivem em São Paulo. Como não temos recursos suficientes para checar todos os arquivos, vamos estimar esta porcentagem baseados em alguns dados disponíveis. Suponha que temos dados sobre 10 casais:
| $X_1$ | $X_2$ | $X_3$ | $X_4$ | $X_5$ | $X_6$ | $X_7$ | $X_8$ | $X_9$ | $X_{10}$ |
|---|---|---|---|---|---|---|---|---|---|
| 1 | 0 | 0 | 0 | 1 | 0 | 0 | 0 | 0 | 1 |
Tabela 6.2.6: Dados sobre divórcios de 10 casais
Isto é, o primeiro casal se divorciou, os próximos três não se divorciaram, o quinto casal se divorciou e assim por diante. O número de divórcios entre estes casais é
$$Y_n = \sum_{i=1}^{10}X_i=1+0+0+0+1+0+0+0+0+1=3,$$
então a probabilidade estimada de um divórcio é
$$\hat{p}=\frac{3}{10}=0,3.$$
Note que para a distribuição binomial, se sabemos a real probabilidade de divórcio, $p$, poderíamos calcular a probabilidade de termos $\hat{p}=0,3$ baseados em uma amostra de tamanho $10$. Quando $n = 10$, esta é justamente a probabilidade de observamos $3$ divórcios, ou seja,
$$\mathbb{P}(Y_n=3):=p(3)= \binom{10}{3} p^3(1-p)^7.$$
Se, por exemplo, $p=0,4$, então $p(3)=0,215$. Isto é, a probabilidade de tomarmos $\hat{p} = 0,3$ é $0,215$. Geralmente, se observamos $x$ sucessos, a estimativa de $p$ é $\hat{p}=x/n$, a qual ocorre com probabilidade $p(x)$, onde $p(x)$ é a função de probabilidade da distribuição $Binomial(10,p)$.
Estudo de simulação
Suponha que a taxa de divórcio de uma população é $p = 0,3$. Imagine agora 1000 equipes de pesquisadores e suponha que cada equipe estima a taxa de divórcio baseada em dados de 10 casais. Neste caso, diferentes equipes de pesquisadores conseguirão resultados diferentes. Por exemplo, a primeira equipe consegue $\hat{p}=0,5$, a segunda equipe consegue $\hat{p}=0,1$, e assim por diante. A distribuição amostral de $\hat{p}$ se refere a distribuição dos valores de $\hat{p}$ que as equipes de pesquisadores conseguiriam ao conduzir o mesmo estudo. Na tabela a seguir, temos a distribuição de $\hat{p}$.
| $ \hat{p} $ | $n$ |
|---|---|
| 0 | 29 |
| 0,1 | 122 |
| 0,2 | 240 |
| 0,3 | 253 |
| 0,4 | 200 |
| 0,5 | 107 |
| 0,6 | 41 |
| 0,7 | 7 |
| 0,8 | 1 |
| 0,9 | 0 |
| 1 | 0 |
Tabela 6.2.7: Tabela de distribuição de $\hat{p}$
Figura 6.2.6: Gráfico de barras da distribuição de $\hat{p}$
Com esses dados, podemos concluir que
$$\mathbb{E}(\hat{p})=0,2999 \quad \text{Var}(\hat{p})=0,02125124.$$
Lembrando que $\hat{p}=\overline{X}$ e, segundo o Teorema 2.2, temos que
$$\mathbb{E}(\hat{p})=\mathbb{E}(\overline{X})=\mu$$
onde $\mu$ é a média populacional. Como a população tem distribuição $\text{Bernoulli}(0,3)$, sabemos que $\mathbb{E}(X) = 0,3$ e $\text{Var}(X) = 0,3 \times 0,7 = 0,21$.
2.3 - Distribuição amostral de dados normais
O objetivo nesta seção é estender a noção de uma distribuição amostral a situações em que amostramos de uma distribuição normal. Considere $X_1 , \cdots , X_n$ uma amostra aleatória de uma distribuição normal com média $\mu$ e variância $\sigma^2$.
Tomamos, por exemplo, o problema de estimar quantas horas adicionais de sono são garantidas a um indivíduo após ingerir uma determinada droga. Além disso, suponha que a droga é testada em 20 indivíduos de modo que a média amostral seja $\overline{X}=0,8$ horas. Porém, se o estudo for repetido com outros 20 participantes podemos ter outros resultados para a média amostral. Por exemplo, podemos ter $\overline{X}=1,3$. E, repetindo o estudo novamente, poderíamos ter $\overline{X}=-0,2$. Em termos estatísticos, haverá variação entre as médias amostrais.
Este problema poderia ser resolvido se repetíssemos o estudo infinitas vezes, porém isto é inviável.
Quando as observações são amostradas aleatoriamente de uma distribuição normal, a média amostral também tem uma distribuição normal. Isto é, quando $n$ observações são amostradas aleatoriamente de uma distribuição normal com média $\mu$ e variância $\sigma^2$, a média amostral tem distribuição normal com média $\mu$ e variância $\sigma^2/n$.
Figura 6.2.7: Fluxograma de inferência estatística com uma amostra de distribuição normal
Estudo de Simulação
Considere uma população normal com média $\mu = 10$ e variância $\sigma^2=4$. Vamos realizar um estudo de simulação para a distribuição da média amostral considerando amostras de tamanho $20$ dessa população. Para este estudo, vamos utilizar o Action e o software R.
Primeiramente, considere que são retiradas $15$ amostras de tamanho $20$ dessa população. Os dados de cada amostra são mostrados a seguir
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 7,98 | 10,70 | 7,41 | 9,92 | 9,62 | 8,44 | 14,46 | 5,59 | 7,56 | 8,66 | 9,67 | 11,40 | 12,18 | 12,79 | 12,06 |
| 15,16 | 10,22 | 9,78 | 11,82 | 9,39 | 5,89 | 8,40 | 12,13 | 13,72 | 12,42 | 10,69 | 8,11 | 10,25 | 7,58 | 7,84 |
| 8,13 | 14,30 | 6,69 | 10,01 | 9,90 | 11,73 | 11,92 | 8,77 | 10,98 | 10,24 | 6,41 | 8,68 | 9,98 | 8,30 | 12,23 |
| 9,84 | 7,92 | 12,55 | 8,91 | 7,50 | 10,43 | 12,99 | 11,22 | 7,52 | 8,50 | 8,73 | 9,73 | 9,49 | 7,87 | 7,97 |
| 9,15 | 8,38 | 9,52 | 10,39 | 13,63 | 8,63 | 9,08 | 12,17 | 10,80 | 8,18 | 8,32 | 12,70 | 8,95 | 6,12 | 12,52 |
| 10,80 | 12,36 | 11,31 | 8,12 | 12,25 | 12,60 | 8,11 | 14,41 | 9,86 | 8,37 | 11,48 | 8,42 | 11,48 | 10,12 | 12,69 |
| 7,43 | 11,07 | 8,71 | 14,06 | 11,58 | 10,06 | 10,58 | 6,65 | 13,21 | 10,29 | 13,65 | 10,75 | 10,70 | 12,98 | 11,36 |
| 10,61 | 10,80 | 9,09 | 8,85 | 12,93 | 13,86 | 10,66 | 11,76 | 11,12 | 7,77 | 11,70 | 10,38 | 12,89 | 11,00 | 10,05 |
| 9,64 | 11,67 | 8,35 | 9,51 | 7,49 | 8,63 | 12,22 | 10,91 | 11,07 | 6,99 | 9,08 | 9,90 | 10,08 | 9,85 | 9,24 |
| 10,44 | 8,90 | 7,72 | 5,10 | 9,56 | 8,47 | 15,78 | 11,45 | 7,38 | 10,21 | 8,23 | 14,34 | 7,78 | 12,31 | 10,63 |
| 10,98 | 9,64 | 11,61 | 11,80 | 7,37 | 8,68 | 12,53 | 9,68 | 10,63 | 9,64 | 8,18 | 8,86 | 11,11 | 8,58 | 9,70 |
| 9,96 | 9,90 | 8,89 | 10,94 | 12,49 | 9,40 | 10,97 | 6,13 | 9,64 | 12,93 | 9,90 | 13,17 | 10,26 | 9,23 | 11,43 |
| 9,50 | 10,93 | 9,46 | 6,09 | 10,90 | 9,74 | 11,93 | 12,13 | 10,71 | 8,58 | 9,40 | 12,05 | 10,75 | 12,86 | 10,48 |
| 15,30 | 10,58 | 10,74 | 8,12 | 5,91 | 9,35 | 5,27 | 10,22 | 12,22 | 9,82 | 12,24 | 8,97 | 12,54 | 8,71 | 11,28 |
| 8,13 | 8,81 | 10,72 | 7,52 | 11,86 | 7,74 | 12,53 | 7,42 | 10,38 | 10,28 | 11,27 | 8,85 | 11,19 | 6,11 | 8,98 |
| 9,47 | 11,46 | 9,05 | 9,22 | 10,06 | 12,46 | 6,89 | 9,95 | 12,54 | 6,86 | 7,70 | 12,55 | 11,66 | 7,50 | 11,52 |
| 9,14 | 9,02 | 11,98 | 8,52 | 6,42 | 7,24 | 10,04 | 5,79 | 9,64 | 9,57 | 9,66 | 10,03 | 9,36 | 11,80 | 9,88 |
| 11,47 | 13,56 | 9,26 | 8,19 | 9,09 | 8,83 | 10,18 | 9,60 | 8,77 | 9,23 | 8,50 | 12,21 | 8,09 | 10,67 | 11,68 |
| 9,65 | 8,11 | 10,08 | 10,85 | 7,99 | 12,46 | 10,30 | 8,58 | 9,84 | 13,98 | 10,64 | 8,72 | 8,78 | 12,22 | 9,96 |
| 12,67 | 8,96 | 8,43 | 10,53 | 10,52 | 10,18 | 8,49 | 11,05 | 10,27 | 7,32 | 9,28 | 10,14 | 12,20 | 7,51 | 9,59 |
Tabela 6.2.8: 15 amostras de tamanho 20
As médias amostrais de cada amostra são dadas segundo a Tabela 6.2.9 a seguir:
| Amostras | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Média amostral | 10,273 | 10,364 | 9,568 | 9,424 | 9,823 | 9,741 | 10,667 | 9,78 | 10,393 | 9,492 | 9,736 | 10,498 | 10,486 | 9,706 | 10,555 |
| Desvio padrão amostral | 2,111 | 1,745 | 1,554 | 2,049 | 2,225 | 2,023 | 2,53 | 2,458 | 1,752 | 1,912 | 1.744 | 1.817 | 1.456 | 2.274 | 1.426 |
Tabela 6.2.9: Médias e variâncias amostrais
A seguir, temos o Gráfico das médias amostrais
Figura 6.2.8: Gráfico das médias das 15 amostras
Observemos aqui que a média das médias é 10,0337 e o desvio padrão é 0,436.
| Média das médias | Desvio padrão |
|---|---|
| 10,0337 | 0,436 |
Tabela 6.2.10: Resumo descritivo das amostras
Suponha agora que façamos o mesmo processo, porém ao invés de considerarmos 15 amostras de tamanho 20, consideramos 200 amostras. Para este estudo de simulação, utilizamos o software R. Neste caso, o histograma das médias obtidas pode ser visto na figura a seguir.
Figura 6.2.9: Gráfico das Médias de 200 amostras
e a média das médias amostrais é dada por 10,004 e o desvio padrão por 0,441.
Realizando o mesmo experimento, porém agora considerando 10.000 amostras de tamanho 20, a distribuição da média amostral pode ser vista segundo o histograma abaixo.
Figura 6.2.10: Gráfico das Médias de 10.000 amostras
Para este caso, a média das médias amostrais resultou 9,9994 e o desvio padrão 0,449. Então, empiricamente, podemos perceber que a distribuição da média amostral se aproxima de uma distribuição normal com média $\mu = 10$ e desvio padrão $\frac{\sigma}{\sqrt{n}}=\frac{2}{\sqrt{20}}=0,4472$.
A variância da média amostral, $\sigma^2_{\overline{X}}$, é chamado de erro quadrático médio da média amostral. Para ser mais concreto, imagine que temos uma amostra aleatória de 25 observações onde, sem que saibamos, a média populacional é $1,5$ e a variância é $2$ ($\sigma^2= 2$). Podemos ter uma média amostral $\overline{X} = 1,45$. Porém, imagine que repitamos o estudo muitas vezes de modo que tenhamos as seguintes médias amostrais
1,45; 1,53; 1,90; 1,43; 2,72; 1,70; 1,13; 1,94; 1,23; …
De acordo com o Teorema Central do Limite, se o estudo é repetido um grande número de vezes, a média destas médias amostrais será igual a média populacional, $1,5$, e se calcularmos a variância amostral baseada nestes valores, teremos $\sigma^2/n = 2/25$. Isto é, a variância das médias amostrais é igual a variância da distribuição da qual as observações foram amostradas, dividida pelo tamanho da amostra, assumindo apenas amostragem aleatória. A raiz quadrada positiva do erro quadrático médio, $\sigma_{\overline{X}}=\sigma/\sqrt{n}$, é chamado erro padrão da média. Na prática, a variância ($\sigma^2$) é raramente conhecida, mas podemos estimá-la com a variância amostral $s^2$, que fornece uma estimativa do erro quadrático médio, $s^2/n$ e uma estimativa do erro padrão é $s/\sqrt{n}$.
Distribuição de $s^2$
Temos que a estatística $s^2$ é um estimador não viciado da variância $\sigma^2$. Vamos estudar agora a distribuição de $s^2$. Uma distribuição que desempenha um papel central na distribuição de $s^2$ é a distribuição qui-quadrado.
Definição 2.3.1
Considere $X$ uma variável aleatória de distribuição qui-quadrado com $k$ graus de liberdade. Sua densidade é:
$$f_X(x)=\frac{1}{\Gamma(k/2)}\left(\frac{1}{2}\right)^{k/2}x^{k/2-1}e^{-x/2}\mathbb{I}_{(0,\infty)}(x)$$
onde parâmetro $k$ é um número inteiro.
Teorema 2.3.1
Se as variáveis aleatórias $X_i, i = 1, 2, \ldots, n$ são independentes e normalmente distribuídas com médias $\mu_i$ e variâncias $\sigma_i^2$ , então
$$U=\sum_{i=1}^n\left(\frac{X_i-\mu_i}{\sigma_i}\right)^2$$
tem uma distribuição qui-quadrado com $n$ graus de liberdade.
$$U \sim \chi^2_n$$
Demonstração
De fato, para cada $i$, $X_i\sim N(\mu_1,\sigma_1^2)$ então ao padronizar $X_i$, temos
$$Z = \frac{X_i-\mu_i}{\sigma_i}\sim N(0,1)$$
A distribuição qui-quadrado com 1 grau de liberdade é definida como o quadrado de uma variável aleatória com distribuição normal padrão. Assim:
$$Z_i^2 \sim \chi^2_1$$
Portanto, para uma amostra de $n$ variáveis independentes $X_1, X_2, \ldots, X_n \sim N(\mu_1,\sigma_1^2)$, ao padronizá-las e somar os quadrados, temos:
$$\sum_{i=1}^n\left(\frac{X_i-\mu_i}{\sigma_i}\right)^2 \sim \chi^2_n$$
Propriedades do Teorema 2.3.1
Se $X_1,X_2,\ldots,X_n$ é uma amostra aleatória de uma distribuição normal padrão, então, valem as seguintes propriedades:
(i) $\overline{X}$ e $\sum_{i=1}^n(X_i-\overline{X})^2$ são independentes.
(ii) $\sum_{i=1}^n(X_i-\overline{X})^2$ tem uma distribuição qui-quadrado com $n-1$ graus de liberdade.
Demonstração
(i) A demonstração será feita somente para o caso $n=2$, mas ressaltamos que o resultado é válido para todo $n\in\mathbb{N}$. Quando $n=2$, temos que
$$\overline{X} = \frac{X_1+X_2}{2}$$
e
$$\sum_{i=1}^n(X_i-\overline{X})^2 = \left(X_1-\frac{X_1+X_2}{2}\right)^2+\left(X_2 - \frac{X_1 +X_2}{2}\right)^2 = \frac{(X_1-X_2)^2}{4}+\frac{(X_2-X_1)^2}{4}$$
de onde concluímos que
$$\sum_{i=1}^n(X_i-\overline{X})^2=\frac{(X_2-X_1)^2}{2}$$
de modo que $\overline{X}$ é uma função de $X_1+X_2$ e $\sum(X_i-\overline{X})^2$ é uma função de $X_2-X_1$ e então, para provar que $\overline{X}$ e $\sum(X_i-\overline{X})^2$ são independentes, basta mostrar que $X_1+X_2$ e $X_2-X_1$ são independentes. Sendo $M_{Y}(t)$ a função geradora de momentos da variável aleatória $Y$, temos que
$$M_{X_1+X_2}(t_1) = \mathbb{E}[e^{t_1(X_1+X_2)}]=\mathbb{E}[e^{t_1X_1}e^{t_1X_2}] = \mathbb{E}[e^{t_1X_1}]\mathbb{E}[e^{t_1X_2}]=\exp\left(\frac{1}{2}t_1^2\right)\exp\left(\frac{1}{2}t_1^2\right) = \exp(t_1^2)$$
e, de forma análoga,
$$M_{X_1-X_2}(t_2) = \exp(t_2^2).$$
Temos também que, $$M_{X_1+X_2,X_2-X_1}(t_1,t_2) = \mathbb{E}[e^{t_1(X_1+X_2)+t_2(X_2-X_1)}] = \mathbb{E}[e^{(t_1-t_2)X_1 + (t_1+t_2)X_2}]$$ $$= \mathbb{E}\left[ e^{(t_1 - t_2)X_1} \right] \cdot \mathbb{E}\left[ e^{(t_1 + t_2)X_2} \right] = \exp\left( \frac{1}{2}(t_1 - t_2)^2 \right) \cdot \exp\left( \frac{1}{2}(t_1 + t_2)^2 \right)$$ $$= \exp\left( \frac{1}{2}[2t_1^2 + 2t_2^2] \right) = \exp(t_1^2 + t_2^2)$$
Assim, podemos verificar que
$$M_{X_1+X_2,X_2-X_1}(t_1,t_2) = M_{X_1+X_2}(t_1)M_{X_2-X_1}(t_2)$$
o que mostra que $X_1+X_2$ e $X_2-X_1$ são independentes.
(ii) Consideramos o resultado (i) para o caso em que temos $n$ arbitrário. Além disso, observamos que
$$\sum X_i^2 = \sum(X_i-\overline{X}+\overline{X})^2 = \sum(X_i-\overline{X})^2+2\overline{X}\sum(X_i-\overline{X})+\sum\overline{X}^2 = \sum(X_i-\overline{X})^2+n\overline{X}^2$$
e que $\sum(X_i-\overline{X})^2$ e $n\overline{X}^2$ são independentes. Então
$$M_{\sum{X_i^2}}(t) = M_{\sum(X_i-\overline{X})^2}(t)M_{n\overline{X}^2}(t)$$
e, portanto,
$$M_{\sum{X_i-\overline{X}}}^2(t) = \frac{M_{\sum{X_i^2}(t)}}{M_{n\overline{X}^2}(t)}= \left(\frac{1}{1-2t}\right)^{\frac{n-1}{2}}, \ t \ < \ \frac{1}{2}.$$
Como $\overline{X}\sqrt{n}$ tem uma distribuição normal padrão, segue que $\overline{X}^2n$ tem uma distribuição qui-quadrado com um grau de liberdade. Além disso, a função geradora de momentos de $\sum(X_i-\overline{X})^2$ é igual a de uma distribuição qui-quadrada com $n-1$ graus de liberdade, completando a demonstração.
Corolário 2.3.1
Se $s^2$ é a variância amostral de uma amostra aleatória $X_1, \ldots, X_n$ de uma distribuição normal com média $\mu$ e variância $\sigma^2$, então
$$U=\frac{(n-1)s^2}{\sigma^2}$$
tem uma distribuição qui-quadrado com n-1 graus de liberdade.
Demonstração
De fato, se $X_i\sim N(\mu,\sigma^2)$ para todo $i$, então
$$Z_i = \frac{X_i-\mu}{\sigma}\sim N(0,1).$$
Temos que
$$U = \frac{(n-1)s^2}{\sigma^2}=\frac{\sum_{i=1}^n(X_i-\overline{X})^2}{\sigma^2}$$
Reescrevendo $X_i = Z_i\sigma+\mu$, segue que
$$(X_i-\overline{X})^2 = \left(Z_i\sigma+\mu-\sum_{i=1}^n\frac{Z_i\sigma+\mu}{n}\right)^2 = \left(Z_i\sigma+\mu-\sigma\overline{Z}-\mu\right)^2$$
e, portanto,
$$(X_i-\overline{X})^2 = (Z_i\sigma-\sigma\overline{Z})^2 = (\sigma(Z_i-\overline{Z}))^2=\sigma^2 (Z_i-\overline{Z})^2.$$
Desta forma,
$$U = \sum_{i=1}^n\frac{(X_i-\overline{X})^2}{\sigma^2}=\sum_{i=1}^n\frac{\sigma^2(Z_i-\overline{Z})^2}{\sigma^2}=\sum_{i=1}^n(Z_i-\overline{Z})^2$$
e, a partir do item (ii) do Teorema 2.3.1, concluímos que $U$ tem uma distribuição qui-quadrado com $n-1$ graus de liberdade.
Uma vez que $s^2$ é uma função linear de $U$, a densidade de $s^2$ pode ser obtida da densidade de $U$. Desta forma, temos que
$$f_{S^2}(y)=\left(\frac{n-1}{2\sigma^2}\right)^{(n-1)/2}\frac{1}{\Gamma[(n-1)/2]}y^{(n-3)/2}e^{-(n-1)y/2\sigma^2}\mathbb{I}_{(0,\infty)}(y)$$
e, com isso, $s^2$ tem média $\sigma^2$ e variância $\frac{2\sigma^4}{n-1}$.
Estudo de simulação
Analogamente ao estudo de simulação realizado acima, considere uma população normal com média $\mu = 10$ e variância $\sigma^2= 4$. Considere as 15 amostras de tamanho 20 desta população.
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 7.98 | 10.70 | 7.41 | 9.92 | 9.62 | 8.44 | 14.46 | 5.59 | 7.56 | 8.66 | 9.67 | 11.40 | 12.18 | 12.79 | 12.06 |
| 15.16 | 10.22 | 9.78 | 11.82 | 9.39 | 5.89 | 8.40 | 12.13 | 13.72 | 12.42 | 10.69 | 8.11 | 10.25 | 7.58 | 7.84 |
| 8.13 | 14.30 | 6.69 | 10.01 | 9.90 | 11.73 | 11.92 | 8.77 | 10.98 | 10.24 | 6.41 | 8.68 | 9.98 | 8.30 | 12.23 |
| 9.84 | 7.92 | 12.55 | 8.91 | 7.50 | 10.43 | 12.99 | 11.22 | 7.52 | 8.50 | 8.73 | 9.73 | 9.49 | 7.87 | 7.97 |
| 9.15 | 8.38 | 9.52 | 10.39 | 13.63 | 8.63 | 9.08 | 12.17 | 10.80 | 8.18 | 8.32 | 12.70 | 8.95 | 6.12 | 12.52 |
| 10.80 | 12.36 | 11.31 | 8.12 | 12.25 | 12.60 | 8.11 | 14.41 | 9.86 | 8.37 | 11.48 | 8.42 | 11.48 | 10.12 | 12.69 |
| 7.43 | 11.07 | 8.71 | 14.06 | 11.58 | 10.06 | 10.58 | 6.65 | 13.21 | 10.29 | 13.65 | 10.75 | 10.70 | 12.98 | 11.36 |
| 10.61 | 10.80 | 9.09 | 8.85 | 12.93 | 13.86 | 10.66 | 11.76 | 11.12 | 7.77 | 11.70 | 10.38 | 12.89 | 11.00 | 10.05 |
| 9.64 | 11.67 | 8.35 | 9.51 | 7.49 | 8.63 | 12.22 | 10.91 | 11.07 | 6.99 | 9.08 | 9.90 | 10.08 | 9.85 | 9.24 |
| 10.44 | 8.90 | 7.72 | 5.10 | 9.56 | 8.47 | 15.78 | 11.45 | 7.38 | 10.21 | 8.23 | 14.34 | 7.78 | 12.31 | 10.63 |
| 10.98 | 9.64 | 11.61 | 11.80 | 7.37 | 8.68 | 12.53 | 9.68 | 10.63 | 9.64 | 8.18 | 8.86 | 11.11 | 8.58 | 9.70 |
| 9.96 | 9.90 | 8.89 | 10.94 | 12.49 | 9.40 | 10.97 | 6.13 | 9.64 | 12.93 | 9.90 | 13.17 | 10.26 | 9.23 | 11.43 |
| 9.50 | 10.93 | 9.46 | 6.09 | 10.90 | 9.74 | 11.93 | 12.13 | 10.71 | 8.58 | 9.40 | 12.05 | 10.75 | 12.86 | 10.48 |
| 15.30 | 10.58 | 10.74 | 8.12 | 5.91 | 9.35 | 5.27 | 10.22 | 12.22 | 9.82 | 12.24 | 8.97 | 12.54 | 8.71 | 11.28 |
| 8.13 | 8.81 | 10.72 | 7.52 | 11.86 | 7.74 | 12.53 | 7.42 | 10.38 | 10.28 | 11.27 | 8.85 | 11.19 | 6.11 | 8.98 |
| 9.47 | 11.46 | 9.05 | 9.22 | 10.06 | 12.46 | 6.89 | 9.95 | 12.54 | 6.86 | 7.70 | 12.55 | 11.66 | 7.50 | 11.52 |
| 9.14 | 9.02 | 11.98 | 8.52 | 6.42 | 7.24 | 10.04 | 5.79 | 9.64 | 9.57 | 9.66 | 10.03 | 9.36 | 11.80 | 9.88 |
| 11.47 | 13.56 | 9.26 | 8.19 | 9.09 | 8.83 | 10.18 | 9.60 | 8.77 | 9.23 | 8.50 | 12.21 | 8.09 | 10.67 | 11.68 |
| 9.65 | 8.11 | 10.08 | 10.85 | 7.99 | 12.46 | 10.30 | 8.58 | 9.84 | 13.98 | 10.64 | 8.72 | 8.78 | 12.22 | 9.96 |
| 12.67 | 8.96 | 8.43 | 10.53 | 10.52 | 10.18 | 8.49 | 11.05 | 10.27 | 7.32 | 9.28 | 10.14 | 12.20 | 7.51 | 9.59 |
Tabela 6.2.11: 15 amostras de tamanho 20
Neste caso, calculando a variância de cada uma das 15 amostras, temos que
| Amostras | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Variância amostral | 4,455 | 3,045 | 2,414 | 4,199 | 4,949 | 4,092 | 6,402 | 6,040 | 3,070 | 3,654 | 3,042 | 3,300 | 2,121 | 5,173 | 2,033 |
Tabela 6.2.12: Variâncias das amostras
Figura 6.2.11: Gráfico das Variâncias de 15 amostras
A média das variâncias é 3,866 e a variância das variâncias é 1,815.
Suponha agora que façamos o mesmo estudo, porém ao invés de considerarmos 15 amostras de tamanho 20, consideraremos 1.000. Utilizamos o software Action para realizar esta simulação. A distribuição amostral da variância é dada pelo seguinte histograma
Figura 6.2.12: Gráfico das Variâncias de 1.000 amostras
Neste caso, a média das variâncias é 4,006 e a variância é 1,694.
Realizando o mesmo experimento, mas agora considerando 10000 amostras de tamanho 20 temos que a distribuição da variância é dada pelo histograma abaixo
Figura 6.2.13: Gráfico das Variâncias de 10.000 amostras
Neste caso, a média das variâncias é 3,977 e a variância é 1,668. Então, realmente, podemos perceber que a distribuição da variância amostral se aproxima de uma distribuição qui-quadrado com média $\mu = 4$ e variância $\frac{2\sigma^4}{n-1}=\frac{2\times 16}{19}=1,684$.