6.3 Estimadores

3 - Estimadores

Como já comentamos, a inferência estatística tem por objetivo extrair informações sobre uma população a partir de dados amostrais. Neste contexto, uma das etapas principais da obtenção dessas informações é a estimação dos parâmetros. Considere o seguinte exemplo.

Exemplo 3.1

Considere novamente o problema em se determinar, em uma população, a proporção de pessoas acima de 40 anos que sofrem de artrite. Vamos imaginar que, de uma amostra de 200 pessoas acima de 40 anos, foi verificado que 12 pessoas têm artrite.

Desta forma, uma estimativa natural para a proporção seria de $12/200 = 6%$. É claro que, neste caso, estamos supondo que a amostra representa a população e claro que, caso retirássemos outra amostra da população, possivelmente obteríamos uma estimativa diferente da anterior.

Considerando o caso geral em que temos uma amostra de $n$ elementos, podemos definir a seguinte variável aleatória

$$ X_i = \begin{cases} 1, \ \hbox{se a i-ésima pessoa na amostra possui artrite} \cr 0, \ \hbox{caso contrário} \end{cases} $$

e seja $p$ a probabilidade da pessoa possuir artrite na população, ou seja, o parâmetro de interesse do estudo. Neste caso, temos que $$Y_n = \sum_{i=1}^{n}X_i$$

$Y_n$ tem distribuição binomial com parâmetros $n$ e $p$ e essa variável representa o total de indivíduos na amostra que possuem artrite. Desta forma, um possível estimador para a proporção é dado por

$$\hat{p} = \frac{Y_n}{n} = \sum_{i=1}^{200}\frac{X_i}{200}=\frac{\hbox{pessoas com artrite na amostra}}{\hbox{tamanho amostral}}.$$

Desta forma, se $Y_n = k$, temos que $\hat{p} = \frac{k}{n}$ é uma estimativa para a proporção $p$. Se considerarmos a amostra extraída acima, temos que a estimativa é dada por $\frac{12}{200} = 6%$.

Já vimos na Seção 2.2 que $\hat{p}$ tem distribuição aproximadamente normal com média $p$ e variância $p(1-p)/n$, isto é,

$$\mathbb{E}\left(\hat{p}\right) = p \qquad \text{Var}\left(\hat{p}\right) = \frac{p(1-p)}{n}.$$

Desta forma, podemos concluir que, em média, o estimador $\hat{p}$ é “igual” (está bastante próximo) de $p$ e então, dizemos que o $\hat{p}$ é um estimador não viciado (ou não viesado) de $p$. Além disso, para amostras grandes, a diferença entre o valor real $p$ e o estimador $\hat{p}$ tende a ser pequena, já que, quando $n \rightarrow\infty$, $\text{Var}\left(\hat{p}\right) \rightarrow 0$ e, neste caso, dizemos que $\hat{p}$ é um estimador consistente de p. Mas, como podemos verificar isso?

A seguir, verificaremos algumas propriedades das estatísticas utilizadas na inferência e métodos para calcular estimadores, entre eles os métodos de momentos, de mínimos quadrados e de máxima verossimilhança. Em seguida, estudaremos propriedades interessantes de estimadores.

3.1 - Propriedades das Estatísticas

A inferência estatística a respeito de um estimador $\theta$ é baseada na informação disponível em alguma amostra $X_1, \ldots, X_n$ retirada da população de interesse. Geralmente, isto é feito utilizando estatísticas, que são funções da amostra. Por exemplo, a média amostral é uma estatística. Qualquer estatística $T(\textbf{X}) = T(X_1,\ldots,X_n)$ define uma maneira de resumo dos dados. Se o experimentador utilizar somente o valor observado da estatística $T(\textbf{X})$ ao invés de toda a amostra $\textbf{X}$, então o tratamento será o mesmo para duas amostras $\textbf{X}$ e $\textbf{Y}$ que satisfaçam $T(\textbf{X}) = T(\textbf{Y})$ mesmo que os valores observados de $\textbf{X}$ e $\textbf{Y}$ sejam diferentes. A seguir, estudaremos alguns princípios de redução dos dados. Os principais são: o princípio da suficiência e o princípio da equivariância.

3.1.1 - Princípio da Suficiência

Seja $\theta$ um parâmetro de interesse. O princípio da suficiência estabelece que uma estatística $T(\textbf{X})$ é dita suficiente para o parâmetro $\theta$ se ela captura toda a informação sobre $\theta$ contida na amostra, ou seja, se $X_1, \ldots, X_n$ é uma amostra retirada da população, $T(\textbf{X})$ é uma estatística suficiente para $\theta$ se qualquer inferência sobre $\theta$ depende da amostra $\textbf{X}$ somente do valor $T(\textbf{X})$, ou seja, se $\textbf{X}$ e $\textbf{Y}$ são duas amostras tais que $T(\textbf{x}) = T(\textbf{y})$, então a inferência sobre $\theta$ é a mesma independente da observação $\textbf{X}$ ou $\textbf{Y}$.

Definição 3.1.1.1

Formalmente, dizemos que uma estatística $T(\textbf{X})$ é suficiente para o parâmetro $\theta$ se a distribuição condicional da amostra $\textbf{X}$ dado o valor de $T(\textbf{X})$ não depende de $\theta$. Isto é, $P(\textbf{X} = \textbf{x}|T(\textbf{X}) = t)$ não depende de $\theta$.

No caso em que $T(\mathbf{X})$ possui uma distribuição contínua, temos que $P(T(\mathbf{X}) = t) = 0$ para qualquer valor real $t$. Isso significa que, nesse contexto, não podemos usar diretamente a definição clássica de probabilidade condicional baseada em eventos de probabilidade positiva. Portanto, é necessário recorrer a uma definição mais sofisticada de probabilidade condicional.

Os resultados discutidos aqui serão desenvolvidos no contexto discreto, mas vale destacar que esses mesmos resultados também se aplicam ao caso contínuo, com as devidas adaptações.

Para compreender melhor a Definição 3.1.1.1, considere um valor fixo $t$ possível para a estatística $T(\mathbf{X})$. O objetivo é analisar a probabilidade condicional $P(\mathbf{X} = \mathbf{x} \mid T(\mathbf{X}) = t)$. Note que, se $\mathbf{x}$ não satisfaz $T(\mathbf{x}) = t$, então $P(\mathbf{X} = \mathbf{x} \mid T(\mathbf{X}) = t) = 0$, ou seja, apenas os valores de $\mathbf{x}$ compatíveis com $T(\mathbf{x}) = t$ possuem probabilidade condicional positiva.

Por fim, se $T(\mathbf{X})$ é uma estatística suficiente, então a esperança condicional $\mathbb{E}_\theta[g(\mathbf{X}) \mid T(\mathbf{X})]$ é independente do parâmetro $\theta$, ou seja, ela é a mesma para todos os valores de $\theta$.

Teorema 3.1.1.1

Se $p(\textbf{x}|\theta)$ é a função de probabilidade ou função densidade de probabilidade de $\textbf{X}$ e $q(t|\theta)$ é a função de probabilidade ou função densidade de probabilidade de $T(\textbf{X})$ então $T(\textbf{X})$ é uma estatística suficiente para $\theta$ se, para todo $\textbf{x}$ no espaço amostral, $\frac{p(\textbf{x}|\theta)}{q(T(\textbf{x})|\theta)}$ é constante (não depende de $\theta$).

Exemplo 3.1.1.1

Seja $X_1,\ldots,X_n$ uma amostra independente e igualmente distribuída com distribuição de Bernoulli com parâmetro $\theta$. Neste caso, temos que a estatística $T(\textbf{X}) = X_1 + \ldots + X_n$ é uma estatística suficiente para $\theta$.

De fato, temos que $T(\textbf{X})$ tem uma distribuição Binomial com parâmetros $n$ e $\theta$, isto é, $T(\textbf{X})\sim \ \hbox{Binomial}(n,\theta)$. Supondo que $\sum X_i = t$, segue que

$$\frac{p(\textbf{x}|\theta)}{q(T(\textbf{x})|\theta)} = \frac{\prod_{i = 1}^n\theta^{x_i}(1-\theta)^{1-x_i}}{ {n \choose t} \theta^t(1-\theta)^{n-t}} = \frac{\theta^{\sum x_i}(1-\theta)^{\sum(1-x_i)}}{{n \choose t} \theta^t (1-\theta)^{n-t}} = \frac{\theta^t(1-\theta)^{n-t}}{{n \choose t}\theta^t(1-\theta)^{n-t}}=\frac{1}{{n \choose t}}.$$

de forma que $T(\textbf{X})$ é suficiente para $\theta$.

Exemplo 3.1.1.2

Seja $X_1,\ldots,X_n$ uma amostra independente e igualmente distribuída com distribuição normal com média $\mu$ e variância $\sigma^2$ conhecida, ou seja $N(\mu,\sigma^2)$. A média amostral $T(\textbf{X}) = \bar{X}$ é uma estatística suficiente para $\mu$.

De fato, a função densidade de probabilidade conjunta da amostra $\textbf{X}$ é

$$f(\textbf{x}|\mu) = \prod_{i=1}^n\frac{1}{(2\pi\sigma^2)^{1/2}}\exp\left(\frac{-(x_i-\mu)^2}{2\sigma^2}\right) = \frac{1}{(2\pi\sigma^2)^{n/2}}\exp\left(-\sum_{i=1}^n\frac{(x_i-\mu)^2}{2\sigma^2}\right).$$

de onde concluímos que

$$f(\textbf{x}|\mu) = \frac{1}{(2\pi\sigma^2)^{n/2}}\exp\left(-\frac{\left(\sum_{i=1}^n(x_i-\bar{X})^2 + n(\bar{X}-\mu)^2\right)}{2\sigma^2}\right).$$

Também ressaltamos que a estatística $\bar{X}$ possui distribuição normal com média $\mu$ e variância $\sigma^2/n$, de modo que

$$\frac{f(\textbf{x}|\mu)}{q(T(\textbf{x})|\mu)}=\frac{(2\pi\sigma^2)^{n/2}\exp\left(-\left(\sum_{i=1}^n(x_i-\bar{X})^2+n(\bar{X}-\mu)^2\right)/(2\sigma^2)\right)}{(2\pi\sigma^2/n)^{-1/2}\exp(-n(\bar{X}-\mu)^2/(2\sigma^2))}$$

de onde segue que

$$\frac{f(\textbf{x}|\mu)}{q(T(\textbf{x})|\mu)}=n^{-1/2}(2\pi\sigma^2)^{-(n-1)/2}\exp\left(-\sum_{i=1}^n\frac{(x_i-\bar{X})^2}{2\sigma^2}\right).$$

que não depende de $\mu$. Portanto, pelo Teorema 3.1.1.1 a média amostral $\bar{X}$ é uma estatística suficiente para $\mu$.

Teorema 3.1.1.2 (Teorema da Fatoração de Fisher-Neyman)

Seja $f(\textbf{x}|\theta)$ a função densidade de probabilidade ou função de probabilidade conjunta de uma amostra $\textbf{X}$. Uma estatística $T(\textbf{X})$ é suficiente para $\theta$ se, e somente se, existem funções $g(t|\theta)$ e $h(\textbf{x})$ tais que, para qualquer ponto amostral $\textbf{x}$ e $\theta$ no espaço paramétrico, vale a igualdade

$$f(\textbf{x}|\theta)=g(T(\textbf{x})|\theta)h(\textbf{x}).$$

Em que $g(T(\textbf{x})|\theta)$ é um fator que depende de $\theta$ e também de $\textbf{x}$ através da estatística $T(\textbf{x})$ e $h(\textbf{x})$ um fator que depende apenas de $\textbf{x}$.

Voltando ao Exemplo 3.1.1.2, temos que $f(\textbf{x}|\mu)$ pode ser fatorada da seguinte forma

$$f(\textbf{x}|\mu)=\frac{1}{(2\pi\sigma^2)^{n/2}}\exp\left(-\sum_{i=1}^n\frac{(x_i-\bar{X})^2}{2\sigma^2}\right) \exp\left(-\frac{n(\bar{X}-\mu)^2}{2\sigma^2}\right)$$

e, definindo

$$h(\textbf{x}) = \frac{1}{(2\pi\sigma^2)^{n/2}}\exp\left(-\sum_{i=1}^n\frac{(x_i-\bar{X})^2}{2\sigma^2}\right)$$

que não depende do parâmetro $\mu$ e

$$g(t|\mu) = \exp\left(-\frac{n(t-\mu)^2}{2\sigma^2}\right)$$

que é um fator que contém o parâmetro $\mu$ e depende da amostra $\textbf{x}$ pela função $T(\textbf{x}) = \bar{X}$. Desta forma, segue que

$$f(\textbf{x}|\mu)=h(\textbf{x})g(T(\textbf{x})|\mu).$$

E então, pelo Teorema da Fatoração, $T(\textbf{X}) = \bar{X}$ é uma estatística suficiente para $\mu$.

Exemplo 3.1.1.3

Sejam $X_1,\ldots, X_n$ observações independentes e identicamente distribuídas de uma distribuição uniforme discreta em $1, \ldots, \theta$. Desta forma, a função de probabilidade de $X_i$ é

$$f(x|\theta) = \begin{cases} \frac{1}{\theta} \quad \text{se } x = 1, 2, \ldots, \theta \cr 0, \quad \text{caso contrário} \end{cases} $$

e a função de probabilidade conjunta de $X_1, \ldots, X_n$ é

$$f(\textbf{x}|\theta) = \begin{cases} \frac{1}{\theta^n}, \ \hbox{se} \ x_i\in \lbrace 1,\ldots,\theta \rbrace \ \hbox{para} \ i = 1,\ldots, n \cr 0, \ \hbox{caso contrário} \end{cases}$$

Considerando a estatística de ordem $T(\textbf{x}) = x_{(n)} = \max_i x_i$ e as funções $h(x)$ e $g(t|\theta)$ dadas, respectivamente, por

$$h(x) = \begin{cases} 1, \ \hbox{se} \ x_i\in \lbrace 1,2,\ldots \rbrace \ \hbox{para} \ i = 1,\ldots, n \cr 0, \ \hbox{caso contrário}\end{cases} \quad \hbox{e} \quad g(t|\theta) = \begin{cases}\frac{1}{\theta^n}, \ \hbox{se} \ t\leq\theta \cr 0, \ \hbox{caso contrário}\end{cases}$$

é imediato verificar que $f(\textbf{x}|\theta) = g(T(\textbf{x})|\theta)h(\textbf{x})$ para todo $\textbf{x}$ e $\theta$. Portanto, pelo Teorema da Fatoração, $T(\textbf{X})$ é uma estatística suficiente.

Exemplo 3.1.1.4

Assuma novamente que $X_1,\ldots,X_n$ é uma amostra independente e igualmente distribuída de uma distribuição normal com média $\mu$ e variância $\sigma^2$, porém agora, ambos os parâmetros são desconhecidos. Neste caso temos o vetor de parâmetros $\theta = (\mu,\sigma^2)$. Neste caso, temos que a função densidade de probabilidade depende da amostra $\textbf{x}$ somente dos valores $T_1(\textbf{x}) = \bar{X}$ e $T_2(\textbf{x}) = s^2$. De fato, temos que

$$f(\textbf{x}|\theta) = \frac{1}{(2\pi\sigma^2)^{n/2}}\exp\left(-\sum_{i=1}^n\frac{(x_i-\bar{X})^2}{2\sigma^2}-\frac{n(\bar{X}-\mu)^2}{2\sigma^2}\right)$$

de onde segue que

$$f(\textbf{x}|\theta) =\frac{1}{(2\pi\sigma^2)^{n/2}}\exp\left( -\frac{n(\bar{X}-\mu)^2}{2\sigma^2}-\frac{(n-1)s^2}{2\sigma^2}\right)$$

e então, definindo $h(\textbf{x}) = 1$ e

$$g(t_1,t_2|\theta) = \frac{1}{(2\pi\sigma^2)^{n/2}}\exp\left(-\frac{\left(n(t_1-\mu)^2+(n-1)t_2\right)}{2\sigma^2}\right)$$

segue que

$$f(\textbf{x}|\mu,\sigma^2) = g(T_1(\textbf{x}),T_2(\textbf{x})|\mu,\sigma^2) \ h(\textbf{x})$$

e, pelo Teorema da Fatoração, $T(\textbf{X}) = (T_1(\textbf{X}),T_2(\textbf{X})) = (\bar{X},s^2)$ é uma estatística suficiente para $\theta = (\mu,\sigma^2)$.

O Exemplo 3.1.1.4 nos mostra que o resumo dos dados somente pela média amostral e variância amostral é, de fato, uma prática justificada. A estatística suficiente $(\bar{X}, s^2)$ contém toda a informação sobre os parâmetros $(\mu,\sigma^2)$ disponível na amostra. O seguinte teorema nos fornece uma maneira bastante eficiente de se encontrar uma estatística suficiente $T(\textbf{X}) = (T_1(\textbf{X}),\ldots,T_k(\textbf{X}))$ para um vetor de parâmetros $\theta = (\theta_1,\ldots,\theta_d)$ com $d\leq k$.

Teorema 3.1.1.3

Sejam $X_1,\ldots,X_n$ observações independentes e igualmente distribuída com função de probabilidade ou função densidade de probabilidade $f(x|\theta)$ que pertence a uma família exponencial, ou seja, $f(x|\theta)$ pode ser escrita na seguinte forma

$$f(x|\theta) = h(x)c(\theta)\exp\left(\sum_{i=1}^kw_i(\theta)t_i(x)\right)$$

em que $\theta = (\theta_1,\ldots,\theta_d)$, $d\leq k$. Neste caso, temos que

$$T(\textbf{X}) = \left(\sum_{j=1}^nt_1(X_j),\ldots,\sum_{j=1}^nt_k(X_j)\right)$$

é uma estatística suficiente para $\theta$.

Exemplo 3.1.1.5

Seja $X_1,\ldots,X_n$ uma amostra aleatória independente e igualmente distribuída de uma distribuição de Bernoulli com parâmetro $0 \ < \ \theta \ < \ 1$. A distribuição de Bernoulli pertence à família exponencial. De fato, temos que

$$f(x|\theta) = \theta^x(1-\theta)^{1-x} = \exp\left(\log(\theta^x(1-\theta)^{1-x})\right) = \exp\left(x\log\theta + (1-x)\log(1-\theta)\right)$$

de onde podemos escrever

$$f(x|\theta) = \exp\left(x\log\left(\frac{\theta}{1-\theta}\right)+\log(1-\theta)\right) = (1-\theta)\exp\left(x\log\left(\frac{\theta}{1-\theta}\right)\right)$$

e então, basta tomar $c(\theta) = 1-\theta$, $t(x) = x$ e $w(\theta) = \log(\frac{\theta}{1-\theta})$. Como $t(x) = x$, segue do Teorema 3.1.1.3 que $T(\textbf{x}) = \sum_{j=1}^nt(X_j) = \sum_{j=1}^nX_j$ é uma estatística suficiente para o parâmetro $\theta$, comprovando o resultado o Exemplo 3.1.1.1.

Observação 3.1.1.1

A amostra completa $\textbf{X}$ é uma estatística suficiente. De fato, podemos fatorar a função de probabilidade ou função densidade de probabilidade de $\textbf{X}$ como $f(\textbf{x}|\theta) = f(T(\textbf{x})|\theta)h(\textbf{x})$ em que $T(\textbf{x}) = \textbf{x}$ e $h(\textbf{x}) = 1$ para qualquer $\textbf{x}$.

Observação 3.1.1.2

Qualquer função bijetora de uma estatística suficiente é uma estatística suficiente. De fato, suponha que $T(\textbf{X})$ é uma estatística suficiente e considere $T^\ast(\textbf{x}) = m(T(\textbf{x}))$ para todo $\textbf{x}$ em que $m$ é uma função bijetora com inversa $m^{-1}$. Temos, pelo Teorema da Fatoração que existem funções $g$ e $h$ tais que

$$f(\textbf{x}|\theta) = g(T(\textbf{x})|\theta)h(\textbf{x}) = g(m^{-1}(T^\ast(\textbf{x}))|\theta)h(\textbf{x})$$

e então, definindo $g^\ast(t|\theta) = g(m^{-1}(t)|\theta)$, concluímos que

$$f(\textbf{x}|\theta) = g^\ast(T^\ast(\textbf{x})|\theta)h(\textbf{x})$$

de forma que, pelo Teorema da Fatoração, $T^\ast(\textbf{X})$ é uma estatística suficiente.

Definição 3.1.1.2

Uma estatística suficiente $T(\textbf{X})$ é chamada de estatística suficiente minimal se, para qualquer outra estatística suficiente $T'(\textbf{X})$, $T(\textbf{x})$ é uma função de $T'(\textbf{x})$.

Não é interessante utilizar a Definição 3.1.1.2 para encontrar uma estatística suficiente minimal, assim como não é prático utilizar a Definição 3.1.1.1 para encontrar uma estatística suficiente. O teorema abaixo nos fornece uma maneira prática para encontrar uma estatística suficiente minimal.

Teorema 3.1.1.4

Seja $f(\textbf{x}|\theta)$ a função de probabilidade ou função densidade de probabilidade de uma amostra $\textbf{X}$. Suponha que exista uma função $T(\textbf{x})$ tal que, para quaisquer $\textbf{x}$ e $\textbf{y}$, a razão $f(\textbf{y}|\theta)/f(\textbf{x}|\theta)$ é constante se, e somente se, $T(\textbf{x}) = T(\textbf{y})$. Então $T(\textbf{X})$ é uma estatística suficiente minimal para $\theta$.

Exemplo 3.1.1.6

Seja $X_1,\ldots,X_n$ uma amostra independente e igualmente distribuída de uma distribuição normal com média $\mu$ e variância $\sigma^2$ desconhecidas e sejam $\textbf{x}$ e $\textbf{y}$ dois pontos amostrais tais que $(\bar{x},s^2_{\textbf{x}})$ e $(\bar{y},s^2_{\textbf{y}})$ são as médias e variâncias correspondentes a $\textbf{x}$ e $\textbf{y}$ respectivamente. Neste caso, temos que

$$\frac{f(\textbf{x}|\mu,\sigma^2)}{f(\textbf{y}|\mu,\sigma^2)}=\frac{(2\pi\sigma^2)^{-n/2}\exp\left(-[n(\bar{x}-\mu)^2+(n-1)s^2_{\textbf{x}}]/(2\sigma^2)\right)}{(2\pi\sigma^2)^{-n/2}\exp\left(-[n(\bar{y}-\mu)^2+(n-1)s^2_{\textbf{y}}]/(2\sigma^2)\right)}$$

de onde concluímos que

$$\frac{f(\textbf{x}|\mu,\sigma^2)}{f(\textbf{y}|\mu,\sigma^2)} = \exp\left([-n(\bar{x}^2-\bar{y}^2)+2n\mu(\bar{x}-\bar{y})-(n-1)(s^2_{\textbf{x}}-s^2_{\textbf{y}})]/(2\sigma^2)\right)$$

que é constante em relação aos parâmetros $\mu$ e $\sigma^2$ se, e somente se $\bar{x} = \bar{y}$ e $s^2_{\textbf{x}} = s^2_{\textbf{y}}$. Segue do Teorema de Lehmann-Scheffé que $(\bar{X}, S^2)$ é uma estatística suficiente minimal para $(\mu,\sigma^2)$.

Estatística Ancilar

Estatísticas suficientes, como vimos, possuem toda a informação a respeito do parâmetro $\theta$ disponível na amostra. Em contrapartida, uma estatística ancilar, não contém nenhuma informação a respeito do parâmetro $\theta$. Neste caso, uma estatística ancilar é uma observação de uma variável aleatória cuja distribuição é fixa e conhecida, além de não relacionada com $\theta$.

Definição 3.1.1.3

Uma estatística $S(\textbf{X})$ cuja distribuição não depende do parâmetro $\theta$ é chamada de estatística ancilar.

Exemplo 3.1.1.7

Seja $X_1,\ldots,X_n$ uma amostra aleatória independente e igualmente distribuída de uma distribuição uniforme no intervalo $(\theta,\theta+1)$, $-\infty \ < \ \theta \ < \ \infty$ e seja $X_{(1)}<\ldots< X_{(n)}$ a estatística de ordem da amostra. Neste caso, temos que a amplitude $R = X_{(n)} - X_{(1)}$ é uma estatística ancilar.

De fato, temos que a função de distribuição acumulada de cada $X_i$ é dada por

$$F(x|\theta) = \begin{cases} 0, \ \hbox{se} \ x\leq\theta \cr x-\theta \ \hbox{se} \ \theta \ < \ x \ < \ \theta+1 \cr 1, \ \hbox{se} \ x\geq \theta+1\end{cases}$$

Assim, a função de distribuição conjunta de $X_{(1)}$ e $X_{(n)}$ é dada por

$$g(x_{(1)},x_{(n)}|\theta) = \begin{cases}n(n-1)(x_{(n)}-x_{(1)})^{n-2}, \ \hbox{se} \ \theta \ < \ x_{(1)} \ < \ x_{(n)} \ < \ \theta+1 \cr 0, \ \hbox{caso contrário.} \end{cases}$$

Considerando a transformação $R = X_{(n)}-X_{(1)}$ e $M = (X_{(1)}+X_{(n)})/2$ que tem a transformação inversa $X_{(1)} = (2M-R)/2$ e $X_{(n)} = (2M+R)/2$ com jacobiano, temos que a função densidade de probabilidade conjunta de $R$ e $M$ é

$$h(r,m|\theta) = \begin{cases}n(n-1)r^{n-2}, \ 0 \ < \ r \ < \ 1, \ \theta + (r/2) \ < \ m \ < \ \theta+1-(r/2) \cr 0, \ \hbox{caso contrário} \end{cases}$$

e a função densidade de probabilidade de $R$ é

$$h(r|\theta) = \int_{\theta+(r/2)}^{\theta+1-(r/2)}n(n-1)r^{n-2}dm = n(n-1)r^{n-2}(1-r), \ 0 \ < \ r \ < \ 1$$

que não depende de $\theta$ e então, $R$ é uma estatística ancilar.

Definição 3.1.1.4

Seja $f(t|\theta)$ uma família de funções de probabilidade ou funções densidade de probabilidade para uma estatística $T(\textbf{X})$. A família de distribuições de probabilidade é chamada completa se $\mathbb{E}(g(T)) = 0$ para todo $\theta$ implicar que $\mathbb{P}(g(T) = 0) = 1$ para todo $\theta$. De forma equivalente, $T(\textbf{X})$ é uma estatística completa.

Exemplo 3.1.1.8

Suponha que $T$ tenha distribuição Binomial(n,p) com $0 \ < \ p \ < \ 1$ e seja $g$ uma função tal que $\mathbb{E}(g(T)) = 0$. Então

$$0 = \mathbb{E}(g(T)) = \sum_{t=0}^ng(t)\binom{n}{t}p^t(1-p)^{n-t} = (1-p)^n\sum_{t=0}^ng(t)\binom{n}{t}\left(\frac{p}{1-p}\right)^t$$

para $0 \ < \ p \ < \ 1$. Como $(1-p)^n$ é não nulo para qualquer $p$, segue que

$$0 = \sum_{t=0}^ng(t)\binom{n}{t}\left(\frac{p}{1-p}\right)^t = \sum_{t=0}^ng(t)\binom{n}{t}r^t$$

para todo $r$ com $0 \ < \ r \ < \ \infty$. Uma vez que nenhum dos termos $\binom{n}{t}$ é nulo, seque que $\binom{n}{t}$ é não nulo e então, $g(t) = 0$ para todo $t = 0,1,\ldots,n$. Como, por hipótese, $T$ assume os valores $0, 1, \ldots, n$ com probabilidade 1, segue que $\mathbb{P}(g(T) = 0) = 1$ para todo $p$ e, desta forma, $T$ é uma estatística completa.

Exemplo 3.1.1.9

Sejam $X_1, \ldots, X_n$ observações independentes e igualmente distribuídas de uma distribuição Uniforme $(0,\theta)$ com $0 \ < \ \theta \ < \ \infty$. De forma análoga ao Exemplo 3.1.1.3, podemos mostrar que $T(\textbf{X}) = \max_iX_i$ é uma estatística suficiente e a função densidade de probabilidade de $T(\textbf{X})$ é dada por

$$f(t|\theta) = \begin{cases}nt^{n-1}\theta^{-n}, \ \hbox{se} \ 0 \ < \ t \ < \ \infty \cr 0, \ \hbox{caso contrário.} \end{cases}$$

Seja $g(t)$ uma função que satisfaz $\mathbb{E}(g(T)) = 0$ para todo $\theta$. Uma vez que $\mathbb{E}(g(T))$ é constante como função de $\theta$, sua derivada em relação a $\theta$ é $0$. Portanto

$$0 = \frac{d}{d\theta}\mathbb{E}(g(T)) = \frac{d}{d\theta}\int_0^\theta g(t)nt^{n-1}\theta^{-n}dt = (\theta^{-n})\frac{d}{d\theta}\int_0^\theta ng(t)t^{n-1}dt + \left(\frac{d}{d\theta}\theta^{-n}\right)\int_0^\theta ng(t)t^{n-1}dt$$

de onde concluímos que

$$0 = \theta^{-1}ng(\theta).$$

Como $n\theta^{-1}\neq0$, segue que $g(\theta) = 0$ e isto é verdade para todo $\theta \ > \ 0$, logo $T$ é uma estatística completa.

Teorema 3.1.1.5 (Teorema de Basu)

Se $T(\textbf{X})$ é uma estatística suficiente minimal e completa, então $T(\textbf{X})$ é independente de qualquer estatística ancilar.

Teorema 3.1.1.6

Sejam $X_1,\ldots,X_n$ observações independentes e igualmente distribuídas de uma família exponencial com função de probabilidade ou função densidade de probabilidade da forma

$$f(x|\theta) = h(x)c(\theta)\exp\left(\sum_{j=1}^kw(\theta_j)t_j(x)\right)$$

em que $\theta = (\theta_1,\theta_2,\ldots,\theta_k)$. Então a estatística

$$T(\textbf{X}) = \left(\sum_{i=1}^nt_1(X_i),\sum_{i=1}^nt_2(X_i),\ldots,\sum_{i=1}^nt_k(X_i)\right)$$

é completa, contanto que o espaço paramétrico $\Theta$ contenha um conjunto aberto em $\mathbb{R}^k$.

3.1.2 - Princípio da Verossimilhança

O princípio da verossimilhança também pode ser utilizado para resumo dos dados. Veremos nesta seção que, se alguns princípios são aceitos, a função de verossimilhança deve ser utilizada como um dispositivo de redução dos dados.

Definição 3.1.2.1

Seja $f(x|\theta)$ a função de probabilidade ou função densidade de probabilidade de uma amostra $\textbf{X} = (X_1,\ldots,X_n)$. Então, dado que $\textbf{X} = \textbf{x}$ é observado, a função de $\theta$ definida por

$$L(\theta|\textbf{x}) = f(\textbf{x}|\theta)$$

é chamada de função de verossimilhança.

Suponha que $\textbf{X}$ é um vetor aleatório discreto, então $L(\theta|\textbf{x}) = \mathbb{P}_{\theta}(\textbf{X} = \textbf{x})$. Suponha que a função de verossimilhança em dois pontos paramétricos $\theta_1$ e $\theta_2$ satisfaçam a seguinte desigualdade

$$ \mathbb{P}_ {\theta_1} (\mathbf{X} = \mathbf{x}) = L(\theta_1 | \mathbf{x}) > L(\theta_2 | \mathbf{x}) = \mathbb{P}_{\theta_2}(\mathbf{X} = \mathbf{x}) $$

podemos concluir que é mais provável que a amostra observada tenha ocorrido se $\theta = \theta_1$ do que se $\theta = \theta_2$.

Observação 3.1.2.1

Vale ressaltar que a diferença entre a função de probabilidade (ou função densidade de probabilidade) e a função de verossimilhança está justamente em qual variável é considerada fixa e qual está variando. Quando consideramos a função de probabilidade ou função densidade de probabilidade, $\theta$ é fixo enquanto $\textbf{x}$ é variável e quando consideramos a função de verossimilhança, a amostra observada $\textbf{x}$ é fixa enquanto $\theta$ é variável em relação aos valores paramétricos possíveis.

Exemplo 3.1.2.1

Considere $10$ ensaios de Bernoulli independentes com parâmetro $p, \quad (0 \ < \ p \ < \ 1)$ e a variável aleatória $X$ definida como a soma dos valores observados nos ensaios. Neste caso, sabemos que X tem distribuição binomial com parâmetros $10$ e $p$, isto é, $$X \sim \ \hbox{Binomial}(10,p)$$

Suponha que, a partir da amostra, temos que o valor observado seja $X = 3$. Então a função de verossimilhança é dada por

$$L(\theta|3) = \mathbb{P}(X = 3) = \binom{10}{3}p^3(1-p)^7.$$

Para o caso geral, temos que, se $X = x$ é observado, então a função de verossimilhança é

$$L(\theta|x) = \mathbb{P}(X = x) = \binom{10}{x}p^x(1-p)^{10-x}.$$

O princípio da verossimilhança especifica como a função de verossimilhança deve ser usada para resumo dos dados.

Princípio da verossimilhança

Suponha que $\textbf{x}$ e $\textbf{y}$ sejam dois pontos amostrais tais que $L(\theta|\textbf{x})$ é proporcional a $L(\theta|\textbf{y})$, ou seja, existe uma constante $C(\textbf{x},\textbf{y})$ tal que

$$L(\theta|\textbf{x}) = C(\textbf{x},\textbf{y})L(\theta|\textbf{y}), \ \hbox{para todo} \ \theta$$

então as conclusões obtidas a partir de $\textbf{x}$ e $\textbf{y}$ devem ser idênticas.

Observação 3.1.2.2

Observe que a constante $C(\textbf{x},\textbf{y})$ na equação acima pode ser diferente para pares $(\textbf{x},\textbf{y})$ diferentes, mas $C(\textbf{x},\textbf{y})$ não depende de $\theta$.

Se $C(\textbf{x},\textbf{y}) = 1$, o princípio da verossimilhança estabelece que se dois pontos amostrais resultam na mesma função de verossimilhança, então eles contém a mesma informação sobre $\theta$ e se dois pontos amostrais possuem verossimilhanças proporcionais, eles contém informação equivalente sobre $\theta$.

3.1.3 - Princípio da Equivariância

Sejam $\textbf{x}$ e $\textbf{y}$ duas amostra e $T$ uma função da amostra. O princípio da Equivariância estabelece que se $T(\textbf{x}) = T(\textbf{y})$, então a inferência realizada se $\textbf{x}$ é observado deve possuir uma certa relação com a inferência realizada se $\textbf{y}$ é observada, embora as duas inferências possam não ser as mesmas. A técnica para redução dos dados que será chamada de princípio da equivariância, na verdade, será uma combinação de duas considerações de equivariância diferentes: a equivariância de medição e a invariância informal. Ambas serão descritas abaixo.

A equivariância de medição estabelece que a inferência realizada sobre um experimento deve ser independente da unidade de medição utilizada. Por exemplo, suponha que dois experimentadores devem realizar o mesmo experimento de medição e um deles utiliza medidas em polegadas e o outro utiliza medidas em metro e que, ao final do experimento, o resultado estimado deva ser fornecido em polegadas. Neste caso, o segundo experimentador pode obter o resultado estimado em metros e, posteriormente, convertê-lo para polegadas e assim, ambos produzirão as mesmas estimativas.

A invariância informal estabelece que, se dois problemas de inferência possuem a mesma estrutura formal em termos matemáticos, então o mesmo procedimento de inferência pode ser realizado em ambos os problemas. Os elementos que deve ser iguais são o espaço paramétrico $\Theta$ e o conjunto de funções de probabilidade ou funções densidade de probabilidade da amostra, isto é, $ \lbrace f(\textbf{x}|\theta):\theta\in\Theta \rbrace $. Desta forma, a invariância informal está preocupada com as entidades matemáticas envolvidas ao invés da descrição física do fenômeno estudado.

A seguir, enunciamos o princípio da equivariância a partir das considerações acima.

Princípio da equivariância

Se $\textbf{Y} = g(\textbf{X})$ é uma mudança da unidade de medição tal que o modelo estatístico para $\textbf{Y}$ possui a mesma estrutura formal do modelo para $\textbf{X}$, então um procedimento estatístico deve ser equivariante para a medição e formalmente invariante.

Exemplo 3.1.3.1

Seja $X$ uma distribuição binomial com parâmetros $n$ conhecido e probabilidade $p$ desconhecida e seja $T(x)$ a estimativa de $p$ que é utilizada quando $X = x$ é observada. Podemos utilizar o número de sucessos $X$ para fazer inferência sobre $p$, porém também podemos utilizar o número de falhas $Y = n - X$, que também tem uma distribuição binomial com parâmetros $(n,q = 1-p)$. Neste caso, se $T^\ast(y)$ é a estimativa de $q$ utilizada quando $Y = y$ é observada, então $1-T^\ast(y)$ é a estimativa de $p$ quando $Y = y$ é observada. Se $x$ sucessos são observados, então a estimativa para $p$ é $T(X)$. Mas, quando existem $x$ sucessos, obrigatoriamente, existem $(n-x)$ fracassos e, desta forma, $1 - T^\ast(n-x)$ é também uma estimativa de $p$. A partir da equivariância de medição, estas duas estimativas deve ser iguais, ou seja, $T(x) = 1 - T^\ast(n-x)$, já que a mudança de $X$ para $Y$ é apenas uma mudança na escala de medição. Também, como $X$ e $Y$ têm distribuição binomial com parâmetros $n$ e $\theta$ com $0 \leq\theta\leq 1$, temos, a partir da invariância forma que $T(z) = T^\ast(z)$ para todo $z = 0, \ldots,n$. Desta forma, temos que $$T(x) = 1 - T^\ast(n-x) = 1 - T(n-x) \quad (\ast)$$

Aqui, vale observar que, enquanto a especificação de um estimador arbitrário requer a especificação de $T(0), T(1), \ldots, T(n)$, a especificação de uma estimador que satisfaça a equação acima requer somente a especificação de $T(0), T(1),\ldots, T([n/2])$ em que $[n/2]$ é o maior inteiro menor que $n/2$. Os demais valores são completamente determinados por estes, por exemplo $T(n) = 1-T(0), \ \ T(n-1) = 1-T(1)$ e assim por diante. E é neste sentido que sempre conseguimos uma redução nos dados através do princípio da equivariância, isto é, a inferência a ser feita para alguns pontos amostrais determina a inferência a ser feita para outros pontos amostrais.

Para este exemplo, em particular, poderíamos usar os seguintes estimadores equivariantes: $$T_1(x) = \frac{x}{n} \ \hbox{e} \ T_2(x) = 0,9\frac{x}{n} + 0,1\times 0,5.$$

É simples verificar que a condição estabelecida em $(\ast)$ é cumprida. De fato, temos que $$T_1(x) = \frac{x}{n} = \frac{n -(n-x)}{n} = 1 - T_1(n-x)$$

e $$T_2(x) = 0,9\frac{x}{n} + 0,1\times 0,5 = 1 - 0,9\frac{n-x}{n} - 0,1\times 0,5 = 1 - T_2(n-x).$$

É claro que um ponto chave no princípio da equivariância é a escolha da transformação envolvida. A função de transformação nos dados no Exemplo 3.1.3.1 é $Y = n-X$.

Definição 3.1.3.1

Um conjunto de funções $ \lbrace f(\textbf{x}): f\in\mathcal{G} \rbrace $ do espaço amostral $\Omega$ em $\Omega$ é chamado de grupo de transformações de $\Omega$ se as seguintes propriedades são satisfeitas

  1. Toda função $f\in\mathcal{G}$ possui função inversa $f^{-1}$.

  2. Se $f\in\mathcal{G}$ e $g\in\mathcal{G}$ então existe $h\in\mathcal{G}$ tal que $h = f\circ g\in\mathcal{G}$.

  3. A identidade $e(\textbf{x}) = \textbf{x}$ é um elemento de $\mathcal{G}$.

A propriedade 3 é uma consequência das duas anteriores e, portanto, não precisa ser verificada separadamente.

Retornando ao Exemplo 3.1.3.1 verificamos que existem apenas duas transformações envolvidas, de forma que tomamos o conjunto $\mathcal{G} = \lbrace f,g \rbrace $ com $f(x) = n - x$ e $g(x) = x$. Neste caso, a função $g$ é a inversa da função $f$ e, com isso a propriedade 1 está satisfeita. Além disso, na propriedade 2, $f\circ g(x) = f(x), g\circ f(x) = f(x), f\circ f(x) = g(x)$ e $g\circ g(x) = g(x)$.

Como já comentamos, para utilizar o Princípio da Equivariância, precisamos utilizar a invariância formal ao problema transformado, ou seja, após a mudança na escala de medição, precisamos ter a mesma estrutura formal para a inferência estatística. Neste caso, queremos que o modelo, ou família de distribuições, seja invariante.

Definição 3.1.3.2

Seja $\mathcal{F} = \lbrace f(\textbf{x}|\theta): \theta\in\Theta \rbrace $ um conjunto de funções de probabilidade ou funções densidade de probabilidade para $\textbf{X}$ e seja $\mathcal{G}$ um grupo de transformações do espaço amostral $\Omega$. Então, $\mathcal{F}$ é invariante sob o grupo $\mathcal{G}$ se, para todo $\theta\in\Theta$ e $g\in\mathcal{G}$, existe um único $\theta'\in\Theta$ tal que $\textbf{Y} = g(\textbf{X})$ tem distribuição $f(\textbf{y}|\theta')$ se $\textbf{X}$ tem a distribuição $f(\textbf{x}|\theta)$.

3.2 - Estimadores de Momentos

Uma outra forma de encontrar estimadores de parâmetros populacionais, como a média e a variância por exemplo, é através do método dos momentos. Este método é baseado nos momentos teóricos e amostrais das variáveis aleatórias envolvidas. Na Seção 3.4 de Probabilidades, temos uma explicação detalhada dos momentos teóricos e da função geradora de momentos. Recordamos aqui a definição de momento teórico.

Definição 3.2.1

Seja $X$ uma variável aleatória. Para cada inteiro positivo $n$, o n-ésimo momento de $X$, denotado por $\mu_n$, é dado por

$$\mu_n = \mathbb{E}(X^n)$$

desde que $\mathbb{E}(X^n)$ exista. Além disso, definimos o n-ésimo momento central como sendo $\mathbb{E}[(X - \mathbb{E}(X))^n]$, caso exista.

Em particular, se $X$ é uma variável aleatória discreta com função de probabilidade $p(x)$, temos que

$$\mu_n = \sum x^np(x)$$

e, se $X$ é uma variável aleatória contínua com função densidade de probabilidade $f(x)$, temos que

$$\mu_n = \int_{-\infty}^\infty x^nf(x)dx.$$

Exemplo 3.2.1

Seja $X$ uma variável aleatória com média $\mu$ e variância $\sigma^2$. Neste caso, as seguintes relaçõe são válidas para os dois primeiros momentos populacionais:

$$\mathbb{E}(X) = \mu, \quad \mathbb{E}(X^2) = \sigma^2 + \mu^2$$

A primeira igualdade é imediata e a segunda, segue do fato de que $\hbox{Var}(X) = \mathbb{E}(X^2) - \mathbb{E}(X)^2$, de onde segue que $\mathbb{E}(X^2) = \hbox{Var}(X) + \mathbb{E}(X)^2 = \sigma^2 + \mu^2$.

Definição 3.2.2

Seja $X_1, X_2, \ldots, X_k$ uma amostra de tamanho $k$ da população $X$. Definimos, o n-ésimo momento amostral, denotado por $m_n$, por

$$m_n = \frac{1}{k}\sum_{i=1}^kX_i^n, \quad n = 1, 2, \ldots$$

Em particular, temos que $m_1 = \bar{X}$ e $m_2 = \sum_{i=1}^kX_i^2/k$.

Definição 3.2.3

Dizemos que $\hat{\theta}_1,\ldots, \hat{\theta}_r$ são estimadores obtidos pelo método dos momentos se eles forem soluções das equações

$$m_n=\mu_n, \quad n = 1,2,\ldots,r.$$

O procedimento mais adequado para encontrar os estimadores de momentos consiste em substituir os momentos teóricos pelos respectivos momentos amostrais.

Exemplo 3.2.2

Seja $X$ uma variável aleatória com média $\mu$ e variância $\sigma^2$. Já vimos no Exemplo 3.2.1 que $\mu = \mathbb{E}(X)$ e $\sigma^2 = \mathbb{E}(X^2) - \mathbb{E}(X)^2$. Além disso, os dois primeiros momentos amostrais são dados, respectivamente, por

$$m_1 = \frac{1}{k}\sum_{i=1}^kX_i = \overline{X}, \quad m_2 = \frac{1}{k}\sum_{i=1}^kX_i^2.$$

Neste caso, os estimadores para a média populacional $\mu$ e a variância populacional $\sigma^2$ obtidos pelo método dos momentos serão

$$\hat{\mu}_M = m_1 = \overline{X},$$

$$\hat{\sigma}^2_M = m_2 - m_1^2 = \frac{1}{k}\sum_{i=1}^kX_i^2 - \overline{X}^2 = \hat{\sigma}^2.$$

Exemplo 3.2.3

Dependendo da situação, podemos ter mais de um estimador de momentos. Suponha, por exemplo que $X$ seja uma variável aleatória com distribuição de Poisson com parâmetro $\lambda > 0$. Já vimos na Seção 5.2 de Probabilidades que $\mathbb{E}(X) = \hbox{Var}(X) = \lambda$ e então, utilizando o Exemplo 3.2.2, temos que o parâmetro $\lambda$ pode ser estimado tanto por $\overline{X}$ como por $\sum_{i=i}^k\frac{(X_i - \overline{X})^2}{k}$, ou seja, $\hat{\lambda}_M=\overline{X}$ ou $\hat{\lambda}_M=\hat{\sigma}^2$, que podem resultar em valores muito diferentes.

Exemplo 3.2.4

Seja $X_1, X_2,\ldots, X_m$ uma amostra aleatória independente igualmente distribuída com distribuição binomial de parâmetros $n$ e $p$, ou seja,

$$\mathbb{P}(X_i = x | n,p) = \binom{n}{x}p^x(1-p)^{n-x}, \quad x = 0,1,\ldots,n.$$

Assumindo que os parâmetros $n$ e $p$ sejam desconhecidos, vamos encontrar estimadores para ambos os parâmetros a partir do método dos momentos. A partir do Exemplo 3.2.1 e usando o fato de que $X_i$ tem média $np$ e variância $np(1-p)$, temos que os dois primeiros momentos populacionais são dados, respectivamente, por

$$\mu_1 = \mathbb{E}(X) = np \quad \hbox{e} \quad \mu_2 = \mathbb{E}(X^2) = np(1-p) + n^2p^2$$

Igualando os dois primeiros momentos amostrais $m_1$ e $m_2$ aos dois primeiros momentos populacionais, temos o seguinte sistema de equações

$$\begin{cases}\overline{X} = np \cr \frac{1}{m}\sum_{i=1}^mX_i^2 = np(1-p) + n^2p^2\end{cases}$$

Resolvendo em $n$ e $p$, obtemos os seguintes estimadores pelo método dos momentos

$$\hat{n} = \frac{\overline{X}^2}{\overline{X}-(1/m)\sum_{i=1}^m(X_i-\overline{X})^2} \quad \hbox{e} \quad \hat{p} = \frac{\overline{X}}{\hat{n}}.$$

Este é um típico exemplo em que os estimadores não são os melhores para os parâmetros populacionais de interesse. Na verdade, utilizando estes estimadores, podemos ter estimativas negativas para $n$ e $p$, o que não pode acontecer, já que estes devem ser números positivos.

3.3 - Estimadores de Mínimos Quadrados

O método de estimação por mínimos quadrados consiste em minimizar o quadrado das diferenças entre os valores observados de uma amostra e seus respectivos valores esperados. Consideraremos o procedimento a partir de um exemplo simples.

Exemplo 3.3.1

Suponha que estamos interessados em estudar a resistência $Y$ de uma cabo de aço em função de seu diâmetro $X$. A partir de uma amostra coletada, percebemos que as variáveis são, aproximadamente, proporcionais, isto é, $Y\approx\theta X$ em que $\theta$ é o coeficiente de proporcionalidade. O nosso objetivo é estimar o parâmetro $\theta$, baseado nas medidas disponíveis em uma amostra de 10 unidades mostradas na tabela a seguir:

X 0,50 0,60 0,75 0,80 0,90 1,05 1,20 1,30 1,50 1,65
Y 2,07 2,24 3,28 3,35 3,81 4,14 4,64 5,13 6,05 6,57

Tabela 6.3.1: Amostra de 10 unidades de resistência de cabos

A partir dessas informações, podemos concluir que, aparentemente, $\hat{\theta} = 4$ parece ser uma estimativa razoável para o parâmetro $\theta$. Como podemos verificar a qualidade desta estimativa? Uma forma de fazer isso é verificar as diferenças entre os valores observados $Y$ e os valores esperados utilizando a estimativa, ou seja, $4X$. Na tabela a seguir, temos os valores da amostra, os valores esperados, a diferença $Y-4X$ e as diferenças ao quadrado $(Y-4X)^2$.

$X$ $Y$ $Y - 4X$ $(Y - 4X)^2$
0,50 2,07 0,07 0,0049
0,60 2,24 -0,16 0,0256
0,75 3,28 0,28 0,0784
0,80 3,35 0,15 0,0225
0,90 3,81 0,21 0,0441
1,05 4,14 -0,06 0,0036
1,20 4,64 -0,16 0,0256
1,30 5,13 -0,07 0,0049
1,50 6,05 0,05 0,0025
1,65 6,57 -0,03 0,0009
Total 0,28 0,213

Tabela 6.3.2: Amostra, valores esperados, desvios e desvios ao quadrado

A ideia principal do método baseia-se em minimizar o erro quadrático total da amostra. Para a estimativa $\hat{\theta} = 4$, este erro é dado por $0,213$, porém, pode ser que exista alguma outra estimativa com erro quadrático total menor do que $0,213$. Desta forma, o objetivo é minimizar a função

$$S(\theta) = \sum_{i=1}^{10}(Y_i-\theta X_i)^2.$$

O mínimo da função é obtido derivando a função em relação a $\theta$ e igualando o resultado a zero, ou seja, encontrar $\hat{\theta}$ para o qual

$$\frac{dS(\theta)}{d\theta} = \sum_{i=1}^{10}(Y_i-\hat{\theta}X_i)(-2X_i) = 0.$$

E, resolvendo esta equação, obtemos o estimador $\hat{\theta}_{MQ}:$

$$\hat{\theta_{MQ}} = \frac{\sum_{i=1}^{10} X_iY_i}{\sum_{i=1}^{10} X_i^2}$$

Utilizando os dados de $X$ e $Y$, encontramos $\hat{\theta}_{MQ} = 4,011625$, ou seja, a estimativa que minimiza o erro quadrático total da amostra é dada por $\hat{\theta} = 4,011625$. De fato, utilizando este valor, temos que o erro quadrático total é $0,2114015$.

Neste caso, estamos assumindo que, para um dado valor da variável $X$, os valores da variável $Y$ seguem uma distribuição de probabilidade $f_Y(y)$ centrada em $\theta X$, o que é equivalente a dizer que, para cada $X$, o desvio $\epsilon = Y - \theta X$ segue uma distribuição centrada em zero e, desta forma, é comum escrever $$Y = \theta X + \epsilon$$

com $\epsilon$ seguindo a distribuição $f_\epsilon(\cdot)$ com média zero. Desta forma, é razoável escolher $\theta$ que minimiza a soma dos quadrados dos erros

$$\sum_{i=1}^{10}\epsilon^2 = \sum_{i=1}^{10}(Y_i-\theta X_i)^2.$$

Observamos que o modelo pode ser generalizado. Isto é, podemos considerar funções mais gerais do parâmetros $\theta$, ou seja,

$$Y = g(X,\theta) + \epsilon$$

e, da mesma forma do exposto acima, devemos encontrar o valor de $\theta$ que minimize a função $$S(\theta) = \sum_{i = 1}^n\epsilon_i^2 = \sum_{i=1}^n(Y_i-g(X_i,\theta))^2,$$

para uma amostra $(X_1,Y_1), \ldots, (X_n,Y_n)$ das variáveis $X$ e $Y$. A solução $\hat{\theta}_{MQ}$ é chamada de estimador de mínimos quadrados (EMQ) de $\theta$.

3.4 - Estimadores de Máxima Verossimilhança

O princípio de máxima verossimilhança é um dos procedimentos usados para se obter estimadores. Ele trata o problema de estimação baseado nos resultados obtidos pela amostra e devemos determinar qual a distribuição, dentre todas aquelas definidas pelos possíveis valores de seus parâmetros, com maior possibilidade de ter gerado tal amostra. Consideremos uma população e uma variável aleatória $X$, relacionada a essa população, com função de probabilidade (se $X$ é uma variável aleatória discreta) ou função densidade de probabilidade (se $X$ é uma variável aleatória contínua) $f(x,\theta)$, sendo $\theta$ o parâmetro desconhecido.

Seja $\mathcal{P}= \lbrace \mathbb{P}_\theta:\theta \in \Theta \rbrace _{n \geq 1}$ sequência de modelos, com espaço paramétrico $\Theta\in\mathbb{R}^p$ Desta forma, retiramos uma amostra aleatória simples de $X$, de tamanho $n, \ X_1,\ldots,X_n$, e sejam $x_1,\ldots,x_n$ os valores efetivamente observados.

A função de verossimilhança $L$ é definida por

$$L(\theta;x_1,\ldots,x_n)=f(x_1;\theta)\times\ldots\times f(x_n;\theta)=\prod_{i=1}^n f(x_i;\theta).$$

Se $X$ é uma variável aleatória discreta com função de distribuição $p(x,θ)$, a função de verossimilhança é dada por

$$L(\theta;x_1,\ldots,x_n)=p(x_1;\theta)\times\ldots\times p(x_n;\theta)=\prod_{i=1}^n p(x_i;\theta).$$

que deve ser interpretada como uma função de $\theta$. Com isso, dizemos que $\widehat{\theta}$ é um estimador de máxima verossimilhança (EMV) para $\theta=\theta_0$, se $f(\mathbf{x};\widehat{\theta})\in\mathcal{P}$ e para algum $f(\mathbf{x};\theta_0)\in\mathcal{P}$ obtemos

$$\prod^n_{i=1}f(\mathbf{x};\widehat{\theta})\geq \prod^n_{i=1}f(\mathbf{x};\theta_0)$$

desde que qualquer parametrização seja identificável. Em outras palavras:

$$L(\widehat{\theta};\mathbf{x})=\sup_{\theta_0\in\Theta}L(\theta_0;\mathbf{x})$$

Em muitos casos, o estimador de máxima verossimilhança pode ser encontrado seguindo os passos abaixo:

  • Encontrar a função de verossimilhança $L(\theta;\textbf{x})$;

  • Aplicar a função $\ln$;

  • Derivar em relação ao parâmetro $\theta$;

  • Igualar o resultado a zero.

  • Verificar que este estimador é ponto de máximo.

A seguir aplicamos os conceitos para algums distribuições de probabilidade conhecidas.

Exemplo 3.4.1

Seja $X$ uma variável aleatória com distribuição Bernoulli $(p)$. Tomemos uma amostra aleatória $X_1,\ldots,X_n$ de $X$. Qual é o estimador de máxima verossimilhança para $p$?

Como $X \sim \ \text{Bernoulli}(p)$, a função de probabilidade de $X$ é

$$f_p(x)=p^x(1-p)^{1-x}.$$

Desta forma, a função de verossimilhança é dada por

$$L(p;x_1,\ldots,x_n)=\prod_{i=1}^np^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^nx_i}(1-p)^{\sum_{i=1}^n(1-x_i)}.$$

Para encontrar o estimador de máxima verossimilhança para $p$, devemos encontrar o valor de $p$ para o qual a função de verossimilhança $L(p;x_1,\ldots,x_n)$ é máxima. Aplicando a função logaritmo natural $(\ln)$ na função de verossimilhança $L(p;x_1,\ldots,x_n)$, temos que

$$\ln L(p,x_1,\ldots,x_n)=\sum_{i=1}^nx_i\ln(p)+\sum_{i=1}^n(1-x_i)\ln(1-p)$$

e, derivando em relação a $p$, segue que

$$\frac{d\ln L(p;x_1,\ldots,x_n)}{dp}=\frac{(1-p)\displaystyle\sum_{i=1}^nx_i-p\sum_{i=1}^n(1-x_i)}{p(1-p)}.$$

Igualando o resultado a zero, obtemos que

$$\frac{(1-\hat{p})\displaystyle \sum_{i=1}^nx_i-\hat{p}(\displaystyle\sum_{i=1}^n(1-x_i))}{\hat{p}(1-\hat{p})}=0\Leftrightarrow \hat{p}=\frac{1}{n}\sum_{i=1}^nx_i=\overline{x}.$$

É fácil verificar, utilizando o teste da segunda derivada que $\hat{p}=\overline{X}$ é realmente um estimador de máxima verossimilhança para $p$.

Exemplo 3.4.2

Seja $X$ uma variável aleatória com distribuição de Poisson e parâmetro $\lambda$. Tomemos uma amostra aleatória $X_1,\ldots,X_n$ independente e igualmente distribuída de $X$. Qual é o estimador de máxima verossimilhança para $\lambda$?

Como X $\sim \ \text{Poisson}(\lambda)$, a função de probabilidade de $X$ é

$$f_{\lambda}(x)=\frac{\lambda^xe^{-\lambda}}{x!}, \quad k\in\mathbb{N}.$$

Desta forma, a função de verossimilhança é dada por

$$L(\lambda;x_1,\ldots,x_n)=\prod_{i=1}^n\frac{\lambda^{x_i}e^{-\lambda}}{x_i!}$$

Ou seja,

$$L(\lambda;x_1,\ldots,x_n)=\frac{1}{\prod_{i=1}^nx_i!}\lambda^{\sum_{i=1}^nx_i}e^{-n\lambda}.$$

Para encontrar o estimador de máxima verossimilhança para $\lambda$, devemos encontrar o valor de $\lambda$ para o qual a função de verossimilhança $L(\lambda;x_1,\ldots,x_n)$ é máxima.

Aplicamos a função logaritmo natural $(\ln)$ na função de verossimilhança $L(\lambda;x_1,\ldots,x_n)$. Desta forma, temos que

$$\ln L(\lambda;x_1,\ldots,x_n)=\ln\left(\frac{1}{\prod_{i=1}^nx_1!}\right)+\sum_{i=1}^nx_i\ln\lambda-n\lambda$$

e, derivando em relação a $\lambda$, segue que

$$\frac{d\ln L(\lambda;x_1,\ldots,x_n)}{d\lambda}=\frac{1}{\lambda}\sum_{i=1}^nx_i-n.$$

Igualando o resultado a zero, segue que

$$\frac{1}{\hat{\lambda}}\sum_{i=1}^nx_i-n=0\Leftrightarrow\hat{\lambda}=\frac{\sum_{i=1}^nx_i}{n}=\overline{x}.$$

Neste caso, o possível estimador de máxima verossimilhança para o parâmetro $\lambda$ é $\hat{\lambda}=\overline{X}$. Basta verificar se este ponto é realmente um ponto de máximo. Para isto, vamos calcular a segunda derivada de $\ln L(\lambda;x_1,\ldots,x_n)$.

$$\frac{d^2\ln L(\lambda;x_1,\ldots,x_n)}{d\lambda^2}=-\frac{1}{\lambda^2}\sum_{i=1}^nx_i \ < \ 0.$$

Portanto, concluímos que $\hat{\lambda}=\overline{X}$ é um estimador de máxima verossimilhança para o parâmetro $\lambda$.

Exemplo 3.4.3

Seja $X$ uma variável aleatória com distribuição Normal com média $\mu$ e variância $\sigma^2$. Tomemos uma amostra aleatória independente e igualmente distribuída $X_1,\ldots,X_n$ de $X$. Qual o estimador de máxima verossimilhança para $\theta = (\mu,\sigma^2)$?

Como $X \sim N(\mu,\sigma^2)$, a função densidade de $X$ é

$$f_{\mu,\sigma^2}(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2\right], \quad -\infty \ < \ x \ < \ \infty.$$

Assim, a função de verossimilhança é dada por

$$L(\mu,\sigma^2;x_1,\ldots,x_n)=\prod_{i=1}^n \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left[-\frac{1}{2}\left(\frac{x_i-\mu}{\sigma}\right)^2\right]$$

Ou seja,

$$L(\mu,\sigma^2;x_1,\ldots,x_n)=(2\pi)^{-n/2}(\sigma^2)^{-n/2}\exp\left[-\frac{1}{2}\sum_{i=1}^n\left(\frac{x_i-\mu}{\sigma}\right)^2\right].$$

Para encontrar o estimador de máxima verossimilhança para $\theta = (\mu,\sigma^2)$ devemos encontrar os valores de $\mu$ e $\sigma^2$ para os quais a função de verossimilhança, $L(\mu,\sigma^2; x_1,\ldots,x_n)$, é máxima.

Para isso primeiramente aplicaremos a função $\ln$,

$$\ln L(\mu,\sigma^2;x_1,\ldots,x_n)=-\frac{n}{2}\ln(2\pi)-\frac{n}{2}\ln(\sigma^2)-\frac{1}{2}\sum_{i=1}^n \frac{(x_i-\mu)^2}{\sigma^2}.$$

Agora vamos derivar em relação a $\mu$:

$$\frac{\partial L(\mu,\sigma^2;x_1,\ldots,x_n)}{\partial\mu}=-\frac{2}{2\sigma^2}\sum_{i=1}^n(x_i-\mu)(-1)=\sum_{i=1}^n\left(\frac{x_i-\mu}{\sigma^2}\right).$$

Igualando o resultado a zero obtemos:

$$\sum_{i=1}^{n}\left(\frac{x_{i}-\hat{\mu}}{\sigma^{2}}\right)=0\Leftrightarrow\frac{1}{\sigma^{2}}\sum_{i=1}^{n}(x_{i}-\hat{\mu})=0\Leftrightarrow\sum_{i=1}^{n}(x_{i}-\hat{\mu})=0\Leftrightarrow n\hat{\mu}=\sum_{i=1}^{n}x_{i}\Leftrightarrow\hat{\mu}=\bar{x}.$$

E então, o possível estimador de máxima verossimilhança da média populacional $\mu$ é $\overline{X}$. Basta avaliar agora se realmente $\overline{x}$ é ponto de máximo. Para isto,

$$\frac{\partial^2 L(\mu,\sigma^2;x_1,\ldots,x_n)}{\partial\mu^2}=\frac{\partial^2}{\partial\mu^2}\left[\frac{1}{\sigma^2}\sum_{i=1}^n(x_i-\mu)\right]=-\frac{n}{\sigma^2}\ < \ 0.$$

Assim, concluimos que $\overline{x}$ é realmente um ponto de máximo e, portanto, o estimador de máxima verossimilhança para $\mu$ é $\hat{\mu}=\overline{X}$. Vamos agora encontrar o estimador de máxima verossimilhança para a variância $\sigma^2$. Para isso, derivamos a função em relação a $\sigma^2$:

$$\frac{\partial\ln L(\mu,\sigma^2;x_1,\ldots,x_n)}{\partial\sigma^2}=-\frac{n}{2\sigma^2}+\frac{1}{2}\sum_{i=1}^n\left(\frac{x_i-\mu}{\sigma^2}\right)^2.$$

Igualando a zero, temos que

$$-\frac{n}{2\sigma^2}+\frac{1}{2}\sum_{i=1}^n\left(\frac{x_i-\mu}{\sigma^2}\right)^2=0\Leftrightarrow -n+\sum_{i=1}^n\frac{(x_i-\mu)^2}{\sigma^2}=0\Leftrightarrow\hat{\sigma}^2=\frac{(n-1)}{n}s^2.$$

Como

$$\frac{\partial^2 L(\mu,\sigma^2;x_1,\ldots,x_n)}{\partial(\sigma^2)^2}=\frac{1}{(\sigma^2)^2}\left(\frac{n}{2}-\frac{(n-1)s^2}{\sigma^2}\right)$$

que, avaliado em $\hat{\sigma}^2=\frac{(n-1)s^2}{n}$ é tal que

$$\frac{\partial^2 L(\mu,\hat{\sigma}^2;x_1,\ldots,x_n)}{\partial(\sigma^2)^2}=-\frac{n}{2}\frac{1}{(\hat{\sigma}^2)^2} \ < \ 0.$$

Portanto, o estimador de máxima verossimilhança para $\sigma^2$ é $\displaystyle\hat{\sigma}^2=\frac{(n-1)}{n}s^2$, onde $\displaystyle s^2=\frac{\sum_{i=1}^n(x_i-\mu)^2}{n-1}$.

O exemplo a seguir nos mostra que nem sempre a estratégia acima pode ser aplicada.

Exemplo 3.4.4

Seja $X$ uma variável aleatória uniformemente distribuída em $[0,\theta]$ e $X_1, \ldots, X_n$ uma amostra aleatória i.i.d de $X$. Esta distribuição tem função densidade de probabilidade dada por

$$f(x|\theta) = \begin{cases}\frac{1}{\theta}, \ \hbox{se} \ 0\leq x\leq\theta, \cr 0, \ \hbox{caso contrário}\end{cases}$$

A função de verossimilhança é dada por

$$L(\theta;X_1,\ldots,X_n) = \prod_{i=1}^nf(X_i|\theta)=\frac{1}{\theta^n}\mathbb{I}_{ \lbrace X_1,\ldots,X_n\in[0,\theta] \rbrace } = \frac{1}{\theta^n}\mathbb{I}_{\max \lbrace X_1,\ldots,X_n \rbrace \leq\theta}.$$

e, como $\frac{1}{\theta^n}$ é uma função decrescente de $\theta$, a estimativa será o menor valor possível de $\theta$ para o qual $\theta\geq X_i$ para $i= 1, \ldots, n$. Este valor é $\theta = \max \lbrace X_1,\ldots,X_n \rbrace $, de onde segue que o estimador de máxima verossimilhança de $\theta$ é $\hat{\theta}=\max \lbrace X_1,\ldots,X_n \rbrace $.

Exemplo 3.4.5:

Sejam $(X_i)_{1\leq i\leq n}$ variáveis aleatórias com distribuição exponencial e parâmetro $\theta=\lambda$ e $f(x) = \lambda \exp(-\lambda x),$ a densidade de probabilidade para $x\geq 0$ e 0 caso contrário. Neste caso, vamos procurar o candidato $\theta$ que maximiza a função $L(\theta).$ A função de verossimilhança para a distribuição Exponencial é obtida da seguinte forma:

$$L(\lambda)=\prod_{i=1}^{n}f(x_i;\theta)=\prod_{i=1}^{n}\lambda \exp(-\lambda x_{i})=\lambda^{n} \exp\left(-\lambda \sum_{i=1}^{n} x_{i}\right).$$

Com isso, o logaritmo da função de verossimilhança é dado por

$$\log L(\lambda)=n \log (\lambda) - \lambda \displaystyle\sum_{i=1}^{n}x_{i}$$

Derivando essa expressão em relação a $\lambda$, obtemos

$$\dfrac{\partial \log L(\lambda)}{\partial \lambda}=\dfrac{n}{\lambda}-\sum_{i=1}^{n}x_{i},$$

e igualando a zero, temos que a expressão do estimador de máxima verossimilhança $\widehat{\lambda}$ é dada por

$$\widehat{\lambda}=\dfrac{n}{\displaystyle\sum_{i=1}^{n}x_i}=\frac{1}{\overline{x}}.$$

Como a distribuição exponencial é um caso particular da próxima distribuição de probabilidade, a matriz de informação observada será dada no próximo tópico.

3.4.1 - Métodos numéricos dos estimadores de máxima verossimilhança

O método de máxima verossimilhança trata o problema de estimação baseado nos resultados obtidos pela amostra e devemos determinar qual a distribuição, dentre todas aquelas definidas pelos possíveis valores de seus parâmetros, com maior possibilidade de ter gerado tal amostra. Nesta seção, vamos focar nos estimadores para variáveis aleatórias contínuas e sem censura. Então, seja $(\Omega,\mathcal{F},\mathbb{P})$ espaço de probabilidade, consideremos uma população e uma variável aleatória $X$, relacionada a essa população, com função densidade de probabilidade (se $X$ é uma variável aleatória contínua) $f(x,\theta)$, sendo $\theta$ o parâmetro desconhecido. Seja $\mathcal{P}= \lbrace \mathbb{P}_\theta:\theta \in\Theta \rbrace _{n\geq 1}$ sequência de modelos, com espaço paramétrico $\Theta\in\mathbb{R}^p.$ Desta forma, retiramos uma amostra aleatória simples de $X$, de tamanho $n$, $X_1,\ldots,X_n$, e sejam $x_1,\ldots,x_n$ os valores efetivamente observados.

A função de verossimilhança $L$ é definida por $$L(\theta;\mathbf{x})=f(x_1;\theta)\times\ldots\times f(x_n;\theta)=\prod_{i=1}^n f(x_i;\theta)\quad,\text{com}~\mathbf{x}=(x_1\dots x_n)^\top.$$

Com isso, dizemos que $\widehat{\theta}$ é um estimador de máxima verossimilhança (EMV) para $\theta=\theta_0$, se $f(\mathbf{x};\widehat{\theta})\in\mathcal{P}$ e para algum $f(\mathbf{x};\theta_0)\in\mathcal{P}$ obtemos

$$\prod^n_{i=1}f(\mathbf{x};\widehat{\theta})\geq \prod^n_{i=1}f(\mathbf{x};\theta_0)$$

desde que qualquer parametrização seja identificável. Em outras palavras:

$$L(\widehat{\theta};\mathbf{x})=\sup_{\theta_0\in\Theta}L(\theta_0;\mathbf{x})$$

A seguir definimos a função escore como:

$$U(\theta)=\dfrac{\partial \log L(\theta)}{\partial \theta}$$

cujas propriedades são $\mathbb{E}(U)=0$ e $\text{Cov}(U)=\mathbb{E}\left(-\frac{\partial U^\top}{\partial \theta}\right)=\mathbb{E}\left(-\frac{\partial^2 \log L(\theta)}{\partial \theta \partial \theta^\top}\right)=J.$ Já a matriz de informação observada é dada por:

$$\mathcal{I}=-\frac{\partial U^\top}{\partial \theta}=-\frac{\partial^2 \log L(\theta) }{\partial \theta \partial \theta^\top}$$

O próximo passo é expandirmos em série de Taylor em torno de $\widehat{\theta}.$ Para isto, tomamos $\widehat{U}=0$ e obtemos:

$$\log L(\widehat{\theta})-\log L(\theta)=\frac{1}{2!}(\theta-\widehat{\theta})^\top \widehat{\mathcal{I}}(\theta-\widehat{\theta})$$

Expansão para função escore é dada por:

$$\widehat{U}-U=\frac{\partial U^\top}{\partial \theta}(\theta-\widehat{\theta})$$

Igualando $\widehat{U}=0$ obtemos a relação aproximada:

$$\mathcal{I}^{-1}U=\theta-\widehat{\theta}$$

Para mostrar a utilização deste resultado, tomamos um caso particular, que é o caso em que existe uma densidade de probabilidade, caso contrário teríamos que definir uma derivada de Radon-Nikodym e não é o objetivo deste seção. Com isso, sob condições de regularidade, ou seja, considerando funções $g:\Theta\rightarrow \mathbb{R}^p$ suaves ou de classe $C^\infty(\Theta,\mathbb{R}^p).$

Desta forma, dado que $\theta$ é o verdadeiro parâmetro, o primeiro momento do escore é zero. De fato,

$$\mathbb{E} \left[\left.{\frac {\partial }{\partial \theta }}\log f(X;\theta )\right|\theta \right] =\int {\frac {{\frac {\partial }{\partial \theta }}f(x;\theta )}{f(x;\theta )}}f(x;\theta ),dx ={\frac {\partial }{\partial \theta }}\int f(x;\theta ),dx ={\frac {\partial }{\partial \theta }}1=0.$$

Consequentemente, aplicamos o método de Newton-Raphson para o cálculo do estimador de máxima verossimilhança. Para isto, utilizamos a equação iterativa:

$$\theta^{(j+1)}=\theta^{(j)}+(\mathcal{I}^{(j)})^{-1}U^{(j)}$$

Ao substituirmos a informação observada pela esperada, obtemos:

$$J^{-1}U=\theta-\widehat{\theta}$$

Com isso, obtemos o método de escore de Fisher dada por:

$$\theta^{(j+1)}=\theta^{(j)}+(J^{(j)})^{-1}U^{(j)}$$

O estimador de máxima verossimilhança é obtido quando $|\widehat{\theta}^{(j+1)}-\widehat{\theta}^{(j)}|< \varepsilon,$ em que $\varepsilon$ é o erro na estimação, ou seja, quando a diferença entre as iterações é menor que um erro $\varepsilon.$ Para definirmos taxa de convergência, supomos uma métrica $d$ e fixamos um $n$. Desta forma, dizemos que a taxa de convergência de $\theta_n$ para $\theta$ é $O(\varepsilon_n)$ se $d(\theta_n,\theta)=O_{\mathbb{P}}(\varepsilon_n).$

Observação: Se a matriz de Informação Observada é aproximadamente singular em algum momento no processo de iteração, pode resultar na não convergência do método.

A seguir aplicamos os conceitos para algums distribuições de probabilidade conhecidas.

Distribuição Normal

O EMV para distribuição normal foram tratados no capítulo estimador de máxima verossimilhança (EMV). O teste de aderência para distribuição normal foi tratado no capítulo teste de normalidade.

A matriz de informação observada é dada por:

$$\mathcal{I}(\mu,\sigma^2)=-\dfrac{\partial[U(\theta)]^\top}{\partial\theta}=-\dfrac{\partial \log L(\mu,\sigma^2)}{\partial\theta\partial \theta^\top}$$

$$=-\begin{bmatrix}\dfrac{\partial^2}{\partial\mu^2}\log L(\mu,\sigma^2) \quad \dfrac{\partial^2}{\partial\mu\partial\sigma^2}\log L(\mu,\sigma^2) \cr \dfrac{\partial^2}{\partial\sigma^2\partial\mu}\log L(\mu,\sigma^2) \quad \dfrac{\partial^2}{\partial(\sigma^2)^2}\log L(\mu,\sigma^2)\end{bmatrix}=$$

$$=-\begin{bmatrix}G_{11}(\mu,\sigma^2) \quad G_{12}(\mu,\sigma^2) \cr G_{21}(\mu,\sigma^2) \quad G_{22}(\mu,\sigma^2)\end{bmatrix}$$

em que

$$G_{11}(\mu,\sigma^2)=\dfrac{\partial^2\log L(\mu,\sigma^2)}{\partial\mu^2}=-\frac{n}{\sigma^2}$$

$$ G_{22}(\mu,\sigma^2)= \dfrac{\partial^2\log L(\mu,\sigma^2)}{\partial (\sigma^2)^2} =\frac{1}{(\sigma^2)^2}\left(\frac{n}{2}-\frac{(n-1)s^2}{\sigma^2}\right)=\frac{n}{2(\sigma^2)^2}-\frac{1}{(\sigma^2)^3}\sum^n_{i=1}\left(x_i-\mu\right)^2 $$

$$ G_{12}(\mu,\sigma^2)=G_{21}(\mu,\sigma^2)=-\frac{1}{(\sigma^2)^2}\sum^n_{i=1}\left(x_i-\mu\right) $$

E a matriz de informação esperada é dada por:

$$\mathbb{E}[~\mathcal{I}(\mu,\sigma^2)~]=\begin{bmatrix}\mathbb{E}[~\dfrac{n}{\sigma^2}~]\qquad\qquad\qquad\mathbb{E}[~\dfrac{1}{(\sigma^2)^2}\sum^n_{i=1}\left(x_i-\mu\right)~]\cr \mathbb{E}[~\dfrac{1}{(\sigma^2)^2}\sum^n_{i=1}\left(x_i-\mu\right)~]\qquad\mathbb{E}[~\dfrac{n}{2(\sigma^2)^2}-\dfrac{1}{(\sigma^2)^3}\sum^n_{i=1}\left(x_i-\mu\right)^2]\end{bmatrix}=\begin{bmatrix}\dfrac{n}{2\sigma^2}\qquad\qquad0~\cr \quad 0\qquad\qquad\dfrac{n}{2\sigma^4}\end{bmatrix}$$

Distribuição Exponencial

Sejam $(X_i)_{1\leq i\leq n}$ variáveis aleatórias com distribuição exponencial e parâmetro $\theta=\lambda$ e $f(x) = \lambda \exp(-\lambda x),$ a densidade de probabilidade para $x\geq 0$ e 0 caso contrário. Neste caso, vamos procurar o candidato $\theta$ que maximiza a função $L(\theta).$ A função de verossimilhança para a distribuição Exponencial é obtida da seguinte forma:

$$L(\lambda)=\prod_{i=1}^{n}f(x_i;\theta)=\prod_{i=1}^{n}\lambda \exp(-\lambda x_{i})=\lambda^{n} \exp\left(-\lambda \sum_{i=1}^{n} x_{i}\right).$$

Com isso, o logaritmo da função de verossimilhança é dado por

$$\log L(\lambda)=n \log (\lambda) - \lambda \displaystyle\sum_{i=1}^{n}x_{i}$$

Derivando essa expressão em relação a $\lambda$, obtemos

$$\dfrac{\partial \log L(\lambda)}{\partial \lambda}=\dfrac{n}{\lambda}-\sum_{i=1}^{n}x_{i},$$

e igualando a zero, temos que a expressão do estimador de máxima verossimilhança $\widehat{\lambda}$ é dada por

$$\widehat{\lambda}=\dfrac{n}{\displaystyle\sum_{i=1}^{n}x_i}=\frac{1}{\overline{x}}.$$

E, assim, a informação observada é:

$$\mathcal{I}(\lambda)= -\dfrac{\partial^2 \log L(\lambda)}{\partial \lambda^2}=\dfrac{n}{\lambda^2}$$

Distribuição Weibull

Sejam $(X_i)_{1\leq i\leq n}$ variáveis aleatórias com distribuição Weibull e parâmetros $\theta=(\alpha,\delta)$ e

$$f(x)=\begin{cases}\dfrac{\delta}{\alpha^{\delta}}x^{\delta-1}\exp\left[-\left(\dfrac{x}{\alpha}\right)^{\delta}\right], \ \hbox{se} \ x\geq0\cr 0 \ \hbox{se} \ x \ < \ 0\end{cases}$$

a densidade de probabilidade. A função de verossimilhança de $\alpha$ e $\delta$ para a distribuição de Weibull é dada por

$$L(\alpha,\delta)=\left\lbrace \prod_{i=1}^{n}f(x_i;\theta)\right\rbrace=\left \lbrace \prod_{i=1}^{n} \dfrac{\delta}{\alpha^{\delta}} x_i^{\delta - 1} \exp \left[-\left(\dfrac{x_i}{\alpha}\right)^{\delta}\right]\right \rbrace =\dfrac{\delta^n}{\alpha^{n\delta}}\left(\prod_{i=1}^{n}x_i\right)^{\delta-1}\exp\left\lbrace-\dfrac{1}{\alpha^{\delta}} \sum_{i=1}^{n} x_i^{\delta}\right\rbrace.$$

Com isso, a função de log-verossimilhança é dada por

$$\log L(\alpha,\delta)= n\log(\delta) - n\delta \log (\alpha) + (\delta-1)\sum_{i=1}^{n} \log(x_i) - \dfrac{1}{\alpha^{\delta}}\sum_{i=1}^{n} x_i^{\delta}$$

Derivando essa expressão em relação a $\alpha$ e $\delta$ e igualando a zero, obtemos as seguintes expressões para os estimadores de máxima verossimilhança $\widehat{\alpha}$ e $\widehat{\delta}$

$$\dfrac{\displaystyle\sum_{i=1}^{n}x_i^{\widehat{\delta}}\log(x_i)}{\displaystyle\sum_{i=1}^{n}x_i^{\widehat{\delta}}}- \dfrac{1}{\widehat{\delta}}-\dfrac{1}{n}\displaystyle\sum_{i=1}^{n}\log(x_i)=0, \tag{7.1.1.1}$$

$$\widehat{\alpha}=\left(\dfrac{1}{n}\sum_{i=1}^{n}x_i^{\widehat{\delta}}\right)^{1/\widehat{\delta}}. \tag{7.1.1.2}$$

Os estimadores de máxima verossimilhança são os valores $\widehat{\alpha}$ e $\widehat{\delta}$ que satisfazem as equações (7.1.1.1) e (7.1.1.2). A solução desse sistema de equações para um conjunto de dados particular deve ser obtida por meio de um método numérico. A seguir, aplicamos o método de Newton-Raphson que usa a matriz de derivadas segundas ($F$) da função de log-verossimilhança e sua expressão é dada por

$$\widehat{\theta}^{(k+1)}=\widehat{\theta}^{(k)}-F^{-1} (\widehat{\theta}^{(k)})U(\widehat{\theta}^{(k)}), \tag{7.1.1.3}$$

em que

$$U(\theta)=\dfrac{\partial \log L(\theta)}{\partial \theta}.$$

A expressão (7.1.1.3) é baseada na expansão de $U(\widehat{\theta}^{(k)})$ em série de Taylor em torno de $\widehat{\theta}^{(k)}$. Partindo de um valor inicial $\widehat{\theta}^{(0)}=0$ o método atualiza esse valor a cada passo, convergindo para a solução desejada. Em geral, obtemos convergência em poucos passos com um erro relativo, em média, menor que 0,001 entre dois passos consecutivos. Observe que a matriz de derivadas G para o modelo Exponencial se reduz a um único número, dado por

$$G(\alpha)=\dfrac{\partial^2 \log L(\alpha)}{\partial \alpha^2}=\dfrac{n}{\alpha^2}-2\dfrac{\displaystyle\sum_{i=1}^{n}x_i}{\alpha^3}=\dfrac{n}{\alpha^2}\left(1-2\dfrac{\overline{x}}{\alpha}\right).$$

Já para o modelo de Weibull $G(\alpha, \delta)$ é uma matriz simétrica 2x2 com os seguintes elementos

$$G_{11}(\alpha,\delta)=\dfrac{\partial^2 \log L(\alpha,\delta)}{\partial \alpha^2}$$

$$G_{22}(\alpha,\delta)=\dfrac{\partial^2 \log L(\alpha,\delta)}{\partial \delta^2}$$

$$G_{12}(\alpha,\delta)=G_{21}(\alpha,\delta)=\dfrac{\partial^2 \log L(\alpha,\delta)}{\partial \alpha \partial \delta}$$

A seguir construímos a matriz de informação observada. Para distribuição Weibull descrevemos a função escore:

$$U(\theta)=\dfrac{\partial \log L(\theta)}{\partial \theta}=\left(\dfrac{\partial \log L(\alpha,\delta)}{\partial \alpha}, \dfrac{\partial L(\alpha,\delta)}{\partial \delta}\right)^\top$$

em que

$$\dfrac{\partial \log L(\alpha,\delta)}{\partial \alpha}=-\dfrac{\delta}{\alpha}\left(n+\frac{1}{\alpha^\delta}\sum^n_{i=1}x^\delta_i\right)$$

$$\dfrac{\partial L(\alpha,\delta)}{\partial \delta}=\frac{n}{\delta}-n\log \alpha + \sum^n_{i=1}\log x_i - \sum^n_{i=1} \left(\dfrac{x_i}{\alpha}\right) ^\delta \log \left(\dfrac{x_i}{\alpha}\right)$$

A matriz de informação observada é dada por:

$$\mathcal{I}(\alpha,\delta)=-\frac{\partial [U(\theta)]^\top}{\partial \theta}=-\frac{\partial \log L(\alpha,\delta)}{\partial \theta\partial \theta^\top}=$$ $$=-\begin{bmatrix}\dfrac{\partial^2 }{\partial \alpha^2}\log L(\alpha,\delta) \quad \dfrac{\partial^2 }{\partial \alpha\partial \delta}\log L(\alpha,\delta) \cr \cr \dfrac{\partial^2 }{\partial \delta\partial \alpha}\log L(\alpha,\delta) \quad \dfrac{\partial^2 }{\partial \delta^2}\log L(\alpha,\delta)\end{bmatrix}=-\begin{bmatrix}G_{11}(\alpha,\delta) \quad G_{12}(\alpha,\delta) \cr G_{21}(\alpha,\delta) \quad G_{22}(\alpha,\delta)\end{bmatrix}$$

em que

$$G_{11}(\alpha,\delta)=\dfrac{\partial^2 \log L(\alpha,\delta)}{\partial \alpha^2}=\frac{n\delta}{\alpha^2} - \dfrac{\delta\left(\delta+1\right)}{\alpha^{\delta + 2}} \sum^n_{i=1} x_i^\delta$$

$$G_{22}(\alpha,\delta)=\dfrac{\partial^2 \log L(\alpha,\delta)}{\partial \delta^2}=-\frac{n}{\delta^2} - \sum^n_{i=1}\left(\log \dfrac{x_i}{\alpha}\right)^2 \left(\dfrac{x_i}{\alpha}\right)^{\delta}$$

$$G_{12}(\alpha,\delta)=G_{21}(\alpha,\delta)=\dfrac{\partial^2 \log L(\alpha,\delta)}{\partial \alpha \partial \delta}=\dfrac{\partial^2 \log L(\alpha,\delta)}{\partial \delta \partial \alpha}=-\frac{n}{\alpha}; + ;\frac{1}{\alpha}\sum^n_{i=1} \left(\dfrac{x_i}{\alpha}\right) ^\delta - \sum^n_{i=1}\left(\log \dfrac{x_i}{\alpha}\right)^2 \left(\dfrac{x_i}{\alpha}\right)^{\delta}$$

ou seja,

$$\mathcal{I}(\alpha,\delta)=-\begin{bmatrix}\dfrac{n\delta}{\alpha^2}-\dfrac{\delta(\delta+1)}{\alpha^{\delta+2}}\sum\limits_{i=1}^nx_{i}^\delta\qquad\qquad\qquad\qquad-\dfrac{n}{\delta^2}-\dfrac{1}{\alpha}\sum\limits_{i=1}^n(\dfrac{x_{i}}{\alpha})^\delta-\sum\limits_{i=1}^n(\log\dfrac{x_{i}}{\alpha})^2 (\dfrac{x_{i}}{\alpha})^\delta \cr \cr \dfrac{n}{\delta^2}-\dfrac{1}{\alpha}\sum\limits_{i=1}^n(\dfrac{x_{i}}{\alpha})^\delta-\sum\limits_{i=1}^n(\log\dfrac{x_{i}}{\alpha})^2 (\dfrac{x_{i}}{\alpha})^\delta\qquad\qquad\qquad\qquad-\dfrac{n}{\delta^2}-\sum\limits_{i=1}^n(\log\dfrac{x_{i}}{\alpha})^2 (\dfrac{x_{i}}{\alpha})^\delta \cr \end{bmatrix}$$

Distribuição Gama

Sejam $(X_i)_{1\leq i\leq n}$ variáveis aleatórias com distribuição Gama e parâmetros $\alpha \ > \ 0$ (também denominado parâmetro de forma) e $\beta \ > \ 0$ (parâmetro de taxa), denotando-se $X \sim \ \text{Gama}(\alpha,\beta)$, se sua função densidade é dada por

$$f(x)=\left \lbrace \begin{array}{l}\dfrac{\beta^{\alpha}x^{\alpha-1}e^{-\beta x}}{\Gamma({\alpha})} \ \hbox{se} \ x\geq0 \cr 0, \ \hbox{caso contrário}\end{array}\right.$$

A função de verossimilhança para $\alpha$ e $\beta$ é dada por:

$$ L(\alpha, \beta) = \prod_{i=1}^n f(x_i; (\alpha, \beta)) = \prod_{i=1}^n \frac{\beta^{\alpha}}{\Gamma(\alpha)} x_i^{\alpha - 1} e^{-\beta x_i} = \left( \frac{\beta^{\alpha}}{\Gamma(\alpha)} \right)^{n} \exp\left( -\beta \sum_{i=1}^n x_i \right) \prod_{i=1}^n x_i^{\alpha - 1} $$

Com isso, a função log-verossimilhança é dada por:

$$\log L(\alpha,\beta)=n\alpha\log\beta -n\log \Gamma(\alpha)-\beta \sum^n_{i=1}x_i+(\alpha-1)\sum^n_{i=1}\log x_i$$

A seguir construímos a matriz de informação observada. Para distribuição Gama descrevemos a função escore:

$$U(\theta)=\dfrac{\partial \log L(\theta)}{\partial \theta}=\left(\dfrac{\partial \log L(\alpha,\beta)}{\partial \alpha}, \dfrac{\partial \log L(\alpha,\beta)}{\partial \beta}\right)^\top$$

em que

$$\dfrac{\partial \log L(\alpha,\beta)}{\partial \alpha}= n\log \beta-n\frac{\Gamma^\prime (\alpha)}{\Gamma (\alpha)}+\sum^n_{i=1}\log x_i$$

$$\dfrac{\partial L(\alpha,\beta)}{\partial \beta}= \frac{n\alpha}{\beta}-\sum^n_{i=1}x_i$$

Com isso, tomamos $ \widehat{U}=0 $ e obtemos:

$$\widehat{\alpha}=\overline{x}\widehat{\beta}$$

$$\widehat{\beta}=\exp\left \lbrace \frac{\Gamma^\prime(\alpha)}{\Gamma(\alpha)}-\sum^n_{i=1}\frac{\log x_i}{n} \right \rbrace $$

Mais uma vez é necessário aplicarmos o método numérico. A matriz de informação observada é dada por:

$$\mathcal{I}(\alpha,\beta)=-\frac{\partial [U(\theta)]^\top}{\partial \theta}=-\frac{\partial \log L(\alpha,\beta)}{\partial \theta\partial \theta^\top}=$$ $$=-\left[\begin{array}{l}\dfrac{\partial^2 }{\partial \alpha^2}\log L(\alpha,\beta) \quad \dfrac{\partial^2 }{\partial \alpha\partial \beta}\log L(\alpha,\beta) \cr \dfrac{\partial^2 }{\partial \beta\partial \alpha}\log L(\alpha,\beta) \quad \dfrac{\partial^2 }{\partial \beta^2}\log L(\alpha,\beta)\end{array}\right]=-\left[\begin{array}{l}G_{11}(\alpha,\beta) \quad G_{12}(\alpha,\beta) \cr G_{21}(\alpha,\beta) \quad G_{22}(\alpha,\beta)\end{array}\right]$$

em que

$$G_{11}(\alpha,\beta)= \dfrac{\partial^2 \log L(\alpha,\beta)}{\partial \alpha^2} = n\left(\frac{\Gamma^{\prime}(\alpha)}{\Gamma(\alpha)}\right)^2 -n\frac{\Gamma^{\prime\prime}(\alpha)}{\Gamma(\alpha)}$$

$$G_{22}(\alpha,\beta)= \dfrac{\partial^2 \log L(\alpha,\beta)}{\partial \beta^2} = -\frac{n\alpha}{\beta^2}$$

$$G_{12}(\alpha,\beta)=G_{21}(\alpha,\beta)=\dfrac{\partial^2 \log L(\alpha,\beta)}{\partial \alpha \partial \beta} = \frac{n}{\beta}$$

ou seja,

$$\mathcal{I}(\alpha,\beta)=-\left[\begin{array}{l}n\left(\dfrac{\Gamma^{\prime}(\alpha)}{\Gamma(\alpha)}\right)^2 -n\left(\dfrac{\Gamma^{\prime\prime}(\alpha)}{\Gamma(\alpha)}\right)\qquad\quad\dfrac{n}{\beta} \cr \cr \quad \dfrac{n}{\beta}\qquad\qquad\qquad\qquad\qquad\qquad-\dfrac{n\alpha}{\beta^2} \cr \end{array}\right]$$

Distribuição Logística

Sejam $(X_i)_{1\leq i\leq n}$ variáveis aleatórias com distribuição Logística e parâmetros de locação μ e de escala s, com função densidade de probabilidade dada por:

$$f(x)=\dfrac{1}{s}\dfrac{\exp\left \lbrace \dfrac{x-\mu}{s}\right \rbrace }{\left(1+\exp\left \lbrace \dfrac{x-\mu}{s}\right \rbrace \right)^2},\quad x,\mu\in \mathbb{R}, \quad s> 0.$$

A função de verossimilhança para $\mu$ e s é dada por:

$$L(\mu,s)=\prod^n_{i=1}f(x_i;(\mu,s))=\prod^n_{i=1} \dfrac{1}{s} \dfrac{\exp\left \lbrace \dfrac{x_i-\mu}{s}\right \rbrace }{\left(1+\exp\left \lbrace \dfrac{x_i-\mu}{s}\right \rbrace \right)^2}$$

Com isso, a função log-verossimilhança é dada por:

$$\log L(\mu,s)=-n\log s +\sum^n_{i=1}\left(\dfrac{x_i-\mu}{s}\right)-2\sum^n_{i=1}\log \left(1+\exp\left \lbrace \dfrac{x_i-\mu}{s}\right \rbrace \right)$$

A seguir construímos a matriz de informação observada. Para distribuição Logística descrevemos a função escore:

$$U(\theta)=\dfrac{\partial \log L(\theta)}{\partial \theta}=\left(\dfrac{\partial \log L(\mu,s)}{\partial \mu}, \dfrac{\partial L(\mu,s)}{\partial s}\right)^\top$$

em que

$$\dfrac{\partial \log L(\mu,s)}{\partial \mu}= -\dfrac{n}{s}~+~2~ \sum\limits_{i=1}^n\left[\dfrac{\exp\left \lbrace \dfrac{x_i-\mu}{s}\right \rbrace }{1+\exp\left \lbrace \dfrac{x_i-\mu}{s}\right \rbrace }~\dfrac{1}{s}\right]$$

$$\dfrac{\partial \log L(\mu,s)}{\partial s}= -\frac{n }{s} -\sum^n_{i=1}\left(\dfrac{x_i-\mu}{s^2}\right)~+~2~ \sum\limits_{i=1}^n\left[ \dfrac{\exp\left \lbrace \dfrac{x_i-\mu}{s}\right \rbrace }{1+\exp\left \lbrace \dfrac{x_i-\mu}{s}\right \rbrace }~\dfrac{x_i-\mu}{s^2}\right]$$

Mais uma vez é necessário aplicarmos o método numérico. A matriz de informação observada é dada por:

$$\mathcal{I}(\mu,s)=-\frac{\partial [U(\theta)]^\top}{\partial \theta}=-\frac{\partial \log L(\mu,s)}{\partial \theta\partial \theta^\top}=-\left[\begin{array}{l}\dfrac{\partial^2 }{\partial \mu^2}\log L(\mu,s) \quad \dfrac{\partial }{\partial \mu\partial s}\log L(\mu,s) \cr \dfrac{\partial^2 }{\partial s \partial \mu}\log L(\mu,s) \quad \dfrac{\partial^2 }{\partial s^2}\log L(\mu,s)\end{array}\right]=-\left[\begin{array}{l}G_{11}(\mu,s) \quad G_{12}(\mu,s) \cr G_{21}(\mu,s) \quad G_{22}(\mu,s)\end{array}\right]$$

em que

$$G_{11}(\mu,s)= -~2~\sum^n_{i=1}\left[\dfrac{\exp\left \lbrace \dfrac{x_i-\mu}{s}\right \rbrace }{\left(1+\exp\left \lbrace -\dfrac{x_i-\mu}{s}\right \rbrace \right)^2}~\dfrac{1}{s^2}\right]$$

$$G_{22}(\mu,s)= \dfrac{n}{s^2} +\dfrac{2}{s^3}\sum^n_{i=1}(x_i-\mu)-\dfrac{4}{s^3}\sum^n_{i=1}\left[(x_i-\mu)\dfrac{\exp\left \lbrace \dfrac{x_i-\mu}{s}\right \rbrace }{1+\exp\left \lbrace \dfrac{x_i-\mu}{s}\right \rbrace }\right]- ~\dfrac{2}{s^4}~\sum^n_{i=1}\left[\left(x_i-\mu\right)^2\dfrac{\exp\left \lbrace \dfrac{x_i-\mu}{s}\right \rbrace }{\left(1+\exp\left \lbrace \dfrac{x_i-\mu}{s}\right \rbrace \right)^2}\right]$$

$$G_{12}(\mu,s)=G_{21}(\mu,s)= \dfrac{n}{s^2} + ~2~\sum^n_{i=1}\left[ \dfrac{\left(-\dfrac{1}{s^2}\cdot\exp\left \lbrace \dfrac{x_i-\mu}{s}\right \rbrace \right)\left(\dfrac{x_i+s-\mu}{s}+\exp\left \lbrace \dfrac{x_i-\mu}{s}\right \rbrace \right)}{\left(1+\exp\left \lbrace \dfrac{x_i-\mu}{s}\right \rbrace \right)^2}\right]$$

Distribuição Log-Normal

Sejam $(X_i)_{1\leq i\leq n}$ variáveis aleatórias com distribuição Log-Normal e parâmetros de locação $\mu$ e de escala $\sigma$, com função densidade de probabilidade dada por:

$$f(x;\mu,\sigma^2)=\left \lbrace \begin{array}{l}\dfrac{1}{\sqrt{\left(2\pi\sigma^2\right)}~x}\exp\left[\dfrac{-(\log(x)-\mu)^2}{2\sigma^2}\right], \ \hbox{se} \ x \ > \ 0 \cr 0, \ \hbox{caso contrário}\end{array}\right.$$

A função de verossimilhança de $\mu$ e $\sigma^2$ para a distribuição de Log-Normal é:

$$L(\mu,\sigma^2)=\left \lbrace \prod_{i=1}^{n}f(x_i;\theta)\right \rbrace =\left \lbrace \prod_{i=1}^{n} \dfrac{1}{\sqrt{\left(2\pi\sigma^2\right)}~x_{i}}\exp\left[\dfrac{-(\log(x_{i})-\mu)^2}{2\sigma^2}\right]\right \rbrace $$

Com isso, a função de log-verossimilhança é dada por:

$$\log L(\mu,\sigma^2)= -\dfrac{n}{2}\log(2\pi) - \dfrac{n}{2}\log(\sigma^2) - \sum_{i=1}^{n} \log(x_i) - \dfrac{1}{2\sigma^2}\sum_{i=1}^{n} (\log(x_i)-\mu)^2$$

A seguir construímos a matriz de informação observada. Para distribuição Log-Normal descrevemos a função escore:

$$U(\theta)=\dfrac{\partial \log L(\theta)}{\partial \theta}=\left(\dfrac{\partial \log L(\mu,\sigma^2)}{\partial \mu}, \dfrac{\partial \log L(\mu,\sigma^2)}{\partial \sigma^2}\right)^\top$$

em que

$$\dfrac{\partial \log L(\mu,\sigma^2)}{\partial \mu}=\dfrac{1}{\sigma^2}\sum^n_{i=1}(\log x_i-\mu)$$

$$\dfrac{\partial \log L(\mu,\sigma^2)}{\partial \sigma^2}=-\dfrac{n}{2\sigma^2}+\sum^n_{i=1}\dfrac{(\log x_i-\mu)^2}{2(\sigma^2)^2}$$

Mais uma vez é necessário aplicarmos o método numérico. A matriz de informação observada é dada por:

$$\mathcal{I}(\mu,\sigma^2)=-\frac{\partial [U(\theta)]^\top}{\partial \theta}=-\frac{\partial \log L(\mu,\sigma^2)}{\partial \theta\partial \theta^\top}$$ $$-\left[\begin{array}{lr}\dfrac{\partial^2 }{\partial \mu^2}\log L(\mu,\sigma^2) \quad \quad \quad ~\dfrac{\partial^2 }{\partial \mu\partial \sigma^2}\log L(\mu,\sigma^2) \cr \ \dfrac{\partial^2 }{\partial \sigma^2\partial \mu}\log L(\mu,\sigma^2) \quad \dfrac{\partial^2 }{\partial (\sigma^2)^2}\log L(\mu,\sigma^2)\end{array}\right]=-\left[\begin{array}{lc}~-\dfrac{n}{\sigma^2}\qquad\qquad\qquad\qquad\qquad 0 \cr \quad ~0\qquad\dfrac{n}{2(\sigma^2)^2}-\sum\limits_{i=1}^n\dfrac{(\log(x_i)-\mu)^2}{(\sigma^2)^3}\end{array}\right]$$

Distribuição Gumbel

Sejam $(X_i)_{1\leq i\leq n}$ variáveis aleatórias com distribuição gumbel e parâmetros de locação $\mu$ e de escala $\sigma$, com função densidade de probabilidade dada por:

$$f(x;\mu,\sigma)=\left \lbrace \begin{array}{l}\dfrac{1}{\sigma }\exp\left[-\dfrac{x-\mu}{\sigma}-\exp\left(-\dfrac{x-\mu}{\sigma}\right)\right], \ \hbox{se} \ x \ > \ 0 \cr 0, \ \hbox{caso contrário}\end{array}\right.$$

A função de verossimilhança de $\mu$ e $\sigma$ para a distribuição de gumbel é:

$$L(\mu,\sigma)=\left \lbrace \prod_{i=1}^{n}f(x_i;\theta)\right \rbrace =\dfrac{1}{\sigma^n}\exp\left\lbrace -\sum^n_{i=1}\left[\dfrac{x_i-\mu}{\sigma}+\exp\left(-\dfrac{x_i-\mu}{\sigma}\right)\right]\right\rbrace$$

Com isso, a função de log-verossimilhança é dada por:

$$\log L(\mu,\sigma)= -n\log\sigma -\sum^n_{i=1}\left[\dfrac{x_i-\mu}{\sigma}+\exp\left(-\dfrac{x_i-\mu}{\sigma}\right)\right]$$

A seguir construímos a matriz de informação observada. Para distribuição Log-normal descrevemos a função escore:

$$U(\theta)=\dfrac{\partial \log L(\theta)}{\partial \theta}=\left(\dfrac{\partial \log L(\mu,\sigma)}{\partial \mu}, \dfrac{\partial \log L(\mu,\sigma)}{\partial \sigma}\right)^\top$$

em que

$$\dfrac{\partial \log L(\mu,\sigma)}{\partial \mu}=\sum^n_{i=1}\left[\dfrac{1}{\sigma}\left( 1-\exp\left(-\dfrac{x_i-\mu}{\sigma}\right) \right) \right]$$

$$\dfrac{\partial \log L(\mu,\sigma)}{\partial \sigma}=-\dfrac{n}{\sigma}+\sum^n_{i=1}\left[ \dfrac{x_i-\mu}{\sigma^2}\left( 1-\exp\left(-\dfrac{x_i-\mu}{\sigma}\right)\right) \right] $$

Mais uma vez é necessário aplicarmos o método numérico. A matriz de informação observada é dada por:

$$\mathcal{I}(\mu,\sigma)=-\frac{\partial [U(\theta)]^\top}{\partial \theta}=-\frac{\partial \log L(\mu,\sigma)}{\partial \theta\partial \theta^\top}=-\left[\begin{array}{lr}\dfrac{\partial^2 }{\partial \mu^2}\log L(\mu,\sigma) \quad \dfrac{\partial^2 }{\partial \mu\partial \sigma}\log L(\mu,\sigma) \cr \cr \dfrac{\partial^2 }{\partial \sigma\partial \mu}\log L(\mu,\sigma^2) \quad \dfrac{\partial^2 }{\partial \sigma^2}\log L(\mu,\sigma^2)\end{array}\right] $$

em que

$$\dfrac{\partial^2 }{\partial \mu^2}\log L(\mu,\sigma)=-\dfrac{1}{\sigma^2}\displaystyle\sum_{i=1}^n\left[\exp\left\lbrace -\dfrac{x_i-\mu}{\sigma}\right\rbrace\right]$$

$$\dfrac{\partial^2 }{\partial \sigma^2}\log L(\mu,\sigma^2)=\dfrac{n}{\sigma^2}-\sum^n_{i=1}\left[\dfrac{2(x_i-\mu)}{\sigma^3}-\dfrac{2(x_i-\mu)}{\sigma^3}\exp\left\lbrace -\dfrac{x_i-\mu}{\sigma}\right\rbrace +\left(\dfrac{x_i-\mu}{\sigma^2}\right)^2\exp\left\lbrace -\dfrac{x_i-\mu}{\sigma}\right\rbrace \right]$$

$$\dfrac{\partial^2 }{\partial \mu\partial \sigma}\log L(\mu,\sigma)=\dfrac{\partial^2 }{\partial \sigma\partial \mu}\log L(\mu,\sigma^2)=\sum^n_{i=1}\left[-\dfrac{1}{\sigma^2}+\dfrac{1}{\sigma^2}\exp\left\lbrace -\dfrac{x_i-\mu}{\sigma}\right\rbrace -\left(\dfrac{x_i-\mu}{\sigma^3}\right)\exp\left\lbrace -\dfrac{x_i-\mu}{\sigma}\right\rbrace \right]$$

3.5 - Propriedades dos Estimadores

Como vimos na seção anterior, é importante que os estimadores possuam algumas características desejáveis. Consideremos uma amostra $(X_1, X_2, \cdots, X_n)$ de uma população $X$. Seja $\theta$ o parâmetro de interesse da população que desejamos estimar, como por exemplo $\mu = \mathbb{E}(X)$ ou $\sigma^2 = \text{Var}(X)$.

Definição 3.5.1

Um estimador $T = T(X_1, X_2, \cdots, X_n)$ é dito não viciado (não viesado) para algum parâmetro populacional $\theta$ se

$$\mathbb{E}(T)=\theta,$$

para todo $\theta$. Se a igualdade acima não ocorre, dizemos que $T$ é um estimador viciado (viesado) e a diferença $V(T,\theta) = \mathbb{E}(T) - \theta$ é chamada de vício (viés) de $T$.

Teorema 3.5.1

Seja $X_1, X_2, \cdots, X_n$ uma amostra aleatória i.i.d. de uma população e seja $g(x)$ uma função tal que $\mathbb{E}[g(X_1)]$ e $\hbox{Var}[g(X_1)]$ existam. Então

$$\mathbb{E}\left(\sum_{i=1}^ng(X_i)\right)=n(\mathbb{E}(g(X_1)))$$

e $$\text{Var}\left(\sum_{i=1}^ng(X_i)\right)=n(\text{Var}(g(X_1))).$$

Demonstração

Para provar a primeira equação, notemos que

$$\mathbb{E}\left(\sum_{i=1}^ng(X_i)\right)=\sum_{i=1}^n\mathbb{E}(g(X_i))=n(\mathbb{E}(g(X_1))).$$

Uma vez que os $X_i$’s são identicamente distribuídos, a segunda igualdade é verdadeira pois $\mathbb{E}(g(X_i))=\mathbb{E}(g(X_1))$ para todo $i$. Note que aqui, a independência de $X_1, X_2, \cdots, X_n$ não é necessária para esta igualdade. Na verdade, a igualdade acima é verdadeira para qualquer coleção de $n$ variáveis aleatórias independentes e igualmente distribuídas.

Para provar a segunda igualdade, observe que

$$\text{Var}\left(\sum_{i=1}^ng(X_i)\right)=\mathbb{E}\left[\sum_{i=1}^n g(X_i)-\mathbb{E}\left(\sum_{i=1}^n g(X_i)\right)\right]^2=\mathbb{E}\left[\sum_{i=1}^n(g(X_i)-\mathbb{E}[g(X_i)])\right]^2.$$

Nesta última expressão, existem $n^2$ termos. Primeiramente, existem $n$ termos da forma

$$(g(X_i)-\mathbb{E}[g(X_i)])^2, \quad i = 1, \ldots, n$$

e, para cada um deles, temos que

$$\mathbb{E}(g(X_i)-\mathbb{E}[g(X_i)])^2= \ \text{Var}(g(X_i))= \ \text{Var}(g(X_1))$$

uma vez que as variáveis são identicamente distribuidas. Os $n(n-1)$ termos restantes são todos da forma

$$(g(X_i)-\mathbb{E}[g(X_i)(g(X_j))]-\mathbb{E}[g(X_j)]) \ \hbox{com} \ i\neq j.$$

Para cada um destes termos temos que

$$\mathbb{E}(g(X_i)-\mathbb{E}(g(X_i))(g(X_j))-\mathbb{E}(g(X_j)))= \ \text{Cov}(g(X_i),g(X_j))=0$$

pois as variáveis são independentes. Desta forma, fica claro que

$$\text{Var}\left(\sum_{i=1}^ng(X_i)\right)=n(\text{Var}[g(X_1)]).$$

Teorema 3.5.2

Seja $X_1, X_2, \cdots, X_n$ uma amostra aleatória independente e igualmente distribuída de uma população com média $\mu$ e variância $\sigma^2 \ < \ \infty$. Então

a) $\mathbb{E}(\overline{X})=\mu,$

b) $\mathbb{E}(s^2)=\sigma^2$.

Demonstração

Para provar (a), basta tomar $g(X_i) = \frac{X_i}{n}$, deste modo, $\mathbb{E}(g(X_i)) = \frac{\mu}{n}$. Então, pelo Teorema 3.5.1 temos que

$$\mathbb{E}(\overline{X})=\mathbb{E}\left(\frac{1}{n}\sum_{i=1}^nX_i\right)=\frac{1}{n}\mathbb{E}\left(\sum_{i=1}^n X_i\right)=\frac{1}{n}n\mathbb{E}(X_1)=\mu.$$

De maneira similar, para a variância amostral, temos que

$$\mathbb{E}(s^2)=\mathbb{E}\left(\frac{1}{n-1}\left[\sum_{i=1}^nX_i^2-n\overline{X}^2\right]\right)=\frac{1}{n-1}(n\mathbb{E}(X_1^2)-n\mathbb{E}(\overline{X}^2))$$

ou seja,

$$\mathbb{E}(s^2)=\frac{1}{n-1}\left(n(\sigma^2+\mu^2)-n\left(\frac{\sigma^2}{n}+\mu^2 \right)\right)=\sigma^2.$$

Desta forma, podemos concluir que $\overline{X}$ e $s^2$ são estimadores não viciados da média populacional $\mu$ e da variância populacional $\sigma^2$.

Proposição 3.5.1

Seja $X_1,X_2, \cdots ,X_n$ uma amostra aleatória de uma população com distribuição normal $N(\mu,\sigma^2)$. O estimador $ s=\displaystyle \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(X_i-\overline{X})^2}$ é viesado.

De fato, observe primeiramente que $X_i \sim N(\mu,\sigma^2)$ então

$$ \frac{(n-1)s^2}{\sigma^2} = \sum_{i=1}^{n}(X_i-\overline{X})^2 \sim \chi^2_{n-1}$$

Este fato decorre do Corolário 2.3.1. Lembramos que a distribuição qui-quadrado é dada por

$$f(x)=\displaystyle \frac{1}{2^{k/2}\Gamma(k/2)}x^{k/2}exp\left(-\frac{x}{2}\right), \quad x\in (0,\infty)$$

Com isso em mente vamos calcular o valor esperado de $s$ para mostrarmos que $\mathbb{E}(s)\neq\sigma$. De fato,

$$\mathbb{E}\left(s\right)=\mathbb{E}\left(\sqrt{\frac{n-1}{n-1}\frac{\sigma^2}{\sigma^2}s^2}\right)=\sqrt{\frac{\sigma^2}{n-1}}\mathbb{E}\left(\sqrt{\frac{N-1}{\sigma}s^2}\right)$$

$$=\sqrt{\frac{\sigma^2}{n-1}}\int^{0}_{\infty}\sqrt{x}\frac{1}{2^{(n-1)/2}\Gamma(\frac{(n-1)}{2})}x^{((n-1)/2)-1}\exp(-x/2)dx$$

$$=\sqrt{\frac{\sigma^2}{n-1}}\frac{\Gamma(n/2)}{\Gamma((n-1)/2)}\int_{0}^{\infty}\frac{1}{2^{(n-1)/2}\Gamma(n/2)}x^{(n/2)-1}\exp(-x/2)dx$$

$$=\sqrt{\frac{\sigma^2}{n-1}}\frac{\Gamma(n/2)}{\Gamma((n-1)/2)}\frac{2^{n/2}}{2^{(n-1)/2}}\int_{0}^{\infty}\frac{1}{2^{n/2}\Gamma(n/2)}x^{(n/2)-1}\exp(-x/2)dx$$

$$=\sigma\sqrt{\frac{2}{n-1}}\frac{\Gamma(n/2)}{\Gamma((n-1)/2)} \approx\sigma\left(1-\frac{1}{4n}-\frac{7}{32n^2}-\frac{19}{128n^3}+o(n^{-4})\right) \approx\sigma\left(1-\frac{1}{4n}\right)$$ (com a aproximação de Stirling)

Logo o viés é dado por

$$\sigma - \mathbb{E}(s)=\sigma\left(1-\sqrt{\frac{2}{n-1}}\frac{\Gamma(n/2)}{\Gamma((n-1)/2)}\right)\approx\frac{\sigma}{4n}$$

Portanto, de fato temos que o estimador $s$ é viesado embora $s^2$ não seja, pois como sabemos $\mathbb{E}(s^2)=\sigma^2$ .

Outro conceito importante para ser definido é o de consistência de um estimador. Já verificamos no Capítulo de Distribuições Amostrais que, conforme o tamanho amostral n cresce, a distribuição da média amostral $\bar{X}$ torna-se cada vez mais concentrada em torno da média populacional $\mu$. Sempre que um estimador torna-se cada vez mais próximo do parâmetro, dizemos que o estimador é consistente. Matematicamente, consideramos a seguinte definição:

Definição 3.5.2

Seja $ \lbrace T_n \rbrace $ uma sequência de estimadores de um parâmetro de interesse $\theta$. Dizemos que esta sequência de estimadores é consistente se, dado $\epsilon \ > \ 0$ arbitrário

$$\mathbb{P}\left(|T_n - \theta|>\epsilon\right)\rightarrow 0, \quad n\rightarrow\infty.$$

Proposição 3.5.2

A sequência de estimadores $ \lbrace T_n \rbrace $ de um parâmetro $\theta$ é consistente se

$$\lim_{n\rightarrow\infty}\mathbb{E}\left(T_n\right) = \theta \ \hbox{e} \ \lim_{n\rightarrow\infty}\text{Var}\left(T_n\right) = 0.$$

Observação 3.5.1

Observe que, se $ \lbrace T_n \rbrace $ for uma sequência não viciada de estimadores de $\theta$, então a primeira condição estará claramente satisfeita. A partir do resultado anterior, é evidente que a média amostral $\bar{X}$ e a proporção $\hat{p}$ são estimadores consistentes da média populacional $\mu$ e da proporção populacional $p$, respectivamente.

Exemplo 3.5.1

Considere a variância amostral $s^2$. Do Teorema 3.5.2, temos que $s^2$ é um estimador não viciado de $\sigma^2$. Podemos demonstrar que, se $X_1, X_2, \cdots, X_n$ é uma amostra independente e igualmente distribuída de uma população qualquer, então $$\hbox{Var}\left(s^2\right) = \sigma^4\left(\frac{2}{n-1}+\frac{k}{n}\right)$$

onde $k$ é a curtose da distribuição.

Desta forma, temos que $\lim_{n\rightarrow\infty}\hbox{Var}\left(s^2\right) = 0$ e, portanto, concluímos que $s^2$ é um estimador consistente para $\sigma^2$.

Exemplo 3.5.2

Seja $X_1, X_2, \cdots, X_n$ uma amostra i.i.d de uma população com média $\mu$ e variância $\sigma^2$ e considere os seguintes estimadores para a média populacional $\mu$:

$$\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i \qquad \hbox{e} \qquad X^\prime = \frac{1}{n+1}\left(2X_1 + X_2 + \cdots + X_n\right)$$

Utilizando o Teorema 3.5.1, é fácil concluir que $\mathbb{E}\left(\bar{X}\right) = \mathbb{E}\left(X^\prime\right) = \mu$, de onde concluímos que ambos os estimadores de $\mu$ são não viciados. Calculando as variâncias, temos que

$$\text{Var}\left(\bar{X}\right) = \ \text{Var}\left(\frac{1}{n}\sum_{i=1}^n X_i\right) = \frac{1}{n^2}\sum_{i=1}^n \ \text{Var}\left(X_i\right) = \frac{\sigma^2}{n}.$$

$$\text{Var}\left(X^\prime\right) = \ \text{Var}\left(\frac{2X_1+X_2+\cdots+X_n}{n+1}\right) = \frac{(n+3)\sigma^2}{(n+1)^2}.$$

Neste caso, temos que $\lim_{n\rightarrow\infty}\text{Var}(\bar{X}) = \lim_{n\rightarrow\infty}\frac{\sigma^2}{n} = 0$ e $\lim_{n\rightarrow\infty}\text{Var}(X^\prime) = \lim_{n\rightarrow\infty}\frac{(n+3)\sigma^2}{(n+1)^2} = 0$. Logo, tanto $\overline{X}$ quanto $X'$ são estimadores consistentes para o parâmetro $\mu$.

Neste caso, é necessário algum critério para decidir qual seria um “melhor” estimador de um mesmo parâmetro. Diremos então que o “melhor” estimador é chamado de estimador mais eficiente.

Definição 3.5.3

Suponha que $T$ e $T$' sejam dois estimadores não viciados de um mesmo parâmetro $\theta$. Se $$\text{Var}\left(T\right) \ < \ \text{Var}\left(T'\right)$$

então dizemos que $T$ é um estimador mais eficiente do que $T$'.

Considerando o Exemplo 3.5.1, temos que

$$\text{Var}\left(\overline{X}\right) = \frac{\sigma^2}{n} < \frac{(n+3)\sigma^2}{(n+1)^2} = \ \text{Var}\left(X^\prime\right).$$

de onde concluímos que $\overline{X}$ é um estimador mais eficiente do que $X$'.

Quanto menor for a diferença entre o estimador $T$ e o parâmetro $\theta$, menor será o erro cometido ao estimar o parâmetro $\theta$ pelo estimador $T$. Esta diferença $e = T - \theta$ é chamada de erro amostral.

Definição 3.5.4

Definimos o erro quadrático médio (EQM) do estimador $T$ como sendo o valor esperado do erro amostral ao quadrado, isto é,

$$\text{EQM}(T;\theta) = \mathbb{E}(e^2) = \mathbb{E}\left((T-\theta)^2\right).$$

Escrevendo $T - \theta = T - \mathbb{E}(T) + \mathbb{E}(T) - \theta$, temos a partir da Definição 3.5.4, que

$$\text{EQM}(T,\theta) = \mathbb{E}\left((T-\mathbb{E}(T))^2\right) + 2\mathbb{E}\left((T-\mathbb{E}(T))(\mathbb{E}(T)-\theta)\right) + \mathbb{E}\left((\mathbb{E}(T)-\theta)^2\right),$$

de onde concluímos que

$$\text{EQM}(T,\theta) = \mathbb{E}\left((T - \mathbb{E}(T))^2\right) + \mathbb{E}\left((\mathbb{E}(T)-\theta)^2\right),$$

pois $\mathbb{E}(T) - \theta$ é uma constante e $\mathbb{E}(T-\mathbb{E}(T)) = 0$. De onde segue que

$$\text{EQM}(T,\theta) = \ \text{Var}(T) + V(T,\theta)^2$$

onde $V(T,\theta)$ é o vício do estimador $T$.

Novamente, voltando ao Exemplo 3.5.2, temos que

$$\text{EQM}(\bar{X},\mu) = \ \text{Var}(\overline{X}) + V(\bar{X},\mu)^2 = \text{Var}(\overline{X}) = \frac{\sigma^2}{n}$$

e

$$\text{EQM}(X^\prime,\mu) = \text{Var}(X^\prime) + V(X^\prime,\mu)^2 = \ \text{Var}(X\prime) = \frac{(n+3)\sigma^2}{(n+1)^2}$$

já que os estimadores são não viciados e, neste caso, $V = 0$. Portanto, concluímos que o estimador $\overline{X}$ é um estimador que possui menor erro quadrático médio, isto é, tem melhor acurácia.

Exemplo 3.5.3

Seja $X_1, \ldots, X_n$ uma amostra i.i.d de uma distribuição normal com média $\mu$ e variância $\sigma^2$ e considere o estimador $s^2$ para $\sigma^2$. Do Teorema 3.5.2 temos que este estimador é não-viciado e, portanto,

$$V(s^2,\sigma^2) = 0.$$

Desta forma, o erro quadrático médio deste estimador é dado por

$$\text{EQM}(s^2,\sigma^2) = \text{Var}(s^2) = \frac{2\sigma^4}{n-1}.$$

Observação 3.5.2

Pode parecer intuitivo que, ao utilizar estimadores não-viciados, tenhamos um erro quadrático médio pequeno, porém nem sempre isso ocorre, ou seja, controlar o vício do estimador não garante um controle do erro quadrático médio. Às vezes, um estimador com um pequeno aumento no vício pode gerar um grande decrescimento na variância e, consequentemente, um erro quadrático médio menor.

Exemplo 3.5.4

Considere novamente a amostra i.i.d do Exemplo 3.5.3 de uma distribuição normal com média $\mu$ e variância $\sigma^2$ e considere o estimador de máxima verossimilhança para $\sigma^2$, ou seja, o estimador

$$\hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n(X_i -\bar{X})^2 = \frac{n-1}{n}s^2.$$

Temos que

$$\mathbb{E}(\hat{\sigma}^2) = \mathbb{E}\left(\frac{n-1}{n}s^2\right) = \frac{n-1}{n}\sigma^2,$$

de forma que $\hat{\sigma}^2$ é um estimador viciado de $\sigma^2$. Calculando a variância de $\hat{\sigma}^2$, temos que $$\hbox{Var}(\hat{\sigma}^2) = \hbox{Var}\left(\frac{n-1}{n}s^2\right)=\left(\frac{n-1}{n}\right)^2\hbox{Var}(s^2) = \frac{2(n-1)\sigma^4}{n^2},$$

de forma que o erro quadrático médio $\text{EQM}(\hat{\sigma}^2)$ é dado por $$\text{EQM}(\hat{\sigma}^2) = \mathbb{E}(\hat{\sigma}^2-\sigma^2)^2 = \frac{2(n-1)\sigma^4}{n^2}+\left(\frac{n-1}{n}\sigma^2 - \sigma^2\right)^2 = \left(\frac{2n-1}{n^2}\right)\sigma^4.$$

Desta forma, $$\text{EQM}(\hat{\sigma}^2) = \left(\frac{2n-1}{n^2}\right)\sigma^4<\left(\frac{2}{n-1}\right)\sigma^4=\text{EQM}(s^2),$$

e, portanto, $\hat{\sigma}^2$ possui um erro quadrático médio menor do que $s^2$.

Observação 3.5.3

Como o erro quadrático médio é uma função do parâmetro, não podemos, em geral, dizer que existe um melhor estimador a partir da comparação de seus erros quadráticos médios. Porém, sua informação pode, eventualmente, fornecer um guia a seguir na escolha entre estimadores.

O objetivo agora é encontrar o melhor estimador não-viciado de um parâmetro $\theta$, que será definido a seguir.

Definição 3.5.5

Dizemos que um estimador $T$ de um parâmetro $\theta$ é o melhor estimador não-viciado se $\mathbb{E}(T) = \theta$ e, para qualquer outro estimador $T$' com $\mathbb{E}(T^\prime) = \theta$, tivermos que $\hbox{Var}(T)\leq\hbox{Var}(T^\prime)$. Neste caso, $T$ é também chamado de estimador não viciado de variância uniformemente mínima (ENVVUM) de $\theta$.

Apesar da Definição 3.5.5, encontrar o ENVVUM de um parâmetro $\theta$, quando este existe, nem sempre é uma tarefa muito fácil. Para exemplificar, consideremos o seguinte exemplo.

Exemplo 3.5.5

Sejam $X_1,\ldots,X_n$ variáveis aleatórias independentes e igualmente distribuídas com distribuição de Poisson com parâmetro $\lambda$ e considere $\overline{X}$ a média e $s^2$ a variância amostral. Sabemos que uma distribuição de Poisson com parâmetro $\lambda$ possui média e variância iguais a $\lambda$. Como $\overline{X}$ e $s^2$ são estimadores não viciados, temos que

$$\mathbb{E}(\overline{X}) = \lambda$$

e $$\mathbb{E}(s^2) = \lambda.$$

Para determinar o melhor estimador, devemos agora comparar suas variâncias. Utilizando o Teorema 3.5.1 temos que $\hbox{Var}(\overline{X}) = \lambda/n$, porém o cálculo de $\hbox{Var}(s^2)$ é um pouco mais complicado e este é um dos problemas em encontrar o ENVVUM de um parâmetro. Para este caso particular, temos que $\hbox{Var}(\overline{X})\leq\hbox{Var}(s^2)$ para todo $\lambda$. Mas, considere agora a classe de estimadores

$$C_a(\overline{X},S^2) = a\bar{X} + (1-a)S^2, \ a\in\mathbb{R}.$$

Para cada $a\in\mathbb{R}$, temos que $\mathbb{E}(C_a) = \lambda$ de forma que temos um número infinito que estimadores não viciados de $\lambda$. Sabemos que $\overline{X}$ é um estimador melhor do que $s^2$, porém, ele continua sendo melhor do que todo $C_a(\overline{X},s^2)$?

Suponha agora, que possamos encontrar um limitante inferior $B(\theta)$ para a variância de qualquer estimador não viciado do parâmetro $\theta$ de interesse. Neste caso, se existir um estimador não viciado $T$ do parâmetro $\theta$ tal que $\hbox{Var}(T) = B(\theta)$, então, este será o ENVVUM. Para isto, utilizamos a desigualdade de Cramer-Rao, enunciada abaixo.

Teorema 3.5.3 (Desigualdade de Cramer-Rao)

Seja $X_1,\ldots,X_n$ uma amostra aleatória com função densidade de probabilidade $f(x|\theta)$ e seja $T(\textbf{X}) = T(X_1,\ldots,X_n)$ qualquer estimador que satisfaz

$$\frac{d}{d\theta}\mathbb{E}(T(\textbf{X}))=\int_{-\infty}^\infty\frac{\partial}{\partial\theta}[T(\textbf{x})f(\textbf{x}|\theta)]d\textbf{x}$$

e $\hbox{Var}(T(\textbf{X}))<\infty$. Então

$$\hbox{Var}(T(\textbf{X})) \geq \frac{\left(\frac{d}{d\theta}\mathbb{E}(T(\textbf{X}))\right)^2}{\mathbb{E}\left(\left(\frac{\partial}{\partial\theta}\log f(\textbf{X}|\theta)\right)^2\right)}.$$

Teorema 3.5.4 (Desigualdade de Cramer-Rao, caso i.i.d)

Se as hipóteses do Teorema 3.4.3 estão satisfeitas e, além disso, a amostra aleatória $X_1, \ldots, X_n$ é i.i.d com função densidade de probabilidade $f(x|\theta)$, então $$\hbox{Var}(T(\textbf{X}))\geq \frac{\left(\frac{d}{d\theta}\mathbb{E}(T(\textbf{X}))\right)^2}{n\mathbb{E}\left(\left(\frac{\partial}{\partial\theta}\log f(X|\theta)\right)^2\right).}$$

Observação 3.5.4

A desigualdade de Cramer-Rao também se aplica para o caso de variáveis aleatórias discretas. Neste caso, utilizamos a função de probabilidade ao invés da função densidade de probabilidade e, observamos que basta substituir a integral pelo somatório. Apesar de $f(x|\theta)$ não ser diferenciável em $x$, ela é em $\theta$.

A quantidade $\mathbb{E}\left(\left(\frac{\partial}{\partial\theta}\log f(\textbf{X}|\theta)\right)^2\right)$ é chamada de informação de Fisher. A informação de Fisher recebe este nome pois fornece um limitante para a variância do ENVVUM de $\theta$. Conforme a informação aumenta e temos mais informação sobre o parâmetro $\theta$, temos um menor limitante para a variância do ENVVUM.

Proposição 3.5.3

Se $f(x,\theta)$ satisfaz

$$\frac{d}{d\theta}\mathbb{E}\left(\frac{\partial}{\partial\theta}\log f(X|\theta)\right) = \int\frac{\partial}{\partial\theta}\left[\left(\frac{\partial}{\partial\theta}\log f(x|\theta)\right)f(x|\theta)\right]dx$$

então

$$\mathbb{E}\left(\left(\frac{\partial}{\partial\theta}\log f(X|\theta)\right)^2\right)=-\mathbb{E}\left(\frac{\partial^2}{\partial\theta^2}\log f(X|\theta)\right).$$

Voltando ao Exemplo 3.5.5, como $X$ tem distribuição de Poisson com parâmetro $\lambda$, a igualdade

$$\frac{d}{d\theta}\mathbb{E}\left(\frac{\partial}{\partial\theta}\log f(X|\theta)\right) = \int\frac{\partial}{\partial\theta}\left[\left(\frac{\partial}{\partial\theta}\log f(x|\theta)\right)f(x|\theta)\right]dx$$

é satisfeita (exercício!), temos da Proposição 3.5.3 que

$$\mathbb{E}\left(\left(\frac{\partial}{\partial\lambda}\log f(X|\lambda)\right)^2\right) = -\mathbb{E}\left(\frac{\partial^2}{\partial\lambda^2}\log f(X|\lambda)\right) = -\mathbb{E}\left(\frac{\partial^2}{\partial\lambda^2}\log\left(\frac{e^{-\lambda}\lambda^X}{X!}\right)\right)$$ de onde segue que

$$\mathbb{E}\left(\left(\frac{\partial}{\partial\lambda}\log f(X|\lambda)\right)^2\right) = -\mathbb{E}\left(-\frac{X}{\lambda^2}\right) = \frac{1}{\lambda}.$$

Então, pela desigualdade de Cramer-Rao no caso i.i.d (Teorema 3.5.4), segue que, para qualquer estimador não-viciado $ T(\textbf{X}) $ vale a desigualdade

$$\hbox{Var}(T(\textbf{X})\geq \frac{\left(\frac{d}{d\lambda}\mathbb{E}\left(T(\textbf{X})\right)\right)^2}{n\mathbb{E}\left(\left(\frac{\partial}{\partial\lambda}\log f(X|\lambda)\right)^2\right)} = \frac{\lambda}{n}.$$

Como $ \hbox{Var}(\bar{X}) = \lambda/n $, segue que $ \bar{X} $ é o ENVVUM de $ \lambda $, além de ser o estimador de máxima verossimilhança de $ \lambda $ segundo vimos no Exemplo 3.4.2.

Exemplo 3.5.6

Seja $ X_1,\ldots,X_n $ uma amostra i.i.d de uma distribuição uniforme no intervalo $ [0,\theta] $. Neste caso, temos que a função densidade de probabilidade $ f(x|\theta) $ é dada por

$$ f(x|\theta) = \left \lbrace \begin{array}{l}\frac{1}{\theta}, \ \hbox{se} \ x\in[0,\theta] \cr 0, \ \hbox{caso contrário}.\end{array}\right.$$

Segue então que

$$\frac{\partial}{\partial\theta}\log (f(x|\theta)) = \frac{\partial}{\partial\theta}-\log(\theta) = -\frac{1}{\theta}$$

de forma que

$$\mathbb{E}\left(\left(\frac{\partial}{\partial\theta}\log f(X|\theta)\right)^2\right) = \frac{1}{\theta^2}.$$

Desta forma, se $ T $ é um estimador não-viciado do parâmetro $ \theta $, segue da desigualdade de Cramer-Rao que

$$\hbox{Var}(T) \geq \frac{\theta^2}{n}.$$

Vamos considerar o estimador de máxima verossimilhança de $ \theta $ dado por $ T =\max \lbrace X_1,\ldots,X_n \rbrace $ (verifique o Exemplo 3.4.4 da Seção 3.4). Inicialmente, observamos que $ T $ tem função densidade de probabilidade dada por

$$f_{T}(x|\theta) = \frac{nx^{n-1}}{\theta^n} \ \hbox{se} \ 0\leq x\leq \theta,$$

de modo que

$$\mathbb{E}(T) = \int_0^\theta\frac{nx^n}{\theta^n}dx=\frac{n}{n+1}\theta.$$

Portanto, $ T = \max \lbrace X_1,\ldots,X_n \rbrace $ é um estimador viciado do parâmetro $ \theta $. Porém, o estimador $ T^\prime = \frac{n+1}{n}T $ é, obviamente, não-viciado. Além disso, temos que

$$\hbox{Var}\left(\frac{n+1}{n}T\right) = \frac{1}{n(n+2)}\theta^2,$$

que é uniformemente menor do que $ \theta^2/n $. Isto indica que a desigualdade de Cramér-Rao se aplica a esta função densidade de probabilidade. Em geral, a desigualdade não se aplica para f.d.p’s que dependem do parâmetro de interesse.

Propriedades resultantes da desigualdade de Cramer-Rao

A partir da desigualdade de Cramer-Rao, obtemos algumas propriedades importantes:

  1. Sob condições de regularidade satisfeitas, se $ T(\textbf{X}) $ é um estimador não-viciado de $ \psi(\theta) $ e se $ \hbox{Var}(T(\textbf{X})) = \frac{[\psi(\theta)]^2}{I(\theta)} $, então $ T(\textbf{X}) $ é um ENVVUM de $ \psi(\theta) $.

  2. Sob condições de regularidade satisfeitas, se $ T(\textbf{X}) $ é um estimador não-viciado de $ \theta $ e se $ \hbox{Var}(T(\textbf{X})) = \frac{1}{I(\theta)} $, então $ T(\textbf{X}) $ é um ENVVUM para $ \theta $.

Esta é uma consequência direta do item anterior. Basta observar que, se $ T(\textbf{X}) $ é um estimador não-viciado de $ \theta $, então, neste caso, $ \psi(\theta) = \theta $, de forma que $ \psi^\prime(\theta) = 1 $ e assim, se $ \hbox{Var}(T(\textbf{X})) = \frac{1}{I(\theta)} $, utilizando a Desigualdade de Cramer-Rao, temos que esta é a menor variância possível para um estimador não-viciado de $ \theta $.

  1. Se $ f(\textbf{x}|\theta) $ pertence a família exponencial

$$f(\textbf{x}|\theta) = h(\textbf{x})\exp\left \lbrace c(\theta)T(\textbf{x})+d(\theta)\right \rbrace $$

e se $ c(\cdot) $ tem derivada contínua não nula sobre $ \Theta $, então

$$\hbox{Var}_{\theta}(T(\textbf{X})) = \frac{[\psi^\prime(\theta)]^2}{I(\theta)}$$

em que $ \psi(\theta) = \mathbb{E}(T(\textbf{X})) $ e $ T(\textbf{X}) $ é ENVVUM para $ \psi(\theta) $.

  1. A quantidade $ \frac{[\psi^\prime(\theta)]^2}{I(\theta)} $ é chamada de limite inferior de Cramer-Rao para a variância do estimador não-viciado de $ \psi(\theta) $ (apenas sob condições de regularidade satisfeitas).

Teorema 3.5.5 (Teorema de Rao-Blackwell)

Seja $ X_1,\ldots,X_n $ uma amostra aleatória com função de probabilidade ou função densidade de probabilidade $ f(\textbf{x}|\theta) $, $ T = T(X_1,\ldots,X_n) $ uma estatística suficiente para $ \theta $ e seja $ S = S(X_1,\ldots,X_n) $ um estimador não viciado qualquer de $ \psi(\theta) $. Tomando $ \phi(T) = T^\ast(\textbf{X}) = \mathbb{E}(S(\textbf{X})|T(\textbf{X})) $, temos que $ T^\ast(\textbf{X}) $ é independente de $ \theta $, pois $ T(\textbf{X}) $ é suficiente para $ \theta $. Além disso, $ \mathbb{E}(T^\ast(\textbf{X})) = \psi(\theta) $ e $ \hbox{Var}(T^\ast(\textbf{X}))\leq \hbox{Var}(S(\textbf{X})) $ para todo $ \theta $. Isto é, $ T^\ast(\textbf{X}) $ é um estimador não-viciado uniformemente melhor de $ \psi(\theta) $.

Demonstração

De fato, temos que

$$\mathbb{E}(T^\ast(\textbf{X})) = \mathbb{E}\left(\mathbb{E}(S(\textbf{X})|T(\textbf{X}))\right) = \mathbb{E}(S(\textbf{X})) = \psi(\theta).$$

e, portanto, $ T^\ast(\textbf{X}) $ é um estimador não viciado para $ \psi(\theta) $. Além disso,

$$\hbox{Var}(S(\textbf{X}))=\hbox{Var}\left[\mathbb{E}(S(\textbf{X})|T(\textbf{X}))\right]+\mathbb{E}\left[ \hbox{Var}(S(\textbf{X})|T(\textbf{X}))\right]$$

de onde segue que

$$\hbox{Var}(S(\textbf{X}))=\hbox{Var}(T^\ast(\textbf{X})) + \mathbb{E}\left[\hbox{Var}(S(\textbf{X})| T(\textbf{X})) \right] \geq\hbox{Var}(T^\ast(\textbf{X}))$$

Assim, $ T^\ast(\textbf{X}) $ é uniformemente melhor do que $ S(\textbf{X}) $. Além disso, como $ S(\textbf{X}) $ é função somente da amostra e $ T(\textbf{X}) $ é uma estatística suficiente, segue que a distribuição de $ S(\textbf{X})|T(\textbf{X}) $ independe de $ \theta $. Portanto, $ T^\ast(\textbf{X}) $ é, de fato, um estimador e, além disso, é não viciado e uniformemente melhor para $ \psi(\theta) $.

Em outras palavras, condicionar qualquer estimador não-viciado de $ \psi(\theta) $ a uma estatística suficiente para $ \theta $ resultará em um melhor estimador, de forma que na busca de estimadores não-viciados ótimos, somente consideramos estatísticas que são funções de uma estatística suficiente. No entanto, o Teorema de Rao-Blackwell não fornece o ENVVUM.

Teorema 3.5.6 (Teorema de Lehmann-Scheffé)

Seja $ X_1,\ldots,X_n $ uma amostra aleatória da variável aleatória $ X $ com função de probabilidade ou função densidade de probabilidade $ f(x|\theta) $, $ T(\textbf{X}) $ uma estatística suficiente e completa para $ \theta $ e $ S(\textbf{X}) $ um estimador não-viciado de $ \psi(\theta) $. Então, $ T^\ast(\textbf{X}) = \mathbb{E} (S(\textbf{X})|T(\textbf{X})) $ é um ENVVUM para $ \psi(\theta) $ e, se $ Var(T^\ast(\textbf{X}))<\infty $ para todo $ \theta $, então, $ T^\ast(\textbf{X}) $ é o único ENVVUM para $ \psi(\theta) $.

Demonstração

Como $ T^\ast(\textbf{X}) = \mathbb{E}(S(\textbf{X})|T(\textbf{X})) $ temos que

$$\mathbb{E}(T^\ast(\textbf{X}))=\mathbb{E}\left[\mathbb{E}(S(\textbf{X})|T(\textbf{X}))\right]=\mathbb{E}(S(\textbf{X})) = \psi(\theta).$$

Logo, $ T^\ast(\textbf{X}) $ é um estimador não-viciado de $ \psi(\theta) $.

Agora, na procura de ENVVUM’s para $ \psi(\theta) $, basta procurar entre os que são função de $ T(\textbf{X}) $ (pois os que não são podem ser melhorados através do Teorema de Rao-Blackwell). Portanto, basta provar que há um único estimador não-viciado de $ \psi(\theta) $ que é função de $ T(\textbf{X}) $. Para isto, suponha que existem $ T_1(\textbf{X}) $ e $ T_2(\textbf{X}) $, ambos função de $ T $, tais que

$$\mathbb{E}(T_1(\textbf{X})) = \mathbb{E}(T_2(\textbf{X})) = \psi(\theta).$$

Mas então, $ \mathbb{E}(T_1(\textbf{X})-T_2(\textbf{X})) = 0 $ e, como $ T $ é completa, implica que $ T_1(\textbf{X})-T_2(\textbf{X}) = 0 $, logo $ T_1(\textbf{X}) = T_2(\textbf{X}) $ com probabilidade $ 1 $.

A seguir, temos um roteiro de como utilizar o Teorema de Lehmann-Scheffé para encontrar um ENVVUM para $ \psi(\theta) $.

  1. Procurar uma estatística suficiente e completa $ T(\textbf{X}) $.

  2. Obter uma estatística $ h(T(\textbf{X})) $ (função de $ T(\textbf{X}) $ que seja um estimador não-viciado de $ \psi(\theta) $. Assim, $ h(T(\textbf{X})) $ será um ENVVUM para $ \psi(\theta) $.

Exemplo 3.5.7

Seja $ X_1,\ldots,X_n $ uma amostra aleatória i.i.d com distribuição de Bernoulli com parâmetro $ \theta $ com $ 0 \ < \ \theta \ < \ 1 $. Verificar que $ \frac{n}{n+1}\overline{X}(1-\overline{X}) $ é um ENVVUM para $ \theta(1-\theta) $.

Observe que, se $ f(\textbf{x}|\theta) $ pertence a família exponencial. De fato, temos que

$$f(\textbf{x}|\theta) = \prod_{i=1}^nf(x_i|\theta) = \prod_{i=1}^n\theta^{x_i}(1-\theta)^{1-x_i}=\theta^{\sum_{i=1}^nx_i}(1-\theta)^{n-\sum_{i=1}^nx_i}$$

e então

$$f(\textbf{x}|\theta) = \exp\left \lbrace \sum_{i=1}^nx_i\log(\theta)+\left(n-\sum_{i=1}^nx_i\right)\log(1-\theta)\right \rbrace = \exp\left \lbrace n\bar{x}\log\left(\frac{\theta}{1-\theta}\right)+n\log(1-\theta)\right \rbrace ,$$

de onde concluímos, a partir do Teorema 3.1.1.3, que $ T(\textbf{X}) = \overline{X} $ é uma estatística suficiente para $ \theta $. Além disso, como $ 0 \ < \ \theta \ \ < \ 1 $, e então, o espaço paramétrico $ \Theta $ contém um conjunto aberto de $ \mathbb{R} $ e, portanto, segue do Teorema 3.1.1.6, que $ T(\textbf{X}) $ também é uma estatística completa para $ \theta $. Considere agora a estatística $ S(\textbf{X}) $ dada por

$$S(\textbf{X}) = \frac{n}{n-1}\overline{X}(1-\overline{X})$$

que é função de $ T(\textbf{X}) $. Temos que

$$\mathbb{E}(S(\textbf{X})) = \frac{n}{n-1}\mathbb{E}(\overline{X}-\overline{X}^2) = \frac{n}{n-1}\left[\mathbb{E}(\overline{X})-\text{Var}(\overline{X})-\mathbb{E}^2(\overline{X})\right]$$

e então

$$\mathbb{E}(S(\textbf{X}))=\frac{n}{n-1}\left[\theta-\frac{\theta(1-\theta)}{n}-\theta^2\right] = \frac{n}{n-1}\left[\frac{n-1}{n}(\theta(1-\theta))\right] = \theta(1-\theta).$$

de onde concluímos que $ S(\textbf{X}) = \frac{n}{n-1}\overline{X}(1-\overline{X}) $ é um estimador não viciado de $ \psi(\theta) = \theta(1-\theta) $ e, portanto, segue do Teorema de Lehmann-Scheffé que $ S(\textbf{X}) $ é o único ENVVUM para $ \theta(1-\theta) $.

October 3, 2025: RevisãoEBeInf (f1096ebf)