8.1 Introdução à teoria das probabilidades

A teoria de probabilidade consiste em utilizar a intuição humana para estudar os fenômenos do nosso cotidiano de trabalho. Para isso, vamos utilizar o princípio básico do aprendizado humano que é a ideia de experimento.

Podemos classificar os experimentos em dois tipos: aleatórios (casuais) e não aleatórios (determinísticos). Os experimentos determinísticos são totalmente caracterizados a priori, ou seja, são fenômenos em que o resultado é sabido antes mesmo em que ele ocorra e desta forma, nada temos a fazer.

Os experimentos que iremos estudar são os aleatórios, dos quais não sabemos o resultado a priori, ou seja, são acontecimentos cujos resultados não podem ser previstos.

A seguir tratamos os termos básicos associados a modelagem dos experimentos aleatórios.

Definição 1.1 (Espaço Amostral)

O primeiro elemento na modelagem de um experimento é o espaço amostral, que consiste no conjunto de todos os possíveis resultados do experimento. Ao estudarmos uma característica da qualidade de um processo (ou produto), o espaço amostral consiste de todos os resultados possíveis que a característica da qualidade pode assumir. Geralmente representaremos esse conjunto por S ou por $ \Omega $.

Por exemplo, se o experimento é lançar uma moeda e verificar a face voltada para cima, o espaço amostral é o conjunto S = {cara, coroa}. Para o lançamento de um dado de seis faces, o espaço amostral é S = {1, 2, 3, 4, 5, 6}.

Exemplo 1.1

Considere um experimento no qual classificamos um produto em defeituoso ou não defeituoso. Neste caso, o espaço amostral é S = {defeituoso, não defeituoso}.

Exemplo 1.2

Em um experimento para contar o número de pessoas com diabetes na cidade de São Paulo, obtemos como espaço amostral S = {0, 1, 2, 3, … }.

Ao projetarmos nosso experimento formulamos perguntas (ou conjecturas) associadas ao mesmo. Estas perguntas são denominadas eventos.

Definição 1.2

Todas as perguntas (ou conjecturas) que formulamos a respeito do experimento são denominadas EVENTOS. Os eventos serão denotados por letras maiúsculas.

Considerando novamente o exemplo de lançar um dado, podemos ter os seguintes eventos: A = {sair número par}, B = {sair número ímpar}, C = {sair número maior do que 3}. Esses eventos podem ser representados, respectivamente, pelos conjuntos: A = {2, 4, 6} , B = {1, 3, 5} e C = {4, 5, 6}. Considerando agora o experimento do Exemplo 1.1 podemos definir como eventos D = {defeituoso}, E = {não defeituoso}. Já referente ao Exemplo 1.2, ao contarmos o número de pessoas com diabetes, podemos associar eventos como A={entre 15 e 20 pessoas com diabetes} = {15,16,17,18,19,20} ou o evento F = {nenhuma pessoa} = {0}.

Em todos estes exemplos, associamos os eventos a subconjuntos do espaço amostral. Portanto, do ponto de vista matemático, vamos definir eventos como subconjuntos do espaço amostral. O próprio espaço amostral é um evento, também conhecido como evento certo, enquanto que o conjunto $ \varnothing $ é denominado de evento impossível.

1.1 - Manipulação de Eventos

Os eventos são estudados do ponto de vista de sua “ocorrência” ou “não ocorrência”. Por exemplo, o evento impossível de ocorrer é o evento vazio, enquanto que o evento certo de ocorrer é o espaço amostral. Neste módulo, vamos estabelecer uma estratégia para manipularmos os eventos. Como interpretamos os eventos como sentenças que formulamos a respeito dos resultados do experimento (subconjuntos do espaço amostral), podemos utilizar relações lógicas para manipular os eventos. As três operações básicas são:

  • União ($ \cup $): A união de dois conjuntos quaisquer A e B conterá todos os elementos de A e de B, incluindo os elementos que são e os que não são comuns aos dois conjuntos. Um elemento $ w \in A\cup B $ se, e só se, $ w \in A $ e/ou $ w \in B $.

Figura8.1.1

Figura 8.1.1: Representação da união de dois conjuntos

Os círculos em amarelo é o conjunto $ A \cup B $.

Podemos generalizar a definição de união para uma sequência de conjuntos $A_1$, $A_2$, … . Generalizamos tal definição da seguinte forma:

$$\displaystyle \bigcup_{i=1}^{\infty} A_i = A_1 \cup A_2 \cup \ldots = \lbrace w: w \in A_n \ \hbox{para algum n} \rbrace .$$

  • Interseção ($ \cap $): A interseção de dois conjuntos quaisquer A e B conterá os elementos comuns a A e B. Um elemento $ w \in A \cap B $ se, e só se, $ w \in A $ e $ w \in B $.

Figura8.1.2

Figura 8.1.2: Representação da intersecção de dois conjuntos

A região pintada em amarelo é o conjunto $ A\cap B $.

Analogamente, generalizamos esta definição para uma sequência de conjuntos $A_1$, $A_2$, $\ldots$ da seguinte forma:

$$ \displaystyle \bigcap_{i=1}^{\infty} A_i = A_1 \cup A_2 \cup \ldots = \lbrace w: w \in A_n \ \hbox{para algum n} \in \mathbb{N} \rbrace .$$

  • Complementar ($ A^c $): O evento complementar ao evento $A$ é o conjunto dos elementos do espaço amostral que não pertencem a $A$. Um elemento $ w \in A^c $ se, e só se, $ w \notin A $ e $ w \in S $.

Figura8.1.3

Figura 8.1.3: Representação da complementar de um conjunto

O círculo em branco é o conjunto $A$ e a região em amarelo é o conjunto Complementar de $A$ ($ A^c $).

Consideremos os seguinte eventos, associados ao lançamento de um dado: A = {sair número par} = {2, 4, 6}, B = {sair número ímpar} = {1, 3, 5} e C = {sair número maior que 3} = {4, 5, 6}. Com isso temos que

a) $ A\cup B = \lbrace (1, 2, 3, 4, 5, 6) \rbrace $.

b) $ A\cap B = \emptyset $.

c) $ A\cup C = \lbrace (2, 4, 5, 6) \rbrace $ e $ A\cap C = \lbrace (4, 6) \rbrace $.

d) $ C^c = \lbrace (1, 2, 3) \rbrace $.

Observação

Na terminologia da teoria de conjuntos, o conjunto vazio é o conjunto composto por nenhum elemento, que denotaremos por Ø. Este conjunto está contido em qualquer outro evento do espaço amostral.

Definição 1.1.1

Eventos mutuamente exclusivos (ou disjuntos) são aqueles cuja ocorrência de um elimina a possibilidade de ocorrência do outro. Ou seja, dizemos que os eventos A e B são mutuamente exclusivos se $ A \cap B $ = Ø.

A seguir, apresentamos algumas propriedades elementares das operações de união, interseção e complementar:

a) $ A\cup S = S $.

b) $ A\cap S = A $.

c) $ A\cup (B\cup C) = (A\cup B) \cup C $.

d) $ A\cap (B\cap C) = (A\cap B) \cap C $.

e) $ A\cup (B\cap C) = (A\cup B) \cap (A\cup C) $.

f) $ A\cap (B\cup C) = (A\cap B) \cup (A\cap C) $.

Considere $ A_1, A_2, \cdots $ uma família enumerável de eventos. Assim, as leis de De Morgan são dadas por:

$$ \left( \displaystyle\bigcup_{i=1}^{\infty} A_i \right)^c = \bigcap_{i=1}^{\infty} A_{i}^c$$

e

$$ \left( \displaystyle\bigcap_{i=1}^{\infty} A_i \right)^c = \bigcup_{i=1}^{\infty} A_{i}^c .$$

As leis de De Morgan são simples de serem demonstradas (exercício), porém serão bastante utilizadas durante nosso curso de probabilidade.

A partir das operações básicas (união, intersecção e complementar), podemos desenvolver novas operações com conjuntos. Considere A e B eventos, definimos a diferença entre estes eventos por $ A-B = A \cap B^c $.

Figura 8.1.4

Figura 8.1.4: Representação da diferença entre dois conjuntos

O conjunto em laranja representa a diferença entre dois conjuntos (A-B).

De forma similar, definimos a diferença simétrica entre dois eventos por $ A \triangle B = (A-B) \cup (B-A) $.

Figura 8.1.5

Figura 8.1.5: Representação da diferença simétrica entre dois conjuntos

O conjunto em vermelho representa a diferença simétrica ($ A \triangle B $).

A estrutura que definimos sobre a classe de eventos é denominada álgebra booleana.

Exercício

Dado uma família finita de eventos $ A_1 , \cdots , A_n $, mostre que $ \displaystyle \bigcup_{i=1}^n A_i = \displaystyle \bigcup_{i=1}^n B_i $ no qual $ B_i = A_i - \displaystyle \bigcup_{j=1}^{i-1} A_j $ são disjuntos dois a dois.

O evento $ A $ implica no evento $ B $, denotado por $ A \subset B $ se $ A = A \cap B $ ou, equivalentemente, se $ B= A \cup B $. Assim, dois eventos $ A $ e $ B $ tais que $ A \subset B $ e $ B \subset A $ são denominados iguais $ (A=B) $. Estas relações apresentam as seguintes propriedades:

  1. $ A \subset A $: reflexiva;

  2. $ A \subset B $ e $ B \subset A $ implicam que $ A=B $: simétrica;

  3. $ A \subset B $ e $ B \subset C $ implicam que $ A \subset C $: transitiva.

Exercício

A partir das definições e axiomas definidos neste módulo, mostre que as relações abaixo são válidas para quaisquer eventos $ A,B,C $ e $ D $:

  1. $ A \subset B $ implica que $ B^c \subset A^c $;

  2. $ A-B = A - (A \cap B) = (A \cup B) - B $;

  3. $ (A - B) \cap (C-D) = (A \cap C) - (B \cup D) $;

  4. $ A-(B \cup C) = (A-B) \cap (A-C) $

  5. $ A-(B \cap C)= (A-B) \cup (A=C) $

Exercício

Considere o experimento de lançamento de dois dados:

  1. Definir o espaço amostral e a classe de eventos;

  2. Dados os eventos $ A= $“soma das faces é número par” e o evento $ B= $ “a soma das faces é maior que 9”. Calcule $ A \cap B $.

Neste curso de probabilidade também precisamos da união e intersecção de classes de conjuntos. Se temos um número finito de conjuntos, basta aplicarmos as operações de união e intersecção diversas vezes. Entretanto, suponha que temos uma coleção infinita de conjuntos $ \lbrace A_1 , A_2 , \cdots \rbrace $. Assim, definimos

$$\displaystyle \bigcup_{i=1}^{\infty} A_i = \lbrace x: x \in A_i \hbox{ para algum } i \in \mathbb{N} \rbrace \quad \hbox{e} \quad \displaystyle \bigcap_{i=1}^{\infty} A_i = \lbrace x: x \in A_i \hbox{ para todo } i \in \mathbb{N} \rbrace$$

1.2 - Noções fundamentais de probabilidade

A probabilidade é o ato de atribuirmos pesos aos eventos. Entretanto, para que cada um não defina probabilidade de sua forma, vamos exigir que esta função peso tenha algumas propriedades intuitivas. Quando lançamos uma moeda não hesitamos em associar probabilidade $ 1/2 $ para o evento “cara” e também $ 1/2 $ para o evento “coroa”. Da mesma forma, quando lançamos uma moeda $ n $ vezes todos os $ 2^n $ possíveis resultados deste experimento tem a mesma probabilidade.

Dado um experimento com espaço amostral $ \Omega $, a classe de eventos associada será denotada por $ \mathcal{A} $ e deve satisfazer algumas propriedades:

i) $ \emptyset \in \mathcal{A} $;

ii) Se $ A \in \mathcal{A} $, então $ A^c \in \mathcal{A} $;

iii) Se $ A_1 , A_2 , \cdots \in \mathcal{A} $, então $ \displaystyle\bigcup_{i=1}^{\infty} A_i\in \mathcal{A} $.

A classe de eventos $ \mathcal{A} $ satisfazendo estas propriedades é denominada $ \sigma $-álgebra. Ao utilizarmos De Morgan, concluímos que a $ \sigma $-álgebra também é fechada por intersecção enumerável, isto é, se $ A_1 , A_2, \cdots \in \mathcal{A} $ então $ \displaystyle\bigcap_{i=1}^{\infty} A_i \in \mathcal{A} $. A seguir, vamos introduzir o conceito de probabilidade segundo Kolmogorov.

Definição 1.2.1(Probabilidade)

Para um experimento com espaço amostral $ \Omega $ e classe de eventos $ \mathcal{A} $, a probabilidade, que denotaremos por $ \mathbb{P} $, é uma função que tem domínio na classe de eventos $ (\mathcal{A}) $ e tem como imagem valores numéricos (pesos) entre 0 e 1. Além disso, a probabilidade deve satisfazer os seguintes axiomas:

i) $ \mathbb{P}(\Omega)=1 $ e $ \mathbb{P}(\emptyset)=0 $.

ii) $ 0 \leq \mathbb{P}(A) \leq 1 $, para todo evento $ A $.

iii) Para qualquer sequência de eventos mutuamente exclusivos $ A_1,A_2,\ldots $, isto é, eventos para os quais $ A_i\displaystyle\bigcap A_j=\emptyset $ quando $ i \neq j $, temos que

$$\mathbb{P}\left(\bigcup_{i=1}^\infty A_i\right)=\sum_{i=1}^{\infty}\mathbb{P}(A_i).$$

Qualquer função $ \mathbb{P} $ que atribua pesos a eventos associados a um espaço amostral e que satisfaça as propriedades (1), (2) e (3) acima será denominada probabilidade.

Propriedades da probabilidade

A seguir, apresentamos algumas propriedades elementares da probabilidade que são obtidas diretamente da definição.

P1. Se $ A^c $ for o evento complementar de $ A $, então $ \mathbb{P}(A) = 1 - \mathbb{P}(A^c) $.

De fato, sendo $ \Omega $ o espaço amostral, temos que

$$\Omega=A\cup A^c$$

onde esta união é disjunta, uma vez que $ A\cap A^c=\emptyset $. Utilizando o axioma 3 da definição de probabilidade segue que

$$\mathbb{P}(\Omega)=\mathbb{P}(A)+\mathbb{P}(A^c)\Rightarrow \mathbb{P}(A^c)=\mathbb{P}(\Omega)-\mathbb{P}(A)=1-\mathbb{P}(A)$$

como queríamos.

Uma propriedade importante para calcularmos a probabilidade de ocorrência de eventos associados ao experimento é a regra da soma, que nos dá a probabilidade da união de dois eventos quaisquer.

P2. A probabilidade da união de dois eventos $ A $ e $ B $ é calculada como

$$\mathbb{P}(A\cup B) = \mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A\cap B).$$ De fato, temos que $ A\cup B=A\cup (B- A) $ e $ A\cap(B - A)=\emptyset $, portanto

$$\mathbb{P}(A\cup B)=\mathbb{P}(A)+\mathbb{P}(B - A).$$ Também temos que $ B=(B- A)\cup(A\cap B) $ com $ (B - A)\cap(A\cap B)=\emptyset $, então

$$\mathbb{P}(B)=\mathbb{P}(B - A)+\mathbb{P}(A\cap B).$$

Então, combinando estes dois resultados, temos que

$$\mathbb{P}(A\cup B)=\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A\cap B)$$

como queríamos demonstrar.

P3. Se $ A $, $ B $ e $ C $ são três eventos quaisquer, então

$$\mathbb{P}(A\cup B\cup C) = \mathbb{P}(A)+\mathbb{P}(B)+\mathbb{P}(C)-\mathbb{P}(A\cap B)-\mathbb{P}(A\cap C)-\mathbb{P}(B\cap C)+\mathbb{P}(A\cap B\cap C).$$

De fato, temos que

$$A\cup B\cup C=(A\cup B)\cup C=(A\cup B)\cup (C - (A\cup B))$$ sendo esta união disjunta. Então pelo axioma 3 da definição de probabilidade, temos que

$$\mathbb{P}(A\cup B\cup C)=\mathbb{P}(A\cup B)+\mathbb{P}(C - (A\cup B)) \tag{1}$$

e utilizando a propriedade P2 na equação (1) temos

$$\mathbb{P}(A\cup B\cup C)=\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A\cap B)+\mathbb{P}(C - (A\cup B)).$$

Mas $ C=(C - (A\cup B))\cup(C\cap(A\cup B)) $, sendo que esta união é disjunta, portanto

$$\mathbb{P}(C - (A\cup B))=\mathbb{P}(C)-\mathbb{P}(C\cap(A\cup B)) \tag{2}$$ Também temos que $ C\cap (A\cup B)=(C\cap A)\cup (C\cap(B-A)) $, e esta união é disjunta. Daí

$$\mathbb{P}(C\cap (A\cup B))=\mathbb{P}(A\cap C)+\mathbb{P}(C\cap(B- A)) \tag{3}$$ Finalmente, $ C\cap B = (A\cap B\cap C)\cup (C\cap(B- A)) $, o que implica que

$$\mathbb{P}(C\cap(B- A))=\mathbb{P}(B\cap C)-\mathbb{P}(A\cap B\cap C) \tag{4}$$ já que a união é disjunta.

Então, combinando as equações (1), (2), (3) e (4), concluímos que

$$\mathbb{P}(A\cup B\cup C)=\mathbb{P}(A)+\mathbb{P}(B)+\mathbb{P}(C)-\mathbb{P}(A\cap B)-\mathbb{P}(A\cap C)-\mathbb{P}(B\cap C)+\mathbb{P}(A\cap B\cap C)$$

como queríamos demonstrar.

P4. Se A $ \subset $ B, então $ \mathbb{P}(A) \leq \mathbb{P}(B) $.

De fato, temos que se $ A\subset B $ então $ B = A\cup (B - A) $, sendo que esta união é disjunta. Portanto, utilizando o axioma 3 da definição de probabilidade, segue que

$$\mathbb{P}(B)=\mathbb{P}(A)+\mathbb{P}(B- A).$$

Como $ \mathbb{P}(B- A)\geq 0 $, temos então que $ \mathbb{P}(B)\geq \mathbb{P}(A) $, como queríamos demonstrar.

P5. Se $ A\subset B \Rightarrow \mathbb{P}(B-A)=\mathbb{P}(B)-\mathbb{P}(A) $

De fato observe que $ B=A\cup (B-A) $, e ainda que $ A\cap (B-A)=\emptyset $. Assim podemos utilizar o axioma 3

$$\mathbb{P}(B)=\mathbb{P}(A\cup (B-A))=\mathbb{P}(A)+\mathbb{P}(B-A)\Rightarrow \mathbb{P}(B-A)=\mathbb{P}(B)-\mathbb{P}(A).$$

P6. Sejam $ A_1,A_2, \cdots $ eventos aleatórios tais que $ A_n \downarrow \emptyset $, ou seja, $ A_1 \supset A_2 \supset A_3 \supset \cdots $ e ainda o $ \displaystyle \lim_{n\rightarrow \infty}A_n=\emptyset $, então $ P(A_n)\rightarrow 0 $.

Como $ A_1 \supset A_2 \supset A_3 \supset \cdots $ então

$$A_1=(A_1-A_2)\cup (A_2 - A_3)\cup \cdots = \displaystyle \bigcup_{i=1}^{\infty}(A_i-A_{i+1}).$$

Isto é ilustrado através do diagrama:

Figura 8.1.6

Figura 8.1.6: Diagrama de uma sequencia encaixada

Observe que cada $ A_i - A_{i+1} $ são conjuntos disjuntos, pois a sequência é uma sequência decrescente. Pelo axioma 3 temos então que

$$\mathbb{P}(A_1)=\mathbb{P}\left(\displaystyle \bigcup_{i=1}^{\infty}(A_i-A_{i+1})\right)=\displaystyle\sum_{i=1}^{\infty}\mathbb{P}(A_i-A_{i+1}).$$

Logo por P5 $ \mathbb{P}(A_i-A_{i+1})=\mathbb{P}(A_i)-\mathbb{P}(A_{i+1}) $, e portanto

$$\mathbb{P}(A_1)=\lim_{n \rightarrow \infty} \displaystyle\sum _{i=1}^{n-1}\mathbb{P}(A_i-A_{i+1}).$$

Note que os termos da somatória vão se cancelando restando apenas o primeiro e o último, assim

$$\mathbb{P}(A_1)= \displaystyle \lim_{n \rightarrow \infty} \mathbb{P}(A_1) - \mathbb{P}(A_n)=\mathbb{P}(A_1) - \lim_{n \rightarrow \infty} \mathbb{P}(A_n) \Rightarrow \lim_{n \rightarrow \infty}\mathbb{P}(A_n)=0.$$

Portanto $ \mathbb{P}(A_n)\rightarrow 0 $.

P7. Sejam $ A_1, A_2, \cdots , A_n $ uma sequência de eventos aleatórios, então

$$\mathbb{P}\left(\displaystyle \bigcup_{i=1}^{n}A_i\right)\leq \displaystyle\sum_{i=1}^{n} \mathbb{P}(A_i).$$

Vamos mostrar essa propriedade por indução finita, para isto mostremos primeiramente que $ \mathbb{P}(A_1\cup A_2)\leq \mathbb{P}(A_1)+\mathbb{P}(A_2) $, de fato por P2

$$\mathbb{P}(A_1\cup A_2)=\mathbb{P}(A_1)+\mathbb{P}(A_2)-\mathbb{P}(A_1\cap A_2)\Rightarrow \mathbb{P}(A_1\cup A_2)\leq \mathbb{P}(A_1)+\mathbb{P}(A_2),$$

pois $ \mathbb{P}(A_1 \cap A_2)\geq 0 $. Agora vamos supor que esta propriedade seja válida para $ n-1 $, ou seja, que

$$\mathbb{P}\left(\displaystyle \bigcup_{i=1}^{n-1}A_i\right)\leq \displaystyle\sum_{i=1}^{n-1} P(A_i)$$

e mostremos que é válida para $ n $. Note que

$$\mathbb{P}\left( \bigcup_{i=1}^{n}A_i\right)=\mathbb{P}\left(\bigcup_{i=1}^{n-1}A_i \cup A_n\right)=\mathbb{P}(C \cup A_n)=\mathbb{P}(C)+\mathbb{P}(A_n)-\mathbb{P}(C\cap A_n)\leq \mathbb{P}(C)+\mathbb{P}(A_n),$$

no qual $ C=\displaystyle \bigcup_{i=1}^{n-1}A_i $, e pela nossa hipótese de indução temos que

$$\mathbb{P}(C)+\mathbb{P}(A_n)\leq \displaystyle\sum_{i=1}^{n-1} \mathbb{P}(A_i) + \mathbb{P}(A_n)= \displaystyle\sum_{i=1}^{n} \mathbb{P}(A_i).$$

e, portanto, concluímos nossa demonstração.

P8. (Continuidade da Probabilidade). Se $ A_n\uparrow A $, então

$$\mathbb{P}(A_n)\uparrow \mathbb{P}(A).$$

Similarmente se $ A_n\downarrow A $ então

$$\mathbb{P}(A_n)\downarrow \mathbb{P}(A).$$

Primeiramente vamos considerar o caso em que $ A_n\downarrow A $, ou seja, $ A_{n+1}\subset A_n $ para qualquer $ n\in\mathbb{N} $ e $ \displaystyle \bigcap_{n\geq 1}A_n=A $. Assim sendo, por P4 temos que $ \mathbb{P}(A_{n+1})\leq \mathbb{P}(A_n) $, pois $ A_{n+1}\subset A_n $.

Além disso, por propriedades de conjunto temos que $ A_n-A\downarrow \emptyset $, o que implica por P6 que

$$\mathbb{P}(A_n-A)\rightarrow 0.$$ Por P5 temos que

$$\mathbb{P}(A_n - A)=\mathbb{P}(A_n)-\mathbb{P}(A)\Rightarrow \mathbb{P}(A_n)-\mathbb{P}(A)\rightarrow 0\Rightarrow \mathbb{P}(A_n)\rightarrow \mathbb{P}(A)$$

mas a sequência $ \lbrace \mathbb{P}(A_n) \rbrace_{n\in\mathbb{N}} $ é descrescente por P4, logo $ \mathbb{P}(A_n)\downarrow \mathbb{P}(A) $

Agora se $ A_n\uparrow A $, ou seja $ A_n\subset A_{n+1} $ com $ \displaystyle \bigcup_{n\geq 1}{A_n}=A $, então $ A_n^c\downarrow A^c $. Portanto pelo que foi demonstrado acima temos que

$$\mathbb{P}(A_n^c)\downarrow \mathbb{P}(A^c)$$ ou seja,

$$1-\mathbb{P}(A_n)\downarrow 1-\mathbb{P}(A)\Rightarrow \mathbb{P}(A_n)\uparrow \mathbb{P}(A)$$

P9. Sejam $ A_1, A_2, \cdots $ uma sequência de eventos aleatórios, então

$$\mathbb{P}\left(\displaystyle \bigcup_{i=1}^{\infty}A_i\right)\leq \displaystyle\sum_{i=1}^{\infty} \mathbb{P}(A_i).$$

Observemos que se definirmos $ C_n=\displaystyle \bigcup_{i=1}^{n}A_i $, temos então que $ C_n $ é uma sequência monótona crescente, ou seja, $ C_n\uparrow C $, no qual C é definido como $ C=\displaystyle \bigcup_{i=1}^{\infty}A_i $. Mas a probabilidade é uma função contínua em uma sequência monótona crescente como podemos ver em P8, assim sendo temos que $ \mathbb{P}(C_n)\uparrow P(C) $.

Mas por P7 temos que

$$\mathbb{P}(C_n)= \mathbb{P}\left(\bigcup_{i=1}^{n}A_i\right)\leq\sum_{i=1}^{n} \mathbb{P}(A_i),$$ por outro lado

$$\mathbb{P}\left( \bigcup_{i=1}^{\infty}A_i\right)= \mathbb{P}(C)=\lim_{n\rightarrow \infty}\mathbb{P}(C_n)\leq\lim_{n\rightarrow \infty}\sum_{i=1}^{n} \mathbb{P}(A_i)= \displaystyle\sum_{i=1}^{\infty} \mathbb{P}(A_i),$$

ou seja

$$\mathbb{P}\left(\displaystyle \bigcup_{i=1}^{\infty}A_i\right)\leq \displaystyle\sum_{i=1}^{\infty} \mathbb{P}(A_i).$$

P10. $ \mathbb{P}\left(\displaystyle \bigcap_{k=1}^{n} A_k\right)\geq 1- \displaystyle\sum_{k=1}^{n} \mathbb{P}(A_{k}^{C}) $.

Por De Morgan temos que $ \displaystyle \bigcup_{k=1}^{n}A_k^{C}=\left(\displaystyle\bigcap_{k=1}^{n}A_k\right)^{C} $. Assim

$$1-\mathbb{P}\left(\displaystyle\bigcap_{k=1}^{n}A_k\right) = \mathbb{P}\left[\left(\displaystyle\bigcap_{k=1}^{n}A_k\right)^{C}\right] = \mathbb{P}\left(\bigcup_{k=1}^{n}A_k^C\right)\Rightarrow \mathbb{P}\left(\displaystyle \bigcap_{k=1}^{n} A_k\right)\geq 1- \displaystyle\sum_{k=1}^{n} \mathbb{P}(A_{k}^{C}).$$

P11. $ \mathbb{P}\left(\displaystyle\bigcap_{k=1}^{\infty} A_k\right)\geq 1- \displaystyle \sum_{k=1}^{\infty}\mathbb{P}(A_{k}^{C}) $.

Tomemos $ C_n=\displaystyle\bigcap_{k=1}^{n} A_k $, observe que $ C_n \supset C_{n+1} $, logo $ C_n\downarrow C $, no qual $ C=\displaystyle\bigcap_{k=1}^{\infty} A_k $. Assim como a função de probabilidade é continua em uma sequência monótona temos que $ \mathbb{P}(C_n)\downarrow \mathbb{P}(C) $, portanto temos que

$$\mathbb{P}\left(\bigcap_{k=1}^{\infty} A_k\right)=\mathbb{P}(C)= \lim_{n\rightarrow \infty}\mathbb{P}(C_n)\geq 1-\lim_{n\rightarrow \infty}\displaystyle\sum_{i=1}^{n}\mathbb{P}(A_i^{C})= 1- \displaystyle\sum_{i=1}^{\infty} \mathbb{P}(A_i^{C}).$$

P12. Se $ \mathbb{P}(A_n)=0 $, para $ n=1,2,\cdots $, então

$$\mathbb{P}\left(\displaystyle\bigcup_{n=1}^{\infty} A_n\right)=0.$$

Por P9 e pela primeiro axioma temos que

$$0\leq \mathbb{P}\left(\displaystyle\bigcup_{n=1}^{\infty} A_n\right)\leq \displaystyle\sum_{i=1}^{\infty} \mathbb{P}(A_i)=0\Rightarrow \mathbb{P}(\displaystyle\bigcup_{n=1}^{\infty} A_n)=0.$$

P13. Se $ \mathbb{P}(A_n)=1 $, para $ n=1,2,\cdots $, então

$$\mathbb{P}\left(\displaystyle\bigcap_{n=1}^{\infty} A_n\right)=1.$$

Por P11 e pelo primeiro axioma temos que

$$1\geq \mathbb{P}\left(\bigcap_{n=1}^{\infty} A_n\right) \geq 1- \displaystyle\sum_{i=1}^{\infty} \mathbb{P}(A_i^{C})=1 \Rightarrow \mathbb{P}\left(\displaystyle\bigcap_{n=1}^{\infty} A_n\right)=1.$$

P14. Se $ A_1,A_2, \cdots $ e $ B_1,B_2,\cdots $ são eventos aleatórios, tais que $ \mathbb{P}(A_n)\rightarrow 1 $ e $ \mathbb{P}(B_n)\rightarrow p $, quando $ n \rightarrow \infty $, então $ \mathbb{P}(A_n \cap B_n) \rightarrow p $.

Observemos primeiramente que por P2 $ \mathbb{P}(A_n \cap B_n) = \mathbb{P}(A_n)+\mathbb{P}(B_n) - \mathbb{P}(A_n \cup B_n) $, mas $ \mathbb{P}(A_n)\rightarrow 1 $ e $ \mathbb{P}(B_n)\rightarrow p $ e $ \mathbb{P}(A_n)\leq \mathbb{P}(A_n\cup B_n)\leq 1 $, pois $ A_n \subset (A_n \cup B_n) $, e assim temos que

$$\lim_{n \rightarrow \infty} \mathbb{P}(A_n)=1\leq \lim_{n \rightarrow \infty} \mathbb{P}(A_n \cup B_n)\leq1 \Rightarrow \mathbb{P}(A_n \cup B_n)\rightarrow 1.$$

Logo, como $ \mathbb{P}(A_n \cap B_n) - \mathbb{P}(B_n)=\mathbb{P}(A_n) - \mathbb{P}(A_n \cup B_n) $, temos então que $ \mathbb{P}(A_n \cap B_n) - \mathbb{P}(B_n)\rightarrow 0 $, e portanto $ \mathbb{P}(A_n \cap B_n) \rightarrow p $.

Exemplo 1.2.1

Considerando o evento A={sair número par} e o evento C={sair número maior que 3} no lançamento de um dado, temos que

$$\mathbb{P}(A\cup C)=\mathbb{P}(A)+\mathbb{P}(C)-\mathbb{P}(A\cap C)=\frac{3}{6}+\frac{3}{6}-\frac{2}{6} = \frac{4}{6}.$$

Exemplo 1.2.2

Consideremos o experimento de lançarmos 3 moedas honestas simultaneamente, e observamos a face voltada para cima. Qual é a probabilidade de obtermos 3 caras? Neste mesmo experimento qual seria a probabilidade de obtermos pelo menos 2 caras?

Primeiramente vamos construir nosso espaço amostral, denotaremos por C=cara e K=coroa.

$$\Omega = \lbrace (C,C,C);(C,C,K);(C,K,C);(K,C,C);(K,K,C);(K,C,K);(C,K,K);(K,K,K) \rbrace$$

Logo temos que $ \Omega $ tem 8 elementos; o evento A={Obter 3 caras}={(C,C,C)}.

Assim como as moedas são honestas temos que existe igual probabilidade para cada elemento do espaço amostral $ \Omega $

Sendo assim:

$$\mathbb{P}(A)=\frac{\hbox{Número~de~elementos~favoráveis~a~A}}{\hbox{Número~de~elementos~do~espaço~amostral}}=\frac{1}{8}$$

Agora vamos analisar a probabilidade de obtermos pelo menos 2 caras. Seja B={obter pelo menos 2 caras}={(C,C,C);(C,C,K);(C,K,C);(K,C,C)}, então

$$\mathbb{P}(B)=\frac{\hbox{Número~de~elementos~favoráveis~a~B}}{\hbox{Número~de~elementos~do~espaço~amostral}}=\frac{4}{8}=\frac{1}{2}.$$

Exemplo 1.2.3

Sejam $ A_1, A_2, \dots $ eventos aleatórios em uma espaço de probabilidade $ (\Omega,\mathbb{A},\mathbb{P}) $, e definam-se

$$\limsup_{n\rightarrow \infty} A_n=\bigcap_{n=1}^\infty \bigcup_{k=n}^\infty A_k,$$

$$\liminf_{n\rightarrow \infty} A_n=\bigcup_{n=1}^\infty \bigcap_{k=n}^\infty A_k,$$

Se

$$\limsup_{n\rightarrow \infty} A_n=\liminf_{n\rightarrow \infty} A_n=A,$$

chamamos o evento A de $ \lim_{n\rightarrow \infty} A_n $ (limite de $ A_n $). Demonstre que se $ A=\lim A_n $ então $ \mathbb{P}(A_n)\rightarrow \mathbb{P}(A) $

quando $ n\rightarrow \infty $.

Dem:

Fazendo $ B_n=\bigcap_{k=1}^n \bigcup_{j=k}^\infty A_j $ então $ B_1\supseteq B_2 \supseteq \dots $. Então, $ B_n\downarrow \limsup A_n=A $ então pela propriedade

P8 temos que $ \mathbb{P}(B_n)\downarrow \mathbb{P}(A) $.

Analogamente $ C_n \uparrow \limsup A_n=A $ então pela propriedade P8 temos que $ \mathbb{P}(C_n)\uparrow \mathbb{P}(A) $

Agora $ A_n \subset \bigcap_{k=1}^n\bigcup_{j=k}^\infty A_j $ e $ A_n\supseteq \bigcup_{k=1}^n \bigcap_{j=k}^\infty A_j $ e então $ C_n\subset A_n \subset B_n $

então pela propriedade

$$\mathbb{P}(C_n)\leq \mathbb{P}(A_n)\leq \mathbb{P}(B_n)$$

Então, temos que $ \mathbb{P}(A_n)\rightarrow \mathbb{P}(A). $

Proposição 1.2.1 (Desigualdades de Bonferroni)

As seguintes desigualdades de Bonferroni são válidas

(i)

$$\sum_{i=1}^{n}\mathbb{P}(A_i)-\sum_{1\leq i < j \leq n}\mathbb{P}(A_i\cap A_j)\leq \mathbb{P}\left(\bigcup_{i=1}^n A_i\right)\leq$$

$$\sum_{i=1}^{n}\mathbb{P}(A_i)-\sum_{1\leq i < j\leq n}\mathbb{P}(A_i\cap A_j)+\sum_{1\leq i < k\leq n}\mathbb{P}(A_i\cap A_j\cap A_k)$$

(ii) Se $ k $ é ímpar, $ k\leq n $, então

$$\mathbb{P}\left(\bigcup_{i=1}^n A_i\right)\leq \sum_{i=1}^{n}\mathbb{P}(A_i)-\sum_{1\leq i_1 < i_2\leq n}\mathbb{P}(A_{i_1}\cap A_{i_2})+\dots$$

$$+(-1)^{k-1}\sum_{i\leq i_1 < \dots < i_k\leq n}\mathbb{P}(A_{i_1}\cap \dots \cap A_{i_k})$$

se k é par, $ k\leq n $ vale $ \geq $ nesta última desigualdade.

Demonstração:

(i) Primeiramente vamos mostrar que

$$\sum_{k=1}^{n}\mathbb{P}(A_k)-\sum_{1\leq i < j\leq n}\mathbb{P}(A_i\cap A_j)\leq \mathbb{P}\left(\bigcup_{i=1}^n A_i\right)$$

Vamos mostrar por indução, sabemos que $ n=2 $ vale pois $ \mathbb{P}(A)+\mathbb{P}(B)=\mathbb{P}(A\cup B). $

Agora suponhamos que vale para n, então

$$\mathbb{P}\left(\bigcup_{i=1}^{n+1} A_i\right)=\mathbb{P}\left(A_{n+1}\bigcup\left(\bigcup_{i=1}^n A_i\right)\right)=\mathbb{P}(A_{n+1})+\mathbb{P}\left(\bigcup_{i=1}^n A_i\right)-\mathbb{P}\left(A_{n+1}\bigcap\left(\bigcup_{i=1}^n A_i\right)\right)$$

$$\geq \mathbb{P}(A_{n+1})+\left[\sum_{i=1}^{n}\mathbb{P}(A_i)-\sum_{1\leq i < j\leq n}\mathbb{P}(A_i\cap A_j)\right]-\mathbb{P}\left(\bigcup_{i=1}^n (A_{n+1}\cap A_i)\right)$$

$$\geq \sum_{i=1}^{n+1}\mathbb{P}(A_i)-\sum_{1\leq i < j\leq n+1} \mathbb{P}(A_i\cap A_j)-\sum_{1\leq i < j\leq n+1} \mathbb{P}(A_i\cap A_j)$$

Com

$$\left[\sum_{i=1}^{n}\mathbb{P}(A_i)-\sum_{1\leq i < j\leq n}\mathbb{P}(A_i\cap A_j)\right]$$

sendo a hipótese de indução.

Então, temos que

$$\sum_{k=1}^{n}\mathbb{P}(A_k)-\sum_{1\leq i < j\leq n}\mathbb{P}(A_i\cap A_j)\leq \mathbb{P}\left(\bigcup_{i=1}^n A_i\right)$$

Agora vamos mostrar que também por indução que

$$\mathbb{P}\left(\bigcup_{i=1}^{n+1}A_i\right)\leq \sum_{i=1}^{n+1}\mathbb{P}(A_i)-\sum_{1\leq i < j\leq n} \mathbb{P}(A_i\cap A_j)+\sum_{1\leq i < j < k\leq n}\mathbb{P}(A_i\cap A_j\cap A_k)$$

Assim, $ n=3 $ vale a desigualdade pois pela propriedade P3

Agora suponhamos que vale para $ n $ provamos que vale para $ n+1 $

$$\mathbb{P}\left(\bigcup_{i=1}^{n+1}A_i\right)=\mathbb{P}\left(A_{n+1}\cup\left(\bigcup A_i\right)\right)=\mathbb{P}(A_{n+1})+\mathbb{P}\left(\bigcup_{i=1}^{n+1} A_i\right)-\mathbb{P}\left(A_{n+1}\cap \left(\bigcup_{i=1}^n A_i\right)\right)$$

$$\leq \mathbb{P}(A_{n+1})+\left[\sum_{i=1}^{n}\mathbb{P}(A_i)-\sum_{1\leq i < j\leq n}\mathbb{P}(A_i\cap A_j)+\sum_{1\leq i < j < k \leq n}\mathbb{P}\left(A_i\cap A_j\cap A_k\right)\right]-\mathbb{P}\left(\bigcup_{i=1}^n (A_{n+1}\cap A_i)\right)$$

Pela desigualdade anterior temos que

$$\mathbb{P}\left(\bigcup_{i=1}^{n} A_{n+1}\cap A_i\right)\geq \sum_{i=1}^{n}\mathbb{P}(A_{n+1}\cap A_i)-\sum_{1\leq i < j \leq n}\mathbb{P}(A_{n+1}\cap A_i \cap A_j)$$

Então, temos que

$$\mathbb{P}\left(\bigcup_{i=1}^{n+1}A_i\right)\leq \sum_{i=1}^{n+1}\mathbb{P}(A_i)-\sum_{1\leq i < j \leq n+1}\mathbb{P}(A_i\cap A_j)+ \sum_{1\leq i < j < k\leq n+1}\mathbb{P}(A_i\cap A_j\cap A_k)$$

ii) Definimos

$$S_1=\sum_{i=1}^n \mathbb{P}(A_i)$$

$$S_2=\sum_{1\leq i_1 < i_2\leq n} \mathbb{P}(A_{i_1}\cap A_{i_2} )$$

$$\vdots$$

$$S_n=\sum_{1\leq i_1 < i_2 < \dots < i_n\leq n} \mathbb{P}(A_{i_1}\cap A_{i_2}\cap\dots \cap A_{i_n} )$$

Então por $ (i) $ temos

$$\mathbb{P}\left(\bigcup_{i=1}^n A_i\right)=\sum_{i=1}^n (-1)^{i-1}S_i \tag{I}$$

Agora, vamos introduzir a seguinte notação:

$ P_m= $ [ é a probabilidadede que ocorram pelo menos m dos eventos $ A_1, A_2, \dots, A_n $]

$ P_{\lceil m\rceil}= $ [ é a probabilidade de que ocorram exatamente m dos eventos $ A_1, A_2, \dots, A_n $]

então

$$P_m=P_{\lceil m\rceil}+P_{\lceil m+1\rceil}+\dots+P_{\lceil n\rceil} \tag{II}$$

Agora observe que

$$P_{m+1}=P_{m}-P_{\lceil m\rceil}$$

usando a equação (I), podemos exprimir $ P_m $ em termos de $ S_m,S_{m+1},\dots, S_n $. Assim, temos que

$$P_m=S_m-\binom{m}{m-1}S_{m+1}+\binom{m+1}{m-1}S_{m+2}+\dots \pm \binom{n-1}{m-1}S_n \tag{III}$$

Porém, podemos expressar $ S_v $ em temos de $ P_{\lceil k\rceil} $ da seguinte forma

$$S_v=\sum_{k=v}^n \binom{k}{v}P_{\lceil k\rceil} \tag{IV}$$

Então, provar a desigualdade de Bonferroni é equivalente a provar para $ m=1 $ que se conservam-se apenas os termos $ S_1, S_2, \dots, S_v $ e podemos descartar os termos $ S_{v+1}, S_{v+2}, \dots, S_n $. Então, o erro tem o sinal do primeiro termo omitido (a saber $ (-1)^v $) e é menor em valor absoluto o que através de $ (III) $ se verifica quando:

$$\sum_{v=t}^n (-1)^{v-t}\binom{v}{1}S_v \geq 0 \tag{V}$$

para todo $ t=1,2,\dots, n $. Agora de $ (IV) $ em $ (V) $ o que implica que

$$\sum_{v=t}^n (-1)^{v-t}\binom{v}{1}\sum_{k=v}^n \binom{n}{v}P_{\lceil k\rceil}$$

Agora, isto é uma combinação linear dos $ P_{\lceil k\rceil} $, no qual para $ t \leq k < n $ o coeficiente de $ P_{\lceil k\rceil} $ é igual a

$$\sum_{v=t}^k (-1)^{v-t}\binom{v}{1}\binom{k}{v}=\binom{k}{1}\sum_{v=t}^{k}(-1)^{v-t}\binom{k-1}{v-1}=\binom{k}{1}\binom{k-2}{t-2}\geq 0.$$

Portanto, (V) é satisfeita e o resultado segue.

1.3 - Eventos Equiprováveis

Se um experimento tem como espaço amostral $ \Omega = (e_1,e_2,\ldots,e_n) $, com um número finito de elementos, dizemos que os eventos elementares $ (e_i) $ são equiprováveis, se todos tem a mesma probabilidade de ocorrer, isto é

$$\mathbb{P}(e_i)=\frac{1}{n}.$$

Desta forma, podemos definir a probabilidade de um evento $ E = (e_{j1},\ldots,e_{jk}) $, composto por $ k $ elementos (com $ k $ menor que $ n $), como sendo:

$$\mathbb{P}(E)=\frac{\text{número de casos favoráveis a E}}{\text{número de casos possíveis de S}}=\frac{k}{n}.$$

No lançamento de um dado honesto, os elementos do espaço amostral $ \Omega = (1, 2, 3, 4, 5, 6) $ são equiprováveis, pois cada elemento do espaço amostral tem a mesma chance de ocorrer, ou seja, a chance de sair 1 é a mesma de sair 2, que é a mesma de sair 3, e assim por diante. Portanto,

$$\mathbb{P}(1)=\mathbb{P}(2)=\mathbb{P}(3)=\mathbb{P}(4)=\mathbb{P}(5)=\mathbb{P}(6)=\frac{1}{6}.$$

Com isso e da propriedade (3) de probabilidade, temos que, se $ A $ é o evento sair número par no lançamento de um dado, então

$$\mathbb{P}(A)=\mathbb{P}( \ 2 \ \hbox{ou} \ 4 \ \hbox{ou} \ 6 \ )=\mathbb{P}((2)\cup(4)\cup(6))=\frac{1}{6}+\frac{1}{6}+\frac{1}{6}=\frac{3}{6}.$$

Com isso, obtemos que a probabilidade de ocorrer o evento $ A $ é igual ao número de elementos favoráveis a $ A = (2, 4, 6) $, que é 3 (pois $ A $ tem 3 elementos), dividido pelo número de elementos no espaço amostral $ \Omega $, que é $ 6 $.

Exemplo 1.3.1

Em um jogo de dados são lançados dois dados honestos simultaneamente. Para que um jogador ganhe, um dos seguintes eventos deve ocorrer: “soma das duas faces deve ser igual a 7”, ou que o “maior valor obtido nos dois dados seja no máximo 3”. Qual das duas possibilidades ele deve escolher? Primeiramente vamos analisar o nosso espaço amostral, que é dado pela tabela abaixo:

1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

Tabela 8.1.1: Espaço amostral do lançamento de dois dados.

Note que o número de elementos do nosso espaço amostral é de $ 36 $. Seja $ A=(\text{conjunto dos pares} \ (i,j) \ \text{tais que} \ i+j=7) $, esses pares aparecem em amarelo na figura a baixo.

Figura 8.1.7

Figura 8.1.7: Pares cujas somas é igual a 7

As células em amarelo representam o conjuntos dos pares tais que a soma é igual a $ 7 $.

Observe que o número de elementos do conjunto $ A $ é igual a $ 6 $, ou seja, existem $ 6 $ pares para os quais a soma é $ 7 $. Assim, a probabilidade que procuramos é dada por:

$$\mathbb{P}(A)=\frac{\text{Número de elementos favoráveis a A}}{\text{Número de elementos do espaço amostral}}=\frac{6}{36}=\frac{1}{6}.$$

Desta forma, a probabilidade de um jogador ganhar neste jogo é de $ \frac{1}{6} $ caso ele escolha a possibilidade da soma ser igual $ 7 $. Vamos agora calcular a probabilidade do jogador vencer no caso em que o maior valor obtido nos lançamentos dos dados seja $ 3 $. Seja $ B=(\text{o conjunto dos pares} \ (i,j) \ \text{tais que} \ i\leq 3 \ \text{e} \ j\leq 3) $. Na tabela abaixo os pares que aparecem em azul são os pares pertencentes a B.

Figura 8.1.8

Figura 8.1.8: Pares cujas somas são $\leq 3$

A células em azul representam o conjunto dos pares tais que o maior valor é no máximo 3. Pela tabela podemos observar que B tem 9 elementos, logo

$$\mathbb{P}(B)=\frac{\hbox{Número de elementos favoráveis a B}}{\hbox{Número de elementos do espaço amostral}}=\frac{9}{36}=\frac{1}{4}.$$

Portanto $ \mathbb{P}(B)\geq \mathbb{P}(A) $, assim é mais vantajoso para o jogador escolher que o maior valor obtido seja no máximo 3, pois assim ele tem maiores chances de ganhar.

Exemplo 1.3.2

No jogo de Craps dois dados são jogados. Se o jogador tira 7 ou 11 pontos ele ganha. Se ele tira 2,3 ou 12 ele perde. Nos outros casos ele continua jogando os dois dados até sair 7, caso em que ele perde, ou então sair o primeiro resultado, caso em que ele ganha. Descreva o espaço amostral. Qual é a probabilidade dele ganhar?

$$\Omega=(\omega_i; i=1,2, \dots, \omega_i\in (1,\dots,6)\times (1,\dots,6); \omega_i=(a_i+b_i))$$

Considere o evento $ B= \lbrace \text{ Ganhar o jogo } \rbrace $. Então sendo:

$$B_1 = \lbrace \omega_1=7 \text{ ou } \omega_1=11 \rbrace$$

$$=\lbrace \text{tirar 7 ou 11 na primeira jogada} \rbrace $$

$$B_2 = \lbrace \omega_1=4, \exists \ j > 1 \text{ tq } \omega_j=4 \quad e\quad \omega_i\neq 7,i=2,\dots,j-1 \rbrace$$

$$= \lbrace \text{ tirar 4 na primeira jogada, joga até tirar 4 novamente e ganha não tirando 7 enquanto isso } \rbrace$$

$$B_3 = \lbrace \omega_1=5, \exists \ j > 1 \text{ tq } \omega_j=5 \quad e\quad \omega_i\neq 7,i=2,\dots,j-1 \rbrace$$

$$= \lbrace\text{tirar 5 na primeira jogada, joga até tirar 4 novamente e ganha não tirando 7 enquanto isso } \rbrace$$

$$\vdots$$

$$B_7 = \lbrace \omega_1= \lbrace 10, \exists \ j > 1 \text{ tq } \omega_j=5 \quad e\quad \omega_i\neq 7,i=2,\dots,j-1 \rbrace$$

$$= \lbrace \text{ tirar 10 na primeira jogada, joga até tirar 4 novamente e ganha não tirando 7 enquanto isso } \rbrace$$

Então

$$\mathbb{P}(B)=\mathbb{P}\left(\bigcup_{i=1}^7 B_i\right)=\sum_{i=1}^{7}\mathbb{P}(B_i)=0,49292.$$

Exemplo 1.3.3

Uma caixa contém $ 2n $ sorvetes, n do sabor A e n do sabor B. De um grupo de 2n pessoas, $ a<n$ preferem o sabor A, $b<n$ o sabor e $ 2n-(a+b) $ não tem preferência. Demonstre que os sorvetes são distribuídos ao acaso, a probabilidade de que a preferência de todas as pessoas seja respeitada é de

$$\cfrac{\binom{2n-a-b}{n-a}}{\binom{2n}{n}}.$$

Temos n sorvetes do tipo A e n do sabor B. Para facilitar o entendimento, podemos pensar nas pessoas como enfileiradas como sendo $ a $ pessoas que gostam do tipo A em seguida as $ b $ pessoas que gostam do tipo B e por fim as demais pessoas.

Com isso temos que a probabilidade que queremos é dada por

$$p=\frac{[n(n-1)\dots(n-a+1)][ n (n-1) \dots (n-b+1)](2 n - (a + b))!}{2n!}=\frac{1}{2n!}\frac{n!}{(n-a)!}\frac{n!}{(n-b)!}\frac{2n!}{(a+b)!}$$

$$=\frac{(2n-(a+b))!}{(n-a)!(n-b)!}\frac{n!n!}{2n!}=\frac{\binom{2n-a-b}{n-a}}{\binom{2n}{n}}$$

Exemplo 1.3.4

Suponhamos que dez cartas estejam numeradas de 1 até 10. Das dez cartas, retira-se uma de cada vez, ao acaso e sem reposição, até retirar-se o primeiro número par. Conta-se o número de retiradas necessárias. Exiba um bom modelo probabilístico para este experimento.

Nosso espaço amostral é dado por $ \Omega=(1,2,3,4,5,6) $, com a $ \sigma $-álgebra sendo as partes.

Assim temos que a

$$\mathbb{P}(n)=\dfrac{\binom{5}{n-1}\binom{5}{1}}{\binom{10}{n}}, \quad \quad, n=1,2, \dots,5.$$

e

$$\mathbb{P}(6)=\dfrac{1}{\binom{10}{5}}$$

Exemplo 1.3.5

Para cada um dos seguintes experimentos, descreva um espaço de probabilidade que sirva de modelo.

(a) Seleciona-se um ponto, ao acaso, do quadrado unitário

$$ \lbrace (x,y):0≤x≤1,0≤y≤1 \rbrace.$$

(b) Retiram-se cartas sucessivamente de um baralho de 52 cartas, ao acaso e com reposição até retirar-se o primeiro rei. Registra-se o número total de retiradas.

(c) Quinze bolas são retiradas, ao acaso e com reposição, de uma urna contendo 5 bolas vermelhas, 9 bolas pretas, e uma bola branca. Observa-se o número de vezes que ocorre cada cor.

(d) O experimento (c) é realizado sem reposição.

(a) Então o espaço amostral $ \Omega=\mathbb{R}^2 $, sendo $Q= \lbrace (x,y):0≤x≤1;0≤y≤1 \rbrace$ e a $ \sigma $-álgebra é a $ \sigma $-álgebra de Borel definimos

$ \mathbb{P}(A)=\dfrac{\text{area}(A\cap Q)}{\text{area}(Q)}=\text{ area }(A\cap Q). $

(b) O espaço amostral $ \Omega=\mathbb{N} $ e a $ \sigma $-álgebra das partes $ \mathbb{N} $. Então

$$\mathbb{P}(n)=\left(\frac{12}{13}\right)^{n-1}\frac{12}{13}, \quad \quad n=1,2, \dots$$

(c) O espaço amostral $Ω= \lbrace (n_v,n_p,n_b):n_v,n_p,n_b \ ∈ \ N \hbox{ e } n_v+n_b+n_p=15 \rbrace$ e

$$\mathbb{P}(n_v,n_p,n_b)=\frac{15!}{n_v!n_b!n_p!}=\left(\frac{5}{15}\right)^{n_v} \left(\frac{9}{15}\right)^{n_p} \left(\frac{1}{15}\right)^{n_b}, \quad \quad (n_v,n_p,n_b)\in \Omega.$$

(d) No caso sem reposição $ \Omega=\lbrace(n_v,n_p,n_b)=(5,9,1)\rbrace $ a $ \sigma $-álgebra é as partes e

$$\mathbb{P}(n_v,n_p,n_b)=\frac{n_v}{5}\frac{n_p}{9}\frac{n_b}{1}=1$$

Exemplo 1.3.6

Retiram-se 4 cartas, ao acaso, de um baralho de 52 cartas. Registra-se o número de reis na amostra. Exiba um bom modelo probabilístico para este experimento se:

(a) As retiradas são feitas sem reposição.

(b) as retiradas são feitas com reposição.

(c) Determine em que caso, (a) ou (b) é mais provável obter 4 reis.

(a) A retirada sem reposição então o espaço amostral $ \Omega=(1,2,3,4) $ então o número de reis é dado por

$$\mathbb{P}(n)=\frac{\binom{48}{4-n}\binom{4}{n}}{\binom{52}{4}}; \quad \quad n=0,1,2,3,4$$

(b) com reposição o espaço amostral $ \Omega=(1,2,3,4) $. Então, o número de reis é dado por

$$\mathbb{P}(n)=\binom{4}{n}\left(\frac{12}{13}\right)^{4-n}\left(\frac{1}{13}\right)^{n}.$$

(c) Para calcular definimos a probabilidade

$$\mathbb{P}_a(4)=\frac{1}{\binom{52}{4}}=\frac{1}{270725}\approx 3,693 \times 10^{-6}$$

$$\mathbb{P}_b(4)=\binom{4}{4}\left(\frac{12}{13}\right)^{0}\left(\frac{1}{13}\right)^{4}=\frac{1}{28561}\approx 3,5\times 10^{-5}$$

Então é mais provável obter 4 reis com reposição.

Exemplo 1.3.7: (Problema de casamentos)

(a) Suponha que temos n casais casados (n homens e n mulheres) se fizermos uma identificação ao acaso(associar um mulher a um homem ao acaso) dos casais qual a probabilidade de acertarmos o casal corretamente(acertar quais são marido e mulher) ?

(b) Mostre que a probabilidade considerada no item anterior converge para $ p=1-\frac{1}{e} $ quando $ n\rightarrow \infty $.

(a) Fazendo $ A_i=(\text{ Acerta a identificação do i-ésima equação}, i=1,2, \dots,n). $

Temos $ \bigcup_{i=1}^n A_i\text{ Acerta pelo menos uma identificação } $

$$\mathbb{P}(A_i)=\frac{(n-1)!}{n!}=\frac{1}{n}, i=1,2,\dots,n$$

$$\mathbb{P}(A_i\cap A_j)=\frac{(n-2)!}{n!}=\frac{1}{n(n-1)}, 1\leq i < j \leq n$$

$$\mathbb{P}(A_i\cap A_j\cap A_k)=\frac{(n-3)!}{n!}=\frac{1}{n(n-1)(n-2)}, 1\leq i < j < k \leq n$$

$$\vdots$$

$$\mathbb{P}(A_1\cap A_2\cap \dots \cap A_n)=\frac{1}{n!}$$

então usando

$$\mathbb{P}\left(\bigcup_{i=1}^n A_i\right)=n \mathbb{P}(A_1\cap A_2)+\binom{n}{3}\mathbb{P}(A_1\cap A_2\cap A_3)+\dots (-1)^{n-1}\mathbb{P}(A_1\cap A_2\cap \dots \cap A_n)=$$

$$=n\frac{1}{n}-\frac{n(n+1)}{2!}\frac{1}{n(n+1)}+\frac{n(n+1)(n+2)}{3!}\frac{1}{n(n+1)(n+2)}-\dots (-1)^{n-1}\frac{1}{n!}$$

$$=\sum_{i=1}^{n}\frac{(-1)^{i+1}}{i!}$$

(b)

$$\lim_{n\rightarrow \infty} \mathbb{P}\left(\bigcup_{i=1}^n A_i\right)=\lim_{n\rightarrow}\sum_{i=1}^{n}\frac{(-1)^{i+1}}{i!}=\frac{1}{e}$$

Exemplo 1.3.8

Suponha que n cartas numeradas de 1 a n sejam embaralhadas e retiradas uma por uma, sem reposição, até todas as cartas serem retiradas. Qual a probabilidade de que para pelo menos uma carta, o número da carta coincida com o número da retirada?

Basta usar o exemplo anterior, pois podemos ver como um problema dos casamentos assim, temos que

$$\mathbb{P}\left(\bigcup_{i=1}^n A_i\right)=\sum_{i=1}^{n}\frac{(-1)^{i+1}}{i!}$$

1.3.1 - Métodos de Enumeração

Quando trabalhamos com espaço amostral finito $ \Omega = (\omega_1,\ldots,\omega_n) $ e eventos equiprováveis, obtemos que a probabilidade pode ser definida por

$$\mathbb{P}(E)=\frac{\hbox{número de casos favoráveis a E}}{\hbox{número de casos possíveis de S}}=\frac{k}{n}.$$

Neste caso, precisamos conhecer regras de contagem (ou enumeração) para calcularmos as probabilidades associadas aos eventos de interesse, pois nem sempre é fácil calcularmos o número de elementos do espaço amostral, ou ainda o número de elementos do evento de interesse.

Exemplo 1.3.1.1

Um grupo de $ 1000 $ pessoas contém $ 2 $ pessoas com diabetes e $ 998 $ pessoas saudáveis. Dez pessoas são escolhidas ao acaso e sem reposição. Qual a probabilidade de escolhermos apenas uma pessoa com diabetes?

  • Espaço amostral?

$$\Omega = \lbrace (\omega_1, \omega_2, \dots, \omega_{10}) : \omega_i = \text{pessoa e} \ \omega_i\neq\omega_j \rbrace$$

  • Quantas 10-uplas de pessoas existem?
  • Quantas tem a característica que desejamos?

Regras de contagem

A seguir, vamos apresentar as regras básicas de contagem, denominadas regra da multiplicação e regra da adição.

  1. Regra da multiplicação: Suponha que para realizarmos uma tarefa temos que executar dois procedimentos (obrigatoriamente), denotados por $ P_1 $ e $ P_2 $. O procedimento $ P_1 $ tem $ n_1 $ formas de ser executado e o procedimento $ P_2 $ tem $ n_2 $ formas de ser executado. O total de maneiras para executarmos a tarefa é dado por $ n_1\times n_2 $.

Exemplo 1.3.1.2

Uma peça manufaturada deve passar por três passos e por três estações de controle. Em cada estação a peça é inspecionada com relação a uma determinada característica e marcada adequadamente. Na primeira estação, três classificações são possíveis (ok, excelente, retrabalho), enquanto que nas duas últimas, duas classificações são possíveis (ok, retrabalho). De quantas maneiras uma peça pode ser marcada?

1ª estação - 3 maneiras

2ª estação - 2 maneiras

3ª estação - 2 maneiras

Desta forma, a peça pode ser marcada de $ 3 \times 2 \times 2 = 12 $ maneiras diferentes.

  1. Regra da adição: Suponha que temos dois procedimentos possíveis para executar uma tarefa. Aqui, basta executar um dos dois procedimentos para que tenhamos executado a tarefa. O procedimento $ P_1 $ tem $ n_1 $ formas de ser executado e o procedimento $ P_2 $ tem $ n_2 $ formas de ser executado. O total de maneiras para executarmos a tarefa é então dado por $ n_1+n_2 $.

Figura8.1.9

Figura 8.1.9: Regresentação da Regra da Adição

Exemplo 1.3.1.3

Considere um processo de manufatura dividido em $ 4 $ máquinas $ (M_1,M_2,M_3,M_4) $. Cada peça é desenvolvida por uma das máquinas e classificada em:

Máquinas $\mathbf{M_1}$ $\mathbf{M_2}$ $\mathbf{M_3}$ $\mathbf{M_4}$
A1 B1 C1 D1
Característica A2 B2 C2 D2
A3 D3
Totais 3 2 2 3

Tabela 8.1.2: Peças desenvolvidas por cada máquina

Com isso, concluímos que existe um total de $ 10 $ maneiras de classificarmos a peça.

Permutações, arranjos e combinação

Permutação

Suponha que tenhamos uma coleção $ O = (w_1,w_2,\ldots,w_n) $ de $ n $ objetos. De quantas maneiras podemos permutar (dispor) estes elementos? O número de maneiras que podemos fazer isto é denominado permutação.

Exemplo 1.3.1.4

Se tivermos os objetos $ a $, $ b $ e $ c $, podemos considerar as permutações: $abc$, $acb$, $bac$, $bca$, $cab$ e $cba$.

Suponha que temos $ n $ compartimentos e queremos dispor os $ n $ objetos de $ O $ nestes compartimentos. Para isto, considere o esquema:

Figura8.1.10

Figura 8.1.10: Representação de permutação

Aplicando a regra da multiplicação, temos que o número de maneiras de permutar $ n $ elementos é:

$$P_n=n(n-1)\ldots 1=n! \qquad \text{(Fatorial)}$$

Arranjo

Suponha que tenhamos uma coleção $ O = (w_1,w_2,\ldots,w_n) $ composta por $ n $ objetos. Agora, desejamos escolher $ r $$ (\leq n) $ objetos e permutá-los. O número de maneiras para fazer isto é denominado arranjo. Suponha que temos $ r $ compartimentos e queremos dispor os $ n $ objetos de O nestes compartimentos. Para isto, considere o esquema:

Figura8.1.11

Figura 8.1.11: Representação de arranjo

Aplicando a regra da multiplicação, temos que o número de maneiras de arranjar $ n $ elementos em $ r $ compartimentos é:

$$A_{n,r} = n(n-1)\ldots(n-r+1)=\frac{n!}{(n-r)!}$$

Combinação

Suponha que tenhamos uma coleção $ O = (w_1,w_2,\ldots,w_n) $ composta por $ n $ objetos. Agora, trataremos da contagem do número de maneiras de escolher $ r $$ (\leq n) $ objetos dentre os $ n $ objetos sem considerarmos a ordem.

Exemplo 1.3.1.5

Na coleção de objetos $ O = (a,b,c,d) $, quantos grupos podemos formar com dois objetos?

Podemos formar os seguintes grupos com dois elementos: $ (ab, ac, ad, bc, bd, cd) $. Ou seja, em uma coleção de $ 4 $ elementos, é possível formar $ 6 $ grupos de dois elementos. Observe que aqui não contamos $ ab $ e $ ba $ pois formam dois grupos iguais.

Como o número de maneiras de alocarmos os $ n $ objetos em $ r $ compartimentos é

$$\frac{n!}{(n-r)!}$$

e, após alocarmos os $ r $ objetos temos $ r! $ formas de permutá-los, então o número de maneiras de escolhermos $ r $ objetos sem importar a ordem dentre $ n $ objetos é:

$$C_{n,r}=\frac{n!}{r!(n-r)!}= \binom{n}{r}$$

Exemplo 1.3.1.6

Considere novamente o Exemplo 1.3.1.1 em que temos

  • 1000 pessoas;
  • 2 pessoas com diabetes;
  • 10 pessoas selecionadas ao acaso e sem reposição.

Espaço amostral: $ \Omega = \lbrace (\omega_1, \omega_2, \omega_{10}): \omega_i = \text{pessoa i} \rbrace $. De quantas maneiras podemos selecionar $ 10 $ pessoas sem reposição?

$$ \binom{1000}{10}$$

Qual a probabilidade de encontrarmos $ 1 $ pessoa com diabetes entre as $ 10 $ escolhidas?

$$\cfrac{\binom{2}{1} \binom{998}{9}}{\binom{1000}{10}}=\frac{\hbox{nº de resultados favoráveis}}{\hbox{nº total de resultados}}.$$

Teorema 1.3.1 (Binômio de Newton)

Dados $ x,y\in\mathbb{R} $ temos que

$$(x+y)^n=\sum_{k=0}^n\binom{n}{k} x^k y^{n-k}$$

Demonstração

Quando $ n=1 $ temos que

$$x+y=\sum_{k=0}^1\binom{1}{k} x^k y^{n-k}=\binom{1}{0}x^0 y^1 + \binom{1}{1}x^1 y^0 = y+x$$ e a igualdade é válida para $ n=1 $. Suponha agora que a igualdade seja válida para $ n-1 $. Então

$$(x+y)^n=(x+y)(x+y)^{n-1}=(x+y)\sum_{k=0}^{n-1}\binom{n-1}{k} x^k y^{n-1-k},$$

assim, obtemos que

$$(x+y)^n=\sum_{k=0}^{n-1} \binom{n-1}{k} x^{k+1} y^{n-1-k} + \sum_{k=0}^{n-1} \binom{n-1}{k} x^k y^{n-k}.$$

Tomando $ i = k+1 $ na primeira soma e $ i=k $ na segunda soma, temos que

$$(x+y)^n=\sum_{i=1}^n\binom{n-1}{i-1} x^i y^{n-i}+\sum_{i=0}^{n-1}\binom{n-1}{i}x^iy^{n-i}$$

$$(x+y)^n=x^n+\sum_{i=1}^{n-1}\left[\binom{n-1}{i-1}+\binom{n-1}{i}\right]x^iy^{n-i}+y^n$$

$$(x+y)^n=x^n+\sum_{i=1}^{n-1}\binom{n}{i} x^i y^{n-i}+y^n=\sum_{i=0}^n \binom{n}{i}x^i y^{n-i}$$

como queríamos demonstrar.

Esquemas de Amostragem

Considere $ O = (o_1,o_2,\ldots,o_n) $ uma coleção de $ n $ objetos. A amostragem “com reposição” é um tipo de experimento no qual, após cada etapa, o objeto selecionado retorna ao grupo. Em uma amostragem com reposição cada elemento selecionado $ o_i $ pode ser qualquer um dos $ n $ objetos. Neste caso, a descrição do espaço amostral depende da forma como as amostras selecionadas são consideradas, por exemplo, (4,1,2,1) e (1,4,2,1) são diferentes ou iguais. Assim, temos dois casos: “ordenadas” e “não ordenadas”. No primeiro caso, as amostras contendo os mesmos elementos, mas arranjados diferentemente, são considerados distintas. No segundo caso, a ordem dos elementos é descartada e as duas amostras são consideradas as mesmas. A seguir, vamos utilizar a notação $ (o_1,\ldots,o_n) $ para amostras ordenadas e $ [o_1,\ldots,o_n] $ para amostras não ordenadas.

Amostragem com reposição

  • Amostragem ao acaso, com reposição e ordenada: Selecionar $ r $ objetos ao acaso e com reposição na coleção de objetos $ O $:

Espaço amostral: $Ω= \lbrace(ω1,ω2,…,ω_n):wi∈O \rbrace ;$

Probabilidade: $ \displaystyle \mathbb{P}((w_1,w_2,\ldots,w_r))=\frac{1}{n^r} $.

  • Amostragem ao acaso, com reposição e não-ordenada: Selecionar $ r $ objetos ao acaso e com reposição na coleção de objetos $ O $:

Espaço amostral: $S= \lbrace [w1,w2,…,w_n]:wi∈O \rbrace$

Probabilidade:

$ \displaystyle \mathbb{P}([w_1,\ldots,w_r])=\frac{1}{\binom{n+r-1}{r}}=\frac{r!(n-1)!}{(n+r-1)!} $

Amostragem sem reposição

  • Amostragem ao acaso, sem reposição e ordenado: Selecionar ao acaso $ r $ objetos ao acaso e sem reposição na coleção de objetos $ O $ ( com $ r $ menor ou igual a $ n $):

Espaço amostral: $Ω= \lbrace (w_1,w_2,…,w_n):w_i∈O,w_i≠w_j \rbrace$

Probabilidade: $ \displaystyle \mathbb{P}((w_1,\ldots,w_r))=\frac{1}{n!/(n-r)!}=\frac{(n-r)!}{n!} $

  • Amostragem ao acaso, sem reposição e não-ordenada: Selecionar ao acaso $ r $ objetos e sem reposição na coleção de objetos $ O $ (com $ r $ menor ou igual a n):

Espaço amostral: $Ω= \lbrace [w_1,…,w_r]:w_i∈O,w_i≠w_j \rbrace;$

Probabilidade:

$ \mathbb{P}([w_1,\ldots,w_n])=\dfrac{1}{\binom{n}{r}}=\dfrac{r!(n-r)!}{n!} $.

Exemplo 1.3.1.7

Considere uma loteria com $ M $ tickets, que são numerados de $ 1 $ a $ M $ e os $ n $ primeiros $ (1 $ a $ n) $ contém prêmios. Vamos admitir que $ M \geq 2n $. Se você comprar $ n $ tickets, qual a probabilidade de você ganhar pelo menos um prêmio?

Como a ordem não interessa, consideramos um processo de amostragem ao acaso sem reposição e não ordenada:

$$ \Omega = \lbrace \omega : \omega = [a_1 , a_2 , \cdots , a_n]; ~ a_i \neq a_j ~ (i\neq j) \rbrace ; $$

$ {\cal C} $: subconjuntos de $ \Omega $;

$$\mathbb{P}( \lbrace w \rbrace) = \frac{1}{\binom{M}{n}}, ~ ~ w \in \Omega.$$

Considere o evento $ A_0 = \lbrace \omega: \omega = [a_1, \cdots , a_n]; ~ a_i=n+1, \cdots , M; ~ a_i \neq a_j ~ (i \neq j) \rbrace $ que corresponde a nenhum ticket com prêmio. Então, temos que

$$\mathbb{P} (A_0) = \frac{\hbox{número de elementos de}~A_0 }{\hbox{número de elementos de}~\Omega } = \dfrac{\binom{M-n}{n}}{\binom{M}{n} }=\left(1-\frac{n}{M}\right)\cdots\left(1-\frac{n}{M-n+1}\right).$$ –>

Exemplo 1.3.1.8

Agora iremos fazer um exemplo mais geral. Em um processo de amostragem com reposição e ordenado, vamos calcular a probabilidade de ocorrência do evento “todos os elementos selecionados são distintos”.

Vamos supor que dispomos de $ M $ objetos distintos, e que iremos selecionar $ n $ vezes.

Assim seja $A = ((O_1, …, O_n) : O_i ≠ O_j, i ≠ j~e~O_i ∈ O)$, no qual $O = (O_1, …O_M)$.

$$\mathbb{P}(A)=\frac{\hbox{Número de elementos em } A}{\hbox{Número de elementos de } \Omega}=\cfrac{\frac{M!}{(M-n)!}}{M^n}=\cfrac{M!}{(M-n)!M^n}.$$

Ajustando a equação a cima obtemos:

$$\mathbb{P}(A)=\left(1-\frac{1}{M} \right)\cdot \left(1-\frac{2}{M} \right) \cdots \left(1-\frac{n-1}{M} \right).$$

Exemplo 1.3.1.9

Utilizando o exemplo acima, vamos fazer uma aplicação interessante. Em um grupo de $ n $ pessoas qual a chance de duas ou mais pessoas fazerem aniversário no mesmo dia do ano.

Neste caso, os $ M $ objetos distintos que dispomos são os $ 365 $ dias do ano, assim $ M=365 $. Queremos selecionar $ n $ dias (pois existem $ n $ pessoas no grupo) ao acaso e com reposição e de forma ordenada. Vamos definir $ B = \lbrace \hbox{ ninguém faz aniversário no mesmo dia} \rbrace $. Assim o evento de interesse nosso é $ B=A^c $. Então

$$\mathbb{P}(B)=1-\mathbb{P}(A)=1-\left[\left(1-\frac{1}{365} \right)\cdot \left(1-\frac{2}{365} \right) \cdots \left(1-\frac{n-1}{365} \right) \right]$$

Apenas a título de curiosidade vamos colocar segue abaixo a probabilidade para alguns valores de $n$.

$ n $ $ \mathbb{P}(B) $
4 0,016
16 0,284
23 0,503
40 0,891
64 0,997

Tabela 8.1.3: Probabilidade para alguns valores de $n$

É interessante observar que para $ n=64 $ a probabilidade de duas ou mais pessoas fazerem aniversário no mesmo dia é quase 100%.

Exemplo 1.3.1.10

Suponha que queremos distribuir $ r $ bolas em $ n $ compartimentos, com $ r\geq n $, todas as bolas devem ser distribuídas. Vamos calcular a probabilidade de um compartimento conter $ K $ bolas.

Observe que $ K $ bolas podem ser escolhidas de $ \binom{r}{k} $ maneiras distintas e que $ (r-K) $ bolas podem ser colocadas nos $ (n-1) $ compartimentos que restaram de $ (n-1)^{r-k} $ maneiras. Assim seja $ A= \lbrace \hbox{Um compartimento conter K bolas} \rbrace $ a probabilidade de que um compartimento contenha $K$ bolas é de:

$$\mathbb{P}(A)=\binom{r}{k} \cdot \frac{(n-1)^{r-k} }{n^r}.$$

1.4 - Eventos independentes e probabilidade condicional

Outro conceito importante da teoria de probabilidade é o de independência entre dois eventos. Na prática, dois eventos são independentes quando a ocorrência de um evento não influência a ocorrência do outro evento. Do ponto de vista probabilístico temos a seguinte definição:

Definição 1.4.1 (Independência)

Dois eventos $ A $ e $ B $ são ditos independentes se

$$\mathbb{P}(A\cap B)=\mathbb{P}(A) \ \mathbb{P}(B).$$

Exemplo 1.4.1

Um lote contém $ 10 $ peças, sendo $ 7 $ boas ($ B $) e $ 3 $ defeituosas ($ D $). Retiramos duas peças, ao acaso e com reposição, para inspeção. Qual a probabilidade de se obter duas peças defeituosas?

O experimento de realizar a primeira retirada tem como espaço amostral $ \Omega_1= (D_1,B_1) $ e a segunda retirada tem como espaço amostral $ \Omega_2 = (D_2,B_2) $, em que $ D_i $ significa que retiramos uma peça defeituosa na i-ésima retirada e $ B_i $ significa que retiramos uma peça boa na i-ésima retirada, para $ i = 1,2 $. Como as duas peças são retiradas ao acaso e com reposição, isto é, após retirarmos a primeira peça esta é colocada novamente no lote para que possamos efetuar a segunda retirada, temos que

$$\mathbb{P}(D_1)=\mathbb{P}(D_2)=\frac{3}{10} \qquad \text{e} \qquad \mathbb{P}(B_1)=\mathbb{P}(B_2)=\frac{7}{10}.$$

Associamos ao experimento de retirar duas peças ao acaso e com reposição o seguinte espaço amostral

$$\Omega=((D_1,B_2);(B_1,D_2);(D_1,D_2);(B_1,B_2)).$$

Queremos encontrar a probabilidade de se obter duas peças defeituosas, ou seja, a probabilidade das peças na primeira retirada e na segunda retirada serem defeituosas. Assim, desde que a primeira e a segunda retirada sejam executadas de forma independente, temos que

$$\mathbb{P}\left((D_1,D_2)\right)=\mathbb{P}(D_1\cap D_2)=\mathbb{P}(D_1) \mathbb{P}(D_2)=\frac{3}{10}\cdot \frac{3}{10}=\frac{9}{100}.$$

Vamos examinar melhor a diferença entre extrair uma peça de um lote, ao acaso, com reposição ou sem reposição. Como vimos neste exemplo, se a retirada for feita com reposição, então

$$\mathbb{P}(D_1)=\mathbb{P}(D_2)=\frac{3}{10} \qquad \text{e} \qquad \mathbb{P}(B_1)=\mathbb{P}(B_2)=\frac{7}{10}$$

pois cada vez que extraímos peças do lote, sempre existirão $ 3 $ peças defeituosas e $ 7 $ peças boas num total de $ 10 $. No entanto, se estivermos extraindo sem reposição, o resultado é diferente. É ainda verdade, naturalmente, que

$$\mathbb{P}(D_1)=\frac{3}{10} \qquad \text{e} \qquad \mathbb{P}(B_1)=\frac{7}{10},$$

mas as probabilidades de sair uma peça defeituosa ou de sair uma peça boa na segunda retirada não serão as mesmas. Para calcularmos essas probabilidades devemos conhecer a composição do lote no momento de se extrair a segunda peça. Por exemplo, para calcularmos a probabilidade de extrairmos uma peça defeituosa na segunda retirada, D2, temos que saber se ocorreu $ D_1 $ ou $ B_1 $. Caso tenha ocorrido $ D_1 $,

$$\mathbb{P}(D_2) = \frac{2}{9}$$

e, se ocorreu $B_1$,

$$\mathbb{P}(D_2) =\frac{3}{9}.$$

Este exemplo nos mostra a necessidade de introduzirmos a definição de probabilidade condicional.

Proposição 1.4.1

Um evento $ A $ é independente dele mesmo se, e só se, $ \mathbb{P}(A)=0 $ ou $ \mathbb{P}(A)=1 $.

Suponha que $ \mathbb{P}(A)=a $, com $ 0 \ < \ a \ < \ 1 $. Sabemos que $ \mathbb{P}(A\cap A)=\mathbb{P}(A)=a\neq a^2 $, para qualquer $ a\in (0,1) $, entretanto $ \mathbb{P}(A\cap A)=\mathbb{P}(A)=a= a^2 $, se $ a=0 $ ou $ a=1 $. Logo se $ \mathbb{P}(A)=0 $ ou $ \mathbb{P}(A)=1 $ então ele é independente de si mesmo. Caso contrário, ele não será independe de si mesmo. Suponha agora que $ A $ seja independente de si mesmo, portanto $ a^2=\mathbb{P}(A)\mathbb{P}(A)= \mathbb{P}(A\cap A)=\mathbb{P}(A)=a $, ou seja, $ a^2=a $ mas isto é válido se, e somente se, $ a=0 $ ou $ a=1 $.

Definição 1.4.2 (Probabilidade Condicional)

A probabilidade de ocorrer um evento $ A $ dado que ocorreu um evento $ B $ é dada por

$$\mathbb{P}(A|B)=\frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)}.$$

Dessa relação sai a Regra do Produto que é dada no teorema a seguir.

Teorema 1.4.1

Considere um conjunto finito $ A_1,A_2,\ldots,A_n $ um conjunto de eventos tais que os eventos condicionais $ A_i|A_1\cap A_2\cap\ldots\cap A_{i-1} $ tenham probabilidades positivas. Então temos que

$$\mathbb{P}\left(\bigcap_{i=1}^nA_i\right)=\mathbb{P}(A_1) \ \mathbb{P}(A_2|A_1)\ \mathbb{P}(A_3|A_1\cap A_2) \ \ldots \ \mathbb{P}(A_n|\cap_{i=1}^{n-1}A_i).$$

Para demonstrar este teorema escrevemos

$$\mathbb{P}\left(\bigcap_{i=1}^nA_i\right)=\mathbb{P}(A_1) \ \frac{\mathbb{P}(A_1\cap A_2)}{\mathbb{P}(A_1)} \ \frac{\mathbb{P}(A_1\cap A_2\cap A_3)}{\mathbb{P}(A_1\cap A_2)}\ldots \ \frac{\mathbb{P}(\bigcap_{i=1}^n A_i)}{\mathbb{P}(\bigcap_{i=1}^{n-1} A_i)},$$

e usando a definição de probabilidade condicional, podemos reescrever o lado direito da igualdade acima como

$$\mathbb{P}(A_1) \ \mathbb{P}(A_2|A_1) \ \mathbb{P}(A_3|A_1\cap A_2) \ \ldots \ \mathbb{P}(A_n|\cap_{i=1}^{n-1}A_i).$$

Com caso particular temos que, dados dois eventos $ A $ e $ B $, concluímos que a probabilidade de ocorrência simultânea dos eventos $ A $ e $ B $ é igual a probabilidade de ocorrência do evento $ A $ (ou $ B $) vezes a probabilidade de ocorrência do evento $ A $ (ou $ B $) dado que ocorreu o evento $ B $ (ou $ A $), ou seja

$$\mathbb{P}(A\cap B)=\mathbb{P}(B) \ \mathbb{P}(A|B).$$

Exemplo 1.4.2

Considere o Exemplo 1.4.1, mas agora as retiradas serão feitas sem reposição, isto é, a primeira peça retirada não volta ao lote para retirarmos a segunda peça. Qual a probabilidade de se retirar duas peças defeituosas?

A probabilidade de sair uma peça defeituosa na primeira retirada é $ \mathbb{P}(D_1)=\frac{3}{10} $. Além disso, $ \mathbb{P}(D_2|D_1)=\frac{2}{9} $. Assim,

$$\mathbb{P}[(D_1,D_2)]=\mathbb{P}(D_1\cap D_2)=\mathbb{P}(D_1)\times \mathbb{P}(D_2|D_1)=\frac{3}{10}\times\frac{2}{9}=\frac{6}{90}=\frac{1}{15}.$$

A seguir, apresentamos o teorema da probabilidade total que é usado com frequência para calcular a probabilidade de vários eventos.

Teorema 1.4.2 (Teorema da Probabilidade Total)

Sejam $ A_1, A_2,\ldots, A_n $ eventos dois a dois disjuntos que formam uma partição do espaço amostral, isto é,

$$\bigcup_{i=1}^nA_i=\Omega$$

e assuma que $ \mathbb{P}(A_i) \ > \ 0 $ para $ i = 1, 2, \ldots, n $. Então, para qualquer evento $ B $, temos que

$$\mathbb{P}(B)=\mathbb{P}(A_1\cap B) + \cdots + \mathbb{P}( A_n \cap B) = \mathbb{P}(A_1) \mathbb{P}(B|A_1) + \cdots + \mathbb{P}(A_n)\mathbb{P}(B|A_n)=\sum_{i}\mathbb{P}(A_i)\mathbb{P}(B|A_i).$$

Para demonstrarmos esse teorema basta observarmos que como a sequência $ A_1, A_2, \ldots $ formam uma partição então para qualquer $ B\in \Omega $, temos que $ B=\displaystyle\bigcup_{i}(A_i\cap B) $. E como os $ A_i $ são disjuntos dois a dois temos que $ B\cap A_i $ também são disjuntos e pelo axioma 3 e pelo teorema 1.4.1 temos que

$$\mathbb{P}(B)=\sum_{i}\mathbb{P}(A_i\cap B)=\sum_{i}\mathbb{P}(A_i) \ \mathbb{P}(B|A_i).$$

Exemplo 1.4.3

Suponha que um jogador participa de um torneio de xadrez onde sua probabilidade de vitória é $ 0,3 $ contra metade dos jogadores (chame-os do tipo $ 1 $), $ 0,4 $ contra um quarto dos jogadores (chame-os do tipo $ 2 $) e $ 0,5 $ contra o um quarto dos jogadores restantes (chame-os do tipo $ 3 $). O jogador disputa uma partida contra um oponente selecionado aleatoriamente. Qual é a probabilidade dele vencer?

Seja $ A_i $ o evento de jogar com um oponente do tipo $ i $. Temos então que

$$\mathbb{P}(A_1)=0,5; \qquad \mathbb{P}(A_2)=0,25; \qquad \mathbb{P}(A_3)=0,25.$$

Seja $ B $ o evento vitória. Então temos

$$\mathbb{P}(B|A_1)=0,3; \qquad \mathbb{P}(B|A_2)=0,4; \qquad \mathbb{P}(B|A_3)=0,5.$$

Assim, pelo teorema da probabilidade total, a probabilidade de vitória é

$$\mathbb{P}(B)=\mathbb{P}(A_1)\mathbb{P}(B|A_1)+\mathbb{P}(A_2)\mathbb{P}(B|A_2)+P(A_3)\mathbb{P}(B|A_3)=0,5\cdot 0,3+0,25\cdot 0,4+0,25\cdot 0,5=0,375.$$

Ou seja, a probabilidade do jogador vencer a partida é de 37,5%. O teorema da probabilidade total com frequência é usado em conjunto com o seguinte teorema, chamado de Teorema de Bayes, que relaciona probabilidades condicionais da forma $ \mathbb{P}(A|B) $ com probabilidades condicionais da forma $ \mathbb{P}(B|A) $, em que a ordem da condicionalidade é reversa.

Teorema 1.4.3 (Teorema de Bayes)

Sejam $ A_1,A_2,\ldots,A_n $ eventos que formam uma partição do espaço amostral, e assuma que $ \mathbb{P}(A_i) \ > \ 0 $ para todo $ i $. Então, para qualquer evento $ B $ tal que $ \mathbb{P}(B) \ > \ 0 $, temos que

$$\mathbb{P}(A_i|B)=\frac{\mathbb{P}(A_i)\mathbb{P}(B|A_i)}{\mathbb{P}(B)}=\frac{\mathbb{P}(A_i)\mathbb{P}(B|A_i)}{\mathbb{P}(A_1)\mathbb{P}(B|A_1)+\ldots+\mathbb{P}(A_n)\mathbb{P}(B|A_n)}.$$

Para verificar o teorema de Bayes, basta notar que $ \mathbb{P}(A_i)\mathbb{P}(B|A_i) = \mathbb{P}(B)\mathbb{P}(A_i|B) $ já que ambos são iguais a $ \mathbb{P}(A\cap B) $, o que garante a primeira igualdade. A segunda igualdade segue da aplicação do teorema da probabilidade total para $ B $.

Teorema 1.4.4

A probabilidade condicional também é uma probabilidade ($ P(\cdot |B) $, para $ B $ um subconjunto fixo de $ \Omega $), ou seja a probabilidade condicional satisfaz os três axiomas de probabilidade.

Mostremos primeiramente que $ \mathbb{P}(\Omega | B)=1 $ e que $ \mathbb{P}(\emptyset | B)=0 $. De fato, note que

$$\mathbb{P}(\Omega | B)=\frac{\mathbb{P}(\Omega \cap B)}{\mathbb{P}(B)}=\frac{\mathbb{P}(B)}{\mathbb{P}(B)}=1$$

e que

$$\mathbb{P}(\emptyset | B)=\frac{\mathbb{P}(\emptyset \cap B)}{\mathbb{P}(B)}=\frac{\mathbb{P}(\emptyset)}{\mathbb{P}(B)}=\frac{0}{\mathbb{P}(B)}=0$$

o que demonstra o primeiro axioma.

O segundo axioma diz que $ 0 \leq \mathbb{P}(A|B) \leq 1 $, para qualquer $ A\subset \Omega $. Observe que $ \mathbb{P}(A|B)=\cfrac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)} $, e como $ A \cap B \subset B $. Temos que por P4 que $ 0 \leq \mathbb{P}(A \cap B) \leq \mathbb{P}(B) $, o que implica que $ 0 \leq \mathbb{P}(A|B) \leq 1. $

O terceiro e último axioma diz que para qualquer sequência de eventos mutuamente exclusivos $ A_1, A_2, \ldots $, temos que

$$\mathbb{P}(\bigcup_{n=1}^{\infty} A_n | B)=\sum_{n=1}^{\infty}\mathbb{P}(A_n | B).$$

Observamos que:

$$\mathbb{P}(\bigcup_{n=1}^{\infty} A_n | B)= \frac{\mathbb{P}(B\cap\bigcup_{n=1}^{\infty} A_n)}{\mathbb{P}(B)}= \frac{\mathbb{P}(\bigcup_{n=1}^{\infty} A_n \cap B)}{\mathbb{P}(B)}= \frac{\sum_{n=1}^{\infty}\mathbb{P}(A_n \cap B)}{\mathbb{P}(B)}=\sum_{n=1}^{\infty}\mathbb{P}(A_n|B).$$

Logo, a probabilidade condicional satisfaz todos os axiomas da probabilidade, o que implica que a probabilidade condicional também é uma probabilidade. Assim sendo, todas as propriedades de probabilidade também são válidas.

Exemplo 1.4.4

Considere novamente o Exemplo 1.4.3 onde $ A_i $ é o evento de ter um adversário do tipo $ i $ e

$$\mathbb{P}(A_1)=0,5; \qquad \mathbb{P}(A_2)=0,25; \qquad \mathbb{P}(A_3)=0,25.$$

Além disso, $ B $ é evento vencer uma partida e

$$\mathbb{P}(B|A_1)=0,3; \qquad \mathbb{P}(B|A_2)=0,4; \qquad \mathbb{P}(B|A_3)=0,5.$$

Suponha que o jogador disputou uma partida e venceu. Qual a probabilidade $ \mathbb{P}(A_1|B) $ dele ter jogado contra um adversário do tipo $ 1 $?

Usando o teorema de Bayes, temos que

$$\mathbb{P}(A_1|B)=\frac{P(\mathbb{A}_1)\mathbb{P}(B|A_1)}{\mathbb{P}(A_1)\mathbb{P}(B|A_1)+\mathbb{P}(A_2)\mathbb{P}(B|A_2)+\mathbb{P}(A_3)\mathbb{P}(B|A_3)}=0,4.$$

Ou seja, a probabilidade do jogador ter disputado uma partida contra um adversário do tipo $ 1 $, dado que ele venceu a partida é de 40%.

Exemplo 1.4.5 (Monty Hall)

Suponha que uma pessoa está participando de um programa de televisão e lhe é fornecida a possibilidade de escolher entre $ 3 $ portas. Atrás de uma das portas existe um carro e atrás das demais não existe prêmio algum. O participante escolhe uma porta, digamos a porta $ 1 $ e o apresentador abre outra porta, digamos a porta $ 3 $, revelando que não há nada atrás dela e então oferece ao participante a oportunidade de trocar de porta. O que é mais vantajoso, trocar ou não a porta escolhida?

Este é um problema clássico, conhecido como paradoxo de Monty Hall. A resposta intuitiva ao problema, porém errada, é a de que quando o apresentador revelou uma porta não premiada, o concorrente teria à frente um novo dilema com apenas duas portas e um prêmio, portanto as chances de que o prêmio esteja em qualquer uma das duas portas seriam de 50%. O apresentador teria nos ajudado, já que nossas chances subiram de $ 1/3 $ para $ 1/2 $, mas realmente não faria diferença trocar ou não de porta uma vez que ambas teriam as mesmas chances de possuírem o prêmio. No entanto, esta resposta está errada, pois a porta que o apresentador abre depende da porta que o concorrente escolher inicialmente.

Na verdade, é mais vantajoso trocar de porta e, ao fazê-lo a chance do participante ganhar o carro é de $ 2/3 $. Resolveremos este problema de duas formas diferentes. A primeira apenas descrevendo o problema e a segunda, utilizando o diagrama de árvores e probabilidades condicionais.

Primeiramente, consideremos duas estratégias para o participante do programa: a estratégia $ 1 $, onde o participante seleciona uma porta e, se lhe é fornecida a oportunidade de trocar de porta, ele recusa e a estratégia $ 2 $, na qual o participante sempre troca a porta escolhida. Desta forma, utilizando a estratégia $ 1 $, o participante ganhará o carro com probabilidade $ 1/3 $, já que em $ 1/3 $ das vezes a porta que ele escolhe terá o carro com o prêmio. Utilizando a estratégia $ 2 $, o participante somente ganhará o carro se, a princípio escolhe uma porta que não contém o carro como prêmio, o que ocorre em $ 2/3 $ das vezes, ou seja, a probabilidade de ganhar com a estratégia $ 2 $ é de $ 2/3 $ e, portnato, duas vezes maior do que utilizando a estratégia $ 1 $.

Podemos também, resolver este problema utilizando os conceitos de probabilidade condicional. Para isto, consideramos vários estágios. O carro é colocado atrás de uma porta, o participante escolhe uma porta e, finalmente, o apresentador abre uma porta. Então é natural analisar o problema através de um diagrama de árvore. Assumimos que se o apresentador pode escolher entre as portas (ou seja, o participante escolheu a porta com o carro), então ele escolhe cada porta com probabilidade $ 1/2 $. A árvore resultante é mostrada na figura a seguir:

Figura8.1.12

Figura 8.1.12: Representação em árvore do problema de Monty Hall

Agora, supondo que o participante tenha escolhido a porta $ 1 $ e o apresentador a porta $ 3 $, então existem apenas dois caminhos possíveis através da árvore. Para um dos caminhos, o carro está atrás da porta $ 1 $ e para o outro, está atrás da porta $ 2 $. O caminho com o carro atrás da porta 2 é duas vezes mais provável que o caminho com o carro atrás da porta $ 1 $. Assim, a probabilidade condicional do carro estar atrás da porta $ 2 $ é $ 2/3 $ e a probabilidade do carro estar atrás da porta $ 1 $ é $ 1/3 $, ou seja, se o participante trocar de porta, ele tem $ 2/3 $ de chances de ganhar o carro.

Exemplo 1.4.6

Um teste de laboratório detecta uma doença quando ela está presente em 95% dos casos. No entanto, o teste também fornece um resultado “falso positivo” para 1% das pessoas saudáveis testadas. (Isto é, se uma pessoa saudável faz o teste, então, com probabilidade $ 0,01 $, o resultado do teste dirá que ela possui a doença.) Se 0,5% da população tem a doença, qual é a probabilidade de uma pessoa ter a doença dado que o resultado do teste é positivo?

Para resolver este problema, consideramos $ D $ o evento de a pessoa testada ter a doença e $ E $ o evento de que o resultado do teste é positivo. Então, a probabilidade desejada $ \mathbb{P}(D|E) $ é obtida por

$$\mathbb{P}(D|E)=\frac{\mathbb{P}(D\cap E)}{\mathbb{P}(E)}=\frac{\mathbb{P}(E|D)\mathbb{P}(D)}{\mathbb{P}(E|D)\mathbb{P}(D)+\mathbb{P}(E|D^c)\mathbb{P}(D^c)},$$

ou seja,

$$\mathbb{P}(D|E)=\frac{(0,95)(0,005)}{(0,95)(0,005)+(0,01)(0,995)}\approx 0,323.$$

Assim, apenas 32% das pessoas cujos resultados do teste deram positivo realmente possuem a doença.

Exemplo 1.4.7

Em um teste de múltipla escolha, ou um estudante sabe a resposta ou arrisca uma das alternativas. Seja $ p $ a probabilidade do estudante saber a resposta e $ 1 - p $ a probabilidade do estudante arriscar adivinhá-la. Assuma que um estudante que arrisca a resposta acerta a resposta correta com probabilidade $ 1/m $, onde $ m $ é o número de alternativas de múltipla escolha. Qual é a probabilidade condicional de que um estudante soubesse a resposta da questão, dado que ele ou ela respondeu corretamente?

Seja $ C $ o evento de que o estudante responde a questão corretamente e $ K $ o evento de que ele saiba a resposta. Então

$$\mathbb{P}(K|C)=\frac{\mathbb{P}(K\cap C)}{\mathbb{P}(C)}=\frac{\mathbb{P}(C|K)\mathbb{P}(K)}{\mathbb{P}(C|K)\mathbb{P}(K)+\mathbb{P}(C|K^c)\mathbb{P}(K^c)},$$

ou seja,

$$\mathbb{P}(K|C)=\frac{p}{p+(1/m)(1-p )}= \frac{mp}{1+(m-1)p}.$$

Por exemplo, se $ m = 5 $ e $ p = 1/2 $, então a probabilidade de que um estudante saber a resposta de uma questão que ele respondeu corretamente é $ 5/6 $.

Exemplo 1.4.8

Uma companhia de seguros acredita que as pessoas possam ser divididas em duas classes: aquelas que são propícias a sofrerem acidentes e as que não são. Suas estatísticas mostram que uma pessoa propícia a acidentes terá um acidente em algum momento dentro do período de um ano com probabilidade $ 0,4 $, enquanto esta probabilidade diminui para $ 0,2 $ para pessoas não propícias a acidentes. Supondo que 30% da população é propícia a sofrer acidentes, qual é a probabilidade de que um novo segurado sofra um acidente durante um ano em que comprou uma apólice?

Obteremos a probabilidade desejada ao condicionar se o segurado é ou não uma pessoa propícia a sofrer um acidente. Seja $ A_1 $ o evento de que um segurado sofra um acidente durante um ano em que comprou a apólice e $ A $ o evento de que o segurado seja uma pessoa propícia a sofrer um acidente. Então a probabilidade desejada, $ P(A_1) $, é dada por

$$\mathbb{P}(A_1)=\mathbb{P}(A_1|A)\mathbb{P}(A)+\mathbb{P}(A_1|A^c)\mathbb{P}(A^c)=(0,4)(0,3)+(0,2)(0,7)=0,26.$$

Exemplo 1.4.9

Suponha que você deseja enviar uma carta para sua namorada pelo correio, para isto você resolve pedir para um amigo coloca-la para você, entretanto ele pode esquecer-se de envia-la com uma probabilidade de $ 0,1 $. Caso ele não se esqueça de envia-la, a probabilidade que o correio extravie a carta é de $ 0,1 $. E ainda caso o correio a envie a probabilidade de que o carteiro não a entregue é também é de $ 0,1 $. Sabendo que sua namorada não recebeu sua carta qual é a probabilidade de seu amigo ter esquecido de coloca-la no correio?

Esta é uma questão clássica em probabilidade. Vamos começar definindo os eventos definamos $ A=(\text{O amigo enviou a carta}) $; $ B=(\text{O correio não extravia a carta}) $ e $ C=(\text{O carteiro entrega a carta}) $. Pelos dados do problema temos que:

$$\mathbb{P}(A)=0,9; \quad \mathbb{P}(B|A)=0,9 \quad \text{e} \quad \mathbb{P}(C | A \cap B)=0,9.$$

O nosso problema consiste em encontrar $ \mathbb{P}(A^c | C^c) $, utilizando o teorema 1.4.3, concluímos que:

$$\mathbb{P}(A^c|C^c)=\frac{\mathbb{P}(C^c|A^c)\mathbb{P}(A^c)}{\mathbb{P}(C^c|A^c)\mathbb{P}(A^c)+\mathbb{P}(C^c|A)\mathbb{P}(A)}.$$

Note que $ \mathbb{P}(C^c|A^c)=1 $, pois dado que o amigo não enviou a carta o carteiro não vai entrega-la com probabilidade 1. Então vamos calcular a probabilidade de $ \mathbb{P}(C^c|A) $.

$$\mathbb{P}(C^c|A)=\mathbb{P}(C^c \cap B|A)+\mathbb{P}(C^c \cap B^c|A).$$

Sendo assim, precisamos encontrar $ \mathbb{P}(C^c \cap B|A) $. Observe que:

$$\mathbb{P}(C^c \cap B|A)= \frac{\mathbb{P}(C^c\cap B\cap A)}{\mathbb{P}(A)}=\frac{\mathbb{P}(C^c \cap B \cap A)\mathbb{P}(A \cap B)}{\mathbb{P}(A)\mathbb{P}(A\cap B)}=\mathbb{P}(C^c|B\cap A)\mathbb{P}(B|A)=0,1 \cdot 0,9=0,09.$$

Da mesma forma obtemos

$$\mathbb{P}(C^c \cap B^C |A)=\mathbb{P}(C^c | A \cap B^c)\mathbb{P}(B^C|A)=1 \cdot 0,1= 0,1.$$

Substituindo os valores encontrados na formula acima obtemos que

$$\mathbb{P}(C^c|A)=\mathbb{P}(C^c \cap B|A)+\mathbb{P}(C^c \cap B^c|A)=0,09+0,1=0,19.$$

Finalmente substituindo os valores encontrados na formula acima obtemos que

$$\mathbb{P}(A^c|C^c)=\frac{\mathbb{P}(C^c|A^c)\mathbb{P}(A^c)}{\mathbb{P}(C^c|A^c)\mathbb{P}(A^c)+\mathbb{P}(C^c|A)\mathbb{P}(A)}=\frac{1\cdot 0,1}{1 \cdot 0,1+0,19 \cdot 0,9}=\frac{0,1}{0,271}\thickapprox 0,369.$$

E, portanto, a probabilidade de que o amigo não tenha colocado a carta no correio sabendo que a namorada não recebeu a carta é de, aproximadamente, 36,9%.

Exemplo 1.4.10

Vamos supor que vamos selecionar $ 3 $ cartas em um baralho comum (com $ 52 $ cartas) ao acaso e sem reposição. Qual a probabilidade de retirarmos $ 3 $ reis?

Vamos definir o evento $ A_i=(\text{a i-ésima retirada é rei}) $, onde $ i=1,2,3 $. Queremos encontrar a probabilidade $ \mathbb{P}(A_1\cap A_2 \cap A_3) $ pelo teorema 1.4.1 temos que:

$$\mathbb{P}(A_1\cap A_2 \cap A_3)=\mathbb{P}(A_3 | A_1\cap A_2)\cdot \mathbb{P}(A_2|A_1)\cdot \mathbb{P}(A_1)=\frac{2}{50}\cdot \frac{3}{51} \cdot \frac{4}{52}.$$

Exemplo 1.4.11

Suponha que a ocorrência de chuva (ou não) dependa de das condições do tempo no dia imediatamente anterior. Admitamos que se chova hoje, choverá amanhã com probabilidade de $ 0,7 $ e que se não chove hoje, então choverá amanhã com probabilidade de $ 0,4 $. Sabendo que choveu hoje, calcule a probabilidade de chover depois de amanhã.

Consideremos nosso espaço amostral $ \Omega = \lbrace (\omega_1, \omega_2, \omega_3) : \omega_i \in \lbrace \text{chover, não chover} \rbrace \rbrace $. Seja o evento $ A_1= \lbrace \text{chover hoje} \rbrace $, $ A_2= \lbrace \text{chover amanhã} \rbrace $ e $ A_3= \lbrace \text{chover depois de amanhã} \rbrace $. Queremos encontrar $ \mathbb{P}(A_3|A_1) $, mas

$$\mathbb{P}(A_3|A_1)=\mathbb{P}(\Omega \cap A_3|A_1)$$

$$ = \mathbb{P}(A_3 \cap (A_2\cup A_2^c)|A_1)$$

$$ =\mathbb{P}(A_3 \cap A_2 | A_1)+ \mathbb{P}(A_3 \cap A_2^{c} | A_1)$$

$$= \frac{\mathbb{P}(A_1 \cap A_2 \cup A_3)}{\mathbb{P}(A_1)}+\frac{\mathbb{P}(A_1 \cap A_2^c\cup A_3)}{\mathbb{P}(A_1)}$$

$$= \frac{\mathbb{P}(A_3|A_1\cap A_2) \cdot \mathbb{P}(A_2|A_1)\cdot \mathbb{P}(A_1)}{\mathbb{P}(A_1)}+\frac{\mathbb{P}(A_3|A_1\cap A_2^C) \cdot \mathbb{P}(A_2^C|A_1)\cdot \mathbb{P}(A_1)}{\mathbb{P}(A_1)}$$

$$= \mathbb{P}(A_3|A_1\cap A_2)\cdot \mathbb{P}(A_2|A_1) + \mathbb{P}(A_3|A_1\cap A_2^C)\cdot \mathbb{P}(A_2^C|A_1)$$

$$= \mathbb{P}(A_3|A_2)\cdot \mathbb{P}(A_2| A_1)+\mathbb{P}(A_3|A_2^C)\cdot \mathbb{P}(A_2^C| A_1)$$

$$= 0,7 \cdot 0,7 + 0,4 \cdot 0,3$$

$$=0,61$$

Ou seja, sabendo que choveu hoje, a probabilidade de chover depois de amanhã é de 61%.

Exemplo 1.4.12

Em um jogo de dados são jogados dois dados honestos simultaneamente, de forma independente. Considerando que os números das faces voltadas para cima dos dois dados são números diferentes, qual é a probabilidade de que a soma dos números seja $ 6 $?

Primeiramente vamos analisar o nosso espaço amostral. A tabela abaixo mostra todo o espaço amostral:

1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

Tabela 8.1.4: Espaço amostral

Seja $ A=(\text{Soma dos dados ser 6}) $ e $ B=(\text{O número dos dados serem distintos}) $. Observem na tabela cima que existem $ 30 $ possibilidades das $36$ para as quais os dois números são distintos. E dentre as possibilidades para os quais a soma é $ 6 $, existem $ 4 $ possibilidade para os quais os números são distintos. Assim a probabilidade $ P(A|B) $ é dada por

$$\mathbb{P}(A|B)=\frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)}=\dfrac{\frac{4}{36}}{\frac{30}{36}}=\frac{2}{15}.$$

Exemplo 1.4.13

Seja $ (\Omega, \mathbb{A}, \mathbb{P}) $ um espaço de probabilidade e suponha que todos os conjuntos abaixo pertençam a $ \mathbb{A} $. Prove:

(a) Se os $ A_n $ são disjuntos e $ \mathbb{P}(B|A_n)\geq c $ para todo $ n $, então

$$\mathbb{P}(B|\cup A_n)\geq c$$

(b) O item (a) com “=” no lugar de $ \geq $.

(c) Se $ A_n\supset A_{n+1} $ e $ \mathbb{P}(A_{n+1}|A_n)\leq \frac{1}{2} $ para todo n, então $ \mathbb{P}(A_n)\rightarrow 0 $ quando $ n\rightarrow \infty $.

(d) Se os $ A_n $ são disjuntos e $ \mathbb{P}(B| A_n)=\mathbb{P}(C|A_n) \quad \quad \forall n $, então

$$\mathbb{P}\left(B\bigg |\bigcup A_n\right)=\mathbb{P}\left(C\bigg|\bigcup A_n\right).$$

(e) Se $ A_1, A_2, \dots $ são disjuntos e $ \bigcup A_n=\Omega $, então

$$\mathbb{P}(B|C)=\sum_n \mathbb{P}(A_n|C)\mathbb{P}(B|A_n\cap C).$$

(a) Primeiramente observe que $ [B\cap(\cup A_n)]=\bigcup [B\cap A_n] $ o que implica que

$$\mathbb{P}[B\cap(\cup A_n)]=\sum \mathbb{P}[B\cap A_n].$$

Agora, dado que $ \mathbb{P}(B|A_n)\geq c $ temos que

$$\mathbb{P}(B\cap A_n)\geq c\mathbb{P}(A_n)$$

então temos que

$$\sum_n \mathbb{P}(B\cap A_n)\geq c \sum_n \mathbb{P}(A_n)=c\mathbb{P}\left(\bigcup_n A_n\right)$$

Então

$$\mathbb{P}(B\cap (\cup A_n))\geq c \mathbb{P}(\cup A_n)\Rightarrow \frac{\mathbb{P}(B\cap (\cup A_n))}{\mathbb{P}(\cup A_n)}\geq c\Rightarrow \mathbb{P}(B|\cup A_n)\geq c.$$

(b) A demonstração é análoga e obtemos $ \mathbb{P}(B|\cup A_n)=c. $

(c) Se $ A_n\supset A_{n+1} $ então

$$\mathbb{P}(A_n)=\mathbb{P}(A_1\cap \dots \cap A_{n})=\mathbb{P}(A_1)\mathbb{P}(A_2|A_1)\dots \mathbb{P}(A_n|A_1\cap A_2\cap \dots \cap A_{n-1})$$

$$=\mathbb{P}(A_1)\mathbb{P}(A_2|A_1)\dots \mathbb{P}(A_n|A_{n-1})$$

Agora $ 0\leq \mathbb{P}(A_1)\leq 1 $$ 0\leq \mathbb{P}(A_i|A_{i-1})\leq \frac{1}{2} $, para $ i=1,2,3, \dots $. Desta forma,

$$0\leq \mathbb{P}(A_n)\leq \frac{1}{2^{n-1}}$$

o que implica que

$$0\leq \lim_{n\rightarrow \infty}\mathbb{P}(A_n)\leq 0$$

o que implica que $ \lim_{n\rightarrow \infty}\mathbb{P}(A_n)=0 $.

(d) Então,

$$\mathbb{P}\left(B|\bigcup A_n\right)=\frac{\mathbb{P}(B\cap(\cup A_n))}{\mathbb{P}(\cup A_n)}=\frac{\mathbb{P}(\cup(B\cap A_n))}{\mathbb{P}(\cup A_n)}=\frac{\sum \mathbb{P}(B\cap A_n)}{\mathbb{P}(\cup A_n)}=\frac{\sum_{n}\mathbb{P}(C|A_n)\mathbb{P}(A_n)}{\mathbb{P}(\cup A_n)}$$

$$=\frac{\sum \mathbb{P}(C\cap A_n)}{\mathbb{P}(\cup A_n)}=\frac{\mathbb{P}(\cup C\cap A_n)}{\mathbb{P}(\cup A_n)}=\mathbb{P}(C|\cup A_n)$$

(e) Temos

$$\sum \mathbb{P}(A_n| C)-\mathbb{P}(B| A_n\cap C)=\sum \frac{\mathbb{P}(A_n\cap C)}{\mathbb{P}(C)}\frac{\mathbb{P}(B\cap C\cap A_n)}{\mathbb{P}(A_n\cap C)}=\frac{1}{\mathbb{P}(C)}\sum_n \frac{\mathbb{P}((B\cap C)\cap A_n)}{\mathbb{P}(A_n)}$$

$$=\frac{1}{\mathbb{P}(C)}\sum \mathbb{P}(B\cap C|A_n)=\frac{\mathbb{P}(B\cap C)}{\mathbb{P}(C)}=\mathbb{P}(B|C)$$

Exemplo 1.4.14

Certo experimento consiste em lançar um dado equilibrado duas vezes independentemente. Dado que os dois números sejam diferentes, qual é a probabilidade condicional de

(a) pelo menos um dos números ser 6, e

(b) a soma dos números ser 8?

(a) $ A=(\text{Evento de dois número diferentes}) $, então $ \mathbb{P}(A)=\frac{30}{36}=\frac{5}{6} $.

$ B=(\text{ Pelo menos 1 número ser 6 }) $, $ \mathbb{P}(B)=\frac{11}{36} $, $ \mathbb{P}(B\cap A)=\frac{10}{36}=\frac{5}{18} $

$ C=(\text{ A soma dos numeros é 8 }). $$ \mathbb{P}(C)=\frac{5}{36} $, $ \mathbb{P}(C\cap A)=\frac{4}{36}=\frac{1}{9} $

Então, $ \mathbb{P}(B|A)=\dfrac{\mathbb{P}(B\cap A)}{\mathbb{P}(A)}=\dfrac{\frac{5}{18}}{\frac{5}{6}}=\frac{1}{3} $,

$ \mathbb{P}(C|A)=\dfrac{\mathbb{P}(C\cap A)}{\mathbb{P}(A)}=\dfrac{\frac{1}{9}}{\frac{5}{6}}=\frac{2}{15} $

Exemplo 1.3.15

Durante o mês de novembro a probabilidade de chuva é de 0,3. O Fluminense ganha um jogo em um dia com chuva com a probabilidade 0,4; em um dia sem chuva com a probabilidade 0,6. Se ganhou um jogo em novembro, qual é a probabilidade de que choveu nesse dia ?

Defina $ C= \lbrace \text{ ocorrer chuva em novembro } \rbrace $ e $ G = \lbrace \text{ evento fluminense ganha em novembro } \rbrace $.

$$\mathbb{P}(G|C)=0,4, \quad \quad \mathbb{P}(G^c|C)=0,6 \quad\quad \mathbb{P}(G|C^c)=0,6$$

Então

$$\mathbb{P}(C|G)=\frac{\mathbb{P}(C\cap G)}{\mathbb{P}(G)}=\frac{\mathbb{P}(C)\mathbb{P}(G|C)}{\mathbb{P}(G|C)\mathbb{P}(C)+\mathbb{P}(G|C^c)\mathbb{P}(C^c)}=\frac{0,3\times 0,4}{0,3\times 0,4+0,6\times 0,7}=\frac{2}{9}$$

Exemplo 1.3.16

Sejam $ A_1, \dots, A_n $ eventos aleatórios independentes, com $ p_k=\mathbb{P}(A_k),k=1,\dots, n $. Obtenha a probabilidade de ocorrência dos seguintes eventos em termos das probabilidades $ p_k $

(a) A ocorrência de nenhum dos $ A_k $.

$$B_a=\left[\bigcup_{k=1}^n A_k\right]^c=\left[\bigcap_{k=1}^n A_k^c\right]$$

o que implica que pela independência temos que

$$\mathbb{P}(B_a)=\prod_{k=1}^n(1-\mathbb{P}(A_k))=\prod_{k=1}^n(1-p_k)$$

(b) A ocorrência de pelo menos um dos $ A_k $

$$B_b=\left[\bigcup_{k=1}^n A_k\right]=\left[\bigcap_{k=1}^n A_k^c\right]^c$$

o que implica que pela independência temos que

$$\mathbb{P}(B_b)=1-\prod_{k=1}^n(1-\mathbb{P}(A_k))=1-\prod_{k=1}^n(1-p_k)$$

(c) A ocorrência de exatamente um dos $ A_k $

$$B_c=\bigcup_{k=1}^n\left[\bigcap_{j=1; ~ j\neq k}^n A_j^c\right]\cap A_k$$

o que implica que pela independência temos que

$$\mathbb{P}(B_c)=\sum_{k=1}^n\mathbb{P}(A_k)\prod_{j=1;~ j \neq k}^n(1-\mathbb{P}(A_j))=\sum_{k=1}^ np_k \prod_{j=1; ~ j\neq k}^n (1-p_j)$$

(d) A ocorrência de exatamente um dois dos $ A_k $

$$B_d=\bigcup_{1\leq i< j \leq n}\left[\bigcap_{k=1;~ k\neq {i,j}}^n A_k^c\right]\cap A_i\cap A_j$$

o que implica que pela independência temos que

$$\mathbb{P}(B_d)=\sum_{1\leq i< j \leq n}\mathbb{P}(A_j)\mathbb{P}(A_i)\prod_{k=1; ~ k\neq (i,j)}(1-\mathbb{P}(A_k))=\sum_{1\leq i< j \leq n}p_jp_i\prod_{k=1;~ k\neq (i,j)}(1-p_j)$$

(e) A ocorrência de todos os $ A_k $

$$B_e=\bigcap_{j=1}^n A_j$$

o que implica que pela independência temos que

$$\mathbb{P}(B_e)=\prod_{j=1}^n \mathbb{P}(A_j)=\prod_{j=1}^n p_j$$

(f) A ocorrência de, no máximo, n-1 dos $ A_k $.

$$B_f=\left(\bigcap_{j=1}^n A_j\right)^c$$

o que implica que pela independência temos que

$$\mathbb{P}(B_f)=1-\prod_{j=1}^n \mathbb{P}(A_j)=1-\prod_{j=1}^n p_j$$

Exemplo 1.4.17

Sejam $ A_1, \dots, A_n $ eventos aleatórios independentes, com $ p_k=\mathbb{P}(A_k), k=1, \dots, n $. Faça uma adaptação das desigualdades de Bonferroni para este caso, expressando-as em termos das $ p_k $.

Utilizando as desigualdades de Bonferroni obtemos

i)

$$\sum_{i=1}^n p_i-\sum_{1\leq i< j \leq n}p_ip_j\leq \mathbb{P}\left(\bigcup_{i=1}^n A_k\right) \leq \sum_{i=1}^n p_i-\sum_{1\leq i< j\leq n}p_ip_j+\sum_{1\leq i< j< k\leq n}p_ip_j p_k$$

ii) Se $ k $ é impar, $ k\leq n $, então:

$$\mathbb{P}\left(\bigcup_{i=1}^n A_i\right)\leq \sum_{i=1}^n p_i-\sum_{1\leq i_1< i_2\leq n}p_{i_1}p_{i_2}+\dots+(-1)^{k-1}\sum_{1\leq i_1< i_2< \dots < i_k\leq n}p_{i_1}p_{i_2}\dots p_{i_k}.$$

Se $ k $ é par vale $ \geq $.

1.5 - Espaço de probabilidade

A definição axiomática da probabilidade, proposta por Kolmogorov, pouco nos diz sobre a construção da probabilidade sobre a classe de eventos . Caso estejamos trabalhando com espaço amostral finito e eventos equiprováveis, podemos utilizar a estratégia de Laplace para calcularmos a probabilidade de ocorrência dos eventos. Porém, para experimentos com espaços amostrais infinitos não enumeráveis, a construção da classe de eventos e da probabilidade definida sobre esta classe, requer conceitos da teoria da medida. Como ilustração, iniciamos este tópico com o experimento de selecionarmos um ponto ao acaso no intervalo $ (0,1] $, no qual o espaço amostral é infinito não enumerável.

1.5.1 - Medidade de Lebesgue no intervalo (0,1]

Nesta seção estamos interessados em estudar o experimento de selecionar um ponto ao acaso no intervalo $ (0,1] $. Para este experimento, o espaço amostral é dado por $ \Omega = (0,1] $, que não é enumerável. Assim, a construção da classe de eventos e a construção da probabilidade sobre esta classe deve ser realizada com cuidado. A classe de eventos, denominada $ \sigma $-álgebra de Borel, será construída a partir de intervalos do espaço amostral juntamente com as operações de união, intersecção e complementar. Paralelamente, utilizaremos a estratégia de construção de números reais para construirmos uma probabilidade (ou medida de Lebesgue, ou distribuição uniforme) sobre a classe de eventos, que representa a probabilidade do ponto selecionado pertencer aos eventos da $ \sigma $-álgebra de Borel.

Vamos construir a classe de eventos a partir intervalos abertos à esquerda e fechados à direita, na forma $ I = (a, b] $ com $ 0 \ < \ a \ < \ b \leq 1 $. Denotamos por $ \mathfrak{I}_0 $ a classe de subconjuntos de $ \Omega $ dada por:

$$ \mathfrak{I}_0 = (∅; Ω; (a,b]:0 < a < b ≤ 1.) $$

Com isso, definimos a função de conjunto $ |⋅| : \mathfrak{I}_0\to [0,1] $ como

$$|I| =|b-a| = b-a \ \ \ \text{se} \ \ \ I \in\mathfrak{I}_0,$$

que representa o “tamanho” do intervalo. Observe que estamos definindo nossa função de conjunto $ | \cdot | $ de forma intuitiva, pois o termo “ao acaso” nos diz que a “chance” do ponto selecionado pertencer ao intervalo é diretamente proporcional ao seu tamanho. Para estudarmos propriedades desta classe de eventos, introduzimos o conceito de semi-álgebra.

Definição 1.5.1.1 (Semi-Álgebra)

Uma classe $ \mathcal{X} $ de subconjuntos de $ \Omega $ é denominada semi-álgebra se esta satisfaz as seguintes condições:

  • $ \emptyset, \Omega \in \mathcal{X} $

  • Se $ A, B \in \mathcal{X} $ então $ A \cap B \in \mathcal{X} $

  • Se $ A \in \mathcal{X} $ então existe $ \lbrace B_i \rbrace ^n_{i=1} \in \mathcal{X}_0 $ tal que $ A^c = \bigcup_{i=1}^n B_i $ com $ B_i \cap B_j = \emptyset $ para $ i\neq j $.

A seguir, vamos mostrar que a classe $ \mathfrak{I}_0 $ é uma semi-álgebra.

Proposição 1.5.1.1

A classe de eventos $ \mathfrak{I}_0 $ é uma semi-algebra.

Prova

Por definição de $ \mathfrak{I}_0 $, $ \emptyset \in \mathfrak{I}_0 $ e $ \Omega\in\mathfrak{I}_0 $, o que mostra que o item 1 está satisfeito. Para mostrar que o item 2 é satisfeito, considere $ A_1 = (a_1, b_1], e A_2 = (a_2, b_2] \in \mathfrak{I}_0 $. Se $ A_1 \cap A_2 = \emptyset $, então $ A_1\cap A_2 \in\mathfrak{I}_0 $. Se $ A_1\cap A_2\neq \emptyset $, três casos podem ocorrer. O primeiro consiste de $ A_1 $ estar inteiramente contido em $ A_2 $. Neste caso, $ A_1\cap A_2 = A_1\in\mathfrak{I}_0 $. O segundo caso consiste de $ A_2 $ estar inteiramente contido em $ A_1 $ e, neste caso, $ A_1\cap A_2 = A_2\in\mathfrak{I}_0 $ e o terceiro caso, consiste na inclusão não estrita. Neste caso, podemos supor, sem perda de generalidade, que $ a_1 \leq a_2 \ < b_1\leq b_2 $ e, desta forma,

$$A_1 \cap A_2 = (a_2,b_1] \in \mathfrak{I}_0.$$

Para verificar o item 3, seja $ A = (a, b] \in \mathfrak{I}_0 $ então $ A^c = (0, a] \cup (b, 1] $ e, apesar de $ A^c \notin \mathfrak{I}_0 $, obtemos que $ A^c $ é união disjunta de elementos de $ \mathfrak{I}_0 $, já que $ (0,a] $ e $ (b,1] $ pertencem a $ \mathfrak{I}_0 $. Com isso, concluímos a proposição.

Com objetivo de estendermos a classe de eventos $ \mathfrak{I}_0 $ de tal forma que esta acomode as operações de união finita e complementar, tomamos a classe de conjunto $ \mathcal{A} $ formada por uniões finitas disjuntas de elementos de $ \mathfrak{I}_0 $, na forma

$$ A = \lbrace A \subset (0,1] : \ A = B_1\cup B_2\cup \dots \cup B_n; B_i \in \mathfrak{I}_0 \ \text{e} \ B_i \cap B_j = \emptyset \rbrace.$$

Com isso, aumentamos a classe de conjuntos $ \mathfrak{I}_0 $ com novos eventos formado por operações de união finita disjunta de elementos elementares em $ \mathfrak{I}_0 $. Para estudarmos propriedades da classe de eventos $ \mathcal{A} $ introduzimos o conceito de álgebra.

Definição 1.5.1.2 (Álgebra)

Dizemos que uma classe de conjunto $ \mathcal{X} $ é uma álgebra, se satisfaz as seguintes condições:

  • $ \emptyset \in \mathcal{X} $

  • Se $ A, B \in \mathcal{X} $ então $ A \cap B \in \mathcal{X} $

  • Se $ A \in \mathcal{X} $ então $ A^c \in \mathcal{X} $

Na sequência, apresentamos algumas propriedades da álgebra de eventos que deixaremos como exercício.

Exercício 1

Considere $ S $ um conjunto qualquer e $ \mathcal{E} $ uma classe de eventos. Mostre que:

a) Se $ S \in \mathcal{E} $ e para todo $ A,B \in \mathcal{E} $, temos que $ A-B=A\cap B^c \in \mathcal{E} $. Então, obtemos que $ \mathcal{E} $ é uma álgebra;

b) Suponha que $ S \in \mathcal{E} $ e que $ \mathcal{E} $ é fechada para operação de complementar e união finita disjunta. Mostre que $ \mathcal{E} $ não necessariamente é uma álgebra.

c) Sejam $ \mathcal{E}_1, \mathcal{E}_2, \cdots $ classes de subconjuntos de $ S $. Suponha que $ \mathcal{E}_n $ são álgebras tais qe $ \mathcal{E}_i \subset \mathcal{E}_{i+1} $ . Mostre que $ \cup_{i=1}^n \mathcal{E}_i $ é uma álgebra.

Exercício 2

Dado $ S $ um conjunto qualquer e $ \mathcal{E} $ uma classe formada por subconjuntos de $ S $. A álgebra $ a(\mathcal{E}) $ gerada por $ \mathcal{E} $ é definida como a intersecção de todas as álgebras em $ S $ que contém $ \mathcal{E} $. Mostre que $ a(\mathcal{E}) $ é uma algebra tal que $ \mathcal{E} \subset a(\mathcal{E}) $ e que $ a(\mathcal{E}) $ é minimal no seguinte sentido: se $ \mathcal{G} $ é outra álgebra que contém $ \mathcal{E} $, então $ a(\mathcal{E}) \subset \mathcal{G} $.

A seguir, vamos mostrar que a classe de eventos $ \mathcal{A} $ satisfaz as propriedades de álgebra. Assim, obtemos que esta classe é fechada por operações de união e intersecção finita de conjuntos e também é fechada por operação de complementar.

Proposição 1.5.1.2

A classe de conjuntos $ \mathcal{A} $ é uma álgebra.

Prova

Por construção da classe de conjuntos $ \mathcal{A} $, temos que $ \emptyset\in\mathcal{A} $.

Sejam, $ A $ e $ B $ conjuntos de $ \mathcal{A} $, então $ A = A_1\cup \dots \cup A_n $ e $ B = B_1 \cup \dots \cup B_m $ disjuntos. Definimos $ C_{ij} = A_i \cap B_j $. Como $ A_i $ e $ B_j $ pertencem a $ \mathfrak{I}_0 $, que é uma semi álgebra, temos que $ A_i\cap B_j \in \mathfrak{I}_0 $. Observe que $ A\cap B = \cup^n_{i=1} \cup^m_{j=1} C_{ij} $ e então, $ A \cap B $ é união finita de elementos de $ \mathfrak{I}_0 $. Portanto, concluímos que $ A \cap B $ pertence a $ \mathcal{A} $.

Agora, nos resta mostrar a terceira propriedade de álgebra. Se $ A\in \mathcal{A} $, então $ A = A_1\cup \dots \cup A_n $ disjuntos. Ao aplicarmos a lei de De' Morgan, obtemos que

$$A^c = (\bigcup^n_{i=1}A_i)^c = \bigcap^n_{i=1} A^c_i.$$

Assim, $ A^c $ é interseção finita disjunta de elementos de $ \mathcal{A} $ e portanto pertence à classe de conjuntos $ \mathcal{A} $. Com isso, provamos que a classe $ \mathcal{A} $ é uma álgebra.

Na sequência, vamos estender a função de conjunto $ |\cdot| $, que está definida na semi-álgebra $ \mathfrak{I}_0 $, para uma função de conjunto $\lambda : \mathcal{A}\to[0,1] $ definida na álgebra $ \mathcal{A} $, de forma que para um intervalo $ A\in\mathfrak{I}_0 $ , $ |A| = \lambda (A) $. Assim, a restrição de $ \lambda $ sobre $ \mathfrak{I}_0 $ é igual a $ |\cdot| $. Neste sentido, dado um conjunto $ A\in \mathcal{A} $, sabemos que $ A=B_1\cup \cdots \cup B_n $ tal que $ B_i \in \mathfrak{I}_0 $, $ B_i \cap B_j = \emptyset $ para $ i\neq j $, então definimos

$$ \lambda(A) = \sum_{i=1}^n | B_i|.$$

Podemos mostrar que, apesar de $ A $ ter várias representações na álgebra de eventos $ \mathcal{A} $, a definição da função de conjunto $ \lambda $ é independente da representação. De fato, se tomarmos $ A=\cup_{\ell=1}^n I_{\ell}=\cup_{i=1}^m J_i $ no qual $ (I_{\ell}) $ e $ (J_{i}) $ são representações para $ A $, obtemos que

$$ \sum_{\ell=1}^n I_{\ell}=\sum_{\ell=1}^n \sum_{i=1}^m |I_{\ell}\cap J_{i}|=\sum_{i=1}^m |J_i|.$$

Assim, obtemos que a definição da função de conjunto $ \lambda $ é consistente.

Dizemos que uma função de conjunto $ \mu $ é $ \sigma $-aditiva na álgebra $ \mathcal{A} $ se, para toda sequência $ A_1 , A_2 , \cdots $ de elementos de $ \mathcal{A} $ disjuntos $ (A_i \cap A_j = \emptyset, ~i \neq j) $ tal que $ \bigcup A_i \in \mathcal{A} $, temos que

$$ \mu (\bigcup_{i=1}^{\infty}A_i) = \sum_{i=1}^{\infty} \mu (A_i). $$

A seguir, vamos mostrar que a função de conjunto $ \lambda $ satisfaz a propriedade de $ \sigma $-aditividade na álgebra.

Teorema 1.5.1.1

A função de conjunto $ \lambda $ é $ \sigma $-aditiva sobre a álgebra de eventos $ \mathcal{A} $.

A prova do Teorema 1.5.1 será dada através de dois lemas.

Lema 1.5.1.1

Se $ \bigcup_k (a_k, b_k] \subset (a, b] $ é uma sequência disjunta, finita ou infinita de intervalos $ (a_k, b_k] $, então

$$\sum_k (b_k - a_k) \leq (b - a)$$

Prova

Suponha que exista um número finito de intervalos, digamos $n$.

É claro que, para $ n = 1 $, a condição é satisfeita. Suponha que a hipótese seja válida para $ n-1 $ intervalos, vamos mostrar que esta também permanece satisfeita para $ n $ intervalos. Como os intervalos são disjuntos e a reta real é totalmente ordenada, podemos considerar o intervalo $ (a_n,b_n] $ de forma que $ a_n $ seja o máximo valor entre $ a_1, a_2, \dots , a_n $ e, desta forma, $ \bigcup^{n-1}_{k=1} (a_k, b_k] \subset (a, a_n] $

Então $ \sum^{n-1}_{k=1} (b_k - a_k) \leq (a_n - a) $ pela hipótese de indução e por isso,

$$\sum^n_{k=1} (b_k - a_k) \leq (a_n - a) + (b_n - a_n) \leq b - a.$$

Se existem infinitos intervalos, cada subcoleção finita de intervalos satisfaz a hipótese do Lema 1.5.1.1 e assim $ \sum^n_{k=1} (b_k - a_k) \leq (b - a) $ pelo caso tratado. Mas como $ n $ é arbitrário, o resultado segue.

Lema 1.5.1.2

Se $ (a, b] \subset \bigcup_k (a_k, b_k] $ para uma sequência finita ou infinita de intervalos (não necessariamente disjuntos), então $ b - a \leq \sum_{k} (b_k - a_k) $

Prova: Está claro que para $ n = 1 $ a condição é satisfeita. Suponha que o resultado seja válido para $ n-1 $ e que $ (a, b] \subset \bigcup^n_{k=1} (a_k, b_k] $. Suponha que $ a_n \ < \ b \leq b_n $. Se $ a_n \leq a $ o resultado segue imediatamente. Caso contrário, se $ (a,a_n] \subset \bigcup^{n-1}_{k=1} (a_k, b_k] $ então

$$\sum^{n-1}_{k=1} (b_k - a_k) \ge (a_n - a),$$

pela hipótese de indução. Logo,

$$\sum^n_{k=1} (b_k - a_k) \ge (a_n - a) + (b_n - a_n) \ge (b - a).$$

Portanto, o caso finito segue por indução.

Agora suponha que $ (a, b] \subset \bigcup_{k=1}^{\infty} (a_k, b_k]. $ Se $ 0 < \varepsilon < b - a $ os intervalos abertos $ (a_k, b_k + \varepsilon 2^{-k}) $ formam uma cobertura do intervalo fechado $ [a + \varepsilon , b] $. Como consequência do Teorema de Heine - Borel obtemos que $ (a + \varepsilon , b] \subset [a + \varepsilon , b] \subset \bigcup_{k=1}^n(a_k, b_k + \varepsilon 2^{-k}) $ para algun $n$. Desta forma, concluímos que $ (a + \varepsilon , b] \subset \bigcup_{k=1}^{n} (a_k , b_k + \varepsilon 2^{-k}] $. Assim, ao aplicarmos o caso finito, temos que

$$b - (a + \varepsilon ) \leq \sum^n_{k=1} (b_k + \varepsilon 2^{-k} - a_k) \leq \sum^n_{k=1} (b_k - a_k) + \varepsilon .$$

Como $ \varepsilon $ é arbitrário segue o resultado.

Estes dois lemas apresentam os ingrediente básicos para demonstrarmos o Teorema 1.5.1.1. Para isto, tomamos $ A=\cup_k A_k $, no qual $ A $ e os $ ( A_k) $ são elementos da álgebra de eventos $ \mathcal{A} $, no qual $ A_i \cap A_j = \emptyset $ para todo $ i\neq j $. Desta forma, obtemos que $ A= \cup_{\ell=1}^{n} I_{\ell} $ e $ A_k = \cup_{i=1}^{m_k} J_{k,i} $ são uniões finitas disjuntas de elementos de $ \mathfrak{I}_0 $. Assim, a partir dos lemas e da definição da função de conjunto $ \lambda $, temos que

$$ \lambda(A)=\sum_{\ell=1}^n |I_{\ell}|=\sum_{\ell=1}^n \sum_{k=1}^{\infty} \sum_{i=1}^{m_k} |I_{\ell}\cap J_{k,i}|=\sum_{k=1}^{\infty} \sum_{i=1}^{m_k} |J_{k,i}|=\sum_{k=1}^{\infty}\lambda(A_k).$$

Com isso, obtemos que a função de conjunto $ \lambda $ é $ \sigma $-aditiva na álgebra de eventos $ \mathcal{A} $. Se $ A = \bigcup I_n \in \mathcal{A} $ é união enumerável disjunta de elementos de $ \mathcal{A} $, obtemos que

$$\lambda (A) = \sum^{\infty}_{n=1} \lambda (I_n).$$

O teorema 1.5.1 é o ponto de partida para a construção da medida de Lebesgue. O caso finito dos lemas 1.5.1 e 1.5.2 é uma aplicação do princípio da indução. No lema 1.5.1 a passagem do caso finito para infinito é simples. Entretanto, a passagem do caso finito para o caso infinito no lema 1.5.2 envolve o conceito de compacidade (Teorema de Heine-Borel).

Para a maioria das aplicações, os eventos dados pela álgebra são suficientes para descrever o experimento e seus objetivos. Entretanto, em alguns casos, precisamos lidar com operações enumeráveis de eventos, o que não é coberto pela álgebra $ \mathcal{A} $. Por exemplo, ao avaliarmos convergência de variáveis aleatórias lidamos com operações enumeráveis de conjuntos. Assim, precisamos estender a função de conjunto $ \lambda $ sobre uma classe de conjuntos que acomode operações enumeráveis com eventos. A seguir, vamos estender a função de conjunto $ \lambda $ definida sobre a álgebra $ \mathcal{A} $ para uma classe maior de eventos denominada $ \sigma $-álgebra de Borel. Para isto, começamos relembrando o conceito de $ \sigma $-álgebra.

Definição 1.5.1.3

Uma $ \sigma $-álgebra $ \mathcal{E} $ é uma coleção de subconjuntos do espaço amostral $ \Omega $ que satisfaz as seguintes condições:

  • $ \Omega \in \mathcal{E} $.

  • Se $ A \in \mathcal{E} $ então $ A^{c} \in \mathcal{E} $.

  • Se $ (A_j)_{j \in \mathbb{N}} $ é uma sequência de elementos de $ \mathcal{E} $ então $ \bigcup_{j \in \mathbb{N}} A_j \in \mathcal{E} $.

Na sequência, apresentamos dois exemplos elementares de $ \sigma $-álgebras.

Exemplo 1.5.1.1

Seja $ \Omega $ um conjunto qualquer. O conjunto das partes de $ \Omega $, denotado por $ 2^{\Omega} $ é uma $ \sigma $-álgebra. A demonstração deste fato é imediata, uma vez que $ \Omega\in 2^{\Omega} $, se $ A\in 2^{\Omega} $, então $ A^c=\Omega-A\in 2^{\Omega} $ e se $ (A_j)_{j\in\mathbb{N}}\in 2^{\Omega} $ então $ \bigcup_{j=1}^\infty A_j \in 2^{\Omega} $. Esta $ \sigma $-álgebra é denominada $ \sigma $-álgebra maximal do conjunto $ \Omega $.

Exemplo 1.5.1.2

Seja $ \Omega $ um conjunto não enumerável e considere a classe $ \mathcal{E} $ dada por

$$ \mathcal{E} = \lbrace A \subset \Omega: A \text{ é enumerável ou} \ A^c \ \text{é enumerável} \rbrace.$$

Então $ \mathcal{E} $ é uma $ \sigma $-álgebra. De fato, temos que $ \Omega \in \mathcal{E} $ pois $ \Omega^c = \emptyset $ é um conjunto enumerável. Se $ A \in \mathcal{E} $ então ou $ A $ é enumerável ou $ A^c $ é enumerável, mas então ou $ A^c $ é enumerável ou $ (A^c)^c = A $ é enumerável, logo $ A^c \in \mathcal{E} $. Seja $ (A_j )_{j \in \mathbb{N}} \subset \mathcal{E} $ e considere $ \cup A_j $. Neste caso, duas coisas podem ocorrer:

  1. Todos os elementos de $ (A_j) $ são enumeráveis. Neste caso $ \bigcup_{j \in \mathbb{N}} A_j $ é uma união enumerável de conjuntos enumeráveis, que é um conjunto enumerável, logo $ \cup_{j \in \mathbb{N}} A_j \in \mathcal{E} $.

  2. Por outro lado, suponha que ao menos um elemento $ A_{j_0} $ seja não enumerável, neste caso obtemos que $ A^c_{j_0} $ é enumerável. Desta forma, concluímos que

$$\left(\bigcup_{j \in \mathbb{N}} A_j\right)^c = \bigcap_{j \in N} A^c_j \subset A^c_{j_0}.$$

Logo $ \left(\bigcup_{j\in\mathbb{N}}A_j\right)^c $ é enumerável e assim $ \bigcup_{j \in \mathbb{N}} A_j \in \mathcal{E} $. Assim, obtemos que $ \mathcal{E} $ é uma $ \sigma $-álgebra.

Dado um conjunto qualquer $ S $ e $ \mathcal{G} $ uma classe não vazia de subconjuntos de $ S $. A $ \sigma $-álgebra gerada por $ \mathcal{G} $, que será denotada por$ \sigma(\mathcal{G}) $, é a menor $ \sigma $-álgebra que contém a classe de eventos $ \mathcal{G} $. Obviamente, precisamos checar se tal “menor” $ \sigma $-álgebra existe. Para isto, basta mostrarmos o seguinte fato. Dado $ \mathbb{X} $ uma coleção não vazia de $ \sigma $-álgebras de subconjuntos $ S $, a intersecção $ \cap \mathbb{X} $ das $ \sigma $-álgebras também é uma $ \sigma $-álgebra. Aqui, tomamos

$$ \cap \mathbb{X} = \lbrace A \subset \mathcal{F},~ ~\text{para toda}~~\mathcal{F}\in \mathbb{X} \rbrace.$$

Este fato, de fácil demonstração será deixado para o leitor verificar. Dado uma classe não vazia $ \mathcal{G} $ de subconjuntos de $ S $, denotamos por $ \mathbb{X}_{\mathcal{G}} $ a coleção de todas as $ \sigma $-álgebras que contém a classe $ \mathcal{G} $. Desde que o conjunto das partes $ 2^{S}\in \mathbb{X}_{\mathcal{G}} $, concluímos que $ \mathbb{X}_{\mathcal{G}} $ é não vazio. Assim, a classe de conjuntos $ \cap \mathbb{X}_{\mathcal{G}} $ é a menor $ \sigma $-álgebra que contém $ \mathcal{G} $, no qual “menor” significa que para qualquer $ \sigma $-álgebra $ \mathcal{F} $ tal que $ \mathcal{G}\subset \mathcal{F} $, temos que $ \cap\mathbb{X}_{\mathcal{G}} \subset \mathcal{F} $. Portanto, concluímos que $ \cap \mathbb{X}_{\mathcal{G}}=\sigma(\mathcal{G}). $ Obviamente, se $ \mathcal{G} $ é uma $ \sigma $-álgebra obtemos que $ \sigma(\mathcal{G}) = \mathcal{G}. $

A $ \sigma $-álgebra de Borel dos subconjuntos do intervalo $ (0,1] $, que será denotada por $ \beta((0,1]) $, é a menor $ \sigma $-álgebra que contém a álgebra de eventos $ \mathcal{A} $. Obviamente que esta classe contém conjuntos na forma: $ [1/2,2/3];(1/2) $. Para provarmos este fato, basta observarmos que intervalos fechado podem ser gerados a partir de intersecções enumeráveis de intervalos aberto (e, vice versa). Por exemplo, temos que

$$(a,b)=\cup_{i=1}^{\infty} (a,b-\frac{1}{n}],\quad [a,b)=\cap_{i=1}^{\infty} (a-\frac{1}{n},b),\quad (a)=\cap_{i=1}^{\infty} [a,a+\frac{1}{n})\quad \text{e} \quad [a,b]=[a,b)\cup (b).$$

Desde que, todo subconjunto aberto do intervalo $ (0,1] $ é a união enumerável de intervalos aberto disjuntos, concluímos que os conjuntos aberto são elementos da $ \sigma $-álgebra de Borel $ \beta((0,1]) $.

Exercício 3

Mostre que a $ \sigma $-álgebra de Borel do intervalo $ (0,1] $ é a menor $ \sigma $-álgebra que contém:

  • os intervalos abertos, na forma: $ (a,b) $ tal que $ 0< a< b\leq 1 $; ou

  • os intervalos fechados, na forma:$ [a,b] $ tal que $ 0< a< b\leq 1 $; ou

  • os conjuntos abertos; ou

  • os conjuntos fechados; ou

  • os conjuntos compactos.

Exercício 4

Mostre que existe uma sequência de conjuntos $ \mathcal{D}=(D_1,D_2, \cdots ) $ que gera a $ \sigma $-álgebra de Borel.

O teorema 1.5.1.1 nos garante que a função de conjunto $ \lambda $ é $ \sigma $-aditiva sobre álgebra de eventos $ \mathcal{A} $. A extensão da função de conjunto $ \lambda $ para a $ \sigma $-álgebra gerada por $ \mathcal{A} $ será denotada por $ \mathbb{P} $ e denominada medida de Lebesgue ou probabilidade uniforme. Esta construção segue do teorema de extensão de Caratheodory.

1.5.2 - Espaço de Cantor

O espaço de Cantor é um espaço metrizável compacto que é a base para a construção dos principais espaços de probabilidade. Aqui, definimos o espaço de Cantor $ S^{\infty} $ como o produto Cartesiano enumerável do espaço $ S=(0, 1) $, isto é, $ S^{\infty} $ é o espaço das sequências de zeros e uns. Com base nesta definição, vamos construir a classe de eventos mensuráveis através do produto das $ \sigma $- álgebras elementares do espaço binário $ S $, que será denotada por $ \mathcal{A} $. Através de propriedades simples do espaço mensurável $ (S^{\infty}, \mathcal{A}) $, mostraremos que toda probabilidade $ \mathbb{P} $ sobre $ (S^{\infty}, \mathcal{A}) $, satisfaz

$$\mathbb{P}(A) = \sup \lbrace (\mathbb{P}(C): C \subset A, C \in \xi) \rbrace ~~~ A \in \mathcal{A},$$

no qual $ \xi $ é a classe dos subconjuntos compactos do $ S^{\infty} $.

Por outro lado, ao tomarmos $ S $ com a topologia discreta e $ S^\infty $ com a topologia produto $ \tau $ de Tychonov, mostraremos que $ S^\infty $ é um espaço metrizável compacto. Com a topologia produto, mostramos que $ \mathcal{A} $ corresponde a $ \sigma $-álgebra gerada pelos abertos e que que $ \xi $ é a classe dos subconjuntos compactos. Desde que $ S^\infty $ é o produto enumerável do espaço binário $ S $, facilmente mostramos que $ \tau $ é separável e Hausdorff. Estas mesmas propriedades são estendidas a $ \sigma $-álgebra $ \mathcal{A} $. Portanto o espaço mensurável $ (S^{\infty}, \mathcal{A}) $ é separável, Hausdorff e toda probabilidade $ \mathbb{P} $ sobre $ \mathcal{A} $ pode ser aproximada pela probabilidade $ \mathbb{P} $ sobre a classe de conjuntos compactos $ \xi $.

Espaço de Probabilidade

Ao lançarmos uma moeda, obtemos como resultado do lançamento cara ou coroa. Denotamos por $ \Omega_0 $ o espaço formado pelos possíveis resultados obtido no lançamento, isto é, $ \Omega _0 = \lbrace \text{cara}, \text{coroa} \rbrace $. Sobre o espaço amostral $ \Omega_0 $ associamos a função indicadora $ \mathbb{I}_{ \lbrace \hbox{cara} \rbrace }: \Omega_0 \to \lbrace 0, 1 \rbrace $, por

$$\mathbb{I}_{\lbrace \text{cara}\rbrace } (\omega) = \begin{cases} 1, \ \hbox{se} \ \omega = \text{cara} \cr 0, \ \hbox{se} \ \omega = \text{coroa} \end{cases} $$

para todo $ \omega \in \Omega_0 $. Esta função estabelece uma bijeção entre $ \Omega_0 $ e $ S = \lbrace 0, 1 \rbrace $ e, com isso, podemos identificar estes espaços. Os eventos associados ao lançamento da moeda correspondem à classe dos subconjuntos de $ \Omega_0 $, que denotamos por $ \mathcal{A}_0 = \lbrace \emptyset , \lbrace \text{cara} \rbrace , \lbrace \text{coroa} \rbrace, \Omega_0 \rbrace $. Através da bijeção $ \mathbb{I}_{\lbrace \hbox{cara} \rbrace} $ também podemos identificar a classe dos eventos $ \mathcal{A}_0 $ com a classe $ \mathcal{F}_1 = \lbrace \emptyset , 0, 1, S \rbrace $, utilizando a convenção de que $ \emptyset = \mathbb{I}_{\lbrace \text{cara} \rbrace} (\emptyset) = \mathbb{I}^{-1}_{\lbrace \text{cara} \rbrace}(\emptyset) $. Com isso, concluímos que a função $ \mathbb{I}_{\lbrace \hbox{cara} \rbrace} $ satisfaz:

a. $ \mathbb{I}_{\lbrace \hbox{cara} \rbrace} $ é uma bijeção entre $ \Omega_0 $ e $ S $.

b. $ \mathcal{A}_0 = \mathbb{I}^{-1}_{\lbrace \text{cara} \rbrace}(\mathcal{F}_{1}) $ e $ \mathcal{F}_1 = \mathbb{I}_{\lbrace \hbox{cara} \rbrace}(\mathcal{A}_0) $.

Neste caso, dizemos que $ \mathbb{I}_{\lbrace \hbox{cara} \rbrace} $ estabelece um isomorfismo entre os espaços $ (\Omega_0 , \mathcal{A}_0 ) \ \hbox{e} \ (S, \mathcal{F}_1). $

Tradicionalmente, associamos ao lançamento da moeda a probabilidade de ocorrência dos eventos com $ \lambda_0 (\lbrace \text{cara} \rbrace) = \lambda_0 (\lbrace \text{coroa} \rbrace) = \frac{1}{2}, \ \lambda_0 (\emptyset) = 0 \ \hbox{e} \ \lambda_0 (\Omega_0) = 1 $. Assim obtemos uma função definida sobre $ \mathcal{A}_0 $ com valores no $ [0, 1] $. Através do isomorfismo $ \mathbb{I}_{\lbrace \hbox{cara} \rbrace} $, definimos a probabilidade imagem de $ \lambda_0 $ definida sobre $ (S, \mathcal{F}_1) $, por

$$ \mathbb{P}_1 (A) := (\mathbb{I}_{\lbrace \hbox{cara} \rbrace} \cdot \lambda_0)(A) := \lambda_0(\mathbb{I}^{-1}_{\lbrace \text{cara} \rbrace} (A)) \ \hbox{;} \ A \in \mathcal{F}_1$$

de tal maneira que podemos estabelecer uma identificação entre os espaços de probabilidade $ (\Omega_0 ,\mathcal{A}_0, \lambda_0) $ e $ (S, \mathcal{F}_1, \mathbb{P}_1) $.

De forma geral, definimos probabilidades $ \mathbb{P}_1 $ sobre $ (S, \mathcal{F}_1) $ como funções $ \mathcal{F}_1 \to [0, 1] $, tal que $ \mathbb{P}_1(\emptyset ) = 0, \ \mathbb{P}_1(\lbrace \omega \rbrace ) = p_{\omega} \ (\omega \in S) $ e $ \mathbb{P}_1(S) = 1 $ em que $ 0 \ < \ p_0, p_1 \ < \ 1 $ e $ p_0 + p_1 = 1 $.

Na sequência, vamos estender nosso experimento para $ n \ (n \in \mathbb{N}) $ lançamentos da moeda. Ao lançarmos n vezes a moeda, obtemos como nosso espaço amostral $ \Omega_1 $ o conjunto de todas as sequências n-dimensionais de “cara” e “coroa”, isto é,

$$ \Omega_1 = \Omega_0^n = \lbrace \omega = (\omega_1, \omega_2, \dots , \omega_n) : \omega_k \in \Omega_0 , 1 \leq k \leq n \rbrace $$

Mais uma vez, definimos a classe dos eventos de nosso experimento como a coleção de todos os subconjuntos de $ \Omega_1 $ e denotamos por $ \mathcal{A}_1 $. A função $ \Omega_1 \to S^n $, definida por

$$\psi (\omega ) = (\mathbb{I}_{\lbrace \hbox{cara} \rbrace}(\omega_1 ), \dots , \mathbb{I}_{\lbrace \hbox{cara} \rbrace}(\omega_n )) \ ; \ \omega = (\omega_1 , \dots , \omega_n ) \in \Omega_1$$

estabelece um isomorfismo entre $ (\Omega_1, \mathcal{A}_1) $ e $ (S^n, \mathcal{F}_n) $, onde $ \mathcal{F}_n $ é a classe de todos os subconjuntos de $ S^n $.

Para estendermos a probabilidade $ \lambda_0 $ para o experimento de n lançamentos da moeda, vamos considerar que cada lançamento é independente um do outro. Com isso, para todo $ \omega = (\omega_1, \dots , \omega_n ) \in \Omega_1 $ tomamos a extensão de $ \lambda_0 $ por

$$\lambda_1((\omega )) = \left ( \frac{1}{2} \right )^n $$

Como todo elemento $ A \in \mathcal{A}_1 $ é união finita disjunta de pontos de $ \Omega_1 $, definimos

$$\lambda_1 (A) = \sum_{\omega \in A} \lambda_1 ((\omega)) $$

como sendo uma função definida em $ \mathcal{A}_1 $ com valores em $ [0,1] $. Através do isomorfismo $ \psi $, podemos identificar as triplas $ (\Omega_1 , \mathcal{A}_1, \lambda_1) $ e $ (S^n , \mathcal{F}_n , \mathbb{P}_n) $ onde $ \mathbb{P}_n := \psi \cdot \lambda_1 := \lambda_1(\psi^{-1}) $.

De forma geral, tomamos $ \mathcal{F}_n \to [0, 1] $, como

$$\mathbb{P}_n (A) = \sum_{\omega \in A} p_{\omega_1}\dots p_{\omega_n} \ ; \ A \in \mathcal{F}_n.$$

Observe que $ \omega\in A \subset S^n $ é da forma $ \omega = (\omega_1,\ldots,\omega_n) $ em que cada $ \omega_i\in S $ é igual a zero ou um. Além disso, temos que $ 0 \ < \ p_0 , p_1 \ < \ 1 $ e $ p_0 + p_1 = 1 $. Assim

i. $ \mathbb{P}_n (\emptyset) = 0 $ e $ \mathbb{P}_n(S^n) = 1 $;

ii. Para todo $ A_1, A_2 \in \mathcal{F}_n $ com $ A_1 \cap A_2 = \emptyset $, temos

$$\mathbb{P}_n(A_1\cup A_2 ) = \sum_{\omega \in (A_1\cup A_2)} p_{\omega_1}\ldots p_{\omega_n} = \sum_{\omega\in A_1}p_{\omega_1}\ldots p_{\omega_n} + \sum_{\omega\in A_2}p_{\omega_1}\ldots p_{\omega_n} =\mathbb{P}_n(A_1) + \mathbb{P}_n (A_2).$$

Qualquer função $ \mathbb{P}_n $ definida sobre $ (S^n , \mathcal{F}_n ) $ com valores em $ [0,1] $ que satisfaça as condições acima é denominada probabilidade.

A seguir, vamos estender nosso experimento para infinitos lançamentos da moeda. Tomamos por espaço amostral

$$ \Omega = \Omega_0 \times \Omega_0 \times \cdots = \Omega_0^{\infty} = \lbrace \omega = (\omega_1, \omega_2, \ldots ) : \omega_k \in \Omega_0 , k \in \mathbb{N} \rbrace .$$

Como anteriormente, a função $ \Psi: \Omega \to S^{\infty} $, dada por

$$\Psi(\omega) = (\mathbb{I}_{\lbrace \hbox{cara} \rbrace}(\omega_1 ), \mathbb{I}_{\lbrace \hbox{cara} \rbrace}(\omega_2), \dots)$$

estabelece uma bijeção entre $ \Omega $ e $ S^{\infty} $. O espaço das sequências de zeros e uns $ (S^{\infty}) $ é denominado espaço de Cantor. Para facilitar a notação, vamos utilizar a identificação do experimento de infinitos lançamentos da moeda com o espaço de Cantor diretamente, para nos concentrarmos sobre as sequências de 0 e 1.

Nosso objetivo inicial consiste em estender a estrutura da tripla $ (S^n , \mathcal{F}_n , \mathbb{P}_n) \ (n \in \mathbb{N}) $ para o caso de dimensão infinita. Para isto, considere as projeções coordenadas $ S^{\infty} \to S $, definidas por

$$\pi_k(\omega) = \omega_k,$$

onde $ \omega = (\omega_1, \omega_2, \dots ) \in S^{\infty} $ e $ k \in \mathbb{N} $. A família de conjuntos $ \lbrace \pi_k^{-1} (\lbrace i \rbrace): i \in S, k \in \mathbb{N} \rbrace $, denominados cilindros de $ S^{\infty} $ com base em $ S $, satisfaz as três propriedades abaixo

i. $ \pi^{-1}_k(\lbrace 1 \rbrace)\cup \pi^{-1}_k(\lbrace 0 \rbrace) = S^{\infty} $ e $ \pi^{-1}_k(\lbrace 1 \rbrace) \cap \pi^{-1}_k(\lbrace 0 \rbrace) = \emptyset $ para todo $ k \in \mathbb{N} $.

ii. Para todo sequência $ (D_n) $ de cilindros com base em S tal que $ \cap D_k = \emptyset $, existe $ n_0 \in \mathbb{N} $ satisfazendo

$$\bigcap^{n_0}_{k=1} D_k = \emptyset .$$

De fato, observe que,

$$(i_1, i_2, \dots ) = (\lbrace i_1 \rbrace \times S \times \dots ) \cap (S \times \lbrace i_2 \rbrace \times S \times \dots ) \cap \dots =\bigcap^{\infty}_{k=1} \pi^{-1}_k (\lbrace i_k \rbrace) \neq\emptyset.$$

para todo elemento $ (i_1, i_2, \dots ) \in S^{\infty} $. Generalizando, se tomarmos um subconjunto de índices $ \mathcal{K} = (k_1, k_2, \dots ) \subset \aleph $ (com $ k_n \neq k_m $ para todo $ n \neq m $), temos que

$$(i_{k_1}, i_{k_2}, \dots ) = \bigcap_{j=1}^\infty \pi_j^{-1} (\lbrace i_{k_j} \rbrace) \neq \emptyset \ \ ; \ \ i_{k_j} \in S.$$

Então se tomarmos uma sequência $ (D_k) $ de cilindros com base em S tal que

$$\bigcap^{\infty}_{k=1} D_k = \emptyset, $$

existe pelo menos dois elementos $ D_{k_1} \ e \ D_{k_2} $ tais que

$$ D_{k_1} = \pi^{-1}_m (\lbrace i_m \rbrace) \ e \ D_{k_2} = \pi^{-1}_m (\lbrace j_m \rbrace)$$

com $ i_m \neq j_m $ para algum $ m \in \mathbb{N} $. Desta forma, se tomarmos $ n_0 = \max (k_1 , k_2) $, obtemos que

$$ \bigcap^{n_0}_{k=1} D_k = \emptyset $$

Com isso, dizemos que os cilindros com base em S formam uma classe compacta.

iii. A classe dos cilindros com base em $ S $ é enumerável e separa pontos no $ S^{\infty} $.

Que tal classe é enumerável é imediato. Além disso, para todo $ (i_1, i_2, \dots ), (j_1, j_2, \dots ) \in S^{\infty} $ distintos, existe pelo menos um índice $ m \in \mathbb{N} $ tal que $ i_m \ \neq \ j_m $ então,

$$\mathbb{I}_{\pi^{-1}_m ( \lbrace 1 \rbrace)} (i_1, i_2, \dots ) \neq \mathbb{I}_{\pi^{-1}_m (\lbrace 1 \rbrace)} (j_1, j_2, \dots ). $$

Assim, obtemos que a classe dos cilindros com base em $ S $ é separável e separa pontos no espaço de Cantor.

A probabilidade $ \mathbb{P}_1 $ definida sobre $ (S, \mathcal{F}_1) $ pode ser estendida para um função $ \mathbb{P}^\prime $ definida sobre a classe dos cilindros com base em $ S $ da seguinte forma

$$\mathbb{P}^{\prime}(\pi^{-1}_k (\lbrace i \rbrace) ) = \mathbb{P}_1 (\lbrace i \rbrace)$$

para todo $ i\in S $ e $ k \in \mathbb{N} $. Na sequência, vamos tomar intersecções finitas de cilindros com base em $ S $ e anexar o conjunto vazio e o $ S^{\infty} $. Considere $ \mathcal{D} $ a coleção de todos os subconjuntos finitos de números naturais. A classe dos subconjuntos

$$ \Delta = \lbrace \emptyset, S^{\infty}, \lbrace \pi_{v_1} (\lbrace \omega_{v_1} \rbrace) \cap \cdots \cap \phi_{v_n}^{-1} (\lbrace \omega_{v_n} \rbrace): (v_1, \dots , v_n ) \in \mathcal{D}, (\omega_{v_1}, \dots , \omega_{v_n} ) \in S^n, n \in \mathbb{N} \rbrace \rbrace$$

contém todos os cilindros com base em S e é fechada por intersecção finita. Como a semi-álgebra $ \Delta $ é obtida por intersecção finita de elementos de uma classe compacta, concluímos que $ \Delta $ também é uma classe compacta.

Exercício 5

Mostre que a classe de subconjuntos $ \Delta $ é uma semi-álgebra e compacta. Para toda sequência $ (D_n) $ tal que $ \cap_n D_n = \emptyset $, existe $ n_0 \in \mathbb{N} $ tal que $ \cap_n D_n^{n_0} = \emptyset $.

De forma natural, podemos estender a função $ \mathbb{P}^\prime $ para a semi-álgebra $ \Delta $, na forma

$$\mathbb{P}^{\prime} (\pi^{-1}_{v_1} (\lbrace \omega_{v_1} \rbrace) \cap \dots \cap \pi^{-1}_{v_n}(\lbrace \omega_{v_n} \rbrace)) = \mathbb{P}_n (\lbrace \omega_{v_1},\dots , \omega_{v_n} \rbrace) = p_{\omega_{v_1}} \dots p_{\omega_{v_n}},$$

no qual $ (v_1,\ldots,v_n) \in D, \ (\omega_{v_1},\ldots,\omega_{v_n}) \in S^n \ e \ n \in \mathbb{N} $. A seguir vamos tomar uniões finitas disjuntas 2 a 2 de elementos de $ \Delta $.

Para todo $ v = (v_1, v_2, \dots , v_n ) \in D $ com $ n \in \mathbb{N} $, a projeção coordenada

$$\pi_v (\omega) = (\omega_{v_1}, \dots , \omega_{v_n}); \ \omega = (\omega_1,\omega_2 ,\dots) \in S^{\infty}$$

toma elementos sobre $ S^{\infty} $ e leva em $ S^n $. A classe dos cilindros

$$ C_0 = \lbrace \pi_v^{-1} (B): \ v = (v_1, \dots , v_n ) \in D \ \text{e} \ B \subset S^n \rbrace$$

é uma álgebra enumerável, pois satisfaz

a. $ \emptyset \in C_0 $ e $ S^{\infty} \in C_0 $;

b. Se $ A \in C_0 $, então $ A^c \in C_0 $;

c. Se $ A_1 $ e $ A_2 \in C_0 $, então $ A_1\cup A_2 \in C_0 $;

As propriedades a. e b. serão deixadas como exercício. Vamos verificar apenas a parte c.

Como $ A_1 $ e $ A_2 \in C_0 $, existe $ u_1 = (i_1, \dots , i_m) $ e $ u_2 = (j_1 , \dots , j_n) \in D $ tais que

$$ A_1 = \pi^{-1}_{u_1} (B_1); \ A_2 = \pi^{-1}_{u_2}(B_2)$$

para $ B_1 \subset S^m $ e $ B_2 \subset S^n $ com $ n, m \in \mathbb{N} $. Considere

$$ B^{\prime}_1 = \lbrace (\omega_{i_1} , \dots \omega_{i_m}) \in S^{i_m} \ : \ (\omega_i, \dots, \omega_{i_m}) \in B_1 \rbrace $$

$$ B^{\prime}_2 = \lbrace (\omega_{1} , \dots \omega_{j_n}) \in S^{j_n} \ : \ (\omega_{j_1}, \dots, \omega_{j_n}) \in B_2 \rbrace $$

Denotamos por $ u^{\prime}_1 = (1, 2, 3, \dots, i_m) $ e $ u^{\prime}_2 = (1, 2, 3, \dots, j_n) \in D $. Se $ i_m = j_n $, temos que $ u^{\prime}_1 = u^{\prime}_2 = u $. Assim,

$$\pi^{-1}_{u_1} (B_1) \cap \pi^{-1}_{u_2} (B_2) = \pi -1_u (B^{\prime}_1) \cap \pi^{-1}_u (B^{\prime}_2) = \pi^{-1}_u (B^{\prime}_1 \cap B^{\prime}_2)$$

Se $ i_m \neq j_n $, admitimos por simetria que $ i_m < j_n $. Neste caso, basta tomarmos

$$ B^{\prime}_1 = \lbrace (\omega_1, \dots, \omega_{j_n} \in S^{j_n}) \ : \ (\omega_{i_1}, \dots , \omega_{1_m}) \in B_1 \rbrace $$

Como a classe $ \Delta $ é compacta e a álgebra $ C_0 $ é formada por união finita disjunta de elementos de $ \Delta $, concluímos que os cilindros do $ S^{\infty} $ também formam uma classe compacta, ver o módulo probabilidades compactas. Assim, obtemos o seguinte lema.

Lema 1.5.1.1

Para toda sequência $ \lbrace C_n \rbrace \subset C_0 $ com $ \cap^{\infty}_{k=1} C_k = \emptyset $ , existe $ n_0 \in \mathbb{N} $ tal que $ \cap^{n_0}_{k=1} C_k = \emptyset $.

Para todo elemento $ A \in C_0 $, existe $ v = (v_1, \dots , v_n) \in D, \ B \ \in S^n $ com $ n \in \mathbb{N} $, tal que $ A = \pi^{-1}_{v} (B) $. Então, uma extensão natural da probabilidade $ \mathbb{P}_n $ sobre $ (\Omega , C_0) $ é definida por

$$\mathbb{P}^{\prime} (A) = \mathbb{P}^{\prime} (\pi^{-1}_{v} (B)) = \mathbb{P}_n (B) = \displaystyle \sum_{(i_1, \dots , i_n) \in B} \mathbb{P}^{\prime} (\pi^{-1}_{v_1} ( \lbrace i_1 \rbrace) \cap \cdots \cap \pi^{-1}_{v_n} (\lbrace i_n \rbrace ))$$

Como todo cilindro tem diversas representações, precisamos mostrar que a definição acima é independente destas representações. Seja $ A $ um cilindro de $ S^{\infty} $ com as representações

$$A = \pi^{-1}_v(B_1) = \pi^{-1}_u (B_2)$$

onde $ v = (v_1, \dots \ v_n) $ e $ u = (u_1, \dots , u_m) $ são elementos de $ D $, $ B_1 \subset S^n $ e $ B_2 \ \subset S^m $. Se $ n = m $, temos que $ B_1 = B_2 $ e $ u = v $. Agora, caso $ n \neq m $, vamos admitir, sem perda de generalidade, que $ n \ < \ m $. Neste caso, o conjunto $ B_2 $ consiste dos elementos $ (\omega_1, \dots , \omega_m ) $ em $ S^m $ para os quais $ (\omega_1, \dots , \omega_n) \in B_1 $, isto é, $ B_2 = B_1\cup S^{m-n} $. Assim,

$$\sum_{B_2} \mathbb{P}_{\omega_1}\ldots \mathbb{P}_{\omega_n}\mathbb{P}_{\omega_{n+1}} \ldots \mathbb{P}_{\omega_m} = \sum_{B_1} \mathbb{P}_{\omega_1}\dots \mathbb{P}_{\omega_n} \sum_{S^{m-n}}\mathbb{P}_{\omega_{n+1}}\ldots \mathbb{P}_{\omega_m} = \sum_{B_1} \mathbb{P}_{\omega_1}\ldots \mathbb{P}_{\omega_n}$$

Portanto, a extensão da função de conjunto $ \mathbb{P}^{\prime} $ sobre a álgebra de cilindros do $ S^{\infty} $ é consistente. Como consequência direta da definição da função $ \mathbb{P}^{\prime} $, obtemos o seguinte lema.

Lema 1.5.1.2

A função $ \mathbb{P}^{\prime}: C_0 \to [0, 1] $ satisfaz

i. $ \mathbb{P}^{\prime}(\emptyset) = 0 $ e $ \mathbb{P}^{\prime}(S^{\infty}) = 1 $;

ii. Se $ A_1, A_2 \in C_0 $ com $ A_1 \cap A_2 = \emptyset $, obtemos

$$\mathbb{P}^{\prime}(A_1\cup A_2) = \mathbb{P}^{\prime}(A_1) + \mathbb{P}^{\prime}(A_2).$$

Com isso, concluímos que a função $ \mathbb{P}^{\prime} $ é finitamente aditiva. Para mostrarmos que $ \mathbb{P}^{\prime} $ é uma $ \sigma $ aditiva, vamos utilizar o fato de que a álgebra $ C_0 $ é uma classe compacta.

Lema 1.5.1.3

Qualquer função $ \mathbb{P}^{\prime}: C_0 \to [0, 1] $ satisfazendo as propriedades (i) e (ii) do Lema 1.5.1.2 é $ \sigma $ - aditiva.

Demonstração

Considere $ (C_n) \ \subset \ C_0 $ uma sequência monótona de conjuntos tal que $ \cap ^{\infty}_{k=1}C_n = \emptyset $.

Utilizando o Lema 1.5.1.1, sabemos que existe $ n_0 \in \mathbb{N} $ tal que $ \cap^{n_0}_{k=1} C_k = \emptyset $.

Como $ (C_k) $ é monótona decrescente, temos que $ C_{n_0} = \cap ^{n_0}_{k=1}C_k = \emptyset $ e com isso,

$$\mathbb{P}^{\prime}(C_j) = 0 \ ; \ \forall \ j \ \ge \ n_0.$$

Portanto,

$$\lim_{n \to \infty} \mathbb{P}^{\prime}(C_n) = 0.$$

Com isso, concluímos que $ \mathbb{P}^{\prime} $ é contína no vazio. Desde que $ \mathbb{P}^\prime $ é finitamente aditiva, obtemos que $ \mathbb{P}^\prime $ é $ \sigma $-aditiva na álgebra $ C_0 $.

Em algumas aplicações na teoria de probabilidade, como a lei forte dos grandes números e a teoria dos jogos de azar, precisamos calcular probabilidades de conjuntos que dependem de um número infinito de coordenadas. Com isso, precisamos estender a função $ \mathbb{P}^{\prime} $ para uma classe mais ampla de conjuntos.

Denotamos por $ \xi $ a classe formada por limites monótonos decrescentes de elementos de $ C_0 $. Cnsidere $ \mathbb{P}^{\prime} $ uma função definida em $ C_0 $ satisfazendo as hipóteses do lema 1.5.1.2. Como $ \mathbb{P}^{\prime} $ é $ \sigma $-aditiva podemos estender $ \mathbb{P}^{\prime} $ sobre $ \xi $, na forma

$$\delta (G) = \lim_{n \to \infty} \mathbb{P}^{\prime}(B_n),$$

no qual $ (B_n) \subset C_0 $ é uma sequência monótona decrescente tal que $ G= \cap B_n $. Inicialmente, vamos mostrar que $ \delta $ é independente da sequência $ (B_n) $.

Lema 1.5.1.4

Considere $ (B_n) $ e $ (C_n) $ duas sequências monótonas decrescentes em $ C_0 $. Então,

a. se $ \cap_n B_n \subset \cap_n C_n $, temos que

$$\lim_{n \to \infty}\mathbb{P}^{\prime}(B_n) \leq \lim_{n \to \infty}\mathbb{P}^{\prime}(C_n).$$

b. se $ \cap_n B_n = \cap_n C_n $, temos que

$$\lim_{n \to \infty}\mathbb{P}^{\prime}(B_n) = \lim_{n \to \infty}\mathbb{P}^{\prime}(C_n).$$

Demonstração

Para todo $ n $ fixo, a sequência $ (C_n \cap B_k) $ é monótona decrescente em $ C_0 $, e satisfaz

$$\cap_k (C_n\cap B_k) = C_n.$$

Utilizando a $ \sigma $-aditividade da função $ \mathbb{P}^{\prime} $, obtemos que

$$\lim_{k \to \infty} \mathbb{P}^{\prime}(B_k) \leq \lim_{k \to \infty} \mathbb{P}^{\prime}(C_n \cap B_k ) = \mathbb{P}^{\prime} (C_n) \ \ ; \ n \in \mathbb{N}$$

Desta forma,

$$lim_{n \to \infty} \mathbb{P}^{\prime}(B_k) \leq \lim_{n \to \infty} \mathbb{P}^{\prime}(C_n).$$

Agora, se tomarmos $ \cap_n B_n = \cap_n C_n $, também obtemos para todo $ k $, que a sequência $ (C_n\cup B_k) $ é monótona decrescente. Mais uma vez, utilizando a $ \sigma $-aditividade da função $ \mathbb{P}^{} $, obtemos que

$$ \lim_{n \to \infty} \mathbb{P}^{\prime} (C_n) \leq \lim_{n \to \infty} \mathbb{P}^{\prime} (C_n \cup B_k ) = \mathbb{P}^{\prime} (B_k ) \ ; \ k \in \mathbb{N}$$

Portanto, da parte a, segue que

$$\lim_{k \to \infty} \mathbb{P}^{\prime} (B_k ) = \lim_{n \to \infty} \mathbb{P}^{\prime}(C_n ).$$

Com o lema acima, concluímos que a função $ \delta $ está bem definida. A seguir, vamos estudar as propriedades desta função e da classe $ \xi $.

Lema 1.5.1.5

A classe $ \xi $ de sbconjuntos do espaço de Cantor e a função $ \delta $, satisfazem

a. $ \delta (\emptyset ) = 0 $ e $ \delta(S^{\infty} ) = 1 $;

b. Para $ G_1, G_2 \in \xi $, temos que $ G_1 \cup G_2 \in \xi $ e $ G_1 \cap G_2 \in \xi $. Além disso,

$$\delta (G_1 \cup G_2 ) = \delta (G_1 ) + \delta (G_2 ) - \delta (G_1 \cap G_2 ).$$

c. Sejam $ G_1, G_2 \in \xi $ tais que $ G_1 \subset G_2 $. Então

$$\delta (G_1 ) \leq \delta (G_2 ).$$

d. Considere $ (G_n ) \subset \xi $ uma sequência monótona decrescente tal que $ \cap G_n = G $. Então, temos que $ G \in \xi $ e

$$\lim_{n \to \infty} \delta (G_n ) = \delta (G)$$

Demonstração

A parte a. é obvia. Para mostrarmos a parte b., sejam $ G_1, G_2 \in \xi $. Então, existe $ (A_{n,1}) $ e $ (A_{n,2}) $ sequências monótonas decrescentes tais que,

$$G_1 = \cap_n A_{n,1} = \lim \downarrow A_{n,1} \ \text{e} \ G_2 = \cap_n A_{n,2} = \lim \downarrow A_{n,2}$$

Além disso,

$$\lim \downarrow (A_{n,1} \cap A_{n,2} ) = G_1 \cap G_2 \ e \ \lim \downarrow (A_{n,1} \cup A_{n,2} ) = G_1 \cup G_2$$

Como

$$\mathbb{P}^{\prime} (A_{n,1}) + \mathbb{P}^{\prime} (A_{n,2}) = \mathbb{P}^{\prime} (A_{n,1} \cup A_{n,2}) + \mathbb{P}^{\prime}(A_{n,1} \cap A_{n,2})$$

obtemos que

$$\delta (G_1 ) + \delta (G_2 ) = \delta (G_1 \cap G_2) + \delta (G_1 \cap G_2 ).$$

A propriedade c. é consequência direta do lema anterior. Para mostrarmos a relação d., tomamos $ (A_{k,n})^{\infty}_{k=1} $ sequências monótonas decrescentes em $ C_0 $, tais que

$$\lim \downarrow A_{k,n} = G_n \ \text{e} \ \lim \downarrow G_n = G $$

Com isso, a sequência formada por

$$D_k = \cap_{n\leq k} A_{k,n}$$

é monótona decrescente, pois

$$D_k = \cap_{n\leq k} A_{k,n} \supset \cap_{n\leq k} A_{k+1, n} \supset D_{k+1}$$

Agora, para todo $ k \leq n $ temos que $ A_{k,n} \supset D_k \supset G_n $. Assim,

$$\mathbb{P}^{'} (A_{k,n} ) \ge \mathbb{P}^{'} (D_k ) \ge \delta (G_n) \ ; \ k \leq n$$

Desta forma, concluímos que $ D_k \downarrow G \in \xi $ e

$$\delta (G) = \lim \downarrow \delta (D_k ) = \lim \downarrow \delta (G_n)$$

como queríamos demonstrar.

Com este lema, obtemos que $ \xi $ é a menor classe de subconjuntos do $ S^{\infty} $ que contém a álgebra $ C_0 $ e satisfaz as propriedades do lema acima. Além disso,

$$\delta (B) = \mathbb{P}^{\prime} (B) \ ; \ B \in C_0$$

A seguir, vamos estender a função $ \delta $ sobre $ \xi $ para uma função definida sobre o conjunto das partes do espaço de Cantor.

Lema 1.5.1.6

A função de conjunto $ \delta_{\star} $, definida por

$$ \delta_{\star} = \sup \lbrace \delta (G) \ : \ G \subset A, \ G \in \xi \rbrace \ \ A \subset S^{\infty }$$

satisfaz as seguintes propriedades:

a. Para todo $ G \in \xi $ temos que $ \delta_{\star}(G) = \delta (G) $ e $ 0 \leq \delta_{\star}(A) \leq 1 $ qualquer que seja $ A \subset S^{\infty} $.

b. Para todo $ A_1 $ e $ A_2 $ subconjuntos de espaço de Cantor, obtemos que

$$\delta_{\star}(A_1 \cup A_2) + \delta_{\star}(A_1 \cap A_2) \ge \delta_{\star}(A_1)\delta_{\star} (A_2)$$

Em particular,

$$\delta_{\star}(A) + \delta_{\star}(A^c) \leq 1$$

c. Se $ A \subset B $, então $ \delta_{\star}(A) \leq \delta_{\star}(B) $.

d. Se $ A_n \downarrow A $, então $ \lim \downarrow \delta_{\star} (A_n) = \delta_{\star}(A) $.

Demonstração

A parte a. é consequência direta da definição de $ \delta_{\star} $. Dado ε > 0, escolhemos $ G_{1} $ e $ G_2 \in \xi $, tais que

$$\delta_{\star}(A_i) - \frac{\epsilon}{2} \leq \delta (G_i); i = 1,2.$$

Assim, utilizando o lema anterior, temos que

$$\delta_{\star}(A_1) + \delta_{\star}(A_2) - \epsilon \leq \delta(G_1) + \delta (G_2) = \delta(G_1 \cup G_2) + \delta (G_1 \cap G_2) \leq \delta_{\star}(G_1 \cup G_2) + \delta_{\star}(G_1 \cap G_2)$$

Como $ \epsilon \ > \ 0 $ é arbitrário, temos que

$$\delta_{\star}(A_1) + \delta_{\star}(A_2) \leq \delta_{\star} (A_1 \cup A_2) + \delta_{\star}(A_1\cap A_2).$$

Para mostrar a propriedade (c), basta observar que

$$ \lbrace G \ : G \subset A_1, \ G \in \xi \rbrace \subset \lbrace G \ : G \subset A_2, \ G \in \xi \rbrace $$

pois $ A_1 \subset A_2 $.

A seguir, vamos mostrar a parte d. Fixamos $ \epsilon \ > \ 0 $ e escolhemos uma sequência $ (\epsilon_n) $ de números reais positivos tais que $ \sum_n \epsilon_n = \epsilon $. Além disso, tomamos $ G_n \in \xi $ tal que $ G_n \subset A_n $ e,

$$\delta_{\star}(A_n) - \epsilon_n \leq \delta(G_n)$$

Considere

$$G^{\prime}_k = \cap^k_{n=1} G_n; \ k \in \mathbb{N}.$$

Então, obtemos que $ G^{\prime}_k \subset A_k $ e a sequência $ (G^{\prime}_k) $ é monótona decrescente em $ \xi $. A seguir, vamos mostrar por indução, que

$$\delta_{\star}(A_k) - \sum^n_{k=1} \epsilon_k \leq \delta (G^{\prime}_k)$$

Para n = 1 temos por hipótese, que

$$\delta_{\star}(A_1) - \epsilon_1 \leq \delta (G^{\prime}_1)$$

suponha que a relação acima é válida para $ k \in \mathbb{N} $. Como

$$G_{k+1} \cup G^{\prime}_k \subset A_k$$

obtemos que

$ \delta (G^{\prime}_{k+1}) \ = \ \delta (G^{\prime}_k \cap G_{k+1} ) \ = \ \delta (G^{\prime}_k ) \ + \ \delta (G_{k+1} ) \ - \ \delta (G^{\prime}_k \cup G_{k+1} ) \ge $

$ \left[\delta_{\star } (A_k ) \ - \ \sum^k_{n=1} \epsilon_n \right] \ + \ [\delta_{\star }(A_{k+1}) \ - \ \epsilon_{k+1} ] \ - \ \delta_{\star } (A_k ) \ge \delta_{\star }(A_{k+1} ) \ - \ \sum^{k+1}_{n=1} \epsilon_n $

Com isso,

$$\delta_{\star }(A_{k+1} ) \ - \ \sum^{k+1}_{n=1} \epsilon_n \ \leq \ \delta (G^{\prime}_{k+1} )$$

Ao tomarmos limite, concluímos que

$$\lim \downarrow G^{}_n \subset \lim \downarrow A_n \ = \ A$$

utilizando o lema anterior

$$\lim \downarrow \delta_{\star } (A_n ) \ - \ \epsilon \leq \lim \downarrow \delta (G^{\prime}_n ) \ = \ \delta [ \lim \downarrow G^{\prime}_n ] $$

Como,

$$\delta [\lim \downarrow G^{\prime}_n ] \ \leq \ \delta_{\star } [\lim \downarrow A_n ] $$

obtemos que

$$\lim \downarrow \delta_{\star }(A_n ) \ - \ \epsilon \ \leq \ \delta_{\star} [\lim \downarrow A_n ] $$

Desde que,

$$\lim \downarrow \delta_{\star } (A_n ) \ = \ \delta_{\star } [\lim \downarrow A_n ] \ = \ \delta_{\star }(A)$$

e $ \epsilon \ > \ 0 $ é arbitrário, concluímos que

$$\lim \downarrow \delta_{\star } (A_n ) = \delta_{\star } [ \lim \downarrow A_n ] $$

Com o lema acima, obtemos que para todo $ A \subset S^{\infty } $

$$\delta_{\star}(A) + \delta_{\star}(A^c) \leq 1.$$

Na sequência, vamos mostrar que a classe de subconjuntos do $ S^{\infty} $ definida por

$$ \mathcal{F}^{\star} = \lbrace A \subset S \ : \ \delta_{\star}(A) + \delta_{\star}(A^c) = 1 \rbrace$$

é uma $ \sigma $-álgebra e a restrição de $ \delta_{\star} $ sobre $ \mathcal{F}^{\star} $ define uma probabilidade. Tal resultado é conhecido como teorema de extensão de Carathèodory. Observe que $ A \in \mathcal{F}^{\star} $ implica que $ A^c \in \mathcal{F}^{\star} $. Além disso, se $ A_1 $ e $ A_2 \in \mathcal{F}^{\star} $, a soma do lado direito das desigualdades abaixo é igual a dois.

$$\delta_{\star}(A_1 \cup A_2) + \delta_{\star}(A_1 \cap A_2) \ge \delta_{\star}(A_1) + \delta_{\star}(A_2)$$

e

$$\delta_{\star}[(A_1 \cup A_2)^c] + \delta_{\star}[(A_1 \cap A_2)^c] = \delta_{\star}[(A_1)^c] + delta_{\star}[(A_2 )^c]$$

A propriedade b. do Lema 1.5.1.6 implica, que

$$\delta_{\star}(A_1 \cup A_2) + \delta_{\star}[(A_1 \cup A_2)^c] \leq 1$$

e

$$\delta_{\star}(A_1 \cap A_2) + \delta_{\star}[(A_1 \cap A_2)^c] \leq 1$$

Estas desigualdades são compatíveis somente se forem igualdades. Assim, obtemos que a classe $ \mathcal{F}^{\star} $ é fechada por união finita e intersecção finita e, a função $ \delta_{\star} $ é finitamente aditiva.

Considere $ (A_n) $ uma sequência de elementos de $ \mathcal{F}^{\star} $. Então, obtemos das propriedades c. e d. do Lema 1.5.1.6, que

$$\delta_{\star}[\cap^{\infty}_n A_n] = \lim_{n \to \infty} \delta_{\star}(A_n)$$

e

$$\delta_{\star}[(\cap^{\infty}_n A_n )^c] \ge \delta_{\star}(A^c_k); k \ge 1$$

Logo,

$ 1 \ = \ \lim_{n \to \infty} [\delta_{\star} (A_n ) \ + \ \delta_{\star} (A^c_n ) ] \ \leq \ \delta_{\star} [\cap^{\infty}_n A_n ] \ + \ \delta_{\star} [(\cap^{\infty}_n A_n )^c ] $

Como consequência da propriedade b, concluímos que $ \cap_n A_n \in \mathcal{F}^{\star} $. Então a classe de conjuntos $ \mathcal{F}^{\star} $ é uma $ \sigma $-álgebra e a restrição da função $ \delta_{\star} $ sobre $ \mathcal{F}^{\star} $ é uma probabilidade.

Denotamos por $ \mathcal{A} = \sigma (C_0) $ a menor $ \sigma $-álgebra dos subconjuntos de $ S^{\infty} $ que contém $ C_0 $. Como a $ \sigma $-álgebra $ \mathcal{F}^{\star} $ contém $ C_0 $, obtemos que $ \mathcal{A} \subset \mathcal{F}^{\star} $. Com isso, a restrição de $ \delta_{\star} $ sobre $ \mathcal{A} $, denotada por $ \mathbb{P} $, define uma probabilidade sobre o espaço mensurável $ (S^{\infty} , \mathcal{A}) $.

Com os resultados acima, obtemos um espaço mensurável $ (S^{\infty}, \mathcal{A}) $ e uma probabilidade $ \mathbb{P} $ sobre este, tal que

$$ \mathbb{P} (A) = \sup \lbrace \mathbb{P} (G) \ : \ G \subset A, G \in \xi \rbrace . $$

Para todo $ A \in \mathcal{A} $. Como $ \xi $ é formado por intersecções enumeráveis de elementos da classe compacta $ C_0 $, concluímos que $ \xi $ também é uma classe compacta. Assim, a probabilidade $ \mathbb{P} $ pode ser aproximada (por dentro) pela probabilidade de elementos de $ \xi $ (uma classe compacta). Os espaços de probabilidade satisfazendo tal propriedade são denominados espaços de probabilidade compactos.

Para finalizar, vamos estudar a unicidade da extensão $ \mathbb{P}^{\prime} $ sobre $ \mathcal{A} $. Tomamos por

$$ \Pi = \lbrace \pi^{-1}_{1} (\lbrace \omega_1 \rbrace) \cap \dots \cap \pi^{-1}_{n} (\lbrace \omega_n \rbrace) \ : \ (\omega_1 ,\ldots , \omega_n) \in S^n , \ n \in \mathbb{N} \rbrace $$

a classe de subconjuntos do $ S^{\infty} $ fechada por intersecção finita. Vamos mostrar que a $ \sigma $-álgebra gerada po $ \Pi $ coincide com $ \mathcal{A} $. Temos que

$$\Pi \subset C_0 \Longrightarrow \sigma (\Pi) \subset \sigma (C_0) = \mathcal{A}.$$

Por outro lado, a classe dos cilindros com base em $ S $ pode ser obtida via uniões finitas de elementos de $ \Pi $, pois

$$\pi^{-1}_k (\lbrace \omega_k \rbrace) = \bigcup_{(\omega_1, \ldots, \omega_{k-1}) \in S^{k-1}} \pi^{-1}_1 ( \lbrace \omega_1 \rbrace) \cap \ldots \cap \pi^{-1}_{k-1} (\lbrace \omega_{k-1} \rbrace) \cap \pi^{-1}_k (\lbrace \omega_k \rbrace).$$

Como a classe $ C_0 $ é construída através de intersecções e uniões finitas de cilindros com base em $ S $, obtemos que

$$C_0 \subset \sigma(\Pi) \Longrightarrow \mathcal{A} = \sigma (C_0) \subset \sigma (\Pi).$$

Então,

$$\mathcal{A} = \sigma (C_0) = \sigma (\Pi).$$

Dadas duas probabilidades $ \mathbb{P}_1 $ e $ \mathbb{P}_2 $ sobre $ (S^{\infty}, \mathcal{A}) $, tais que

$$\mathbb{P}_1 (F) = \mathbb{P}_2 (F); F \in \Pi$$

vamos mostrar que estas probabilidades são iguais sobre $ \mathcal{A} $. Para isto, basta mostrarmos que a classe

$$ \mathcal{G} = \lbrace B \subset S^{\infty} \ : \ \mathbb{P}_1 (B) = \mathbb{P}_2 (B) \rbrace$$

é $ \sigma $-aditiva, isto é,

a. $ S^{\infty} \in \mathcal{G} $

b. Se $ F_1, F_2 \in \mathcal{G} $ com $ F_1 \cap F_2 = \emptyset $, então, $ F_1 \cup F_2 \in \mathcal{G} $, pois

$$\mathbb{P}_1 (F_1\cup F_2) = \mathbb{P}_1 (F_1) + \mathbb{P}_1 (F_2) = \mathbb{P}_2 (F_1) + \mathbb{P}_2 (F_2) = \mathbb{P}_2 (F_1\cup F_2).$$

Além disso, para todo $ F \in \mathcal{G} $, temos que

$$\mathbb{P}_1(F^c) = 1 - \mathbb{P}_1(F) = 1 - \mathbb{P}_2 (F) = \mathbb{P}_2(F^c).$$

c. Seja $ (F_n) \subset \mathcal{G} $ uma sequência de subconjuntos de $ S^{\infty} $ tal que $ F_k \cap F_n = \emptyset $ para $ k \neq n \in \mathbb{N} $.

Assim,

$$\mathbb{P}_1(\cup_n F_n) = \sum_n \mathbb{P}_1(F_n) = \sum_n \mathbb{P}_2(F_n) = \mathbb{P}_2(\cup_n F_n)$$

Portanto, para todo $ A \in \mathcal{A} $

$$\mathbb{P}_1 (A) = \mathbb{P}_2 (A)$$

Utilizando a unicidade da extensão de Carathèodory, vamos mostrar que qualquer probabilidade sobre $ (S^{\infty} , \mathcal{A}) $ define um espaço de probabilidade compacto. Dado uma probabilidade qualquer $ \mathbb{P} $ sobre $ (S^{\infty}, \mathcal{A}) $, obtemos que a restrição de $ \mathbb{P} $ sobre $ C_0 $ é $ \sigma $-aditiva. Desta forma,

$$ \delta_{\star} = \sup \lbrace \mathbb{P} (C) \ : \ C \subset A, C \in \xi \rbrace$$

define uma função satisfazendo as condições dos lemas anteriores. Através da unicidade do teorema de extensão de Carathèodory, obtemos que, para todo $ B \in \mathcal{A} $

$$ \mathbb{P} (B) = \delta_{\star} (B) = \sup \lbrace \mathbb{P} (C) \ : \ C \subset B, C \in \xi \rbrace .$$

Portanto, o espaço de probabilidade $ (S^{\infty} , \mathcal{A} , \mathbb{P}) $ é compacto para qualquer probabilidade $ \mathbb{P} $ definida sobre $ (S^{\infty} , \mathcal{A}) $.

Topologia no Espaço de Cantor

Na sequência, vamos defnir uma topologia no espaço de Cantor e estudar suas relações com o espaco mensurável $ (S^{\infty} , \mathcal{A}) $. Uma classe $ \beta $ de subconjuntos do espaço de Cantor $ S^\infty $ é uma base para uma topologia se ,

a) Para todo $ \omega \in S^\infty $, existe $ B \in \beta $ tal que $ \omega \in \beta $,

b) Se $ \omega \in B_1 \cap B_2 $ com $ B_1 $ e $ B_2 $ pertencente a $ \beta $, existe $ B_3 \in \beta $ tal que $ \omega \in B_3 \subset B_1 \cap B_2 $.

Facilmente, mostramos que a classe $ \Delta $ satisfaz as propriedades acima. Assim, obtemos que $ \Delta $ é uma base para a topologia

$$\tau = \lbrace ( O \subset S^\infty: \forall \omega \in O, \exists B \in \Delta,~ \text{tal que} ~ \omega \in B \subset ) \rbrace.$$

Desde que $ \Delta $ é enumerável, dizemos que a topologia $ \tau $ é separável. Ao tomarmos $ S^\infty $ com a topologia $ \tau $ e o espaço finito dimensional $ S $ com a topologia discreta, obtemos que as projeções coordenadas $ \pi_k $ são funções contínuas, pois a classe de cilindros com base em $ S $

$$\lbrace ( \pi_{k}^{-1} ( \lbrace \omega_k \rbrace): \omega_k \in S, ~ k \in \mathbb{N} ) \rbrace \subset \Delta \subset \tau ,$$

definie uma sub-base para a topologia $ \tau $. Assim, a menor topologia para o qual as projeções coordenadas são contínuas coincide com a topologia $ \tau $. Então, obtemos que $ \tau $ é a topologia produto sobre $ S^\infty $, e consequentemente, o teorema de Tychonov nos garante que o espaço de Cantor é compacto com a topologia $ \tau $.

Desde que as projeções coordenadas são contínuas, os cilindros com base em $ S $ são conjuntos abertos e fechados na topologia $ \tau $. Alem disso, como a álgebra $ C_0 $ é obtida via uniões e intersecções finitas de cilindros com base em $ S $, concluímos que os elementos de $ C_0 $ também são conjunto abertos e fechados na topologia $ \tau $. A seguir, apresentamos uma caracterização para os elementos de $ C_0 $ via a topologia produto $ \tau $ em $ S^\infty $.

Lema 1.5.1.7

Um subconjunto $ A \subset S^\infty $ é aberto e fechado a topologia $ \tau $ se, e só se, $ A \in C_0 $.

Prova: Suponha que $ A \subset S^\infty $ é um subconjunto aberto e fechado na topologia $ \tau $. Como $ A $ é aberto, qualquer que seja $ \omega \in A $, existe $ B_\omega \in \Delta $ tal que $ \omega \in B_\omega \subset A $. Então, temos que

$$\bigcup_{\omega \in A} B_{\omega} = A,$$

é uma cobertura aberta de $ A $. Desde que $ A $ também é fechado e o espaço de Cantor $ S^\infty $ com a topologia $ \tau $ é compacto, obtemos que $ A $ também é compacto. Desta forma, existe uma subcobertura finita $ (B_1, \cdots , B_m) $ para algum $ m \in \mathbb{N} $ tal que

$$\bigcup_{i=1}^m B_i = A.$$

Desde que $ B_i \in \Delta $ para todo $ i=1, \cdots , m $, concluímos que $ A \in C_0 $.

A seguir, vamos apresentar uma forma de metrizar a topologia $ \tau $ no espaço de Cantor. Considere a função $ S^\infty \rightarrow [0, \infty) $, definida por

$$ \rho_C (\omega_1, \omega_2) = \begin{cases} \dfrac{1}{k(\omega_1 , \omega_2)}, \ \hbox{se} \ \omega_1 \neq \omega_2 \cr \cr 0, \ \hbox{se} \ \omega_1 = \omega_2 \end{cases} $$

no qual $ k(\omega_1 , \omega_2) $ é o menor índice $ n \in \mathbb{N} $ tal que

$$\mathbb{I}_{ \lbrace \pi_{n}^{-1}(\lbrace 1 \rbrace) (\omega_1 ) \rbrace } \neq \mathbb{I}_{ \lbrace \pi_{n}^{-1}(\lbrace 1 \rbrace) (\omega_2) \rbrace }.$$

Na sequência, vamos mostrar que $ \rho_C $ é uma métrica, isto é, satisfaz para $ \omega_1, \omega_2 $ e $ \omega_3 \in S^\infty $

a) $ \rho_C (\omega_1 , \omega_2)=0 ~ \Leftrightarrow ~ \omega_1 = \omega_2 $,

b) $ \rho_C (\omega_1 , \omega_2)=\rho_C (\omega_2 , \omega_1) $ e

c) $ \rho_C (\omega_1 , \omega_3) \leq \rho_C (\omega_1 , \omega_2) + \rho_C (\omega_2 , \omega_3) $.

As propriedades (a) e (b) são óbvias. Para mostrarmos a propriedade (c), tomamos $ \omega=(\omega_1, \omega_2, \cdots) $ e $ x=(x_1, x_2, \cdots) $ elementos do espaço de Cantor. Se $ \omega = x $, obtemos que

$$0=\rho_C (\omega , x) \leq \rho_C (x , y) + \rho_C (y, \omega),$$

para todo $ y=(y_1, y_2, \cdots) \in S^\infty $. Por outro lado, se $ \omega \neq x $, existe $ n \in \mathbb{N} $ tal que

$$\rho_C (\omega , x) = \frac{1}{n}.$$

Vamos dividir a demonstração em dois casos, a saber $ k(x,y) \leq K(x, \omega) $ e o oposto. Assim, temos que

  1. Considere $ y=(y_1, y_2, \cdots) \in S^\infty $ tal que $ \rho_C (x,y) =\frac{1}{r} $, no qual $ r=k(x,y) > n = k(\omega , x) $. Então, temos que $ k(y,\omega)=r $ e

$$\rho_C (\omega , x) = \frac{1}{n} \leq \frac{1}{r} + \frac{1}{r} \leq \rho_C (x,y) + \rho_C (y,\omega ).$$

  1. Considere $ y=(y_1, y_2, \cdots) \in S^\infty $ tal que $ \rho_C (x,y) =\frac{1}{r} $, no qual $ r=k(x,y) < n = k(\omega , x) $. Então, temos que $ k(y,\omega)=n $ e

$$\rho_C (\omega , x) = \frac{1}{n} \leq \frac{1}{n} + \frac{1}{r} \leq \rho_C (x,y) + \rho_C (y,\omega ).$$

Portanto, para todo $ x,y $ e $ \omega $ elementos do espaço de Cantor, temos que

$$\rho_C (\omega , x) \leq \rho_C (x,y) + \rho_C (y,\omega ).$$

Como consequência, a função $ \rho_C $ define uma métrica sobre o espaço de Cantor. Além disso, para todo $ n \in \mathbb{N} $ e $ \omega=(\omega_1, \omega_2, \cdots) \in S^\infty $, a bola

$$ B(\omega ; n) = \left\lbrace x \in S^{\infty} \ : \ \rho_C (\omega , x) < \frac{1}{n} \right\rbrace =\pi_1^{-1}(\lbrace \omega_1 \rbrace) \cap \pi_2^{-1}( \lbrace \omega_2 \rbrace) \cap \cdots \cap \pi_n^{-1}( \lbrace \omega_n \rbrace)$$

é um elemento de $ \Delta $. Por outro lado, temos que

$$\pi_k^{-1}(\lbrace \omega_k \rbrace) = \bigcup_{(\omega_1, \omega_2, \cdots , \omega_{k-1}) \in S^{k-1}} B(\omega ; k),$$

para todo $ \omega_k \in S $ e $ k \in \mathbb{N} $.

Assim, a topologia induzida pela métrica $ \rho_C $ coincide com a topologia produto $ \tau $. Como consequência, obtemos que o espaço de Cantor $ S^\infty $ com a topologia $ \tau $ é um espaço metrizável compacto. Além disso, sabemos que o espaço mensurável $ (S^\infty , \mathcal{A}) $ é separável (base enumerável), Hausdorff (separa pontos) e todo probabilidade $ \mathbb{P} $ sobre $ (S^\infty , \mathcal{A}) $ satisfaz

$$ \mathbb{P} (A) = \sup \lbrace \mathbb{P}(C) \ : \ C \subset A, \ C \in \xi \rbrace, ~ ~ ~ A \in \mathcal{A},$$

no qual $ \xi $ é a classe compacta formada por intersecções enumeráveis de elementos de $ C_0 $. Na sequência, mostraremos que $ \xi $ coincide com a classe dos subconjuntos compactos do $ S^\infty $ com a topologia produto $ \tau $. Para isto, basta mostrarmos que

$$ \lbrace \subset S^{\infty} \ : \ K ~ \hbox{compacto} \rbrace \subset \xi .$$

Considere $ K $ um subconjunto compacto do $ S^\infty $, então $ K $ é fechado. Como $ K^c $ é aberto, existe uma sequência $ (B_n) \subset \Delta $, tal que

$$K^c = \bigcup_{n=1}^\infty B_n.$$

Desta forma, ao aplicarmos De Morgan, obtemos que

$$K = \bigcap_{n=1}^\infty B_n^c,$$

no qual $ B_n^c \in C_0 $ para todo $ n \in \mathbb{N} $. Por construção, obtemos que $ K \in \xi $.

Aproximações para probabilidades sobre o espaço mensurável $ (S^\infty , \mathcal{A}) $

A construção da probabilidade $ \mathbb{P} $ sobre o espaço mensurável $ (S^\infty , \mathcal{A}) $ é baseada no fato de que $ \mathcal{A} $ é gerada por uma álgebra enumerável, Hausdorff (separa pontos) e compacta. Sabemos que qualquer função de conjunto $ \mathbb{P}^\prime $ sobre a álgebra $ C_0 $ tal que $ \mathbb{}P^\prime (\emptyset)=0 $ e finitamente aditiva também é $ \sigma $-aditiva na álgebra. Como consequência do teorema de extensão de Carathéodory existe uma única extensão de $ \mathbb{P}^\prime $ sobre a $ \sigma $-álgebra $ \mathcal{A} $ gerada pela álgebra $ C_0 $ que é $ \sigma $-aditiva. Como consequência, obtemos uma probabilidade $ \mathbb{P} $ sobre o espaço mensurável $ (S^\infty , \mathcal{A}) $, satisfazendo

$$ \mathbb{P}(A) = \sup \lbrace \mathbb{P}(C) \ : \ C \subset A, ~ C \in \xi \rbrace, ~ ~ ~ A \in \mathcal{A},$$

no qual $ \xi $ é a classe de subconjuntos compactos obtidos por intersecção enumerável de elementos da álgebra $ C_0 $.

Dados uma probabilidade $ \mathbb{P} $ sobre $ (S^\infty , \mathcal{A}) $ e $ A \in \mathcal{A} $, existe uma sequência $ (A_n) $ em $ \xi $ tal que $ A_n \subset A $ e

$$\mathbb{P}(A) - \frac{1}{n} \leq \mathbb{P}(A_n), ~ ~ n \in \mathbb{N}.$$

Ao tomarmos $ B = \cup_n A_n \subset A $, obtemos que

$$\mathbb{P}(B) \geq \mathbb{P}(A) \geq \mathbb{P}(A) - \frac{1}{n}, ~ ~ n \in \mathbb{N}.$$

Desde que $ n $ é arbitrário, concluímos que $ \mathbb{P}(B) \geq \mathbb{P}(A) $. Como consequência, obtemos que $ \mathbb{P}(B) = \mathbb{P}(A) $. Portanto, para qualquer subconjunto mensurável $ A \in \mathcal{A} $, existe um subconjunto $ B \in \xi_{\sigma} $ (a classe formada por uniões enumeráveis de elementos de $ \xi $) tal que $ \mathbb{P}(A) = \mathbb{P}(B) $.

Na sequência, vamos mostrar que para todo $ \epsilon > 0 $, existe um subconjunto $ C_\epsilon \in C_0 $ tal que

$$\mathbb{P} \left[(A^c \cap C_{\epsilon}) \cup (A \cap C_{\epsilon}^c) \right] \leq \epsilon.$$

Através da propriedade de compacidade da probabilidade $ \mathbb{P} $ sobre o espaço mensurável $ (S^\infty , \mathcal{A}) $, existe um subconjunto $ K_{\epsilon/2} \in \xi $ tal que $ K_{\epsilon/2} \subset A $ tal que

$$\mathbb{P}(A) \leq \mathbb{P}(K_{\epsilon/2}) + \frac{\epsilon}{2}.$$

Como consequência, obtemos que

$$\mathbb{P}(A-K_{\epsilon/2}) \leq \frac{\epsilon}{2}.$$

Através da definição da classe $ \xi $, concluímos que existe uma sequência $ (B_n) \subset C_0 $ tal que $ B_n \downarrow K_{\epsilon/2} $. Assim, obtemos que

$$\lim_n \mathbb{P}(B_n) = \mathbb{P}(K_{\epsilon/2}).$$

Desta forma, existe $ n_0 \in \mathbb{N} $ tal que

$$\mathbb{P}(K_{\epsilon/2}) \geq \mathbb{P}(B_k) - \frac{\epsilon}{2}; ~ ~ k \geq n_0.$$

Desde que $ K_{\epsilon/2} \subset B_k $ para todo $ k \in \mathbb{N} $, temos que

$$\mathbb{P}(B_k-K_{\epsilon/2}) \leq \frac{\epsilon}{2}, ~ ~ k \geq n_0.$$

Agora, para todo $ k \in \mathbb{N} $, obtemos que

$$A \cap B^c_k \subset A \cap K_{\epsilon/2}^c = A - K_{\epsilon/2} \quad {e} \quad A^c \cap B_k \subset K_{\epsilon/2}^c \cap B_k = B_k - K_{\epsilon/2}.$$

Desta forma, obtemos que

$$\mathbb{P} [A \cap B^c_k] + \mathbb{P} [ A^c \cap B_k] \leq \mathbb{P} [A \cap K_{\epsilon/2}^c] + \mathbb{P} [K_{\epsilon/2}^c \cap B_k] \leq \frac{\epsilon}{2} + \frac{\epsilon}{2} = \epsilon,$$

para todo $ k \geq n_0 $. Portanto, para todo $ \epsilon > 0 $, existe $ C_{\epsilon} \in C_0 $, tal que

$$\mathbb{P} \left[(A^c \cap C_{\epsilon}) \cup (A \cap C_{\epsilon}^c) \right] \leq \epsilon.$$

Com isso, concluímos que a álgebra $ C_0 $ é uma base enumerável para qualquer probabilidade $ \mathbb{P} $ sobre o espaço mensurável $ (S^\infty , \mathcal{A}) $.

Na sequência, tomamos o espaço $ S^\infty $ com a topologia produto $ \tau $. Sabemos que $ \mathcal{A} $ coincide com a $ \sigma $-álgebra gerada pela topologia $ \tau $, conhecida com $ \sigma $-álgebra de Borel. Além disso, a classe compacta $ \xi $ é a classe dos subconjuntos compactos na topologia $ \tau $. Dado $ \mathbb{P} $ uma probabilidade sobre o espaço mensurável $ (S^\infty , \mathcal{A}) $, sabemos que $ \mathbb{P} $ é uma probabilidade compacta. Como consequência, concluímos que

$$ \mathbb{P}(A) = \sup \lbrace \mathbb{P}(F) \ : \ F \subset A, ~ F ~ \hbox{Fechado} ~ \rbrace, ~ ~ ~ A \in \mathcal{A}$$

e

$$ \mathbb{P}(A) = \inf \lbrace \mathbb{P}(O) \ : \ A \subset O, ~ O ~ \hbox{Aberto} ~ \rbrace, ~ ~ ~ A \in \mathcal{A}.$$

1.5.3 - Teorema de Extensão de Carathéodory

Considere $ \Omega $ o espaço amostral e $ \mathcal{A} $ uma álgebra de subconjuntos de $ \Omega $. Dado uma função de conjunto $\mu: \mathcal{A} \rightarrow [0,1]$, dizemos que $ \mu $ é $ \sigma $-aditiva na álgebra $ \mathcal{A} $ se, para toda sequência de eventos $ (A_i) \subset \mathcal{A} $ disjuntos com $ \cup_i A_i \in \mathcal{A} $, temos que

$$\mu(A)=\sum_{i=1}^{\infty} \mu(A_i).$$

Toda função de conjunto $\mu:\mathcal{A}\rightarrow [0,1]$ que é $ \sigma $-aditiva e $ \mu(\Omega)=1 $ será denominada probabilidade sobre a álgebra.

Como $ \mathcal{A} $ é uma álgebra, precisamos assumir que $ \cup_i A_i \in \mathcal{A} $, pois a álgebra não é fechada para união enumerável. Por outro lado, para toda família finita $ A_1, \cdots , A_n $ de elementos disjuntos de $ \mathcal{A} $, temos que

$$\mu\left(\cup_{i=1}^nA_i\right)=\sum_{i=1}^n \mu(A_i).$$

Esta propriedade é denominada aditividade finita. Suponha que $ \mu $ seja uma probabilidade sobre a álgebra $ \mathcal{A} $ e que $ A,B \in \mathcal{A} $ com $ A \subset B $. Desde que $ \mu(A) + \mu(B-A)=\mu(B) $, obtemos que $ \mu $ é monótona,

$$ \mu(A) \leq \mu(B),\quad \text{se}~~A\subset B.$$

Além disso, também obtemos que $ \mu(B-A)=\mu(B)-\mu(A) $ e como caso especial $ \mu(A)+\mu(A^c)=1. $ Também podemos mostrar que

$$\mu(A\cup B)=\mu(A)+\mu(B)-\mu(A\cap B).$$

De forma geral, dado uma família finita $ A_1, \cdots , A_n $ de eventos em $ \mathcal{A} $, obtemos a fórmula

$$\mu(\cup_{i=1}^{n} A_i)=\sum_{i=1}^n \mu(A_i) - \sum_{i < j} \mu(A_i \cap A_j)+\sum_{i< j < k} \mu(A_i \cap A_j \cap A_k) + \cdots + (-1)^{n+1} \mu(A_1 \cap \cdots \cap A_n).$$

Para deduzirmos esta expressão de forma indutiva, basta observarmos que

$$\mu(\cup_{i=1}^{n+1} A_i)=\mu(\cup_{i=1}^n A_i) + \mu(A_{n+1}) - \mu \left(\cup_{i=1}^n (A_i \cap A_{n+1})\right).$$

Se tomarmos $ B_1=A_1 $ e $ B_k=A_k \cap A^c_1\cap \cdots A^c_{k-1} $, então $ (B_k) $ são disjuntos e $ \cup_{k=1}^n B_k = \cup_{i=1}^n A_i $. Como consequência da propriedade de aditividade finita, obtemos que

$$\mu(\cup_{i=1}^n A_i)=\sum_{k=1}^n \mu(B_k).$$

Desde que $ \mu(B_k) \leq \mu (A_k) $, obtemos a propriedade de subaditividade finita,

$$\mu(\cup_{i=1}^n A_i) \leq \sum_{i=1}^n \mu(A_i).$$

As propriedades acima são válidas para uma família finita de eventos em $ \mathcal{A} $. A seguir, vamos derivar algumas propriedades com sequências de eventos na álgebra $ \mathcal{A} $.

Lema 1.5.3.1

Seja $ \mu $ uma probabilidade sobre a álgebra $ \mathcal{A} $. Então, para toda sequência de eventos $ (A_i) \subset \mathcal{A} $, temos que

  1. Se $ A_i \subset A_{i+1} $ para todo $ i=1,2, \cdots $ e $ A=\cup_i A_i \in \mathcal{A} $, temos que $ \mu(A_i) \uparrow \mu(A) $;

  2. Se $ A_{i+1} \subset A_i $ para todo $ i=1,2, \cdots $ e $ A=\cap_i A_i \in \mathcal{A} $, temos que $ \mu(A_i) \downarrow \mu(A) $;

  3. De forma geral, temos que

$$\mu \left(\cup_{i=1}^{\infty} A_i\right) \leq \sum_{i=1}^{\infty} \mu (A_i).$$

Prova

Para mostrarmos (1), basta tomarmos $ B_1=A_1 $ e $ B_k=A_k-A_{k-1} $. Como os eventos $ (B_k) $ são disjuntos e $ A=\cup_{k=1}^{\infty}B_k $, obtemos da $ \sigma $-aditividade que

$$\mu(A)=\sum_{k=1}^{\infty}\mu(B_k) = \lim_{n \rightarrow \infty}\sum_{k=1}^n \mu(B_k) = \lim_{n \rightarrow \infty}\mu(\cup_{k=1}^n B_k) = \lim_{n \rightarrow \infty} \mu(A_n).$$

A afirmação (2) é consequência do fato de que se $ A_{i+1} \subset A_i $, então $ A^c_{i} \subset A^c_{i+1} $ e da primeira afirmação. Como consequência da subaditividade finita e da afirmação (1), obtemos que (3) é válido. Segue o lema.

A seguir, vamos mostrar que dado uma função de conjunto $\mu:\mathcal{A} \rightarrow [0,1]$ finitamente aditiva, a propriedade de $ \sigma $-aditividade é equivalente a propriedade de continuidade no vazio.

Lema 1.5.3.2

Para que uma função de conjunto $\mu:\mathcal{A} \rightarrow [0,1]$ seja uma probabilidade na álgebra é necessário e suficiente que:

  1. $ \mu(\Omega)=1 $;

  2. Finitamente aditiva: para todo família finita $ A_1, \cdots , A_n $ de eventos disjuntos em $ \mathcal{A} $, temos que $ \mu(\cup_{i=1}^n A_i)=\sum_{i=1}^n \mu(A_i). $

  3. Continuidade no vazio: para toda sequência de eventos em $ \mathcal{A} $ decrescendo para o vazio, isto é, $ A_{i+1} \subset A_i $ para todo $ i=1,2,\cdots $ e $ \cap_i A_i =\emptyset $, temos que $ \lim_{i} \mu(A_i)=0 $.

Prova

Suponha que $ \mu $ seja uma probabilidade na álgebra $ \mathcal{A} $ e $ (A_i) $ uma sequência de eventos que decresce para o vazio. Como $ (A_i) $ é uma sequência monótona decrescente, temos $ A_n=\cup_{m\geq n} (A_m - A_{m+1}) $. Como consequência da $ \sigma $-aditividade, obtemos que

$$1 \geq \mu(A_n)=\sum_{m \geq n}\mu(A_m-A_{m+1})=\lim_{m \rightarrow \infty}\left(\mu(A_n)-\mu(A_{m+1}) \right).$$

Desta forma, obtemos que $ \lim_{m \rightarrow \infty}\mu(A_m)=0 $. Por outro lado, tomamos $ \mu $ uma função de conjunto satisfazendo as três propriedades do lema, vamos mostrar que $ \mu $ é uma probabilidade sobre a álgebra $ \mathcal{A} $. Considere $ (A_n) \subset \mathcal{A} $ uma sequência de eventos disjuntos tal que $ A=\cup_{i=1}^{\infty} A_i $. Então, temos que

$$A=\left(\cup_{i=1}^n A_i\right)\cup \left(\cup_{i=n+1}A_i\right).$$

Pela aditividade finita, sabemos que

$$\mu(A)=\sum_{i=1}^n \mu(A_i)+\mu(\cup_{i=n+1}A_i).$$

Tomamos $ B_n=\cup_{i=n+1}^{\infty} A_i $, então $ \cap_{n}B_n=\emptyset $ e portanto $ \mu(B_k) \downarrow 0 $, devido a continuidade no vazio. Logo, concluímos que

$$\sum_{i=1}^{\infty}\mu(A_i)=\lim_{n \rightarrow \infty}\sum_{i=1}^n \mu(A_i)=\mu(A).$$

Segue o lema.

Uma $ \sigma $-álgebra $ \mathcal{F} $ de subconjuntos de $ \Omega $ é uma classe de subconjuntos de $ \Omega $ que contém o $ \emptyset $ e $ \Omega $ e é fechada por operações de complementar e união e intersecção enumeráveis. O par $ (\Omega , \mathcal{F}) $ consistindo do espaço amostral $ \Omega $ e da $ \sigma $-álgebra $ \mathcal{F} $ será denominado espaço mensurável. A seguir, vamos introduzir uma classe de conjuntos que será utilizada para caracterizar a $ \sigma $-álgebra. Uma classe $ \mathcal{C} $ de subconjuntos de $ \Omega $ é denominada classe monótona se satisfaz:

a) Para toda sequência crescente $ (A_i) \subset \mathcal{C} $ tal que $ A_i \subset A_{i+1} $, temos que $ \cup_{i=1}^{\infty} A_i \in \mathcal{C} $;

b) Para toda sequência decrescente $ (A_i) \subset \mathcal{C} $ tal que $ A_{i+1} \subset A_i $, temos que $ \cap_{i=1}^{\infty} A_i \in \mathcal{C} $.

Lema

Dados um espaço amostral $ \Omega $ e uma álgebra $ \mathcal{F} $ de subconjuntos de $ \Omega $. Para que $ \mathcal{F} $ seja uma $ \sigma $-álgebra é necessário e suficiente que esta seja uma classe monótona.

Prova

Obviamente, toda $ \sigma $-álgebra é uma classe monótona. Por outro lado, considere $ \mathcal{C} $ uma classe de subconjuntos de $ \Omega $ que é fechada para uniões finitas, vamos mostrar que $ \mathcal{C} $ é fechada por união enumerável se, e só se, $ \mathcal{C} $ for fechada para uniões monótonas crescentes. Para isto, tomamos $ (A_n) \subset \mathcal{C} $ uma sequência de subconjuntos de $ \Omega $ e $ B_k = \cup_{n=1}^k A_n $. Desta forma, temos que

$$\cup_{n=1}^{\infty} A_n = \cup_{k=1}^{\infty} B_k,$$

no qual $ (B_k ) \subset \mathcal{C} $. Segue o lema. Na sequência, enunciamos o teorema de extensão de Carathéodory.

Teorema 1.5.3.1

Para toda probabilidade $ \mu $ sobre a álgebra $ \mathcal{A} $, existe um única probabilidade $ \mathbb{P} $ sobre a $ \sigma $-álgebra gerada por $ \mathcal{A} $ que estende a função de conjunto $ \mu $.

Suponha que $ \mu $ seja uma função de conjunto $ \sigma $-aditiva sobre a álgebra $ \mathcal{A} $ e denotamos por $ \mathcal{F}=\sigma(\mathcal{A}) $. Então, existe uma única probabilidade $ \mathbb{P} $ definida sobre $ \mathcal{F} $ tal que $ \mathbb{P}(A) = \mu(A) $ para todo $ A\in \mathcal{A} $. Além disso, se $ \mathbb{P}^{\prime} $ for outra probabilidade definida sobre $ \mathcal{F} $ tal que $ \mathbb{P}^{\prime}(A)=\mathbb{P}(A) $ para todo $ A\in \mathcal{A} $, então $ \mathbb{P}^{\prime}(A)=\mathbb{P}(A) $ para todo $ A\in \mathcal{F} $. Observe que a classe de eventos $ \mathcal{A} $ é uma álgebra, sendo fechada apenas por operações finitas de uniões e intersecções. Por outro lado, a função de conjunto $ \mu $ satisfaz uma propriedade de $ \sigma $-aditividade, que é válida para operações enumeráveis com eventos da álgebra. Somando esta propriedade com a estratégia de construção de números reais, vamos estender a função de conjunto $ \mu $ sobre a $ \sigma $-álgebra gerada por $ \mathcal{A} $ de tal forma que a propriedade de $ \sigma $-aditividade seja preservada.

Construção da extensão

Seja $ \mathbb{P} $ uma probabilidade definida sobre uma álgebra $ \mathcal{A} $ . A construção seguinte estende $ \mathbb{P} $ para uma classe geralmente muito maior do que $ \sigma (\mathcal{A}) $, no entanto, não contém todos os subconjuntos de $ \Omega $.

Definição 1.5.3.1

Para cada subconjunto $ A $ de $ \Omega $ definimos sua probabilidade exterior por

$$\mathbb{P}^{\ast}(A) = \inf \sum_n \mathbb{P}(A_n)$$

no qual o ínfimo se estende sobre todas as sequências finitas e infinitas $ A_1, A_2, \dots $ de $ \mathcal{A} $ satisfazendo $ A \subset \bigcup_n (A_n) $. Obviamente, a probabilidade exterior é uma primeira tentativa para definirmos uma “probabilidade” para o conjunto $ A $.

Por causa da regra $ \mathbb{P}(A^c) = 1 - \mathbb{P}(A) $, podemos definir a probabilidade inferior de $ A $ através da probabilidade exterior de $ A^c $, na forma

$$\mathbb{P}_{\ast}(A) = 1 - \mathbb{P}^{\ast}(A^c).$$

A probabilidade interior de $ A $, denotada por $ \mathbb{P}_{\ast} (A) $, é um segundo candidato para a probabilidade de $ A $. A probabilidade exterior (ou interior) tem a vantagem de estar definida para qualquer subconjunto $ A $, mas não satisfaz a propriedade $ \sigma $-aditividade. Para tornar a probabilidade exterior $ \sigma $-aditiva, vamos reduzir a classe de subconjuntos para o qual aplicamos a probabilidade exterior. Para isto, uma procedência plausível é atribuir uma probabilidade para $ A $ de forma que a probabilidade interior seja igual à probabilidade exterior, ou seja,

$$\mathbb{P}^{\ast}(A) = \mathbb{P}_{\ast}(A).$$

Observe que a probabilidade exterior e a probabilidade interior coincidem se, e só se,

$$ \mathbb{P}^{\ast}(A) + \mathbb{P}^{\ast}(A^c)=1.$$

Neste sentido, Carathéodory propôs um requerimento similar (porém, mais forte). Dizemos que um subconjunto $ A \subset \Omega $ é $ \mathbb{P}^{\ast} $-mensurável se

$$\mathbb{P}^{\ast}(A\cap E) + \mathbb{P}^{\ast}(A^c \cap E) = \mathbb{P}^{\ast}(E) (*),$$

para todo subconjunto $ E \subset \Omega $. Observe que $ \mathbb{P}^{\ast}(\Omega)=1. $ Considere $ \mathcal{M} $ a classe dos conjuntos $ \mathbb{P}^{\ast} $-mensuráveis. Temos como objetivo mostrar que $ \mathcal{M} \supset \sigma(\mathcal{A}) $. Para isto, listamos as principais propriedades da função $ \mathbb{P}^{\ast} $:

P1) $ \mathbb{P}^{\ast}(\emptyset) = 0 $

P2) $ \mathbb{P}^{\ast} $ é não negativa, isto é, $ \mathbb{P}^{\ast}(A)\geq 0 $ para todo $ A \subset \Omega $.

P3) $ \mathbb{P}^{\ast} $ é monótona, isto é, se $ A \subset B $ então $ \mathbb{P}^{\ast}(A)\leq \mathbb{P}^{\ast}(B) $.

P4) $ \mathbb{P}^{\ast} $ é $ \sigma $-subaditiva, isto é, $ \mathbb{P}^{\ast}\left(\bigcup_{n\in\mathbb{N}} A_n\right) \leq \sum_n \mathbb{P}^{\ast}(A_n) $.

As propriedades (P1), (P2) e (P3) são triviais, vamos verificar apenas a propriedade (P4). De fato, para um dado $ \varepsilon $, escolhemos conjuntos $ B_{nk} $ de $ \mathcal{A} $, tal que $ A_n \subset \bigcup_k B_{nk} $ e $ \sum_k \mathbb{P}^{\ast}(B_{nk}) \ < \ \mathbb{P}^{\ast}(A_n) + \varepsilon 2^{-n} $, o que é possível pela Definição 1.5.1.2.

Agora $ \bigcup_n (A_n) \subset \bigcup_{n,k} B_{nk} $, assim $ \mathbb{P}^{\ast}(\bigcup_n A_n) \leq \sum_{n,k} \mathbb{P}(B_{nk}) < \sum_n \mathbb{P}^{\ast}(A_n) + \varepsilon $, de onde segue a propriedade (P4).

Através da propriedade subaditiva da probabilidade exterior, um conjunto $ A $ é $ \mathbb{P}^{\ast} $-mensurável se,

$$\mathbb{P}^{\ast}(A\cap E)+\mathbb{P}^{\ast}(A^c\cap E)\leq \mathbb{P}^{\ast}(E).$$

Na sequência, vamos mostrar que a classe dos conjuntos $ \mathbb{P}^{\ast} $-mensuráveis é uma álgebra.

Lema 1.5.3.1

A classe $ \mathcal{M} $ é uma álgebra.

Demonstração

De fato, vamos verificar que $ \mathcal{M} $ satisfaz as condições definidas na Definição 1.5.1.2. Para isto, seja $ E $ um subconjunto arbitrário de $ \Omega $.

Inicialmente, vamos verificar que $ \emptyset\in\mathcal{M} $. De fato, temos que

$$\mathbb{P}^{\ast}(\emptyset\cap E) + \mathbb{P}^{\ast}(\emptyset^c\cap E) = \mathbb{P}^{\ast}(\emptyset) + \mathbb{P}^{\ast}(\Omega\cap E) =\mathbb{P}^{\ast}(\emptyset)+\mathbb{P}^{\ast}(E) = \mathbb{P}^{\ast}(E), \ \text{portanto} \ \emptyset \in \mathcal{M}.$$

Vamos verificar agora que, se $ A, B\in\mathcal{M} $, então $ A\cap B\in\mathcal{M} $. De fato,

$$\mathbb{P}^{\ast}(E) = \mathbb{P}^{\ast}(A \cap E) + \mathbb{P}^{\ast}(A^c\cap E) = \mathbb{P}^{\ast}(A \cap B \cap E) +\mathbb{P}^{\ast}(A \cap B^c \cap E)+ \mathbb{P}^{\ast}(A^c \cap B \cap E) + \mathbb{P}^{\ast}(A^c \cap B^c \cap E).$$

Através da propriedade de subaditividade da probabilidade exterior (P4), concluímos que

$$\mathbb{P}^{\ast}(E)\geq\mathbb{P}^{\ast}((A \cap B)\cap E) + \mathbb{P}^{\ast}((A^c \cap B) \cap E) \cup ((A \cap B^c) \cap E) \cup ((A^c \cap B^c) \cap E)= \mathbb{P}^{\ast}((A \cap B) \cap E) + \mathbb{P}^{\ast}((A \cap B)^c \cap E)$$

Portanto,

$$\mathbb{P}^{\ast}(E)= \mathbb{P}^{\ast}((A \cap B) \cap E) + \mathbb{P}^{\ast}((A \cap B)^c \cap E).$$

Finalmente, basta verificar que, se $ A\in\mathcal{M} $, então $ A^c\in\mathcal{M} $. Para isto, temos que

$$\mathbb{P}^{\ast}(A^c\cap E) + \mathbb{P}^{\ast}((A^c)^c\cap E) = \mathbb{P}^{\ast}(A\cap E) + \mathbb{P}^{\ast}(A^c\cap E) = \mathbb{P}^{\ast}(E)$$

Portanto, segue que $ \mathcal{M} $ é uma álgebra.

Lema 1.5.3.2

A função $ \mathbb{P}^{\ast} $ é finitamente aditiva em $ \mathcal{M} $.

Demonstração

De fato, suponha que $ A, B\in\mathcal{M} $ e que são disjuntos. Então

$$\mathbb{P}^{\ast}(A \cup B) = \mathbb{P}^{\ast}(A \cap (A \cup B)) + \mathbb{P}^{\ast}(A^c \cap (A \cup B)) = \mathbb{P}^{\ast}(A) + \mathbb{P}^{\ast}(B).$$

Segue por indução finita que

$$\mathbb{P}^{\ast}\left(\bigcup^n_{k=1}A_k\right) = \sum^n_{k=1} \mathbb{P}^{\ast}(A_k)$$

para conjuntos disjuntos $ A_1, A_2, \dots ,A_n $ de $ \mathcal{M} $.

Lema 1.5.3.3

Se $ A_1, A_2, \dots $ é sequência disjunta de conjuntos em $ \mathcal{M} $, então

$$\bigcup_n A_n \in \mathcal{M} \ \text{e} \ \mathbb{P}^{\ast}\left(\bigcup_n A_n\right) = \sum_n \mathbb{P}^{\ast}(A_n).$$

Demonstração

Seja $ A = \bigcup_n (A_n) $. Pelo Lema 1.5.3.2 e pela propriedade de monotonicidade, temos que

$$\sum_{n \leq m} \mathbb{P}^{\ast}\left(A_n\right) = \mathbb{P}^{\ast}\left(\bigcup_{n \leq m} A_n\right) \leq \mathbb{P}^{\ast}(A).$$

Portanto, $ \sum_n \mathbb{P}^{\ast}(A_n) \leq \mathbb{P}^{\ast}(A) $ e a desigualdade oposta segue por subaditividade.

Vamos provar que A é um conjunto $ \mathbb{P}^{\ast} $-mensurável. Seja $ B_m = \bigcup_{n\leq m} A_n \in \mathcal{M} $, pois $ \mathcal{M} $ é uma álgebra. Na sequência, vamos mostrar por indução que a equação

$$\mathbb{P}^{\ast}(E \cap B_m) = \sum_{n\leq m} \mathbb{P}^{\ast}(E \cap A_n)$$

é válida para todo $ m \in \mathbb{N} $. Esta certamente é verdadeira para m = 1. Assuma que é verdade para algum m e particione $ E \cap B_{m+1} $ pelo conjunto $ B_m $, na forma

$$\mathbb{P}^{\ast}(E \cap B_{m+1}) = \mathbb{P}^{\ast}(E \cap B_{m+1} \cap B_m) + \mathbb{P}^{\ast}(E \cap B_{m+1} \cap B^c_m),$$

no qual $ B_m \in \mathcal{M} $. Como consequência da aditividade finita da probabilidade exterior, obtemos que

$$\mathbb{P}^{\ast}(E\cap B_{m+1})= \mathbb{P}^{\ast}(E \cap B_m) + \mathbb{P}^{\ast}(E \cap A_{m+1}) = \sum _{n \leq m} \mathbb{P}^{\ast}(E \cap A_n) + \mathbb{P}^{\ast}(E \cap A_{m+1})$$

Agora, particionando $ E $ pelos conjuntos $ B_m $ temos que

$$\mathbb{P}^{\ast}(E) = \mathbb{P}^{\ast}(E \cap B_m ) + \mathbb{P}^{\ast}(E \cap B^c_m) = \sum_{n \leq m} \mathbb{P}^{\ast}(E \cap A_n) + \mathbb{P}^{\ast}(E \cap B^c_m) \ge \sum_{n \leq m} \mathbb{P}^{\ast}(E \cap A_n) + \mathbb{P}^{\ast}(E \cap A^c).$$

Assim, ao tomarmos o limite quando $ n \rightarrow \infty $, concluímos que

$$\mathbb{P}^{\ast}(E) \ge \sum_n \mathbb{P}^{\ast}(E \cap A_n) + \mathbb{P}^{\ast}(E \cap A^c) \ge \mathbb{P}^{\ast}(E \cap A) + \mathbb{P}^{\ast}(E \cap A^c).$$

Lema 1.5.3.4

A classe $ \mathcal{M} $ é uma $ \sigma $-álgebra e $ \mathbb{P}^{\ast} $ restrita a $ \mathcal{M} $ é $ \sigma $-aditiva.

Demonstração

Ao tomarmos $ A_1, A_2, \dots $ em $ \mathcal{M} $, obtemos que os conjuntos $ B_1 = A_1 $ e $ B_n = A_n \cap A^c_1 \cap \dots \cap A^c_{n-1} $ são disjuntos e também estão em $ \mathcal{M} $, pois $ \mathcal{M} $ é uma álgebra. Como consequência do lema 1.5.3.3 obtemos que $ \bigcup_n A_n = \bigcup_n B_n \in\mathcal{M} $. Portanto, concluímos que $ \mathcal{M} $ é uma $ \sigma $-álgebra. Desde que $ \mathbb{P}^{\ast} $ é $ \sigma $-aditiva em $ \mathcal{M} $ (lema 1.5.3.3), concluímos o lema.

Observe que os quatro lemas acima são consequências das propriedades (P1), (P2), (P3) e (P4) da probabilidade exterior. Nos próximos lemas, vamos utilizar a definição da probabilidade exterior via a probabilidade $ \mathbb{P} $ sobre a álgebra $ \mathcal{A} $.

Lema 1.5.3.5

Temos que $ \mathcal{A} \subset \mathcal{M} $.

Demonstração

Suponha que $ A \in \mathcal{A} $. Dados $ E $ e $ \varepsilon $ quaisquer, escolhemos conjuntos $ (A_n) $ de $ \mathcal{A} $ tais que $ E \subset \cup_n A_n $ e $ \sum_n \mathbb{P}(A_n) \leq \mathbb{P}^{\ast}(E) + \varepsilon $. Desde que $ \mathcal{A} $ é uma álgebra, os conjuntos $ B_n = A_n \cap A $ e $ C_n = A_n \cap A^c $ estão em $ \mathcal{A} $. Também temos que $ E \cap A \subset \cup_n B_n $ e $ E \cap A^c \subset \cup_n C_n $. Por definição de $ \mathbb{P}^{\ast} $ e a aditividade finita de $ \mathbb{P} $ sobre a álgebra $ \mathcal{A} $, obtemos que

$$\mathbb{P}^{\ast}(E \cap A) + \mathbb{P}^{\ast}(E \cap A^c) \leq \sum_n \mathbb{P}(B_n) + \sum_n \mathbb{P}(C_n)=\sum_n \left[\mathbb{P}(B_n) + \mathbb{P}(C_n)\right] =\sum_n \mathbb{P}(A_n) \leq \mathbb{P}^{\ast}(E) + \varepsilon.$$

Consequentemente $ A \in \mathcal{M} $, o que implica que $ \mathcal{A} \subset \mathcal{M} $. Portanto, segue o lema.

Lema 1.5.3.6

Para todo $ A \in \mathcal{A} $, temos que

$$\mathbb{P}^{\ast}(A)=\mathbb{P}(A).$$

Demonstração

É obvio da definição de probabilidade exterior que $ \mathbb{P}^{\ast}(A) \leq \mathbb{P}(A) $ para $ A \in \mathcal{A} $. Por outro lado, considere $ A \subset \cup_n A_n $, no qual $ A $ e $ (A_n) $ estão em $ \mathcal{A} $. Utilizando a $ \sigma $-subaditividade e a monotonicidade de $ \mathbb{P} $, concluímos que

$$ \mathbb{P}(A) \leq \sum_{n} \mathbb{P}(A \cap A_n)\leq \sum \mathbb{P}(A_n).$$

Portanto, segue o lema.

Ao denotarmos por $ \mathcal{F}=\sigma(\mathcal{A}) $, a $ \sigma $-álgebra gerada pela álgebra $ \mathcal{A} $, sabemos que

$$\mathcal{A} \subset \mathcal{F} \subset \mathcal{M} \subset 2^{\Omega}.$$

Assim, a probabilidade exterior $ \mathbb{P}^{\ast} $ restrita a $ \sigma $-álgebra $ \mathcal{M} $ é uma probabilidade. Da mesma forma, se restringirmos a probabilidade exterior a $ \mathcal{F} $ também obtemos uma probabilidade. Na sequência, vamos mostrar que a extensão da probabilidade é única.

Unicidade e teorema $ \pi $ - $ \lambda $

Para provar que a extensão da probabilidade apresentada acima é única vamos utilizar alguns conceitos auxiliares. Uma classe $ \mathcal{P} $ de $ \Omega $ é um $ \pi $-sistema se é fechado para interseções finitas, isto é, se $ A, B\in\mathcal{P} $ então

$$(\pi) \quad A, B \in \mathcal{P} \rightarrow A\cap B \in \mathcal{P} $$

Uma classe $ \mathcal{L} $ composta por subconjuntos de $ \Omega $ é um $ \lambda $-sistema se

$ (\lambda_1) $: Temos que $ \Omega \in \mathcal{L} $

$ (\lambda_2) $: Se $ A\in\mathcal{L} $ então $ A^c\in\mathcal{L} $.

$ (\lambda_3) $: Se $ A_1,A_2,\ldots\in\mathcal{L} $ e $ A_i\cap A_j = \emptyset $ para $ i\neq j $ então $ \cup_nA_n\in\mathcal{L} $.

Como os conjuntos na condição $ (\lambda_3) $ são disjuntos, um $ \lambda $-sistema é uma classe “mais fraca” do que uma $ \sigma $-álgebra. As propriedades $ (\lambda_1) $ e $ (\lambda_2) $ implicam que $ \emptyset \in \mathcal{L} $. Além disso, na presença das condições $ (\lambda_1) $ e $ (\lambda_3) $, segue que a condição $ (\lambda_2) $ é equivalente a dizer que $ \mathcal{L} $ é fechado para a diferença, isto é,

$$(\lambda_2^{\prime}): \quad A, B \in \mathcal{L} \ \text{e} \ A \subset B ~ ~ \text{implicam que}~~B - A \in \mathcal{L}.$$

Suponha que $ \mathcal{L} $ seja uma classe de subconjuntos de $ \Omega $ que satisfaz as propriedades $ (\lambda_2) $ e $ (\lambda_3) $, se $ A,B \in \mathcal{L} $ e $ A \subset B $, então $ B^c \in \mathcal{L} $, $ A \cup B^c \in \mathcal{L} $ e $ (A \cup B^c)^c = B-A \in \mathcal{L} $. Desta forma, a propriedade $ (\lambda_2^{\prime}) $ também é satisfeita. Por outro lado, se $ \mathcal{L} $ é uma classe de subconjuntos de $ \Omega $ que satisfaz $ (\lambda_1) $ e $ (\lambda_2^{\prime}) $, então se $ A \in \mathcal{L} $ temos que $ A^c = \Omega - A \in \mathcal{L} $. Portanto, a condição $ (\lambda_2) $ é satisfeita.

Lema 1.5.3.7

Uma classe $ \mathcal{F} $ que é um $ \pi $-sistema e um $ \lambda $-sistema é uma $ \sigma $-álgebra.

Demonstração

Esta classe contém $ \Omega $ por ser um $ \lambda $-sistema e, além disso, é fechada para a complementação e intersecções finitas por ser um $ \lambda $-sistema e um $ \pi $-sistema. Desta forma, a classe $ \mathcal{F} $ é uma álgebra. Também é uma $ \sigma $-álgebra pois, se $ \mathcal{F} $ contém uma sequência de conjuntos $ A_n $, então contém conjuntos disjuntos $ B_j = A_j -\left(A_1\cup \dots \cup A_{j-1}\right) $ para $ j=1,\ldots,n $ de forma que $ \cup_nA_n = \cup_nB_n $ e, pela propriedade $ (\lambda_3) $, temos que $ \cup_n A_n = \cup_n B_n \in \mathcal{F}. $

Teorema 1.5.3

Se $ \mathcal{P} $ é um $ \pi $-sistema e $ \mathcal{L} $ é um $ \lambda $-sistema então $ \mathcal{P} \subset \mathcal{L} $ implica que $ \sigma (\mathcal{P} ) \subset \mathcal{L}. $

Demonstração

Considere $ \mathcal{L}_0 $ o $ \lambda $-sistema gerado por $ \mathcal{P} $, isto é, a intersecção de todos os $ \lambda $-sistemas contendo $ \mathcal{P} $. Assim, obtemos que $ \mathcal{L}_0 $ é um $ \lambda $-sistema que contém $ \mathcal{P} $ e está contido em todo $ \lambda $-sistema que contém $ \mathcal{P} $. Então $ \mathcal{P} \subset \mathcal{L}_0 \subset \mathcal{L} $. Se mostrarmos que $ \mathcal{L}_0 $ é um $ \pi $-sistema, então, pelo Lema 1.5.3.7, temos que $ \mathcal{L}_0 $ é uma $ \sigma $-álgebra. Da minimalidade de $ \sigma(\mathcal{P}) $ segue que $ \sigma(\mathcal{P}) \subset \mathcal{L}_0 $ e então, é sufiente mostrar que $ \mathcal{L}_0 $ é um $ \pi $-sistema.

Para cada $ A $, seja $ \mathcal{L_{A}} $ a classe dos conjuntos $ B $ tal que $ A \cap B \in \mathcal{L}_0 $. Ao assumirmos que $ A $ está em $ \mathcal{P} $ ou em $ \mathcal{L}_0 $ obtemos que $ \mathcal{L}_{A} $ é um $ \lambda $-sistema. Visto que $ A\cap \Omega = A \in \mathcal{L}_0 $ por hipótese, $ \mathcal{L}_{A} $ satisfaz a primeira condição de um $ \lambda $-sistema. Se $ B_1, B_2 \in \mathcal{L}_{A} $ e $ B_1 \subset B_2 $ então o $ \lambda $-sistema $ \mathcal{L}_0 $ contém $ A \cap B_1 $ e $ A\cap B_2 $ e então, contém a diferença $ (A\cap B_2) - (A\cap B_1) = A\cap (B_2 - B_1 ) $. Como consequência $ \mathcal{L}_{A} $ contém $ B_2 - B_1 $ e, então $ \mathcal{L}_A $ satisfaz a propriedade $ (\lambda_2^{\prime}) $. Se $ B_n $ são conjuntos disjuntos de $ \mathcal{L}_{A} $ então $ \mathcal{L}_{0} $ contém os conjuntos disjuntos $ (A\cap B_n) $ e assim, também contém $ A\cap (\cup_n B_n) $, ou seja, $ \mathcal{L}_{A} $ satisfaz a propriedade $ (\lambda_3) $. Com isso, concluímos que $ \mathcal{L}_A $ é um $ \lambda $-sistema sempre que $ A \in \mathcal{L}_0 $.

Assim, se $ A\in \mathcal{P} $ e $ B \in \mathcal{P} $, então temos que $ A\cap B \in \mathcal{P} \subset \mathcal{L}_0 $, com isso obtemos que $ B \in \mathcal{L}_0 $. Portanto, se $ A \in \mathcal{P} $ implica que $ \mathcal{P} \subset \mathcal{L}_A $. Como $ \mathcal{L}_A $ é um $ \lambda $-sistema, a minimalidade de $ \mathcal{L}_0 $ nos garante que $ \mathcal{L}_0 \subset \mathcal{L}_A $.

Portanto, se $ A \in \mathcal{P} $ obtemos que $ \mathcal{L}_0 \subset \mathcal{L}_A $. De outra forma, se $ A \in \mathcal{P} $ e $ B \in \mathcal{L}_0 $ temos que $ B \in \mathcal{L}_A $ e então, $ A\in \mathcal{L}_B $, pois $ B \in \mathcal{L}_A $ se e só se $ A \in \mathcal{L}_B $. Este fato nos diz que $ B \in \mathcal{L}_0 $ implica que $ \mathcal{P} \subset \mathcal{L}_B $. Desde que $ \mathcal{L}_B $ é um $ \lambda $-sistema, obtemos da minimalidade que $ B \in \mathcal{L}_0 $ implica que $ \mathcal{L}_0 \subset \mathcal{L}_B $. Finalmente, temos que se $ B,C \in \mathcal{L}_0 $ concluímos que $ C \in \mathcal{L}_B $ e $ B \cap C \in \mathcal{L}_0 $. Portanto, concluímos que $ \mathcal{L}_0 $ é um $ \pi $-sistema. Portanto, segue o teorema.

Desde que toda álgebra também é um $ \pi $-sistema, a unicidade da extensão é consequência do seguinte teorema.

Teorema 1.5.3.4

Suponha que $ \mathbb{P}_1 $ e $ \mathbb{P}_2 $ sejam probabilidades definidas sobre $ \sigma (\mathcal{P}) $, no qual $ \mathcal{P} $ é um $ \pi $-sistema. Se $ \mathbb{P}_1 (C) = \mathbb{P}_2 (C) $ para todo $ C \in \mathcal{P} $, então obtemos que $ \mathbb{P}_1 = \mathbb{P}_2 $ sobre a $ \sigma $-álgebra $ \sigma(\mathcal{P}) $.

Demonstração

Tomamos $ \mathcal{L} $ a classe de todos os conjuntos $ A $ em $ \sigma(\mathcal{P}) $ tal que $ \mathbb{P}_1(A)=\mathbb{P}_2(A) $. Na sequência, vamos mostrar que $ \mathcal{L} $ é um $ \lambda $-sistema. Obviamente, temos que $ \Omega \in \mathcal{L} $. Se $ A \in \mathcal{L} $, então temos que $ \mathbb{P}_1(A^c)=1-\mathbb{P}_1 (A)=1-\mathbb{P}_2 (A)=\mathbb{P}_2(A^c) $ e então, concluímos que $ A^c \in \mathcal{L} $. Seja $ (A_n) $ uma sequência de conjuntos disjuntos em $ \mathcal{L} $, então

$$\mathbb{P}_1 (\cup_n A_n)=\sum_n \mathbb{P}_1(A_n)= \sum_n \mathbb{P}_2(A_n) = \mathbb{P}_2(\cup_n A_n).$$

Portanto, obtemos que $ \cup_n A_n \in \mathcal{L} $ e consequentemente, a classe de conjuntos $ \mathcal{L} $ é um $ \lambda $-sistema. Desde que $ \mathcal{P} \subset \mathcal{L} $ e $ \mathcal{P} $ é um $ \pi $-sistema, obtemos do Teorema 1.5.3 que $ \sigma(\mathcal{P}) \subset \mathcal{L} $. Portanto, segue o teorema.

1.5.4 - Sequências de conjuntos

Dados $ (\Omega, \mathcal{F} , \mathbb{P}) $ um espaço de probabilidade e $ (A_n) $ uma sequência de eventos em $ \mathcal{F} $, vamos estudar o comportamento limite da sequência de eventos e suas relações com o espaço de probabilidade. Tomamos $ (A_n)_{n\geq 1} $ uma sequência de eventos em $ \mathcal{F} $. O limite superior da sequência $ (A_n) $ é definido como

$$\displaystyle \limsup_{n\rightarrow\infty} A_n=\bigcap_{n=1}^{\infty}\bigcup_{k=n}^{\infty}A_k.$$

Da mesma forma, podemos definir limite inferior por:

$$\displaystyle \liminf_{n\rightarrow\infty} A_n=\bigcup_{n=1}^{\infty}\bigcap_{k=n}^{\infty}A_k.$$

Como estes limites são formados por uniões e intersecções enumeráveis de eventos em $ \mathcal{F} $, concluímos que o conjunto limite inferior e o conjunto limite superior também pertencem à $ \sigma $-álgebra $ \mathcal{F} $.

Como consequência da definição, temos que $ \omega\in\limsup_{n\rightarrow\infty} A_n $ se, e só se, para todo $ n $ existe algum $ k \geq n $ tal que $ \omega \in A_k $. Assim, dizemos que $ \omega\in\limsup_{n\rightarrow\infty} A_n $ este pertence a um número infinito de $ A_n $. Da mesma forma, temos que $ \omega\in\liminf_{n\rightarrow\infty} A_n $ se, e só se, existe $ n $ tal que $ \omega \in A_k $ para todo $ k \geq n $. Então, podemos dizer que $ \omega\in\liminf_{n\rightarrow\infty} A_n $ se, só se, $ \omega $ pertence a todos os $ A_n $ exceto um número finito destes.

Temos que $ B_n=\cap_{k=n}^{\infty} A_n $ é uma sequência monótona crescente que converge para o $ \liminf_{n\rightarrow\infty} A_n $. De forma análoga, temos que $ C_n=\cup_{k=n}^{\infty} A_n $ é uma sequência monótona decrescente que converge para $ \limsup_{n\rightarrow\infty} A_n $. Para todo $ m $ e $ n $ temos que $ \cap_{k=m}^{\infty} A_k\subset\cup_{k=n}^{\infty} A_k $, pois para todo $ i \geq \max(m,n) $, o conjunto $ A_i $ contém o conjunto $ \cap_{k=m}^\infty A_k $ e está contido no conjunto $ \cup_{k=n}^\infty A_k $. Ao tomarmos união em $ m $ e intersecção em $ n $, concluímos que o $ \liminf_{n\rightarrow\infty} A_n\subset\limsup_{n\rightarrow\infty} A_n $. Esta conclusão também poderia ser obtida diretamente da interpretação destes conjuntos. Sabemos que $ \omega $ pertence ao conjunto limite inferior se este está em todos os $ A_n $ exceto um número finito e então, $ \omega $ pertence a um número infinito de $ A_n $. Como consequência, temos que $ \omega\in\liminf_{n\rightarrow\infty}A_n $ implica que $ \omega\in\limsup_{n\rightarrow\infty}A_n $. Se os conjuntos limite superior e limite inferior coincidem, dizemos que a sequência de conjuntos $ (A_n) $ tem limite e escrevemos,

$$ \lim_nA_n=\limsup_{n}A_n=\limsup_{n}A_n.$$

Desde que o conjunto limite inferior está contido no conjunto limite superior, para checarmos que uma dada sequência de conjuntos tem limite, basta provarmos que o conjunto limite superior está contido no conjunto limite inferior. Dado uma sequência monótona $ (A_n) $ de eventos em $ \mathcal{F} $ tal que $ A_n\subset A_{n+1} $, obtemos que $ \cup_{n=1}^{\infty}A_n=\lim_{n}A_n $. Da mesma forma, se $ A_{n+1}\subset A_n $ então $ \cap_{n=1}^{\infty}A_n=\lim_nA_n $.

Teorema 1.5.4.1

Para toda sequência $ (A_n) $ de eventos em $ \mathcal{F} $, temos que

$$\mathbb{P}\left(\liminf_nA_n\right)\leq\liminf_n\mathbb{P}\left(A_n\right)\leq\limsup_n\mathbb{P}\left(A_n\right)\leq\mathbb{P}\left(\limsup_nA_n\right).$$

Prova: Ao tomarmos $ B_n=\cap_{k=n}^\infty A_k $ e $ C_n=\cup_{k=n}^\infty A_k $, obtemos que as sequência $ (B_n) $ e $ (C_n) $ são monótonas e então

$$\mathbb{P}(A_n)\geq\mathbb{P}(B_n)\rightarrow\mathbb{P}\left(\liminf_nA_n\right)\quad\text{e}\quad\mathbb{P}(A_n)\leq\mathbb{P}(C_n)\rightarrow\mathbb{P}\left(\limsup_nA_n\right).$$

O que prova o teorema.

1.5.5 - Probabilidades Compactas

Um dos principais pontos da teoria de probabilidade é a construção de um espaço de probabilidade que satisfaça os axiomas de Kolmogorov e as propriedades intuívas da probabilidade, conforme apresentado em fundamentos da teoria de probabilidade. Ao construirmos uma estrutura probabilística sobre o espaço de Cantor $ S^\infty $ com a respectiva $ \sigma $-álgebra de Borel $ \mathcal{F} $, obtemos que qualquer probabilidade $ \mathbb{P} $ definida em $ \mathcal{F} $ pode ser aproximada pela probabilidade sobre a classe de conjuntos compactos $ \mathcal{E} $, na forma

$$\mathbb{P}(A) = \sup \lbrace (P(C) : C \subset \mathcal{E}) \rbrace, \quad A \in \mathcal{F}.$$

Qualquer espaço de probabilidade satisfzendo esta propriedade será denominado espaço de probabilidade compacto. No módulo espaço de Radon, mostramos que esta propriedade é fundamental para que um espaço de probabilidade satisfaça as propriedades intuítivas da teoria de probabilidade. A seguir, vamos apresentar a propriedade de compacidade de forma abstrata e mostrarmos como podemos utilizar esta propriedade na construção do espaço de probabilidade.

Definição 1.5.5.1

Uma classe $ \mathcal{C} $ de subconjuntos de $ \Omega $ é denominada compacta se, para toda sequência $ \lbrace C_n: \ n\geq1 \rbrace $ em $ \mathcal{C} $ tal que $ \cap C_n = \varnothing $ existe um $ N\in\mathbb{N} $ tal que

$$\bigcap_{n=1}^NC_n = \varnothing.$$

A denominação de classe compacta vem do fato de que toda classe de subconjuntos compactos em um espaço topológico é compacta no sentido da definição acima. A seguir, mostrarmos que a propriedade de compacidade é fechada por intersecção enumerável e união finita.

Lema 1.5.5.1

Se a classe $ \mathcal{C} $ de subconjuntos de $ \Omega $ é compacta, o mesmo é válido para a classe $ \mathcal{C}^{\prime} $, fechada por interseção enumerável e união finita, que é gerada por $ \mathcal{C} $.

Demonstração: De fato, considere

$$\mathcal{C_s} = \lbrace (A\in\Omega: A = \bigcup_{i = 1}^nA_i, \ A_i\in\mathcal{C} \ \text{e} \ n\in\mathbb{N}) \rbrace.$$

A classe $ \mathcal{C}_s $ é composta por uniões finitas de elementos de $ \mathcal{C} $. Vamos mostrar que $ \mathcal{C}_s $ é uma classe compacta. Para isto, seja $ \lbrace D_n: \ n\geq 1 \rbrace $ uma sequência em $ \mathcal{C}_s $, tal que

$$\bigcap_{i=1}^pD_i\neq\varnothing$$

para todo $ p \ > \ 0 $. Para mostrarmos que $ \mathcal{C}_s $ é uma classe compacta, basta estabelecermos que

$$\bigcap_{i=1}^{\infty}D_i\neq\varnothing.$$

Por definição, temos que

$$D_n = \bigcup_{m=1}^{M_n}C^m_n$$

em que $ C^m_n\in\mathcal{C} $ para todo $ 1\leq m\leq M_n $ com $ M_n\in\mathbb{N} $ e $ n\in\mathbb{N} $. Denotamos por

$$J = \prod_{n=1}^\infty(1,\ldots,M_n)$$

o conjunto de todas as sequências $ (\lbrace m_n: \ n\geq 1 \rbrace) $ de inteiros positivos tal que $ 1\leq m_n\leq M_n $. Considere $ J_p $ os subconjuntos de $ J $ que consistem das sequências $ (m_n) $ tais que

$$\bigcap_{n=1}^pC^{m_n}_n\neq \varnothing.$$

A fórmula distributiva

$$\varnothing \neq \bigcap_{n=1}^pD_n = \bigcap_{n=1}^p\left[\bigcup_{m=1}^{M_n}C^m_n\right] = \bigcup_J\left[\bigcap_{n=1}^pC^{m_n}_n\right]$$

o que nos mostra que $ J_p\neq\varnothing $ para todo $ p \ > \ 0 $. Além disso, a sequência de conjuntos $ J_p $ é decrescente. Então, basta mostrarmos que existe uma sequência $ (m_n^{\star})\in\bigcap_{p\in\mathbb{N}}J_p $, pois

$$\bigcap_{n=1}^pC^{m_n^{\star}}_n\neq\varnothing; \ \forall \ p$$

e $ \mathcal{C} $ é uma classe compacta. Então temos que

$$\bigcap_{n=1}^{\infty}C_n^{m_n^{\star}} \neq \varnothing.$$

Como

$$\varnothing\neq \bigcap_{n=1}^{\infty}C_n^{m_n^{\star}} \subset\bigcap_{n=1}^{\infty}D_n$$

temos que $ \mathcal{C_s} $ é uma classe compacta. Entretanto, precisamos mostrar a existência da sequência $ (m_n^{\star})\in\bigcap_{p}J_p $. Para isto, vamos utilizar o Teorema de Tychonoff. Considere os fatores $ (1,\ldots,M_n) $ com a topologia discreta e $ J $ com a topologia produto. Então, os subconjuntos $ J_p $ formam uma sequência decrescente de conjuntos não vazios e fechados e, como $ J $ é compacto (Teorema de Tychonoff), temos que

$$\bigcap_{p}J_p\neq\varnothing.$$

Como $ \mathcal{C}_s $ é uma classe compacta, se tomarmos $ \mathcal{C}^{\prime} $, a classe formada por interseções enumeráveis de elementos de $ \mathcal{C}_s $, obtemos que $ \mathcal{C}^{\prime} $ é uma classe compacta.

Então, utilizando o Lema 1.5.5.1, apresentamos um resultado sobre construção de probabilidades que foi obtido por Alexandrov (1941) e na forma abstrata por Marczewski (1954), Neveu (1965) e Meyer (1966).

Proposição 1.5.5.1

Seja $ \mathcal{A} $ uma álgebra ou uma semi-álgebra de subconjuntos de $ \Omega $ e $ \mathcal{C} $ uma classe compacta contida em $ \mathcal{A} $. Toda função de conjunto aditiva $ \mathbb{P}:\mathcal{A}\rightarrow [0,1] $ tal que $ \mathbb{P}(\Omega) = 1 $ e com a propriedade de aproximação

$$\mathbb{P}(A) = \sup(\mathbb{P}(C); \ C\subset A, C\in\mathcal{C}) \qquad\qquad\qquad (\star)$$

para todo $ A\in\mathcal{A} $ é, necessariamente, $ \sigma $-aditiva. Além disso, a função de conjunto $ \mathbb{P} $ pode ser estendida (de forma única) a uma probabilidade sobre a $ \sigma $-álgebra gerada por $ \mathcal{A} $ ($ \mathcal{F} = \sigma(\mathcal{A}) $), para todo $ A\in\mathcal{F} $ e satisfazendo a condição ($ \star $).

Demonstração

Primeiro, vamos considerar que $ \mathcal{A} $ é uma álgebra. Parar mostrarmos que $ \mathbb{P} $ é $ \sigma $-aditiva sobre a álgebra $ \mathcal{A} $, basta estabelecermos a propriedade de continuidade monótona: se $ A_n\downarrow\varnothing $ em $ \mathcal{A} $, então $ \mathbb{P}(A_n)\downarrow 0 $. Assim, considere $ A_n\downarrow\varnothing $ em $ \mathcal{A} $, utilizando a propriedade de aproximação, para todo $ \varepsilon \ > \ 0 $, existe $ C_n\in\mathcal{C} $ com $ C_n\in\mathcal{A}_n $, tal que

$$\mathbb{P}(A_n) \leq \mathbb{P}(C_n) + \varepsilon 2^{-n}; \ n\geq 1.$$

Como

$$\bigcap_{n=1}^{\infty}C_n\subset\bigcap_{j=1}^{\infty}A_n=\varnothing$$

segue da propriedade de compacidade de $ \mathcal{C} $, que existe $ N\in\mathbb{N} $, tal que

$$\bigcap_{n=1}^NC_n = \varnothing.$$

Agora, tomando

$$A_N = \bigcap_{n=1}^{N}A_n \subset \bigcup_{n=1}^N(A_n-C_n)$$

segue da aditividade de $ \mathbb{P} $, que

$$\mathbb{P}(A_N) \leq \mathbb{P}\left[\bigcup_{n=1}^N(A_n-C_n)\right]\leq\sum_{n=1}^N\left[\mathbb{P}(A_n) - \mathbb{P}(C_n)\right) \ < \ \varepsilon.$$

Fazendo $ \varepsilon \downarrow 0 $, obtemos que $ \mathbb{P}(A_n)\downarrow 0 $. Na sequência, vamos mostrar que o resultado sendo válido para uma álgebra, permanece válido para uma semi-álgebra. Considere $ R $ uma semi-álgebra cujas hipóteses da proposição são válidas. Pelo Lema 1.5.5.1, a classe $ \mathcal{C}_s $ (união finita de elementos de $ \mathcal{C} $) é compacta e está contida em $ \mathcal{A} $, a álgebra gerada pela semi-álgebra $ R $. Os elementos da álgebra $ \mathcal{A} $ tem a forma

$$A = \bigcup_{i=1}^nA_i \ A\in\mathcal{A}$$

em que $ A_1,\ldots,A_n $ são disjuntos (2 a 2) e pertencem a semi-álgebra $ R $. Escolhendo $ C_i\in\mathcal{C} $ com $ C_i\subset A_i $ e

$$\mathbb{P}(A_i)\leq \mathbb{P}(C_i)+\frac{\varepsilon}{n}; \ i = 1,\ldots,n$$

segue da aditividade de $ \mathbb{P} $, que

$$\bigcup_{i=1}^n C_i \subset A \ \text{e} \ \mathbb{P}^{\prime} (A) \leq \mathbb{P}^{\prime} \left( \bigcup_{i=1}^n C_i \right) + \varepsilon$$

em que $ \mathbb{P}^{\prime} $ é a extensão de $ \mathbb{P} $ para $ \mathcal{A} $. Como

$$\bigcup_{i=1}^nC_i\in\mathcal{C}_s$$

concluímos que a álgebra $ \mathcal{A} $, a classe compacta $ \mathcal{C}_s $ e a função de conjunto $ \mathbb{P}^{\prime} $ satisfazem as hipóteses da proposição. Portanto, $ \mathbb{P}^{\prime} $ é $ \sigma $-aditiva sobre a álgebra.

A extensão da função de conjuntos a uma probabilidade sobre $ \mathcal{F} $ é consequência do teorema de extensão de Caratheodory. Para mostrarmos que é válido o procedimento de aproximação de $ \mathbb{P} $ sobre a $ \sigma $-álgebra $ \mathcal{F} $ através da classe compacta, basta utilizarmos o teorema da classe monótona. Tomando por $ \mathcal{M} $ a classe de todos os conjuntos $ A\in\mathcal{F} $ satisfazendo

$$\mathbb{P}(A) = \sup\lbrace (\mathbb{P}(C): \ C\subset A, \ C\in\mathcal{C} ) \rbrace$$

obtemos que $ \mathcal{M} $ é uma classe monótona que contém $ \mathcal{A} $. Portanto, segue do teorema da classe monótona que $ \mathcal{F} = \mathcal{M} $.

Com isso, mesmo trabalhando em espaços mensuráveis abstratos, estabelecemos uma forma para a construção de probabilidade que será utilizada para estabelecermos o produto qualquer de probabilidades. Para aplicarmos o método acima, utilizaremos o conceito de probabilidades compactas introduzido por Marczewski (1954).

Definição 1.5.5.2

Sejam $ (\Omega,\mathcal{F},\mathbb{P}) $ um espaço de probabilidade e $ \mathcal{C} $ uma classe compacta composta por elementos de $ \mathcal{F} $. Dizemos que a probabilidade $ \mathbb{P} $ é compacta (com respeito a $ \mathcal{C} $) se

$$\mathbb{P}(A) = \sup\lbrace (\mathbb{P}(C): \ C\subset A, C\in\mathcal{C}) \rbrace$$

para todo $ A\in\mathcal{F} $.

1.5.6 - Teorema da Classe Monótona

O teorema da classe monótona é um dos principais resultados da teoria de probabilidade. Apesar de ser simples, este teorema é essencial para a demonstração de muitos resultados. Por exemplo, no módulo Teorema de Extensão de Carathéodory utilizamos uma versão do teorema da classe monótona para mostrarmos a unicidade da extensão da probabilidade. De forma geral, os conjuntos mensuráveis são complexos e difíceis de descrever. Assim, ao demonstrarmos propriedades relacionadas com espaços de probabilidade e/ou funções mensuráveis, é extremamente útil começarmos por conjuntos com uma estrutura mais simples que conjuntos mensuráveis quaisquer. Ao demonstrarmos a propriedade para os conjuntos com estrutura mais simples, utilizamos o teorema da classe monótona para estender o resultado para os conjuntos mensuráveis. Neste módulo, vamos derivar versões do teorema da classe monótona juntamente com algumas aplicações.

Seja $F$ um conjunto e $\mathcal{C}$ uma coleção de subconjuntos de $F$. Neste caso, dizemos que $\mathcal{C}$ é uma classe de subconjuntos de $F$. Se a classe $\mathcal{C}$ contém o conjunto vazio é fechada por complementar e intersecção finita (enumerável), dizemos que $\mathcal{C}$ é uma álgebra ($\sigma$-álgebra). Seja $\Omega$ um conjunto não vazio, a $\sigma$-álgebra gerada por uma função $f \ : \ \Omega \rightarrow \mathbb{R}$ é definida por $\sigma(f) = \lbrace f^{-1}(B) \ : \ B \in \beta(\mathbb{R}) \rbrace$, no qual $\beta(\mathbb{R})$ denota a $\sigma$-álgebra de Borel de $\mathbb{R}$. A $\sigma$-álgebra gerada por uma classe $\mathcal{C}$ será denotada por $\sigma(\mathcal{C})$ e corresponde a menor $\sigma$-álgebra que contém $\mathcal{C}$.

Também denotamos por

$$\mathcal{C}_{\sigma} = \lbrace \cup_{k=1}^{\infty} A_k \ : \ A_k \in \mathcal{C} \rbrace \qquad \hbox{e} \qquad \mathcal{C}_{\delta} = \lbrace \cap_{k=1}^{\infty} A_k \ : \ A_k \in \mathcal{C} \rbrace$$

Uma classe $\mathcal{C}$ é denominada uma $\pi$-classe, se esta for fechada por intersecção finita. Da mesma forma, dizemos que $\mathcal{C}$ é uma $\lambda$-classe se:

(i) $\Omega \in \mathcal{C}$ ;

(ii) Se $A, B \in \mathcal{C}$ e $A \subset B$, então $B - A \in \mathcal{C}$ ;

(iii) $A_n \in \mathcal{C}$ para todo $n \geq 1$ e $A_n \subset A_{n+1}$ tal que $A_n \uparrow A$, então $A \in C$

Seja $\mathcal{C}$ uma classe de subconjuntos de $F$ e $ \lbrace A_n \rbrace $ uma sequência composta por elementos de $\mathcal{C}$. Se $A_n \subset A_{n+1}$ (ou, $A_n \downarrow A = \cap_n A_n$) dizemos que $ \lbrace A_n \rbrace $ é uma sequência crescente (decrescente) e $A_n \uparrow A = \cup_n A_n (A_n \downarrow A = \cap_n A_n)$. Neste contexto, dizemos que $\mathcal{C}$ é uma classe monótona se $A_n \uparrow A$ ou $A_n \downarrow A$, implica que $A \in \mathcal{C}$.

De forma geral, temos que toda álgebra é uma $\pi$-classe. Por definição, sabemos que uma $\lambda$-classe $\mathcal{E}$ também é uma classe monótona. Na realidade, para todo conjunto $A \in \mathcal{E}$, temos que $A^c = \Omega - A \in \mathcal{E}$. Agora, se tomarmos uma sequência decrescente $\lbrace A_n \rbrace \subset \mathcal{E}$, obtemos que $\cap_n A_n = [\cup_n A_n^{c}]^c \in \mathcal{E}$. Com isso, obtemos que $\mathcal{E}$ é uma classe monótona. Além disso, se $\mathcal{C}$ é uma $\pi$-classe e uma $\lambda$-classe, ou uma álgebra e uma classe monótona, então $\mathcal{C}$ é uma $\sigma$-álgebra. Na sequência, apresentamos um resultado de continuidade da probabilidade

Teorema 1: Sejam $(\Omega, \mathcal{F}, \mathbb{P})$ um espaço de probabilidade e $\mathcal{C}$ uma álgebra que gera $\mathcal{F}$. Então, para qualquer $A \in \mathcal{F}$, temos que

$$ \mathbb{P}(A) = \sup \lbrace \mathbb{P} (B) \ : \ B \in C_{\delta}, B \subset A \rbrace = \inf \lbrace \mathbb{P} (D) \ : \ D \in \mathcal{C}_{\sigma}, \ A \subset D \rbrace $$

Prova: Tomamos

$$\mathcal{G} = \lbrace A \in \mathcal{F} \ : \ A \ \hbox{satisfaz o teorema}. \rbrace$$

Por definição, sabemos que $\mathcal{C} \subset \mathcal{G} \subset \mathcal{F}$, no qual $\mathcal{F} = \sigma(\mathcal{C})$. Assim, é sufucuente mostrarmos que $\mathcal{G}$ é uma $\sigma$-álgebra.

Desde que $\mathcal{C}_{\sigma} = \lbrace A \ : \ A^c \in \mathcal{C}_{\delta} \rbrace$ temos que $A \in \mathcal{G}$. Tomamos $\lbrace A_n \rbrace \subset \mathcal{G}$ tal que $A_n \uparrow A$. Vamos mostrar que $A \in \mathcal{G}$. Para todo $\epsilon > 0$, podemos escolher $n_0$ tal que $\mathbb{P} (A - A_n) < \epsilon/2$ e $B \in \mathcal{C}_{\sigma}$, com $B \subset A_{n_0}$ tal que $\mathbb{P} (A - B) < \epsilon/2$. Portanto, temos que $B \subset A$ e $\mathbb{P}(B) > \mathbb{P}(A) - \epsilon$.

Por outro lado, se para cada $n$ tomarmos $C_n \in \mathcal{C}_{\sigma}$ com $A_n \subset C_n$ tal que $\mathbb{P}(C_n - A_n) < \varepsilon/2^n$ e definirmos $C = \bigcup_{n} C_n,$. Então, obtemos que $C \in \mathcal{C}_{\sigma}$, $A \subset C$ e $\mathbb{P}(C - A) < \varepsilon$. Como consequência, concluímos que $A \in \mathcal{G}$. Portanto, obtemos que $\mathcal{G}$ é uma álgebra e uma classe monótona. Desta forma, $\mathcal{G}$ é uma $\sigma$-álgebra e $\mathcal{G} = \mathcal{F}$. Segue o teorema.

Este resultado nos diz como podemos aproximar a probabilidade de conjuntos quaisquer da $\sigma$-álgebra $\mathcal{F}$. No caso do espaço de Cantor, mostramos que qualquer probabilidade pode ser aproximada por um $\mathcal{C}_{\delta}$ que corresponde à classe dos subconjuntos compactos do espaço de Cantor. Ao generalizarmos para probabilidades compactas, mostramos que uma probabilidade compacta é aproximada por um $\mathcal{C}_{\delta}$ que é uma classe compacta. Esta propriedade de aproximação é explorada profundamente na seção Espaço de Radon. A seguir, apresentamos o teorema da classe monótona em termos de conjuntos.

Teorema 2: Sejam Sejam $\mathcal{C} \text{ e } \mathcal{E}$ duas classes de subconjuntos de $\Omega$ e $\mathcal{C} \subset \mathcal{E}.$

(1) Se $\mathcal{E}$ é uma $\lambda$-classe e $\mathcal{C}$ é uma $\pi\text{-classe}$, então $\sigma(\mathcal{C}) \subset \mathcal{E}.$

(2) Se $\mathcal{E}$ é uma classe monótona e $\mathcal{C}$ é uma álgebra, então $\sigma(\mathcal{C}) \subset \mathcal{E}.$

Prova:

(1) A interseção de uma coleção arbitrária de $\lambda$-classes também é uma $\lambda$-classes. Seja $\mathcal{E}_0$ a interseção de todas as $\lambda$-classes contendo $\mathcal{C}$. Definimos,

$$\mathcal{E}_1 = \lbrace A \in \mathcal{E}_0 \ : \ \forall B \in \mathcal{C}, \ A \cap B \in \mathcal{E}_0 \rbrace.$$

Então $\mathcal{E}_1$ também é uma $\lambda$-classe contendo $\mathcal{C}$. Desta forma, obtemos que $\mathcal{E}_0 = \mathcal{E}_1$. Seja

$$ \mathcal{E}_2 = \lbrace A \in \mathcal{E}_0 \ : \ \forall B \in \mathcal{E}_0, \ A \cap B \in \mathcal{E}_0 \rbrace. $$

Da mesma forma, sabemos que $\mathcal{E}_2$ é uma $\lambda$-classe contendo $\mathcal{C}$. Assim, concluímos que $\mathcal{E}_0 = \mathcal{E}_2$ e, consequentemente, $\mathcal{E}_0$ é uma $\pi$-classe. Isto significa que $\mathcal{E}_0$ é uma $\sigma$-álgebra e $\sigma(\mathcal{C}) \subset \mathcal{E}_0 \subset \mathcal{E}.$

(2) Uma coleção arbitrária de classes monótonas também é uma classe monótona. Seja $\mathcal{E}_0$ a interseção de todas as classes monótonas contendo $\mathcal{C}$. Da mesma forma acima, podemos mostrar que $\mathcal{E}_0$ é uma $\pi$-classe. Definimos:

$$ \mathcal{E}_1 = \lbrace A \in \mathcal{E}_0 \ : \ A^c \in \mathcal{E}_0 \rbrace. $$

Então $\mathcal{E}_1$ é uma classe monótona contendo $\mathcal{C}$. Assim, temos que $\mathcal{E}_0 = \mathcal{E}_1$ e, $\mathcal{E}_0$ é uma álgebra. Isto significa que $\mathcal{E}_0$ é uma $\sigma$-álgebra e consequentemente, $\sigma(\mathcal{C}) \subset \mathcal{E}_0 \subset \mathcal{E}.$ Com isso, concluímos o teorema.

Uma versão deste teorema foi provada no módulo Teorema de extensão de Carathéodory, para mostrarmos a unicidade da extensão da probabilidade. A seguir, vamos aplicar este resultado para o cálculo de esperança condicional.

Corolário 3:

(1) Sejam $(\Omega, \mathcal{F}, \mathbb{P})$ um espaço de probabilidade, $\xi$ e $\eta$ variáveis aleatórias integráveis. Suponha que $\mathcal{C} \subset \mathcal{F}$ e $\mathcal{C}$ uma $\pi$-classe. Se $\mathcal{E}_{\xi} = \mathcal{E}_{\eta}$ e para cada $A \in \mathcal{C}$, temos que $\mathbb{E}[\xi \mathbb{I}_A] = \mathbb{E}[\eta \mathbb{I}_A],$ temos que

$$ \mathbb{E}[\xi \mid \sigma(\mathcal{C})] = \mathbb{E}[\eta \mid \sigma(\mathcal{C})], \quad \mathbb{P} - q.c. $$

(2) Sejam $(\Omega, \mathcal{F})$ um espaço mensurável, $\mathcal{C} \subset \mathcal{F}$, com $\mathcal{C}$ uma $\pi$-classe. Suponha que $\mu$ e $\nu$ sejam duas medidas com sinal limitadas definidas sobre $(\Omega, \mathcal{F})$ tais que $\mu(\Omega) = \nu(\Omega)$. Se para cada $A \in \mathcal{C}$ temos que $\mu(A) = \nu(A)$, concluímos que

$$\mu(G) = \nu(G), \qquad G \in \sigma(\mathcal{C})$$

Prova: Observe que (2) é consequência de (1). Assim, vamos mostrar apenas (1). Tomamos

$$ \mathcal{G} = \lbrace A \in \mathcal{F} : \mathbb{E}[\xi \mathbb{I}_A] = \mathbb{E}[\eta \mathbb{I}_A] \rbrace. $$

Por definição, concluímos que $\mathcal{G}$ é uma $\lambda$-classe e, por suposição, $\mathcal{C} \subset \mathcal{G}$. Como consequência do teorema 2, obtemos que $\sigma(\mathcal{C}) \subset \mathcal{G}$ e segue o corolário.

Na sequência, apresentamos a versão funcional do teorema da classe monótona.

Teorema 4: Seja $\mathcal{C}$ uma $\pi$-classe de subconjuntos de $\Omega$ e $\mathcal{V}$ uma família de funções a valores reais (limitada) sobre $\Omega$. Se as seguintes condições são válidas:

(i) Para todo $A \in \mathcal{C}$, temos que $\mathbb{I}_A \in \mathcal{V}$ e $1 \in \mathcal{V}$;

(ii) Se tomarmos $\alpha, \beta \in \mathbb{R}$, $f,g \in \mathcal{V}$, obtemos que $\alpha f + \beta g \in \mathcal{V}$. Com isso, dizemos que $\mathcal{V}$ é um espaço linear;

(iii) Para toda sequência $\lbrace f_n \rbrace \subset \mathcal{V}$ com $0 \leq f_n \uparrow f$ e $f = \sup_n f_n$ finito (ou limitado), temos que $f \in \mathcal{V}$;

Então, a classe de funções $\mathcal{V}$ contém todas as funções a valores reais (limitadas) que são $\sigma(\mathcal{C})$-mensuráveis.

Prova: Tomamos $\mathcal{E} = \lbrace A \subset \Omega : \mathbb{I}_A \in \mathcal{V} \rbrace$. De acordo com a propriedade (i), temos que $\Omega \in \mathcal{E}$ e $\mathcal{C} \subset \mathcal{E}$. Se $A_1 \subset A_2$ são elementos de $\mathcal{E}$, então temos que $\mathbb{I}_{\lbrace A_2 - A_1 \rbrace} = \mathbb{I}_{\lbrace A_2 \rbrace} - \mathbb{I}_{\lbrace A_1 \rbrace} \in \mathcal{V},$ pois $\mathcal{V}$ é um espaço linear (ii).

Finalmente, se tomarmos $\lbrace A_n \rbrace \subset \mathcal{E}$ uma sequência crescente de subconjuntos de $\Omega$, segue da propriedade (iii) que $\mathbb{I}_{ \lbrace \bigcup_n A_n \rbrace } = \sup_n \mathbb{I}_{\lbrace A_n \rbrace} \in \mathcal{V}.$ Assim, concluímos que $\mathcal{E}$ é uma $\lambda$-classe e $\mathcal{C} \subset \mathcal{E}$.Como aplicação do teorema 2, temos que $\sigma(\mathcal{C}) \subset \mathcal{E}.$

Seja $f$ função sobre $\Omega$ assumindo valores reais (limitada) que é $\sigma(\mathcal{C})$-mensurável.Então, temos que

$f = f^+ - f^-$, tais que $f^+$ e $f^-$ são funções a valores reais não negativas e $\sigma(\mathcal{C})$-mensuráveis. Além disso, se $f$ é uma função real não negativa e $\sigma(\mathcal{C})$-mensurável, então existe uma sequência crescente de funções simples $f_n = \sum_{i=1}^n a_i^n \mathbb{I}_{A_i^n}$ no qual $A_i^n \in \sigma(\mathcal{C}).$ Com isso, cada $f_n \in \mathcal{V}$. Assim, segue de (iii) que $f \in \mathcal{V}$ e segue o teorema.

O teorema da classe monótona é um dos resultados básicos da teoria de probabilidade. Para entender sua aplicação, suponha que queremos mostrar que uma propriedade $\mathcal{P}$ seja válida para toda a classe de funções limitadas e mensuráveis com respeito a uma $\sigma$-álgebra $\mathcal{F}$. Sabemos mostrar que a propriedade $\mathcal{P}$ é válida para uma subclasse $\mathcal{E}$ das funções limitadas e $\mathcal{F}$-mensuráveis. Se a classe $\mathcal{E}$ satisfaz as hipóteses do teorema da classe monótona, podemos estender a propriedade $\mathcal{P}$ para todas as funções limitadas e $\mathcal{F}$-mensuráveis.

Como uma aplicação do teorema da classe monótona, apresentamos uma caracterização de funções $\sigma(f)$-mensuráveis, que é denominado Teorema da mensurabilidade de Doob-Dynkin. Este teorema também está demonstrado no módulo de esperança de variáveis aleatórias.

Teorema 5: Seja $f : \Omega \to E$ no qual $(E, \mathcal{E})$ é um espaço mensurável e $\phi : \Omega \to \mathbb{R}$ uma função a valores reais (limitada). Então, para que a função $\phi$ seja $\sigma(f)$-mensurável é necessário e suficiente que exista uma função $h : E \to \mathbb{R}$ que é $\mathcal{E}$-mensurável (limitada) tal que $\phi(\omega) = h[f(\omega)] = (h \circ f)(\omega)$, para todo $ \omega \in \Omega.$

Prova: Como composição de funções mensuráveis é mensurável, concluímos a suficiência. Na sequência, vamos mostrar a necessidade. Tomamos

$$ \mathcal{V} = \lbrace h \circ f : h \text{ é uma função } \mathcal{E}\text{-mensurável definida sobre } E \text{ com valores reais} \rbrace. $$

Assim, obtemos que $\mathcal{V}$ é um espaço linear e $1 \in \mathcal{V}$. Suponha $h_n \circ f \in \mathcal{V}$ com $0 \leq h_n \circ f \uparrow \Psi$ e $ \Psi $ finita. Vamos mostrar que $\Psi$ é um elemento de $\mathcal{V}$. Considere

$$ A = \lbrace x \in E : \sup_n h(x) < \infty \rbrace. $$

Então $A \in \mathcal{E}$ e $f(\Omega) \subset A$. Tomamos $h(x) = \sup_n h(x)$ para todo $x \in A$ e $h(x) = 0$ para todo $x \in A^c$. Por construção sabemos que $h : E \to \mathbb{R}$ é uma função $\mathcal{E}$-mensurável e $\Psi = h \circ f.$ Portanto, concluímos que $\Psi \in \mathcal{V}$.

Agora, ao tomarmos $D \in \sigma(f)$, sabemos que existe $B \in \mathcal{E}$ tal que $f^{-1}(B) = D$. Assim, concluímos que $\mathbb{I}_D = \mathbb{I}_B \circ f \in \mathcal{V}.$ Assim, obtemos que a classe de funções $\mathcal{V}$ satisfaz as hipóteses do teorema 4. Como consequência, a classe $\mathcal{V}$ contém todas as funções a valores reais que são $\sigma(f)$-mensuráveis. Isto significa que se $\phi$ é uma função real $\sigma(f)$-mensurável, então existe uma função $h : E \to \mathbb{E}$ que é $\mathcal{E}$-mensurável e $\phi = h \circ f$. Além disso, se $\phi$ é limitada com $|\phi| \leq c$ para alguma constante $c$ positiva, neste caso, basta tomarmos

$$ h' = (h^+ \wedge c) - (h^- \wedge c) \quad \text{e} \quad \phi = h' \circ f. $$

Segue o teorema.

1.5.7 - Isomorfismo

$ F_i $

(conteúdo em falta)

November 19, 2025: 23 (203a606f)