8.1 Introdução à teoria das probabilidades

A teoria de probabilidade consiste em utilizar a intuição humana para estudar os fenômenos do nosso cotidiano de trabalho. Para isso, vamos utilizar o princípio básico do aprendizado humano que é a ideia de experimento.

Podemos classificar os experimentos em dois tipos: aleatórios (casuais) e não aleatórios (determinísticos). Os experimentos determinísticos são totalmente caracterizados a priori, ou seja, são fenômenos em que o resultado é sabido antes mesmo em que ele ocorra e desta forma, nada temos a fazer.

Os experimentos que iremos estudar são os aleatórios, dos quais não sabemos o resultado a priori, ou seja, são acontecimentos cujos resultados não podem ser previstos.

A seguir tratamos os termos básicos associados a modelagem dos experimentos aleatórios.

Definição 1.1 (Espaço Amostral)

O primeiro elemento na modelagem de um experimento é o espaço amostral, que consiste no conjunto de todos os possíveis resultados do experimento. Ao estudarmos uma característica da qualidade de um processo (ou produto), o espaço amostral consiste de todos os resultados possíveis que a característica da qualidade pode assumir. Geralmente representaremos esse conjunto por S ou por $ \Omega $.

Por exemplo, se o experimento é lançar uma moeda e verificar a face voltada para cima, o espaço amostral é o conjunto S = {cara, coroa}. Para o lançamento de um dado de seis faces, o espaço amostral é S = {1, 2, 3, 4, 5, 6}.

Exemplo 1.1

Considere um experimento no qual classificamos um produto em defeituoso ou não defeituoso. Neste caso, o espaço amostral é S = {defeituoso, não defeituoso}.

Exemplo 1.2

Em um experimento para contar o número de pessoas com diabetes na cidade de São Paulo, obtemos como espaço amostral S = {0, 1, 2, 3, … }.

Ao projetarmos nosso experimento formulamos perguntas (ou conjecturas) associadas ao mesmo. Estas perguntas são denominadas eventos.

Definição 1.2

Todas as perguntas (ou conjecturas) que formulamos a respeito do experimento são denominadas EVENTOS. Os eventos serão denotados por letras maiúsculas.

Considerando novamente o exemplo de lançar um dado, podemos ter os seguintes eventos: A = {sair número par}, B = {sair número ímpar}, C = {sair número maior do que 3}. Esses eventos podem ser representados, respectivamente, pelos conjuntos: A = {2, 4, 6} , B = {1, 3, 5} e C = {4, 5, 6}. Considerando agora o experimento do Exemplo 1.1 podemos definir como eventos D = {defeituoso}, E = {não defeituoso}. Já referente ao Exemplo 1.2, ao contarmos o número de pessoas com diabetes, podemos associar eventos como A={entre 15 e 20 pessoas com diabetes} = {15,16,17,18,19,20} ou o evento F = {nenhuma pessoa} = {0}.

Em todos estes exemplos, associamos os eventos a subconjuntos do espaço amostral. Portanto, do ponto de vista matemático, vamos definir eventos como subconjuntos do espaço amostral. O próprio espaço amostral é um evento, também conhecido como evento certo, enquanto que o conjunto $ \varnothing $ é denominado de evento impossível.

1.1 - Manipulação de Eventos

Os eventos são estudados do ponto de vista de sua “ocorrência” ou “não ocorrência”. Por exemplo, o evento impossível de ocorrer é o evento vazio, enquanto que o evento certo de ocorrer é o espaço amostral. Neste módulo, vamos estabelecer uma estratégia para manipularmos os eventos. Como interpretamos os eventos como sentenças que formulamos a respeito dos resultados do experimento (subconjuntos do espaço amostral), podemos utilizar relações lógicas para manipular os eventos. As três operações básicas são:

  • União ($ \cup $): A união de dois conjuntos quaisquer A e B conterá todos os elementos de A e de B, incluindo os elementos que são e os que não são comuns aos dois conjuntos. Um elemento $ w \in A\cup B $ se, e só se, $ w \in A $ e/ou $ w \in B $.

uniao_conjunto

Os círculos em amarelo é o conjunto $ A\cup B $.

Podemos generalizar a definição de união para uma sequência de conjuntos A1, A2, … . Generalizamos tal definição da seguinte forma:

96e6c720d018cbbab0e4970516775df83217bcf

  • Interseção ($ \cap $): A interseção de dois conjuntos quaisquer A e B conterá os elementos comuns a A e B. Um elemento $ w \in A \cap B $ se, e só se, $ w \in A $ e $ w \in B $.

intersecao_conjunto

A região pintada em vermelho é o conjunto $ A\cap B $.

Analogamente, generalizamos esta definição para uma sequência de conjuntos A1, A2, … da seguinte forma:

78d076af3f98f4a0eb2ac1aa6eead757f8d933f

  • Complementar ($ A^c $): O evento complementar ao evento A é o conjunto dos elementos do espaço amostral que não pertencem a A. Um elemento $ w \in A^c $ se, e só se, $ w \notin A $ e $ w \in S $.

complementar_conjunto

O círculo em branco é o conjunto A e a região em verde é o conjunto Complementar de A ($ A^c $).

Consideremos os seguinte eventos, associados ao lançamento de um dado: A = {sair número par} = {2, 4, 6}, B = {sair número ímpar} = {1, 3, 5} e C = {sair número maior que 3} = {4, 5, 6}. Com isso temos que

a) $ A\cup B = {(1, 2, 3, 4, 5, 6)} $.

b) $ A\cap B = \emptyset $.

c) $ A\cup C = {(2, 4, 5, 6)} $ e $ A\cap C = {(4, 6)} $.

d) $ C^c = {(1, 2, 3)} $.

Observação

Na terminologia da teoria de conjuntos, o conjunto vazio é o conjunto composto por nenhum elemento, que denotaremos por Ø. Este conjunto está contido em qualquer outro evento do espaço amostral.

Definição 1.1.1

Eventos mutuamente exclusivos (ou disjuntos) são aqueles cuja ocorrência de um elimina a possibilidade de ocorrência do outro. Ou seja, dizemos que os eventos A e B são mutuamente exclusivos se $ A \cap B $ = Ø.

A seguir, apresentamos algumas propriedades elementares das operações de união, interseção e complementar:

a) $ A\cup S = S $.

b) $ A\cap S = A $.

c) $ A\cup (B\cup C) = (A\cup B) \cup C $.

d) $ A\cap (B\cap C) = (A\cap B) \cap C $.

e) $ A\cup (B\cap C) = (A\cup B) \cap (A\cup C) $.

f) $ A\cap (B\cup C) = (A\cap B) \cup (A\cap C) $.

Considere $ A_1, A_2, \cdots $ uma família enumerável de eventos. Assim, as leis de De Morgan são dadas por:

$$ \left( \displaystyle\bigcup_{i=1}^{\infty} A_i \right)^c = \bigcap_{i=1}^{\infty} A_{i}^c$$

e

$$ \left( \displaystyle\bigcap_{i=1}^{\infty} A_i \right)^c = \bigcup_{i=1}^{\infty} A_{i}^c .$$

As leis de De Morgan são simples de serem demonstradas (exercício), porém serão bastante utilizadas durante nosso curso de probabilidade.

A partir das operações básicas (união, intersecção e complementar), podemos desenvolver novas operações com conjuntos. Considere A e B eventos, definimos a diferença entre estes eventos por $ A-B = A \cap B^c $.

Dinferença2conj_

O conjunto em laranja representa a diferença entre dois conjuntos (A-B).

De forma similar, definimos a diferença simétrica entre dois eventos por $ A \triangle B = (A-B) \cup (B-A) $.

DiferenaSimetric

Diferença simétrica

O conjunto em vermelho representa a diferença simétrica ($ A \triangle B $).

A estrutura que definimos sobre a classe de eventos é denominada álgebra booleana.

Exercício

Dado uma família finita de eventos $ A_1 , \cdots , A_n $, mostre que $ \cup_{i=1}^n A_i = \cup_{i=1}^n B_i $ no qual $ B_i = A_i - \cup_{j=1}^{i-1} A_j $ são disjuntos dois a dois.

O evento $ A $ implica no evento $ B $, denotado por $ A \subset B $ se $ A = A \cap B $ ou, equivalentemente, se $ B= A \cup B $. Assim, dois eventos $ A $ e $ B $ tais que $ A \subset B $ e $ B \subset A $ são denominados iguais $ (A=B) $. Estas relações apresentam as seguintes propriedades:

  1. $ A \subset A $: reflexiva;

  2. $ A \subset B $ e $ B \subset A $ implicam que $ A=B $: simétrica;

  3. $ A \subset B $ e $ B \subset C $ implicam que $ A \subset C $: transitiva.

Exercício

A partir das definições e axiomas definidos neste módulo, mostre que as relações abaixo são válidas para quaisquer eventos $ A,B,C $ e $ D $:

  1. $ A \subset B $ implica que $ B^c \subset A^c $;

  2. $ A-B = A - (A \cap B) = (A \cup B) - B $;

  3. $ (A - B) \cap (C-D) = (A \cap C) - (B \cup D) $;

  4. $ A-(B \cup C) = (A-B) \cap (A-C) $

  5. $ A-(B \cap C)= (A-B) \cup (A=C) $

Exercício

Considere o experimento de lançamento de dois dados:

  1. Definir o espaço amostral e a classe de eventos;

  2. Dados os eventos $ A= $“soma das faces é número par” e o evento $ B= $ “a soma das faces é maior que 9”. Calcule $ A \cap B $.

Neste curso de probabilidade também precisamos da união e intersecção de classes de conjuntos. Se temos um número finito de conjuntos, basta aplicarmos as operações de união e intersecção diversas vezes. Entretanto, suponha que temos uma coleção infinita de conjuntos $ { A_1 , A_2 , \cdots } $. Assim, definimos

5a4cfc872eb81a591b291a4b6fd18049772b189

1.2 - Noções fundamentais de probabilidade

A probabilidade é o ato de atribuirmos pesos aos eventos. Entretanto, para que cada um não defina probabilidade de sua forma, vamos exigir que esta função peso tenha algumas propriedades intuitivas. Quando lançamos uma moeda não hesitamos em associar probabilidade $ 1/2 $ para o evento “cara” e também $ 1/2 $ para o evento “coroa”. Da mesma forma, quando lançamos uma moeda $ n $ vezes todos os $ 2^n $ possíveis resultados deste experimento tem a mesma probabilidade.

Dado um experimento com espaço amostral $ \Omega $, a classe de eventos associada será denotada por $ \mathcal{A} $ e deve satisfazer algumas propriedades:

i) $ \emptyset \in \mathcal{A} $;

ii) Se $ A \in \mathcal{A} $, então $ A^c \in \mathcal{A} $;

iii) Se $ A_1 , A_2 , \cdots \in \mathcal{A} $, então $ \displaystyle\bigcup_{i=1}^{\infty} A_i\in \mathcal{A} $.

A classe de eventos $ \mathcal{A} $ satisfazendo estas propriedades é denominada $ \sigma $-álgebra. Ao utilizarmos De Morgan, concluímos que a $ \sigma $-álgebra também é fechada por intersecção enumerável, isto é, se $ A_1 , A_2, \cdots \in \mathcal{A} $ então $ \displaystyle\bigcap_{i=1}^{\infty} A_i \in \mathcal{A} $. A seguir, vamos introduzir o conceito de probabilidade segundo Kolmogorov.

Definição 1.2.1(Probabilidade)

Para um experimento com espaço amostral $ \Omega $ e classe de eventos $ \mathcal{A} $, a probabilidade, que denotaremos por $ \mathbb{P} $, é uma função que tem domínio na classe de eventos $ (\mathcal{A}) $ e tem como imagem valores numéricos (pesos) entre 0 e 1. Além disso, a probabilidade deve satisfazer os seguintes axiomas:

i) $ \mathbb{P}(\Omega)=1 $ e $ \mathbb{P}(\emptyset)=0 $.

ii) $ 0 \leq \mathbb{P}(A) \leq 1 $, para todo evento $ A $.

iii) Para qualquer sequência de eventos mutuamente exclusivos $ A_1,A_2,\ldots $, isto é, eventos para os quais $ A_i\displaystyle\bigcap A_j=\emptyset $ quando $ i \neq j $, temos que

$$\mathbb{P}\left(\bigcup_{i=1}^\infty A_i\right)=\sum_{i=1}^{\infty}\mathbb{P}(A_i).$$

Qualquer função $ \mathbb{P} $ que atribua pesos a eventos associados a um espaço amostral e que satisfaça as propriedades (1), (2) e (3) acima será denominada probabilidade.

Propriedades da probabilidade

A seguir, apresentamos algumas propriedades elementares da probabilidade que são obtidas diretamente da definição.

P1. Se $ A^c $ for o evento complementar de $ A $, então $ \mathbb{P}(A) = 1 - \mathbb{P}(A^c) $.

De fato, sendo $ \Omega $ o espaço amostral, temos que

$$\Omega=A\cup A^c$$

onde esta união é disjunta, uma vez que $ A\cap A^c=\emptyset $. Utilizando o axioma 3 da definição de probabilidade segue que

$$\mathbb{P}(\Omega)=\mathbb{P}(A)+\mathbb{P}(A^c)\Rightarrow \mathbb{P}(A^c)=\mathbb{P}(\Omega)-\mathbb{P}(A)=1-\mathbb{P}(A)$$

como queríamos.

Uma propriedade importante para calcularmos a probabilidade de ocorrência de eventos associados ao experimento é a regra da soma, que nos dá a probabilidade da união de dois eventos quaisquer.

P2. A probabilidade da união de dois eventos $ A $ e $ B $ é calculada como

$$\mathbb{P}(A\cup B) = \mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A\cap B).$$ De fato, temos que $ A\cup B=A\cup (B- A) $ e $ A\cap(B - A)=\emptyset $, portanto

$$\mathbb{P}(A\cup B)=\mathbb{P}(A)+\mathbb{P}(B - A).$$ Também temos que $ B=(B- A)\cup(A\cap B) $ com $ (B - A)\cap(A\cap B)=\emptyset $, então

$$\mathbb{P}(B)=\mathbb{P}(B - A)+\mathbb{P}(A\cap B).$$

Então, combinando estes dois resultados, temos que

$$\mathbb{P}(A\cup B)=\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A\cap B)$$

como queríamos demonstrar.

P3. Se $ A $, $ B $ e $ C $ são três eventos quaisquer, então

$$\mathbb{P}(A\cup B\cup C) = \mathbb{P}(A)+\mathbb{P}(B)+\mathbb{P}(C)-\mathbb{P}(A\cap B)-\mathbb{P}(A\cap C)-\mathbb{P}(B\cap C)+\mathbb{P}(A\cap B\cap C).$$

De fato, temos que

$$A\cup B\cup C=(A\cup B)\cup C=(A\cup B)\cup (C - (A\cup B))$$ sendo esta união disjunta. Então pelo axioma 3 da definição de probabilidade, temos que

$$\mathbb{P}(A\cup B\cup C)=\mathbb{P}(A\cup B)+\mathbb{P}(C - (A\cup B)) \qquad (1)$$

e utilizando a propriedade P2 na equação (1) temos

$$\mathbb{P}(A\cup B\cup C)=\mathbb{P}(A)+\mathbb{P}(B)-\mathbb{P}(A\cap B)+\mathbb{P}(C - (A\cup B)).$$

Mas $ C=(C - (A\cup B))\cup(C\cap(A\cup B)) $, sendo que esta união é disjunta, portanto

$$\mathbb{P}(C - (A\cup B))=\mathbb{P}(C)-\mathbb{P}(C\cap(A\cup B)) \qquad (2)$$ Também temos que $ C\cap (A\cup B)=(C\cap A)\cup (C\cap(B-A)) $, e esta união é disjunta. Daí

$$\mathbb{P}(C\cap (A\cup B))=\mathbb{P}(A\cap C)+\mathbb{P}(C\cap(B- A)) \qquad (3)$$ Finalmente, $ C\cap B = (A\cap B\cap C)\cup (C\cap(B- A)) $, o que implica que

$$\mathbb{P}(C\cap(B- A))=\mathbb{P}(B\cap C)-\mathbb{P}(A\cap B\cap C) \qquad (4)$$ já que a união é disjunta.

Então, combinando as equações (1), (2), (3) e (4), concluímos que

$$\mathbb{P}(A\cup B\cup C)=\mathbb{P}(A)+\mathbb{P}(B)+\mathbb{P}(C)-\mathbb{P}(A\cap B)-\mathbb{P}(A\cap C)-\mathbb{P}(B\cap C)+\mathbb{P}(A\cap B\cap C)$$

como queríamos demonstrar.

P4. Se A $ \subset $ B, então $ \mathbb{P}(A) \leq \mathbb{P}(B) $.

De fato, temos que se $ A\subset B $ então $ B = A\cup (B - A) $, sendo que esta união é disjunta. Portanto, utilizando o axioma 3 da definição de probabilidade, segue que

$$\mathbb{P}(B)=\mathbb{P}(A)+\mathbb{P}(B- A).$$

Como $ \mathbb{P}(B- A)\geq 0 $, temos então que $ \mathbb{P}(B)\geq \mathbb{P}(A) $, como queríamos demonstrar.

P5. Se $ A\subset B \Rightarrow \mathbb{P}(B-A)=\mathbb{P}(B)-\mathbb{P}(A) $

De fato observe que $ B=A\cup (B-A) $, e ainda que $ A\cap (B-A)=\emptyset $. Assim podemos utilizar o axioma 3

$$\mathbb{P}(B)=\mathbb{P}(A\cup (B-A))=\mathbb{P}(A)+\mathbb{P}(B-A)\Rightarrow \mathbb{P}(B-A)=\mathbb{P}(B)-\mathbb{P}(A).$$

P6. Sejam $ A_1,A_2, \cdots $ eventos aleatórios tais que $ A_n \downarrow \emptyset $, ou seja, $ A_1 \supset A_2 \supset A_3 \supset \cdots $ e ainda o $ \displaystyle \lim_{n\rightarrow \infty}A_n=\emptyset $, então $ P(A_n)\rightarrow 0 $.

Como $ A_1 \supset A_2 \supset A_3 \supset \cdots $ então

$$A_1=(A_1-A_2)\cup (A_2 - A_3)\cup \cdots = \displaystyle \bigcup_{i=1}^{\infty}(A_i-A_{i+1}).$$

Isto é ilustrado através do diagrama:

diagrama-Jame

Diagrama de uma sequencia encaixada

Observe que cada $ A_i - A_{i+1} $ são conjuntos disjuntos, pois a sequência é uma sequência decrescente. Pelo axioma 3 temos então que

$$\mathbb{P}(A_1)=\mathbb{P}\left(\displaystyle \bigcup_{i=1}^{\infty}(A_i-A_{i+1})\right)=\displaystyle\sum_{i=1}^{\infty}\mathbb{P}(A_i-A_{i+1}).$$

Logo por P5 $ \mathbb{P}(A_i-A_{i+1})=\mathbb{P}(A_i)-\mathbb{P}(A_{i+1}) $, e portanto

$$\mathbb{P}(A_1)=\lim_{n \rightarrow \infty} \displaystyle\sum _{i=1}^{n-1}\mathbb{P}(A_i-A_{i+1}).$$

Note que os termos da somatória vão se cancelando restando apenas o primeiro e o último, assim

$$\mathbb{P}(A_1)= \displaystyle \lim_{n \rightarrow \infty} \mathbb{P}(A_1) - \mathbb{P}(A_n)=\mathbb{P}(A_1) - \lim_{n \rightarrow \infty} \mathbb{P}(A_n) \Rightarrow \lim_{n \rightarrow \infty}\mathbb{P}(A_n)=0.$$

Portanto $ \mathbb{P}(A_n)\rightarrow 0 $.

P7. Sejam $ A_1, A_2, \cdots , A_n $ uma sequência de eventos aleatórios, então

$$\mathbb{P}\left(\displaystyle \bigcup_{i=1}^{n}A_i\right)\leq \displaystyle\sum_{i=1}^{n} \mathbb{P}(A_i).$$

Vamos mostrar essa propriedade por indução finita, para isto mostremos primeiramente que $ \mathbb{P}(A_1\cup A_2)\leq \mathbb{P}(A_1)+\mathbb{P}(A_2) $, de fato por P2

$$\mathbb{P}(A_1\cup A_2)=\mathbb{P}(A_1)+\mathbb{P}(A_2)-\mathbb{P}(A_1\cap A_2)\Rightarrow \mathbb{P}(A_1\cup A_2)\leq \mathbb{P}(A_1)+\mathbb{P}(A_2),$$

pois $ \mathbb{P}(A_1 \cap A_2)\geq 0 $. Agora vamos supor que esta propriedade seja válida para $ n-1 $, ou seja, que

$$\mathbb{P}\left(\displaystyle \bigcup_{i=1}^{n-1}A_i\right)\leq \displaystyle\sum_{i=1}^{n-1} P(A_i)$$

e mostremos que é válida para $ n $. Note que

$$\mathbb{P}\left( \bigcup_{i=1}^{n}A_i\right)=\mathbb{P}\left(\bigcup_{i=1}^{n-1}A_i \cup A_n\right)=\mathbb{P}(C \cup A_n)=\mathbb{P}(C)+\mathbb{P}(A_n)-\mathbb{P}(C\cap A_n)\leq \mathbb{P}(C)+\mathbb{P}(A_n),$$

no qual $ C=\displaystyle \bigcup_{i=1}^{n-1}A_i $, e pela nossa hipótese de indução temos que

$$\mathbb{P}(C)+\mathbb{P}(A_n)\leq \displaystyle\sum_{i=1}^{n-1} \mathbb{P}(A_i) + \mathbb{P}(A_n)= \displaystyle\sum_{i=1}^{n} \mathbb{P}(A_i).$$

e, portanto, concluímos nossa demonstração.

P8. (Continuidade da Probabilidade). Se $ A_n\uparrow A $, então

$$\mathbb{P}(A_n)\uparrow \mathbb{P}(A).$$

Similarmente se $ A_n\downarrow A $ então

$$\mathbb{P}(A_n)\downarrow \mathbb{P}(A).$$

Primeiramente vamos considerar o caso em que $ A_n\downarrow A $, ou seja, $ A_{n+1}\subset A_n $ para qualquer $ n\in\mathbb{N} $ e $ \displaystyle \bigcap_{n\geq 1}A_n=A $. Assim sendo, por P4 temos que $ \mathbb{P}(A_{n+1})\leq \mathbb{P}(A_n) $, pois $ A_{n+1}\subset A_n $.

Além disso, por propriedades de conjunto temos que $ A_n-A\downarrow \emptyset $, o que implica por P6 que

$$\mathbb{P}(A_n-A)\rightarrow 0.$$ Por P5 temos que

$$\mathbb{P}(A_n - A)=\mathbb{P}(A_n)-\mathbb{P}(A)\Rightarrow \mathbb{P}(A_n)-\mathbb{P}(A)\rightarrow 0\Rightarrow \mathbb{P}(A_n)\rightarrow \mathbb{P}(A)$$

mas a sequência $ {\mathbb{P}(A_n)}_{n\in\mathbb{N}} $ é descrescente por P4, logo $ \mathbb{P}(A_n)\downarrow \mathbb{P}(A) $

Agora se $ A_n\uparrow A $, ou seja $ A_n\subset A_{n+1} $ com $ \displaystyle \bigcup_{n\geq 1}{A_n}=A $, então $ A_n^c\downarrow A^c $. Portanto pelo que foi demonstrado acima temos que

$$\mathbb{P}(A_n^c)\downarrow \mathbb{P}(A^c)$$ ou seja,

$$1-\mathbb{P}(A_n)\downarrow 1-\mathbb{P}(A)\Rightarrow \mathbb{P}(A_n)\uparrow \mathbb{P}(A)$$

P9. Sejam $ A_1, A_2, \cdots $ uma sequência de eventos aleatórios, então

$$\mathbb{P}\left(\displaystyle \bigcup_{i=1}^{\infty}A_i\right)\leq \displaystyle\sum_{i=1}^{\infty} \mathbb{P}(A_i).$$

Observemos que se definirmos $ C_n=\displaystyle \bigcup_{i=1}^{n}A_i $, temos então que $ C_n $ é uma sequência monótona crescente, ou seja, $ C_n\uparrow C $, no qual C é definido como $ C=\displaystyle \bigcup_{i=1}^{\infty}A_i $. Mas a probabilidade é uma função contínua em uma sequência monótona crescente como podemos ver em P8, assim sendo temos que $ \mathbb{P}(C_n)\uparrow P(C) $.

Mas por P7 temos que

$$\mathbb{P}(C_n)= \mathbb{P}\left(\bigcup_{i=1}^{n}A_i\right)\leq\sum_{i=1}^{n} \mathbb{P}(A_i),$$ por outro lado

$$\mathbb{P}\left( \bigcup_{i=1}^{\infty}A_i\right)= \mathbb{P}(C)=\lim_{n\rightarrow \infty}\mathbb{P}(C_n)\leq\lim_{n\rightarrow \infty}\sum_{i=1}^{n} \mathbb{P}(A_i)= \displaystyle\sum_{i=1}^{\infty} \mathbb{P}(A_i),$$

ou seja

$$\mathbb{P}\left(\displaystyle \bigcup_{i=1}^{\infty}A_i\right)\leq \displaystyle\sum_{i=1}^{\infty} \mathbb{P}(A_i).$$

P10. $ \mathbb{P}\left(\displaystyle \bigcap_{k=1}^{n} A_k\right)\geq 1- \displaystyle\sum_{k=1}^{n} \mathbb{P}(A_{k}^{C}) $.

Por De Morgan temos que $ \displaystyle \bigcup_{k=1}^{n}A_k^{C}=\left(\displaystyle\bigcap_{k=1}^{n}A_k\right)^{C} $. Assim

$$1-\mathbb{P}\left(\displaystyle\bigcap_{k=1}^{n}A_k\right) = \mathbb{P}\left[\left(\displaystyle\bigcap_{k=1}^{n}A_k\right)^{C}\right] = \mathbb{P}\left(\bigcup_{k=1}^{n}A_k^C\right)\Rightarrow \mathbb{P}\left(\displaystyle \bigcap_{k=1}^{n} A_k\right)\geq 1- \displaystyle\sum_{k=1}^{n} \mathbb{P}(A_{k}^{C}).$$

P11. $ \mathbb{P}\left(\displaystyle\bigcap_{k=1}^{\infty} A_k\right)\geq 1- \displaystyle \sum_{k=1}^{\infty}\mathbb{P}(A_{k}^{C}) $.

Tomemos $ C_n=\displaystyle\bigcap_{k=1}^{n} A_k $, observe que $ C_n \supset C_{n+1} $, logo $ C_n\downarrow C $, no qual $ C=\displaystyle\bigcap_{k=1}^{\infty} A_k $. Assim como a função de probabilidade é continua em uma sequência monótona temos que $ \mathbb{P}(C_n)\downarrow \mathbb{P}(C) $, portanto temos que

$$\mathbb{P}\left(\bigcap_{k=1}^{\infty} A_k\right)=\mathbb{P}(C)= \lim_{n\rightarrow \infty}\mathbb{P}(C_n)\geq 1-\lim_{n\rightarrow \infty}\displaystyle\sum_{i=1}^{n}\mathbb{P}(A_i^{C})= 1- \displaystyle\sum_{i=1}^{\infty} \mathbb{P}(A_i^{C}).$$

P12. Se $ \mathbb{P}(A_n)=0 $, para $ n=1,2,\cdots $, então

$$\mathbb{P}\left(\displaystyle\bigcup_{n=1}^{\infty} A_n\right)=0.$$

Por P9 e pela primeiro axioma temos que

$$0\leq \mathbb{P}\left(\displaystyle\bigcup_{n=1}^{\infty} A_n\right)\leq \displaystyle\sum_{i=1}^{\infty} \mathbb{P}(A_i)=0\Rightarrow \mathbb{P}(\displaystyle\bigcup_{n=1}^{\infty} A_n)=0.$$

P13. Se $ \mathbb{P}(A_n)=1 $, para $ n=1,2,\cdots $, então

$$\mathbb{P}\left(\displaystyle\bigcap_{n=1}^{\infty} A_n\right)=1.$$

Por P11 e pelo primeiro axioma temos que

$$1\geq \mathbb{P}\left(\bigcap_{n=1}^{\infty} A_n\right) \geq 1- \displaystyle\sum_{i=1}^{\infty} \mathbb{P}(A_i^{C})=1 \Rightarrow \mathbb{P}\left(\displaystyle\bigcap_{n=1}^{\infty} A_n\right)=1.$$

P14. Se $ A_1,A_2, \cdots $ e $ B_1,B_2,\cdots $ são eventos aleatórios, tais que $ \mathbb{P}(A_n)\rightarrow 1 $ e $ \mathbb{P}(B_n)\rightarrow p $, quando $ n \rightarrow \infty $, então $ \mathbb{P}(A_n \cap B_n) \rightarrow p $.

Observemos primeiramente que por P2 $ \mathbb{P}(A_n \cap B_n) = \mathbb{P}(A_n)+\mathbb{P}(B_n) - \mathbb{P}(A_n \cup B_n) $, mas $ \mathbb{P}(A_n)\rightarrow 1 $ e $ \mathbb{P}(B_n)\rightarrow p $ e $ \mathbb{P}(A_n)\leq \mathbb{P}(A_n\cup B_n)\leq 1 $, pois $ A_n \subset (A_n \cup B_n) $, e assim temos que

$$\lim_{n \rightarrow \infty} \mathbb{P}(A_n)=1\leq \lim_{n \rightarrow \infty} \mathbb{P}(A_n \cup B_n)\leq1 \Rightarrow \mathbb{P}(A_n \cup B_n)\rightarrow 1.$$

Logo, como $ \mathbb{P}(A_n \cap B_n) - \mathbb{P}(B_n)=\mathbb{P}(A_n) - \mathbb{P}(A_n \cup B_n) $, temos então que $ \mathbb{P}(A_n \cap B_n) - \mathbb{P}(B_n)\rightarrow 0 $, e portanto $ \mathbb{P}(A_n \cap B_n) \rightarrow p $.

Exemplo 1.2.1

Considerando o evento A={sair número par} e o evento C={sair número maior que 3} no lançamento de um dado, temos que

$$\mathbb{P}(A\cup C)=\mathbb{P}(A)+\mathbb{P}(C)-\mathbb{P}(A\cap C)=\frac{3}{6}+\frac{3}{6}-\frac{2}{6} = \frac{4}{6}.$$

Exemplo 1.2.2

Consideremos o experimento de lançarmos 3 moedas honestas simultaneamente, e observamos a face voltada para cima. Qual é a probabilidade de obtermos 3 caras? Neste mesmo experimento qual seria a probabilidade de obtermos pelo menos 2 caras?

Primeiramente vamos construir nosso espaço amostral, denotaremos por C=cara e K=coroa.

$$\Omega =\ {(C,C,C);(C,C,K);(C,K,C);(K,C,C);(K,K,C);(K,C,K);(C,K,K);(K,K,K)}$$

Logo temos que $ \Omega $ tem 8 elementos; o evento A={Obter 3 caras}={(C,C,C)}.

Assim como as moedas são honestas temos que existe igual probabilidade para cada elemento do espaço amostral $ \Omega $

Sendo assim:

$$\mathbb{P}(A)=\frac{{Número~de~elementos~favoráveis~a~A}}{{Número~de~elementos~do~espaço~amostral}}=\frac{1}{8}$$

Agora vamos analisar a probabilidade de obtermos pelo menos 2 caras. Seja B={obter pelo menos 2 caras}={(C,C,C);(C,C,K);(C,K,C);(K,C,C)}, então

$$\mathbb{P}(B)=\frac{{Número~de~elementos~favoráveis~a~B}}{{Número~de~elementos~do~espaço~amostral}}=\frac{4}{8}=\frac{1}{2}.$$

Exemplo 1.2.3 - Sejam $ A_1, A_2, \dots $ eventos aleatórios em uma espaço de probabilidade $ (\Omega,\mathbb{A},\mathbb{P}) $, e definam-se

$$\limsup_{n\rightarrow \infty} A_n=\bigcap_{n=1}^\infty \bigcup_{k=n}^\infty A_k,$$

$$\liminf_{n\rightarrow \infty} A_n=\bigcup_{n=1}^\infty \bigcap_{k=n}^\infty A_k,$$

Se

$$\limsup_{n\rightarrow \infty} A_n=\liminf_{n\rightarrow \infty} A_n=A,$$

chamamos o evento A de $ \lim_{n\rightarrow \infty} A_n $ (limite de $ A_n $). Demonstre que se $ A=\lim A_n $ então $ \mathbb{P}(A_n)\rightarrow \mathbb{P}(A) $

quando $ n\rightarrow \infty $.

Dem:

Fazendo $ B_n=\bigcap_{k=1}^n \bigcup_{j=k}^\infty A_j $ então $ B_1\supseteq B_2 \supseteq \dots $. Então, $ B_n\downarrow \limsup A_n=A $ então pela propriedade

P8 temos que $ \mathbb{P}(B_n)\downarrow \mathbb{P}(A) $.

Analogamente $ C_n \uparrow \limsup A_n=A $ então pela propriedade P8 temos que $ \mathbb{P}(C_n)\uparrow \mathbb{P}(A) $

Agora $ A_n \subset \bigcap_{k=1}^n\bigcup_{j=k}^\infty A_j $ e $ A_n\supseteq \bigcup_{k=1}^n \bigcap_{j=k}^\infty A_j $ e então $ C_n\subset A_n \subset B_n $

então pela propriedade

$$\mathbb{P}(C_n)\leq \mathbb{P}(A_n)\leq \mathbb{P}(B_n)$$

Então, temos que $ \mathbb{P}(A_n)\rightarrow \mathbb{P}(A). $

Proposição 1.2.1:(Desigualdades de Bonferroni)

As seguintes desigualdades de Bonferroni são válidas

(i)

85829a590db19f0b1a2b40997e5f120c9939dc2

5aae81a3839c11de8eb0806f30f4d9a6f9bbe59

(ii) Se $ k $ é ímpar, $ k\leq n $, então

7259cec9a01e21c7ea8a0fe067e8d086cc1b967

c0e87653685b999e0414516fdd678e08784f9f5

se k é par, $ k\leq n $ vale $ \geq $ nesta última desigualdade.

Demonstração:

(i) Primeiramente vamos mostrar que

97ca8f3319dc157901ece0a253f590732780b39

Vamos mostrar por indução, sabemos que $ n=2 $ vale pois $ \mathbb{P}(A)+\mathbb{P}(B)=\mathbb{P}(A\cup B). $

Agora suponhamos que vale para n, então

$$\mathbb{P}\left(\bigcup_{i=1}^{n+1} A_i\right)=\mathbb{P}\left(A_{n+1}\bigcup\left(\bigcup_{i=1}^n A_i\right)\right)=\mathbb{P}(A_{n+1})+\mathbb{P}\left(\bigcup_{i=1}^n A_i\right)-\mathbb{P}\left(A_{n+1}\bigcap\left(\bigcup_{i=1}^n A_i\right)\right)$$

769b23bf6a10222bc137513badaf89b9bea8b69

eaf7a66b34a99b36e39ddabf8b1cfd38b49c435

Com

336160103c8596b080c3d932dec849ec022e07a

sendo a hipótese de indução.

Então, temos que

97ca8f3319dc157901ece0a253f590732780b39

Agora vamos mostrar que também por indução que

182eb7c3ced96ca36aff19c38b1002ce80fb2b1

Assim, $ n=3 $ vale a desigualdade pois pela propriedade P3

Agora suponhamos que vale para $ n $ provamos que vale para $ n+1 $

$$\mathbb{P}\left(\bigcup_{i=1}^{n+1}A_i\right)=\mathbb{P}\left(A_{n+1}\cup\left(\bigcup A_i\right)\right)=\mathbb{P}(A_{n+1})+\mathbb{P}\left(\bigcup_{i=1}^{n+1} A_i\right)-\mathbb{P}\left(A_{n+1}\cap \left(\bigcup_{i=1}^n A_i\right)\right)$$

65681ff344e49b161ca6731264a5faf580f55c2

Pela desigualdade anterior temos que

cf383a294e77b419a44fb03c208fd1f8c1358d3

Então, temos que

fbcaed4673a5ace66555f8ead4b8190f36c3276

ii) Definimos

$$S_1=\sum_{i=1}^n \mathbb{P}(A_i)$$

5f1df2fb80a8db03af78e8b117de6bda58f31fc

$$\vdots$$

ef546e4519d42bf8947c12244f5a0e1ab0f5c00

Então por $ (i) $ temos

$$\mathbb{P}\left(\bigcup_{i=1}^n A_i\right)=\sum_{i=1}^n (-1)^{i-1}S_i \quad \quad \quad \quad (I)$$

Agora, vamos introduzir a seguinte notação:

$ P_m= $[ é a probabilidadede que ocorram pelo menos m dos eventos $ A_1, A_2, \dots, A_n $]

$ P_{\lceil m\rceil}= $[ é a probabilidade de que ocorram exatamente m dos eventos $ A_1, A_2, \dots, A_n $]

então

$$P_m=P_{\lceil m\rceil}+P_{\lceil m+1\rceil}+\dots+P_{\lceil n\rceil}\quad \quad \quad \quad (II)$$

Agora observe que

$$P_{m+1}=P_{m}-P_{\lceil m\rceil}$$

usando a equação (I), podemos exprimir $ P_m $ em termos de $ S_m,S_{m+1},\dots, S_n $. Assim, temos que

$$P_m=S_m-\binom{m}{m-1}S_{m+1}+\binom{m+1}{m-1}S_{m+2}+\dots \pm \binom{n-1}{m-1}S_n\quad \quad \quad \quad (III)$$

Porém, podemos expressar $ S_v $ em temos de $ P_{\lceil k\rceil} $ da seguinte forma

$$S_v=\sum_{k=v}^n \binom{k}{v}P_{\lceil k\rceil} \quad \quad \quad \quad (IV)$$

Então, provar a desigualdade de Bonferroni é equivalente a provar para $ m=1 $ que se conservam-se apenas os termos $ S_1, S_2, \dots, S_v $ e podemos descartar os termos $ S_{v+1}, S_{v+2}, \dots, S_n $. Então, o erro tem o sinal do primeiro termo omitido (a saber $ (-1)^v $) e é menor em valor absoluto o que através de $ (III) $ se verifica quando:

$$\sum_{v=t}^n (-1)^{v-t}\binom{v}{1}S_v \geq 0 \quad \quad \quad \quad (V)$$

para todo $ t=1,2,\dots, n $. Agora de $ (IV) $ em $ (V) $ o que implica que

$$\sum_{v=t}^n (-1)^{v-t}\binom{v}{1}\sum_{k=v}^n \binom{n}{v}P_{\lceil k\rceil}$$

Agora, isto é uma combinação linear dos $ P_{\lceil k\rceil} $, no qual para $ t \leq k < n $ o coeficiente de $ P_{\lceil k\rceil} $ é igual a

$$\sum_{v=t}^k (-1)^{v-t}\binom{v}{1}\binom{k}{v}=\binom{k}{1}\sum_{v=t}^{k}(-1)^{v-t}\binom{k-1}{v-1}=\binom{k}{1}\binom{k-2}{t-2}\geq 0.$$

Portanto, (V) é satisfeita e o resultado segue.

1.3 - Eventos Equiprováveis

Se um experimento tem como espaço amostral $ \Omega = (e_1,e_2,\ldots,e_n) $, com um número finito de elementos, dizemos que os eventos elementares $ (e_i) $ são equiprováveis, se todos tem a mesma probabilidade de ocorrer, isto é

$$\mathbb{P}((e_i))=\frac{1}{n}.$$

Desta forma, podemos definir a probabilidade de um evento $ E = (e_{j1},\ldots,e_{jk}) $, composto por $ k $ elementos (com $ k $ menor que $ n $), como sendo:

$$\mathbb{P}(E)=\frac{\text{número de casos favoráveis a E}}{\text{número de casos possíveis de S}}=\frac{k}{n}.$$

No lançamento de um dado honesto, os elementos do espaço amostral $ \Omega = (1, 2, 3, 4, 5, 6) $ são equiprováveis, pois cada elemento do espaço amostral tem a mesma chance de ocorrer, ou seja, a chance de sair 1 é a mesma de sair 2, que é a mesma de sair 3, e assim por diante. Portanto,

$$\mathbb{P}((1))=\mathbb{P}((2))=\mathbb{P}((3))=\mathbb{P}((4))=\mathbb{P}((5))=\mathbb{P}((6))=\frac{1}{6}.$$

Com isso e da propriedade (3) de probabilidade, temos que, se $ A $ é o evento sair número par no lançamento de um dado, então

$$\mathbb{P}(A)=\mathbb{P}( \ 2 \ \hbox{ou} \ 4 \ \hbox{ou} \ 6)=\mathbb{P}((2)\cup(4)\cup(6))=\frac{1}{6}+\frac{1}{6}+\frac{1}{6}=\frac{3}{6}.$$

Com isso, obtemos que a probabilidade de ocorrer o evento $ A $ é igual ao número de elementos favoráveis a $ A = (2, 4, 6) $, que é 3 (pois $ A $ tem 3 elementos), dividido pelo número de elementos no espaço amostral $ \Omega $, que é $ 6 $.

Exemplo 1.3.1

Em um jogo de dados são lançados dois dados honestos simultaneamente. Para que um jogador ganhe, um dos seguintes eventos deve ocorrer: “soma das duas faces deve ser igual a 7”, ou que o “maior valor obtido nos dois dados seja no máximo 3”. Qual das duas possibilidades ele deve escolher? Primeiramente vamos analisar o nosso espaço amostral, que é dado pela tabela abaixo:

Espaço amostral do lançamento de dois dados.

1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

Note que o número de elementos do nosso espaço amostral é de $ 36 $. Seja $ A=(\text{conjunto dos pares} \ (i,j) \ \text{tais que} \ i+j=7) $, esses pares aparecem em amarelo na figura a baixo.

Screenshot_1

As células em amarelo representam o conjuntos dos pares tais que a soma é igual a $ 7 $.

Observe que o número de elementos do conjunto $ A $ é igual a $ 6 $, ou seja, existem $ 6 $ pares para os quais a soma é $ 7 $. Assim, a probabilidade que procuramos é dada por:

$$\mathbb{P}(A)=\frac{\text{Número de elementos favoráveis a A}}{\text{Número de elementos do espaço amostral}}=\frac{6}{36}=\frac{1}{6}.$$

Desta forma, a probabilidade de um jogador ganhar neste jogo é de $ \frac{1}{6} $ caso ele escolha a possibilidade da soma ser igual $ 7 $. Vamos agora calcular a probabilidade do jogador vencer no caso em que o maior valor obtido nos lançamentos dos dados seja $ 3 $. Seja $ B=(\text{o conjunto dos pares} \ (i,j) \ \text{tais que} \ i\leq 3 \ \text{e} \ j\leq 3) $. Na tabela abaixo os pares que aparecem em azul são os pares pertencentes a B.

Screenshot_2

A células em azul representam o conjunto dos pares tais que o maior valor é no máximo 3. Pela tabela podemos observar que B tem 9 elementos, logo

a47f6d5984915b7cf7f51c31a7a156b511295684

Portanto $ \mathbb{P}(B)\geq \mathbb{P}(A) $, assim é mais vantajoso para o jogador escolher que o maior valor obtido seja no máximo 3, pois assim ele tem maiores chances de ganhar.

Exemplo 1.3.2: No jogo de $ Craps $ dois dados são jogados. Se o jogador tira 7 ou 11 pontos ele ganha. Se ele tira 2,3 ou 12 ele perde. Nos outros casos ele continua jogando os dois dados até sair 7, caso em que ele perde, ou então sair o primeiro resultado, caso em que ele ganha. Descreva o espaço amostral. Qual é a probabilidade dele ganhar?

$$\Omega=(\omega_i; i=1,2, \dots, \omega_i\in (1,\dots,6)\times (1,\dots,6); \omega_i=(a_i+b_i))$$

Considere o evento $ B=(\text{ Ganhar o jogo }) $. Então sendo:

Screenshot_3

Então

$$\mathbb{P}(B)=\mathbb{P}\left(\bigcup_{i=1}^7 B_i\right)=\sum_{i=1}^{7}\mathbb{P}(B_i)=0,49292.$$

Exemplo 1.3.3 - Uma caixa contém $ 2n $ sorvetes, n do sabor A e n do sabor B. De um grupo de 2n pessoas, $ a<n$ preferem o sabor A, $b<n$ o sabor e $ 2n-(a+b) $ não tem preferência. Demonstre que os sorvetes são distribuídos ao acaso, a probabilidade de que a preferência de todas as pessoas seja respeitada é de

$$\frac{\binom{2n-a-b}{n-a}}{\binom{2n}{n}}.$$

Temos n sorvetes do tipo A e n do sabor B. Para facilitar o entendimento, podemos pensar nas pessoas como enfileiradas como sendo $ a $ pessoas que gostam do tipo A em seguida as $ b $ pessoas que gostam do tipo B e por fim as demais pessoas.

Com isso temos que a probabilidade que queremos é dada por

Screenshot_4

$$=\frac{(2n-(a+b))!}{(n-a)!(n-b)!}\frac{n!n!}{2n!}=\frac{\binom{2n-a-b}{n-a}}{\binom{2n}{n}}$$

Exemplo 1.3.4: Suponhamos que dez cartas estejam numeradas de 1 até 10. Das dez cartas, retira-se uma de cada vez, ao acaso e sem reposição, até retirar-se o primeiro número par. Conta-se o número de retiradas necessárias. Exiba um bom modelo probabilístico para este experimento.

Nosso espaço amostral é dado por $ \Omega=(1,2,3,4,5,6) $, com a $ \sigma $-álgebra sendo as partes.

Assim temos que a

$$\mathbb{P}(n)=\frac{\binom{5}{n-1}\binom{5}{1}}{\binom{10}{n}}, \quad \quad, n=1,2, \dots,5.$$

e

$$\mathbb{P}(6)=\frac{1}{\binom{10}{5}}$$

Exemplo 1.3.5 : Para cada um dos seguintes experimentos, descreva um espaço de probabilidade que sirva de modelo.

(a) Seleciona-se um ponto, ao acaso, do quadrado unitário

$${(x,y):0≤x≤1,0≤y≤1}.$$

(b) Retiram-se cartas sucessivamente de um baralho de 52 cartas, ao acaso e com reposição até retirar-se o primeiro rei. Registra-se o número total de retiradas.

(c) Quinze bolas são retiradas, ao acaso e com reposição, de uma urna contendo 5 bolas vermelhas, 9 bolas pretas, e uma bola branca. Observa-se o número de vezes que ocorre cada cor.

(d) O experimento (c) é realizado sem reposição.

(a) Então o espaço amostral $ \Omega=\mathbb{R}^2 $, sendo $Q=((x,y):0≤x≤1;0≤y≤1)$ e a $ \sigma $-álgebra é a $ \sigma $-álgebra de Borel definimos

$ \mathbb{P}(A)=\frac{\text{area}(A\cap Q)}{\text{area}(Q)}=\text{ area }(A\cap Q). $

(b) O espaço amostral $ \Omega=\mathbb{N} $ e a $ \sigma $-álgebra das partes $ \mathbb{N} $. Então

$$\mathbb{P}(n)=\left(\frac{12}{13}\right)^{n-1}\frac{12}{13}, \quad \quad n=1,2, \dots$$

(c) O espaço amostral $Ω=((nv,np,nb):nv,np,nb∈N e nv+nb+np=15)$ e

$$\mathbb{P}(n_v,n_p,n_b)=\frac{15!}{n_v!n_b!n_p!}=\left(\frac{5}{15}\right)^{n_v} \left(\frac{9}{15}\right)^{n_p} \left(\frac{1}{15}\right)^{n_b}, \quad \quad (n_v,n_p,n_b)\in \Omega.$$

(d) No caso sem reposição $ \Omega=((n_v,n_p,n_b)=(5,9,1)) $ a $ \sigma $-álgebra é as partes e

$$\mathbb{P}(n_v,n_p,n_b)=\frac{n_v}{5}\frac{n_p}{9}\frac{n_b}{1}=1$$

Exemplo 1.3.6: Retiram-se 4 cartas, ao acaso, de um baralho de 52 cartas. Registra-se o número de reis na amostra. Exiba um bom modelo probabilístico para este experimento se:

(a) As retiradas são feitas sem reposição.

(b) as retiradas são feitas com reposição.

(c) Determine em que caso, (a) ou (b) é mais provável obter 4 reis.

(a) A retirada sem reposição então o espaço amostral $ \Omega=(1,2,3,4) $ então o número de reis é dado por

$$\mathbb{P}(n)=\frac{\binom{48}{4-n}\binom{4}{n}}{\binom{52}{4}}; \quad \quad n=0,1,2,3,4$$

(b) com reposição o espaço amostral $ \Omega=(1,2,3,4) $. Então, o número de reis é dado por

$$\mathbb{P}(n)=\binom{4}{n}\left(\frac{12}{13}\right)^{4-n}\left(\frac{1}{13}\right)^{n}.$$

(c) Para calcular definimos a probabilidade

$$\mathbb{P}_a(4)=\frac{1}{\binom{52}{4}}=\frac{1}{270725}\approx 3,693 \times 10^{-6}$$

$$\mathbb{P}_b(4)=\binom{4}{4}\left(\frac{12}{13}\right)^{0}\left(\frac{1}{13}\right)^{4}=\frac{1}{28561}\approx 3,5\times 10^{-5}$$

Então é mais provável obter 4 reis com reposição.

Exemplo 1.3.7:(Problema de casamentos)

(a) Suponha que temos n casais casados (n homens e n mulheres) se fizermos uma identificação ao acaso(associar um mulher a um homem ao acaso) dos casais qual a probabilidade de acertarmos o casal corretamente(acertar quais são marido e mulher) ?

(b) Mostre que a probabilidade considerada no item anterior converge para $ p=1-\frac{1}{e} $ quando $ n\rightarrow \infty $.

(a) Fazendo $ A_i=(\text{ Acerta a identificação do i-ésima equação}, i=1,2, \dots,n). $

Temos $ \bigcup_{i=1}^n A_i\text{ Acerta pelo menos uma identificação } $

$$\mathbb{P}(A_i)=\frac{(n-1)!}{n!}=\frac{1}{n}, i=1,2,\dots,n$$

Screenshot_5

$$\vdots$$

$$\mathbb{P}(A_1\cap A_2\cap \dots \cap A_n)=\frac{1}{n!}$$

então usando

$$\mathbb{P}\left(\bigcup_{i=1}^n A_i\right)=n \mathbb{P}(A_1\cap A_2)+\binom{n}{3}\mathbb{P}(A_1\cap A_2\cap A_3)+\dots (-1)^{n-1}\mathbb{P}(A_1\cap A_2\cap \dots \cap A_n)=$$

$$=n\frac{1}{n}-\frac{n(n+1)}{2!}\frac{1}{n(n+1)}+\frac{n(n+1)(n+2)}{3!}\frac{1}{n(n+1)(n+2)}-\dots (-1)^{n-1}\frac{1}{n!}$$

$$=\sum_{i=1}^{n}\frac{(-1)^{i+1}}{i!}$$

(b)

$$\lim_{n\rightarrow \infty} \mathbb{P}\left(\bigcup_{i=1}^n A_i\right)=\lim_{n\rightarrow}\sum_{i=1}^{n}\frac{(-1)^{i+1}}{i!}=\frac{1}{e}$$

Exemplo 1.3.8: Suponha que n cartas numeradas de 1 a n sejam embaralhadas e retiradas uma por uma, sem reposição, até todas as cartas serem retiradas. Qual a probabilidade de que para pelo menos uma carta, o número da carta coincida com o número da retirada?

Basta usar o exemplo anterior, pois podemos ver como um problema dos casamentos assim, temos que

$$\mathbb{P}\left(\bigcup_{i=1}^n A_i\right)=\sum_{i=1}^{n}\frac{(-1)^{i+1}}{i!}$$

1.3.1 - Métodos de Enumeração

Quando trabalhamos com espaço amostral finito $ \Omega = (\omega_1,\ldots,\omega_n) $ e eventos equiprováveis, obtemos que a probabilidade pode ser definida por

$$\mathbb{P}(E)=\frac{\hbox{número de casos favoráveis a E}}{\hbox{número de casos possíveis de S}}=\frac{k}{n}.$$

Neste caso, precisamos conhecer regras de contagem (ou enumeração) para calcularmos as probabilidades associadas aos eventos de interesse, pois nem sempre é fácil calcularmos o número de elementos do espaço amostral, ou ainda o número de elementos do evento de interesse.

Exemplo 1.3.1

Um grupo de $ 1000 $ pessoas contém $ 2 $ pessoas com diabetes e $ 998 $ pessoas saudáveis. Dez pessoas são escolhidas ao acaso e sem reposição. Qual a probabilidade de escolhermos apenas uma pessoa com diabetes?

  • Espaço amostral?

d5f51e6c667dc6bfaa605fe621e2da7059f1c11e

  • Quantas 10-uplas de pessoas existem?
  • Quantas tem a característica que desejamos?

Regras de contagem

A seguir, vamos apresentar as regras básicas de contagem, denominadas regra da multiplicação e regra da adição.

  1. Regra da multiplicação: Suponha que para realizarmos uma tarefa temos que executar dois procedimentos (obrigatoriamente), denotados por $ P_1 $ e $ P_2 $. O procedimento $ P_1 $ tem $ n_1 $ formas de ser executado e o procedimento $ P_2 $ tem $ n_2 $ formas de ser executado. O total de maneiras para executarmos a tarefa é dado por $ n_1\times n_2 $.

Exemplo 1.3.2

Uma peça manufaturada deve passar por três passos e por três estações de controle. Em cada estação a peça é inspecionada com relação a uma determinada característica e marcada adequadamente. Na primeira estação, três classificações são possíveis (ok, excelente, retrabalho), enquanto que nas duas últimas, duas classificações são possíveis (ok, retrabalho). De quantas maneiras uma peça pode ser marcada?

1ª estação - 3 maneiras

2ª estação - 2 maneiras

3ª estação - 2 maneiras

Desta forma, a peça pode ser marcada de $ 3 \times 2 \times 2 = 12 $ maneiras diferentes.

  1. Regra da adição: Suponha que temos dois procedimentos possíveis para executar uma tarefa. Aqui, basta executar um dos dois procedimentos para que tenhamos executado a tarefa. O procedimento $ P_1 $ tem $ n_1 $ formas de ser executado e o procedimento $ P_2 $ tem $ n_2 $ formas de ser executado. O total de maneiras para executarmos a tarefa é então dado por $ n_1+n_2 $.

contagem_adicao

Exemplo 1.3.3

Considere um processo de manufatura dividido em $ 4 $ máquinas $ (M_1,M_2,M_3,M_4) $. Cada peça é desenvolvida por uma das máquinas e classificada em:

Screenshot_6

Com isso, concluímos que existe um total de $ 10 $ maneiras de classificarmos a peça.

Permutações, arranjos e combinação

Permutação

Suponha que tenhamos uma coleção $ O = (w_1,w_2,\ldots,w_n) $ de $ n $ objetos. De quantas maneiras podemos permutar (dispor) estes elementos? O número de maneiras que podemos fazer isto é denominado permutação.

Exemplo 1.3.4

Se tivermos os objetos $ a $, $ b $ e $ c $, podemos considerar as permutações: abc, acb, bac, bca, cab e cba.

Suponha que temos $ n $ compartimentos e queremos dispor os $ n $ objetos de $ O $ nestes compartimentos. Para isto, considere o esquema:

Arranjo

Aplicando a regra da multiplicação, temos que o número de maneiras de permutar $ n $ elementos é:

$$P_n=n(n-1)\ldots 1=n! \qquad \text{(Fatorial)}$$

Definição 1.3.1

0! = 1.

Arranjo

Suponha que tenhamos uma coleção $ O = (w_1,w_2,\ldots,w_n) $ composta por $ n $ objetos. Agora, desejamos escolher $ r $$ (\leq n) $ objetos e permutá-los. O número de maneiras para fazer isto é denominado arranjo. Suponha que temos $ r $ compartimentos e queremos dispor os $ n $ objetos de O nestes compartimentos. Para isto, considere o esquema:

Arranjo1

Aplicando a regra da multiplicação, temos que o número de maneiras de arranjar $ n $ elementos em $ r $ compartimentos é:

$$A_{n,r} = n(n-1)\ldots(n-r+1)=\frac{n!}{(n-r)!}$$

Combinação

Suponha que tenhamos uma coleção $ O = (w_1,w_2,\ldots,w_n) $ composta por $ n $ objetos. Agora, trataremos da contagem do número de maneiras de escolher $ r $$ (\leq n) $ objetos dentre os $ n $ objetos sem considerarmos a ordem.

Exemplo 1.3.5

Na coleção de objetos $ O = (a,b,c,d) $, quantos grupos podemos formar com dois objetos?

Podemos formar os seguintes grupos com dois elementos: $ (ab, ac, ad, bc, bd, cd) $. Ou seja, em uma coleção de $ 4 $ elementos, é possível formar $ 6 $ grupos de dois elementos. Observe que aqui não contamos $ ab $ e $ ba $ pois formam dois grupos iguais.

Como o número de maneiras de alocarmos os $ n $ objetos em $ r $ compartimentos é

$$\frac{n!}{(n-r)!}$$

e, após alocarmos os $ r $ objetos temos $ r! $ formas de permutá-los, então o número de maneiras de escolhermos $ r $ objetos sem importar a ordem dentre $ n $ objetos é:

5aeb08a22ed9c4d7fa5cc1c918527b6d78f5e954

Exemplo 1.3.6

Considere novamente o Exemplo 1.3.1 em que temos

  • 1000 pessoas;
  • 2 pessoas com diabetes;
  • 10 pessoas selecionadas ao acaso e sem reposição.

Screenshot_7

Teorema 1.3.1 (Binômio de Newton)

Dados $ x,y\in\mathbb{R} $ temos que

e9bb2bf3e0a0a60d650ec84802b23b9210ea2161

Demonstração

Quando $ n=1 $ temos que

Screenshot_8

como queríamos demonstrar.

Esquemas de Amostragem

Considere $ O = (o_1,o_2,\ldots,o_n) $ uma coleção de $ n $ objetos. A amostragem “com reposição” é um tipo de experimento no qual, após cada etapa, o objeto selecionado retorna ao grupo. Em uma amostragem com reposição cada elemento selecionado $ o_i $ pode ser qualquer um dos $ n $ objetos. Neste caso, a descrição do espaço amostral depende da forma como as amostras selecionadas são consideradas, por exemplo, (4,1,2,1) e (1,4,2,1) são diferentes ou iguais. Assim, temos dois casos: “ordenadas” e “não ordenadas”. No primeiro caso, as amostras contendo os mesmos elementos, mas arranjados diferentemente, são considerados distintas. No segundo caso, a ordem dos elementos é descartada e as duas amostras são consideradas as mesmas. A seguir, vamos utilizar a notação $ (o_1,\ldots,o_n) $ para amostras ordenadas e $ [o_1,\ldots,o_n] $ para amostras não ordenadas.

Amostragem com reposição

  • Amostragem ao acaso, com reposição e ordenada: Selecionar $ r $ objetos ao acaso e com reposição na coleção de objetos $ O $:

Espaço amostral: $Ω=((ω1,ω2,…,ωn):wi∈O);$

Probabilidade: $ \displaystyle \mathbb{P}((w_1,w_2,\ldots,w_r))=\frac{1}{n^r} $.

  • Amostragem ao acaso, com reposição e não-ordenada: Selecionar $ r $ objetos ao acaso e com reposição na coleção de objetos $ O $:

Espaço amostral: $S=([w1,w2,…,wn]:wi∈O))$

Probabilidade:

c6c43f2737f0d3531b3c8b0dc48a4e88e02d98a2

Amostragem sem reposição

  • Amostragem ao acaso, sem reposição e ordenado: Selecionar ao acaso $ r $ objetos ao acaso e sem reposição na coleção de objetos $ O $ ( com $ r $ menor ou igual a $ n $):

Espaço amostral: $Ω=((w1,w2,…,wn):wi∈O,wi≠wj)$

Probabilidade: $ \displaystyle \mathbb{P}((w_1,\ldots,w_r))=\frac{1}{n!/(n-r)!}=\frac{(n-r)!}{n!} $

  • Amostragem ao acaso, sem reposição e não-ordenada: Selecionar ao acaso $ r $ objetos e sem reposição na coleção de objetos $ O $ (com $ r $ menor ou igual a n):

Espaço amostral: $Ω=([w1,…,wr]:wi∈O,wi≠wj);$

Probabilidade:

1ac3b222ad85ac4ad385a8dd43d3444708997b13

Exemplo 1.3.7

Screenshot_9

Exemplo 1.3.8

Agora iremos fazer um exemplo mais geral. Em um processo de amostragem com reposição e ordenado, vamos calcular a probabilidade de ocorrência do evento “todos os elementos selecionados são distintos”.

Vamos supor que dispomos de $ M $ objetos distintos, e que iremos selecionar $ n $ vezes.

Assim seja $A = ((O_1, …, O_n) : O_i ≠ O_j, i ≠ j~e~O_i ∈ O)$, no qual $O = (O_1, …O_M)$.

4ba36b2baf0ec7fde71059eeba2443ab350f0f00

Ajustando a equação a cima obtemos:

$$\mathbb{P}(A)=\left(1-\frac{1}{M} \right)\cdot \left(1-\frac{2}{M} \right) \cdots \left(1-\frac{n-1}{M} \right).$$

Exemplo 1.3.9

Utilizando o exemplo acima, vamos fazer uma aplicação interessante. Em um grupo de $ n $ pessoas qual a chance de duas ou mais pessoas fazerem aniversário no mesmo dia do ano.

Neste caso, os $ M $ objetos distintos que dispomos são os $ 365 $ dias do ano, assim $ M=365 $. Queremos selecionar $ n $ dias (pois existem $ n $ pessoas no grupo) ao acaso e com reposição e de forma ordenada. Vamos definir B={ ninguém faz aniversário no mesmo dia}. Assim o evento de interesse nosso é $ B=A^c $. Então

$$\mathbb{P}(B)=1-\mathbb{P}(A)=1-\left[\left(1-\frac{1}{365} \right)\cdot \left(1-\frac{2}{365} \right) \cdots \left(1-\frac{n-1}{365} \right) \right]$$

Apenas a título de curiosidade vamos colocar segue abaixo a probabilidade para alguns valores de n.

$ n $ $ \mathbb{P}(B) $
04 0,016
16 0,284
23 0,503
40 0,891
64 0,997

É interessante observar que para $ n=64 $ a probabilidade de duas ou mais pessoas fazerem aniversário no mesmo dia é quase 100%.

Exemplo 1.3.10

Suponha que queremos distribuir $ r $ bolas em $ n $ compartimentos, com $ r\geq n $, todas as bolas devem ser distribuídas. Vamos calcular a probabilidade de um compartimento conter $ K $ bolas.

Screenshot_10

1.4 - Eventos independentes e probabilidade condicional

Outro conceito importante da teoria de probabilidade é o de independência entre dois eventos. Na prática, dois eventos são independentes quando a ocorrência de um evento não influência a ocorrência do outro evento. Do ponto de vista probabilístico temos a seguinte definição:

Definição 1.4.1 (Independência)

Dois eventos $ A $ e $ B $ são ditos independentes se

$$\mathbb{P}(A\cap B)=\mathbb{P}(A) \mathbb{P}(B).$$

Exemplo 1.4.1

Um lote contém $ 10 $ peças, sendo $ 7 $ boas ($ B $) e $ 3 $ defeituosas ($ D $). Retiramos duas peças, ao acaso e com reposição, para inspeção. Qual a probabilidade de se obter duas peças defeituosas?

O experimento de realizar a primeira retirada tem como espaço amostral $ \Omega_1= (D_1,B_1) $ e a segunda retirada tem como espaço amostral $ \Omega_2 = (D_2,B_2) $, em que $ D_i $ significa que retiramos uma peça defeituosa na i-ésima retirada e $ B_i $ significa que retiramos uma peça boa na i-ésima retirada, para $ i = 1,2 $. Como as duas peças são retiradas ao acaso e com reposição, isto é, após retirarmos a primeira peça esta é colocada novamente no lote para que possamos efetuar a segunda retirada, temos que

$$\mathbb{P}(D_1)=\mathbb{P}(D_2)=\frac{3}{10} \qquad \text{e} \qquad \mathbb{P}(B_1)=\mathbb{P}(B_2)=\frac{7}{10}.$$

Associamos ao experimento de retirar duas peças ao acaso e com reposição o seguinte espaço amostral

$$\Omega=((D_1,B_2);(B_1,D_2);(D_1,D_2);(B_1,B_2)).$$

Queremos encontrar a probabilidade de se obter duas peças defeituosas, ou seja, a probabilidade das peças na primeira retirada e na segunda retirada serem defeituosas. Assim, desde que a primeira e a segunda retirada sejam executadas de forma independente, temos que

$$\mathbb{P}\left((D_1,D_2)\right)=\mathbb{P}(D_1\cap D_2)=\mathbb{P}(D_1) \mathbb{P}(D_2)=\frac{3}{10}\cdot \frac{3}{10}=\frac{9}{100}.$$

Vamos examinar melhor a diferença entre extrair uma peça de um lote, ao acaso, com reposição ou sem reposição. Como vimos neste exemplo, se a retirada for feita com reposição, então

$$\mathbb{P}(D_1)=\mathbb{P}(D_2)=\frac{3}{10} \qquad \text{e} \qquad \mathbb{P}(B_1)=\mathbb{P}(B_2)=\frac{7}{10}$$

pois cada vez que extraímos peças do lote, sempre existirão $ 3 $ peças defeituosas e $ 7 $ peças boas num total de $ 10 $. No entanto, se estivermos extraindo sem reposição, o resultado é diferente. É ainda verdade, naturalmente, que

$$\mathbb{P}(D_1)=\frac{3}{10} \qquad \text{e} \qquad \mathbb{P}(B_1)=\frac{7}{10},$$

mas as probabilidades de sair uma peça defeituosa ou de sair uma peça boa na segunda retirada não serão as mesmas. Para calcularmos essas probabilidades devemos conhecer a composição do lote no momento de se extrair a segunda peça. Por exemplo, para calcularmos a probabilidade de extrairmos uma peça defeituosa na segunda retirada, D2, temos que saber se ocorreu $ D_1 $ ou $ B_1 $. Caso tenha ocorrido $ D_1 $,

$$\mathbb{P}(D_2) = \frac{2}{9}$$

e, se ocorreu B1,

$$\mathbb{P}(D_2) =\frac{3}{9}.$$

Este exemplo nos mostra a necessidade de introduzirmos a definição de probabilidade condicional.

Proposição 1.4.1

Um evento $ A $ é independente dele mesmo se, e só se, $ \mathbb{P}(A)=0 $ ou $ \mathbb{P}(A)=1 $.

Suponha que $ \mathbb{P}(A)=a $, com $ 0 \ < \ a \ < \ 1 $. Sabemos que $ \mathbb{P}(A\cap A)=\mathbb{P}(A)=a\neq a^2 $, para qualquer $ a\in (0,1) $, entretanto $ \mathbb{P}(A\cap A)=\mathbb{P}(A)=a= a^2 $, se $ a=0 $ ou $ a=1 $. Logo se $ \mathbb{P}(A)=0 $ ou $ \mathbb{P}(A)=1 $ então ele é independente de si mesmo. Caso contrário, ele não será independe de si mesmo. Suponha agora que $ A $ seja independente de si mesmo, portanto $ a^2=\mathbb{P}(A)\mathbb{P}(A)= \mathbb{P}(A\cap A)=\mathbb{P}(A)=a $, ou seja, $ a^2=a $ mas isto é válido se, e somente se, $ a=0 $ ou $ a=1 $.

Definição 1.4.2(Probabilidade Condicional)

A probabilidade de ocorrer um evento $ A $ dado que ocorreu um evento $ B $ é dada por

$$\mathbb{P}(A|B)=\frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)}.$$

Dessa relação sai a Regra do Produto que é dada no teorema a seguir.

Teorema 1.4.1

Considere um conjunto finito $ A_1,A_2,\ldots,A_n $ um conjunto de eventos tais que os eventos condicionais $ A_i|A_1\cap A_2\cap\ldots\cap A_{i-1} $ tenham probabilidades positivas. Então temos que

$$\mathbb{P}\left(\bigcap_{i=1}^nA_i\right)=\mathbb{P}(A_1)\mathbb{P}(A_2|A_1)\mathbb{P}(A_3|A_1\cap A_2)\ldots \mathbb{P}(A_n|\cap_{i=1}^{n-1}A_i).$$

Para demonstrar este teorema escrevemos

$$\mathbb{P}\left(\bigcap_{i=1}^nA_i\right)=\mathbb{P}(A_1)\frac{\mathbb{P}(A_1\cap A_2)}{\mathbb{P}(A_1)}\frac{\mathbb{P}(A_1\cap A_2\cap A_3)}{\mathbb{P}(A_1\cap A_2)}\ldots \frac{\mathbb{P}(\bigcap_{i=1}^n A_i)}{\mathbb{P}(\bigcap_{i=1}^{n-1} A_i)},$$

e usando a definição de probabilidade condicional, podemos reescrever o lado direito da igualdade acima como

$$\mathbb{P}(A_1)\mathbb{P}(A_2|A_1)\mathbb{P}(A_3|A_1\cap A_2)\ldots \mathbb{P}(A_n|\cap_{i=1}^{n-1}A_i).$$

Com caso particular temos que, dados dois eventos $ A $ e $ B $, concluímos que a probabilidade de ocorrência simultânea dos eventos $ A $ e $ B $ é igual a probabilidade de ocorrência do evento $ A $ (ou $ B $) vezes a probabilidade de ocorrência do evento $ A $ (ou $ B $) dado que ocorreu o evento $ B $ (ou $ A $), ou seja

$$\mathbb{P}(A\cap B)=\mathbb{P}(B)\mathbb{P}(A|B).$$

Exemplo 1.4.2

Considere o Exemplo 1.4.1, mas agora as retiradas serão feitas sem reposição, isto é, a primeira peça retirada não volta ao lote para retirarmos a segunda peça. Qual a probabilidade de se retirar duas peças defeituosas?

A probabilidade de sair uma peça defeituosa na primeira retirada é $ \mathbb{P}(D_1)=\frac{3}{10} $. Além disso, $ \mathbb{P}(D_2|D_1)=\frac{2}{9} $. Assim,

$$\mathbb{P}[(D_1,D_2)]=\mathbb{P}(D_1\cap D_2)=\mathbb{P}(D_1)\times \mathbb{P}(D_2|D_1)=\frac{3}{10}\times\frac{2}{9}=\frac{6}{90}=\frac{1}{15}.$$

A seguir, apresentamos o teorema da probabilidade total que é usado com frequência para calcular a probabilidade de vários eventos.

Teorema 1.4.2 (Teorema da Probabilidade Total)

Sejam $ A_1, A_2,\ldots, A_n $ eventos dois a dois disjuntos que formam uma partição do espaço amostral, isto é,

$$\bigcup_{i=1}^nA_i=\Omega$$

e assuma que $ \mathbb{P}(A_i) \ > \ 0 $ para $ i = 1, 2, \ldots, n $. Então, para qualquer evento $ B $, temos que

$$\mathbb{P}(B)=\mathbb{P}(A_1\cap B) + \cdots + \mathbb{P}( A_n \cap B) = \mathbb{P}(A_1) \mathbb{P}(B|A_1) + \cdots + \mathbb{P}(A_n)\mathbb{P}(B|A_n)=\sum_{i}\mathbb{P}(A_i)\mathbb{P}(B|A_i).$$

Para demonstrarmos esse teorema basta observarmos que como a sequência $ A_1, A_2, \ldots $ formam uma partição então para qualquer $ B\in \Omega $, temos que $ B=\displaystyle\bigcup_{i}(A_i\cap B) $. E como os $ A_i $ são disjuntos dois a dois temos que $ B\cap A_i $ também são disjuntos e pelo axioma 3 e pelo teorema 1.4.1 temos que

$$\mathbb{P}(B)=\sum_{i}\mathbb{P}(A_i\cap B)=\sum_{i}\mathbb{P}(A_i)\mathbb{P}(B|A_i).$$

Exemplo 1.4.3

Suponha que um jogador participa de um torneio de xadrez onde sua probabilidade de vitória é $ 0,3 $ contra metade dos jogadores (chame-os do tipo $ 1 $), $ 0,4 $ contra um quarto dos jogadores (chame-os do tipo $ 2 $) e $ 0,5 $ contra o um quarto dos jogadores restantes (chame-os do tipo $ 3 $). O jogador disputa uma partida contra um oponente selecionado aleatoriamente. Qual é a probabilidade dele vencer?

Seja $ A_i $ o evento de jogar com um oponente do tipo $ i $. Temos então que

$$\mathbb{P}(A_1)=0,5; \qquad \mathbb{P}(A_2)=0,25; \qquad \mathbb{P}(A_3)=0,25.$$

Seja $ B $ o evento vitória. Então temos

$$\mathbb{P}(B|A_1)=0,3; \qquad \mathbb{P}(B|A_2)=0,4; \qquad \mathbb{P}(B|A_3)=0,5.$$

Assim, pelo teorema da probabilidade total, a probabilidade de vitória é

$$\mathbb{P}(B)=\mathbb{P}(A_1)\mathbb{P}(B|A_1)+\mathbb{P}(A_2)\mathbb{P}(B|A_2)+P(A_3)\mathbb{P}(B|A_3)=0,5\cdot 0,3+0,25\cdot 0,4+0,25\cdot 0,5=0,375.$$

Ou seja, a probabilidade do jogador vencer a partida é de 37,5 %. O teorema da probabilidade total com frequência é usado em conjunto com o seguinte teorema, chamado de Teorema de Bayes, que relaciona probabilidades condicionais da forma $ \mathbb{P}(A|B) $ com probabilidades condicionais da forma $ \mathbb{P}(B|A) $, em que a ordem da condicionalidade é reversa.

Teorema 1.4.3 (Teorema de Bayes)

Sejam $ A_1,A_2,\ldots,A_n $ eventos que formam uma partição do espaço amostral, e assuma que $ \mathbb{P}(A_i) \ > \ 0 $ para todo $ i $. Então, para qualquer evento $ B $ tal que $ \mathbb{P}(B) \ > \ 0 $, temos que

$$\mathbb{P}(A_i|B)=\frac{\mathbb{P}(A_i)\mathbb{P}(B|A_i)}{\mathbb{P}(B)}=\frac{\mathbb{P}(A_i)\mathbb{P}(B|A_i)}{\mathbb{P}(A_1)\mathbb{P}(B|A_1)+\ldots+\mathbb{P}(A_n)\mathbb{P}(B|A_n)}.$$

Para verificar o teorema de Bayes, basta notar que $ \mathbb{P}(A_i)\mathbb{P}(B|A_i) = \mathbb{P}(B)\mathbb{P}(A_i|B) $ já que ambos são iguais a $ \mathbb{P}(A\cap B) $, o que garante a primeira igualdade. A segunda igualdade segue da aplicação do teorema da probabilidade total para $ B $.

Teorema 1.4.4

A probabilidade condicional também é uma probabilidade ($ P(\cdot |B) $, para $ B $ um subconjunto fixo de $ \Omega $), ou seja a probabilidade condicional satisfaz os três axiomas de probabilidade.

Mostremos primeiramente que $ \mathbb{P}(\Omega | B)=1 $ e que $ \mathbb{P}(\emptyset | B)=0 $. De fato, note que

$$\mathbb{P}(\Omega | B)=\frac{\mathbb{P}(\Omega \cap B)}{\mathbb{P}(B)}=\frac{\mathbb{P}(B)}{\mathbb{P}(B)}=1$$

e que

$$\mathbb{P}(\emptyset | B)=\frac{\mathbb{P}(\emptyset \cap B)}{\mathbb{P}(B)}=\frac{\mathbb{P}(\emptyset)}{\mathbb{P}(B)}=\frac{0}{\mathbb{P}(B)}=0$$

o que demonstra o primeiro axioma.

O segundo axioma diz que $ 0 \leq \mathbb{P}(A|B) \leq 1 $, para qualquer $ A\subset \Omega $. Observe que $ \mathbb{P}(A|B)=\frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)} $, e como $ A \cap B \subset B $. Temos que por P4 que $ 0 \leq \mathbb{P}(A \cap B) \leq \mathbb{P}(B) $, o que implica que $ 0 \leq \mathbb{P}(A|B) \leq 1. $

O terceiro e último axioma diz que para qualquer sequência de eventos mutuamente exclusivos $ A_1, A_2, \ldots $, temos que

$$\mathbb{P}(\bigcup_{n=1}^{\infty} A_n | B)=\sum_{n=1}^{\infty}\mathbb{P}(A_n | B).$$

Observamos que:

$$\mathbb{P}(\bigcup_{n=1}^{\infty} A_n | B)= \frac{\mathbb{P}(B\cap\bigcup_{n=1}^{\infty} A_n)}{\mathbb{P}(B)}= \frac{\mathbb{P}(\bigcup_{n=1}^{\infty} A_n \cap B)}{\mathbb{P}(B)}= \frac{\sum_{n=1}^{\infty}\mathbb{P}(A_n \cap B)}{\mathbb{P}(B)}=\sum_{n=1}^{\infty}\mathbb{P}(A_n|B).$$

Logo, a probabilidade condicional satisfaz todos os axiomas da probabilidade, o que implica que a probabilidade condicional também é uma probabilidade. Assim sendo, todas as propriedades de probabilidade também são válidas.

Exemplo 1.4.4

Considere novamente o Exemplo 1.4.3 onde $ A_i $ é o evento de ter um adversário do tipo $ i $ e

$$\mathbb{P}(A_1)=0,5; \qquad \mathbb{P}(A_2)=0,25; \qquad \mathbb{P}(A_3)=0,25.$$

Além disso, $ B $ é evento vencer uma partida e

$$\mathbb{P}(B|A_1)=0,3; \qquad \mathbb{P}(B|A_2)=0,4; \qquad \mathbb{P}(B|A_3)=0,5.$$

Suponha que o jogador disputou uma partida e venceu. Qual a probabilidade $ \mathbb{P}(A_1|B) $ dele ter jogado contra um adversário do tipo $ 1 $?

Usando o teorema de Bayes, temos que

$$\mathbb{P}(A_1|B)=\frac{P(\mathbb{A}_1)\mathbb{P}(B|A_1)}{\mathbb{P}(A_1)\mathbb{P}(B|A_1)+\mathbb{P}(A_2)\mathbb{P}(B|A_2)+\mathbb{P}(A_3)\mathbb{P}(B|A_3)}=0,4.$$

Ou seja, a probabilidade do jogador ter disputado uma partida contra um adversário do tipo $ 1 $, dado que ele venceu a partida é de 40 %.

Exemplo 1.4.5

Suponha que uma pessoa está participando de um programa de televisão e lhe é fornecida a possibilidade de escolher entre $ 3 $ portas. Atrás de uma das portas existe um carro e atrás das demais não existe prêmio algum. O participante escolhe uma porta, digamos a porta $ 1 $ e o apresentador abre outra porta, digamos a porta $ 3 $, revelando que não há nada atrás dela e então oferece ao participante a oportunidade de trocar de porta. O que é mais vantajoso, trocar ou não a porta escolhida?

Este é um problema clássico, conhecido como paradoxo de Monty Hall. A resposta intuitiva ao problema, porém errada, é a de que quando o apresentador revelou uma porta não premiada, o concorrente teria à frente um novo dilema com apenas duas portas e um prêmio, portanto as chances de que o prêmio esteja em qualquer uma das duas portas seriam de 50%. O apresentador teria nos ajudado, já que nossas chances subiram de $ 1/3 $ para $ 1/2 $, mas realmente não faria diferença trocar ou não de porta uma vez que ambas teriam as mesmas chances de possuírem o prêmio. No entanto, esta resposta está errada, pois a porta que o apresentador abre depende da porta que o concorrente escolher inicialmente.

Na verdade, é mais vantajoso trocar de porta e, ao fazê-lo a chance do participante ganhar o carro é de $ 2/3 $. Resolveremos este problema de duas formas diferentes. A primeira apenas descrevendo o problema e a segunda, utilizando o diagrama de árvores e probabilidades condicionais.

Primeiramente, consideremos duas estratégias para o participante do programa: a estratégia $ 1 $, onde o participante seleciona uma porta e, se lhe é fornecida a oportunidade de trocar de porta, ele recusa e a estratégia $ 2 $, na qual o participante sempre troca a porta escolhida. Desta forma, utilizando a estratégia $ 1 $, o participante ganhará o carro com probabilidade $ 1/3 $, já que em $ 1/3 $ das vezes a porta que ele escolhe terá o carro com o prêmio. Utilizando a estratégia $ 2 $, o participante somente ganhará o carro se, a princípio escolhe uma porta que não contém o carro como prêmio, o que ocorre em $ 2/3 $ das vezes, ou seja, a probabilidade de ganhar com a estratégia $ 2 $ é de $ 2/3 $ e, portnato, duas vezes maior do que utilizando a estratégia $ 1 $.

Podemos também, resolver este problema utilizando os conceitos de probabilidade condicional. Para isto, consideramos vários estágios. O carro é colocado atrás de uma porta, o participante escolhe uma porta e, finalmente, o apresentador abre uma porta. Então é natural analisar o problema através de um diagrama de árvore. Assumimos que se o apresentador pode escolher entre as portas (ou seja, o participante escolheu a porta com o carro), então ele escolhe cada porta com probabilidade $ 1/2 $. A árvore resultante é mostrada na figura a seguir

arvore_monty

Agora, supondo que o participante tenha escolhido a porta $ 1 $ e o apresentador a porta $ 3 $, então existem apenas dois caminhos possíveis através da árvore. Para um dos caminhos, o carro está atrás da porta $ 1 $ e para o outro, está atrás da porta $ 2 $. O caminho com o carro atrás da porta 2 é duas vezes mais provável que o caminho com o carro atrás da porta $ 1 $. Assim, a probabilidade condicional do carro estar atrás da porta $ 2 $ é $ 2/3 $ e a probabilidade do carro estar atrás da porta $ 1 $ é $ 1/3 $, ou seja, se o participante trocar de porta, ele tem $ 2/3 $ de chances de ganhar o carro.

Exemplo 1.4.6

Um teste de laboratório detecta uma doença quando ela está presente em 95% dos casos. No entanto, o teste também fornece um resultado “falso positivo” para 1% das pessoas saudáveis testadas. (Isto é, se uma pessoa saudável faz o teste, então, com probabilidade $ 0,01 $, o resultado do teste dirá que ela possui a doença.) Se 0,5% da população tem a doença, qual é a probabilidade de uma pessoa ter a doença dado que o resultado do teste é positivo?

Para resolver este problema, consideramos $ D $ o evento de a pessoa testada ter a doença e $ E $ o evento de que o resultado do teste é positivo. Então, a probabilidade desejada $ \mathbb{P}(D|E) $ é obtida por

$$\mathbb{P}(D|E)=\frac{\mathbb{P}(D\cap E)}{\mathbb{P}(E)}=\frac{\mathbb{P}(E|D)\mathbb{P}(D)}{\mathbb{P}(E|D)\mathbb{P}(D)+\mathbb{P}(E|D^c)\mathbb{P}(D^c)},$$

ou seja,

$$\mathbb{P}(D|E)=\frac{(0,95)(0,005)}{(0,95)(0,005)+(0,01)(0,995)}\approx 0,323.$$

Assim, apenas 32% das pessoas cujos resultados do teste deram positivo realmente possuem a doença.

Exemplo 1.4.7

Em um teste de múltipla escolha, ou um estudante sabe a resposta ou arrisca uma das alternativas. Seja $ p $ a probabilidade do estudante saber a resposta e $ 1 - p $ a probabilidade do estudante arriscar adivinhá-la. Assuma que um estudante que arrisca a resposta acerta a resposta correta com probabilidade $ 1/m $, onde $ m $ é o número de alternativas de múltipla escolha. Qual é a probabilidade condicional de que um estudante soubesse a resposta da questão, dado que ele ou ela respondeu corretamente?

Seja $ C $ o evento de que o estudante responde a questão corretamente e $ K $ o evento de que ele saiba a resposta. Então

$$\mathbb{P}(K|C)=\frac{\mathbb{P}(K\cap C)}{\mathbb{P}(C)}=\frac{\mathbb{P}(C|K)\mathbb{P}(K)}{\mathbb{P}(C|K)\mathbb{P}(K)+\mathbb{P}(C|K^c)\mathbb{P}(K^c)},$$

ou seja,

$$\mathbb{P}(K|C)=\frac{p}{p+(1/m)(1-p )}= \frac{mp}{1+(m-1)p}.$$

Por exemplo, se $ m = 5 $ e $ p = 1/2 $, então a probabilidade de que um estudante saber a resposta de uma questão que ele respondeu corretamente é $ 5/6 $.

Exemplo 1.4.8

Uma companhia de seguros acredita que as pessoas possam ser divididas em duas classes: aquelas que são propícias a sofrerem acidentes e as que não são. Suas estatísticas mostram que uma pessoa propícia a acidentes terá um acidente em algum momento dentro do período de um ano com probabilidade $ 0,4 $, enquanto esta probabilidade diminui para $ 0,2 $ para pessoas não propícias a acidentes. Supondo que 30% da população é propícia a sofrer acidentes, qual é a probabilidade de que um novo segurado sofra um acidente durante um ano em que comprou uma apólice?

Obteremos a probabilidade desejada ao condicionar se o segurado é ou não uma pessoa propícia a sofrer um acidente. Seja $ A_1 $ o evento de que um segurado sofra um acidente durante um ano em que comprou a apólice e $ A $ o evento de que o segurado seja uma pessoa propícia a sofrer um acidente. Então a probabilidade desejada, $ P(A_1) $, é dada por

$$\mathbb{P}(A_1)=\mathbb{P}(A_1|A)\mathbb{P}(A)+\mathbb{P}(A_1|A^c)\mathbb{P}(A^c)=(0,4)(0,3)+(0,2)(0,7)=0,26.$$

Exemplo 1.4.9

Suponha que você deseja enviar uma carta para sua namorada pelo correio, para isto você resolve pedir para um amigo coloca-la para você, entretanto ele pode esquecer-se de envia-la com uma probabilidade de $ 0,1 $. Caso ele não se esqueça de envia-la, a probabilidade que o correio extravie a carta é de $ 0,1 $. E ainda caso o correio a envie a probabilidade de que o carteiro não a entregue é também é de $ 0,1 $. Sabendo que sua namorada não recebeu sua carta qual é a probabilidade de seu amigo ter esquecido de coloca-la no correio?

Esta é uma questão clássica em probabilidade. Vamos começar definindo os eventos definamos $ A=(\text{O amigo enviou a carta}) $; $ B=(\text{O correio não extravia a carta}) $ e $ C=(\text{O carteiro entrega a carta}) $. Pelos dados do problema temos que:

$$\mathbb{P}(A)=0,9; \quad \mathbb{P}(B|A)=0,9 \quad \text{e} \quad \mathbb{P}(C | A \cap B)=0,9.$$

O nosso problema consiste em encontrar $ \mathbb{P}(A^c | C^c) $, utilizando o teorema 1.4.3, concluímos que:

$$\mathbb{P}(A^c|C^c)=\frac{\mathbb{P}(C^c|A^c)\mathbb{P}(A^c)}{\mathbb{P}(C^c|A^c)\mathbb{P}(A^c)+\mathbb{P}(C^c|A)\mathbb{P}(A)}.$$

Note que $ \mathbb{P}(C^c|A^c)=1 $, pois dado que o amigo não enviou a carta o carteiro não vai entrega-la com probabilidade 1. Então vamos calcular a probabilidade de $ \mathbb{P}(C^c|A) $.

$$\mathbb{P}(C^c|A)=\mathbb{P}(C^c \cap B|A)+\mathbb{P}(C^c \cap B^c|A).$$

Sendo assim, precisamos encontrar $ \mathbb{P}(C^c \cap B|A) $. Observe que:

$$\mathbb{P}(C^c \cap B|A)= \frac{\mathbb{P}(C^c\cap B\cap A)}{\mathbb{P}(A)}=\frac{\mathbb{P}(C^c \cap B \cap A)\mathbb{P}(A \cap B)}{\mathbb{P}(A)\mathbb{P}(A\cap B)}=\mathbb{P}(C^c|B\cap A)\mathbb{P}(B|A)=0,1 \cdot 0,9=0,09.$$

Da mesma forma obtemos

$$\mathbb{P}(C^c \cap B^C |A)=\mathbb{P}(C^c | A \cap B^c)\mathbb{P}(B^C|A)=1 \cdot 0,1= 0,1.$$

Substituindo os valores encontrados na formula acima obtemos que

$$\mathbb{P}(C^c|A)=\mathbb{P}(C^c \cap B|A)+\mathbb{P}(C^c \cap B^c|A)=0,09+0,1=0,19.$$

Finalmente substituindo os valores encontrados na formula acima obtemos que

$$\mathbb{P}(A^c|C^c)=\frac{\mathbb{P}(C^c|A^c)\mathbb{P}(A^c)}{\mathbb{P}(C^c|A^c)\mathbb{P}(A^c)+\mathbb{P}(C^c|A)\mathbb{P}(A)}=\frac{1\cdot 0,1}{1 \cdot 0,1+0,19 \cdot 0,9}=\frac{0,1}{0,271}\thickapprox 0,369.$$

E, portanto, a probabilidade de que o amigo não tenha colocado a carta no correio sabendo que a namorada não recebeu a carta é de, aproximadamente, 36,9 %.

Exemplo 1.4.10

Vamos supor que vamos selecionar $ 3 $ cartas em um baralho comum (com $ 52 $ cartas) ao acaso e sem reposição. Qual a probabilidade de retirarmos $ 3 $ reis?

Vamos definir o evento $ A_i=(\text{a i-ésima retirada é rei}) $, onde $ i=1,2,3 $. Queremos encontrar a probabilidade $ \mathbb{P}(A_1\cap A_2 \cap A_3) $ pelo teorema 1.4.1 temos que:

$$\mathbb{P}(A_1\cap A_2 \cap A_3)=\mathbb{P}(A_3 | A_1\cap A_2)\cdot \mathbb{P}(A_2|A_1)\cdot \mathbb{P}(A_1)=\frac{2}{50}\cdot \frac{3}{51} \cdot \frac{4}{52}.$$

Exemplo 1.4.11

Suponha que a ocorrência de chuva (ou não) dependa de das condições do tempo no dia imediatamente anterior. Admitamos que se chova hoje, choverá amanhã com probabilidade de $ 0,7 $ e que se não chove hoje, então choverá amanhã com probabilidade de $ 0,4 $. Sabendo que choveu hoje, calcule a probabilidade de chover depois de amanhã.

Screenshot_11

$$= \frac{\mathbb{P}(A_3|A_1\cap A_2) \cdot \mathbb{P}(A_2|A_1)\cdot \mathbb{P}(A_1)}{\mathbb{P}(A_1)}+\frac{\mathbb{P}(A_3|A_1\cap A_2^C) \cdot \mathbb{P}(A_2^C|A_1)\cdot \mathbb{P}(A_1)}{\mathbb{P}(A_1)}$$

$$= \mathbb{P}(A_3|A_1\cap A_2)\cdot \mathbb{P}(A_2|A_1) + \mathbb{P}(A_3|A_1\cap A_2^C)\cdot \mathbb{P}(A_2^C|A_1)$$

$$= \mathbb{P}(A_3|A_2)\cdot \mathbb{P}(A_2| A_1)+\mathbb{P}(A_3|A_2^C)\cdot \mathbb{P}(A_2^C| A_1)$$

$$= 0,7 \cdot 0,7 + 0,4 \cdot 0,3$$

$$=0,61$$

Ou seja, sabendo que choveu hoje, a probabilidade de chover depois de amanhã é de 61 %.

Exemplo 1.4.12

Em um jogo de dados são jogados dois dados honestos simultaneamente, de forma independente. Considerando que os números das faces voltadas para cima dos dois dados são números diferentes, qual é a probabilidade de que a soma dos números seja $ 6 $?

Primeiramente vamos analisar o nosso espaço amostral. A tabela abaixo mostra todo o espaço amostral:

1 2 3 4 5 6
1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

Seja $ A=(\text{Soma dos dados ser 6}) $ e $ B=(\text{O número dos dados serem distintos}) $. Observem na tabela cima que existem $ 30 $ possibilidades das 36 para as quais os dois números são distintos. E dentre as possibilidades para os quais a soma é $ 6 $, existem $ 4 $ possibilidade para os quais os números são distintos. Assim a probabilidade $ P(A|B) $ é dada por

$$\mathbb{P}(A|B)=\frac{\mathbb{P}(A\cap B)}{\mathbb{P}(B)}=\frac{\frac{4}{36}}{\frac{30}{36}}=\frac{2}{15}.$$

Exemplo 1.4.13: Seja $ (\Omega, \mathbb{A}, \mathbb{P}) $ um espaço de probabilidade e suponha que todos os conjuntos abaixo pertençam a $ \mathbb{A} $. Prove:

(a) Se os $ A_n $ são disjuntos e $ \mathbb{P}(B|A_n)\geq c $ para todo $ n $, então

$$\mathbb{P}(B|\cup A_n)\geq c$$

(b) O item (a) com “=” no lugar de $ \geq $.

(c) Se $ A_n\supset A_{n+1} $ e $ \mathbb{P}(A_{n+1}|A_n)\leq \frac{1}{2} $ para todo n, então $ \mathbb{P}(A_n)\rightarrow 0 $ quando $ n\rightarrow \infty $.

(d) Se os $ A_n $ são disjuntos e $ \mathbb{P}(B| A_n)=\mathbb{P}(C|A_n) \quad \quad \forall n $, então

$$\mathbb{P}\left(B\bigg |\bigcup A_n\right)=\mathbb{P}\left(C\bigg|\bigcup A_n\right).$$

(e) Se $ A_1, A_2, \dots $ são disjuntos e $ \bigcup A_n=\Omega $, então

$$\mathbb{P}(B|C)=\sum_n \mathbb{P}(A_n|C)\mathbb{P}(B|A_n\cap C).$$

(a) Primeiramente observe que $ [B\cap(\cup A_n)]=\bigcup [B\cap A_n] $ o que implica que

$$\mathbb{P}[B\cap(\cup A_n)]=\sum \mathbb{P}[B\cap A_n].$$

Agora, dado que $ \mathbb{P}(B|A_n)\geq c $ temos que

$$\mathbb{P}(B\cap A_n)\geq c\mathbb{P}(A_n)$$

então temos que

$$\sum_n \mathbb{P}(B\cap A_n)\geq c \sum_n \mathbb{P}(A_n)=c\mathbb{P}\left(\bigcup_n A_n\right)$$

Então

$$\mathbb{P}(B\cap (\cup A_n))\geq c \mathbb{P}(\cup A_n)\Rightarrow \frac{\mathbb{P}(B\cap (\cup A_n))}{\mathbb{P}(\cup A_n)}\geq c\Rightarrow \mathbb{P}(B|\cup A_n)\geq c.$$

(b) A demonstração é análoga e obtemos $ \mathbb{P}(B|\cup A_n)=c. $

(c) Se $ A_n\supset A_{n+1} $ então

$$\mathbb{P}(A_n)=\mathbb{P}(A_1\cap \dots \cap A_{n})=\mathbb{P}(A_1)\mathbb{P}(A_2|A_1)\dots \mathbb{P}(A_n|A_1\cap A_2\cap \dots \cap A_{n-1})$$

$$=\mathbb{P}(A_1)\mathbb{P}(A_2|A_1)\dots \mathbb{P}(A_n|A_{n-1})$$

Agora $ 0\leq \mathbb{P}(A_1)\leq 1 $$ 0\leq \mathbb{P}(A_i|A_{i-1})\leq \frac{1}{2} $, para $ i=1,2,3, \dots $. Desta forma,

$$0\leq \mathbb{P}(A_n)\leq \frac{1}{2^{n-1}}$$

o que implica que

$$0\leq \lim_{n\rightarrow \infty}\mathbb{P}(A_n)\leq 0$$

o que implica que $ \lim_{n\rightarrow \infty}\mathbb{P}(A_n)=0 $.

(d) Então,

$$\mathbb{P}\left(B|\bigcup A_n\right)=\frac{\mathbb{P}(B\cap(\cup A_n))}{\mathbb{P}(\cup A_n)}=\frac{\mathbb{P}(\cup(B\cap A_n))}{\mathbb{P}(\cup A_n)}=\frac{\sum \mathbb{P}(B\cap A_n)}{\mathbb{P}(\cup A_n)}=\frac{\sum_{n}\mathbb{P}(C|A_n)\mathbb{P}(A_n)}{\mathbb{P}(\cup A_n)}$$

$$=\frac{\sum \mathbb{P}(C\cap A_n)}{\mathbb{P}(\cup A_n)}=\frac{\mathbb{P}(\cup C\cap A_n)}{\mathbb{P}(\cup A_n)}=\mathbb{P}(C|\cup A_n)$$

(e) Temos

$$\sum \mathbb{P}(A_n| C)-\mathbb{P}(B| A_n\cap C)=\sum \frac{\mathbb{P}(A_n\cap C)}{\mathbb{P}(C)}\frac{\mathbb{P}(B\cap C\cap A_n)}{\mathbb{P}(A_n\cap C)}=\frac{1}{\mathbb{P}(C)}\sum_n \frac{\mathbb{P}((B\cap C)\cap A_n)}{\mathbb{P}(A_n)}$$

$$=\frac{1}{\mathbb{P}(C)}\sum \mathbb{P}(B\cap C|A_n)=\frac{\mathbb{P}(B\cap C)}{\mathbb{P}(C)}=\mathbb{P}(B|C)$$

Exemplo 1.4.14: Certo experimento consiste em lançar um dado equilibrado duas vezes independentemente. Dado que os dois números sejam diferentes, qual é a probabilidade

condicional de

(a) pelo menos um dos números ser 6, e

(b) a soma dos números ser 8?

(a) $ A=(\text{Evento de dois número diferentes}) $, então $ \mathbb{P}(A)=\frac{30}{36}=\frac{5}{6} $.

$ B=(\text{ Pelo menos 1 número ser 6 }) $, $ \mathbb{P}(B)=\frac{11}{36} $, $ \mathbb{P}(B\cap A)=\frac{10}{36}=\frac{5}{18} $

$ C=(\text{ A soma dos numeros é 8 }). $$ \mathbb{P}(C)=\frac{5}{36} $, $ \mathbb{P}(C\cap A)=\frac{4}{36}=\frac{1}{9} $

Então, $ \mathbb{P}(B|A)=\frac{\mathbb{P}(B\cap A)}{\mathbb{P}(A)}=\frac{\frac{5}{18}}{\frac{5}{6}}=\frac{1}{3} $,

$ \mathbb{P}(C|A)=\frac{\mathbb{P}(C\cap A)}{\mathbb{P}(A)}=\frac{\frac{1}{9}}{\frac{5}{6}}=\frac{2}{15} $

Exemplo 1.3.15: Durante o mês de novembro a probabilidade de chuva é de 0,3. O Fluminense ganha um jogo em um dia com chuva com a probabilidade 0,4; em

um dia sem chuva com a probabilidade 0,6. Se ganhou um jogo em novembro, qual é a probabilidade de que choveu nesse dia ?

Defina $ C=(\text{ ocorrer chuva em novembro }) $ e $ G(\text{ evento fluminense ganha em novembro }) $.

$$\mathbb{P}(G|C)=0,4, \quad \quad \mathbb{P}(G^c|C)=0,6 \quad\quad \mathbb{P}(G|C^c)=0,6$$

Então

$$\mathbb{P}(C|G)=\frac{\mathbb{P}(C\cap G)}{\mathbb{P}(G)}=\frac{\mathbb{P}(C)\mathbb{P}(G|C)}{\mathbb{P}(G|C)\mathbb{P}(C)+\mathbb{P}(G|C^c)\mathbb{P}(C^c)}=\frac{0,3\times 0,4}{0,3\times 0,4+0,6\times 0,7}=\frac{2}{9}$$

Exemplo 1.3.16: Sejam $ A_1, \dots, A_n $ eventos aleatórios independentes, com $ p_k=\mathbb{P}(A_k),k=1,\dots, n $. Obtenha a probabilidade de ocorrência dos seguintes

eventos em termos das probabilidades $ p_k $

(a) A ocorrência de nenhum dos $ A_k $.

$$B_a=\left[\bigcup_{k=1}^n A_k\right]^c=\left[\bigcap_{k=1}^n A_k^c\right]$$

o que implica que pela independência temos que

$$\mathbb{P}(B_a)=\prod_{k=1}^n(1-\mathbb{P}(A_k))=\prod_{k=1}^n(1-p_k)$$

(b) A ocorrência de pelo menos um dos $ A_k $

$$B_b=\left[\bigcup_{k=1}^n A_k\right]=\left[\bigcap_{k=1}^n A_k^c\right]^c$$

o que implica que pela independência temos que

$$\mathbb{P}(B_b)=1-\prod_{k=1}^n(1-\mathbb{P}(A_k))=1-\prod_{k=1}^n(1-p_k)$$

(c) A ocorrência de exatamente um dos $ A_k $

Screenshot_12

(e) A ocorrência de todos os $ A_k $

$$B_e=\bigcap_{j=1}^n A_j$$

o que implica que pela independência temos que

$$\mathbb{P}(B_e)=\prod_{j=1}^n \mathbb{P}(A_j)=\prod_{j=1}^n p_j$$

(f) A ocorrência de, no máximo, n-1 dos $ A_k $.

$$B_f=\left(\bigcap_{j=1}^n A_j\right)^c$$

o que implica que pela independência temos que

$$\mathbb{P}(B_f)=1-\prod_{j=1}^n \mathbb{P}(A_j)=1-\prod_{j=1}^n p_j$$

Exemplo 1.4.17: Sejam $ A_1, \dots, A_n $ eventos aleatórios independentes, com $ p_k=\mathbb{P}(A_k), k=1, \dots, n $. Faça uma adaptação das desigualdades de Bonferroni

para este caso, expressando-as em termos das $ p_k $.

Utilizando as desigualdades de Bonferroni obtemos

i)

$$\sum_{i=1}^n p_i-\sum_{1\leq i< j \leq n}p_ip_j\leq \mathbb{P}\left(\bigcup_{i=1}^n A_k\right)$$

$$\leq \sum_{i=1}^n p_i-\sum_{1\leq i< j\leq n}p_ip_j+\sum_{1\leq i< j< k\leq n}p_ip_j p_k$$

ii) Se $ k $ é impar, $ k\leq n $, então:

$$\mathbb{P}\left(\bigcup_{i=1}^n A_i\right)\leq \sum_{i=1}^n p_i-\sum_{1\leq i_1< i_2\leq n}p_{i_1}p_{i_2}+\dots+(-1)^{k-1}\sum_{1\leq i_1< i_2< \dots < i_k\leq n}p_{i_1}p_{i_2}\dots p_{i_k}.$$

Se $ k $ é par vale $ \geq $.

1.5 - Espaço de probabilidade

A definição axiomática da probabilidade, proposta por Kolmogorov, pouco nos diz sobre a construção da probabilidade sobre a classe de eventos . Caso estejamos trabalhando com espaço amostral finito e eventos equiprováveis, podemos utilizar a estratégia de Laplace para calcularmos a probabilidade de ocorrência dos eventos. Porém, para experimentos com espaços amostrais infinitos não enumeráveis, a construção da classe de eventos e da probabilidade definida sobre esta classe, requer conceitos da teoria da medida. Como ilustração, iniciamos este tópico com o experimento de selecionarmos um ponto ao acaso no intervalo $ (0,1] $, no qual o espaço amostral é infinito não enumerável.

1.5.1 - Medidade de Lebesgue no intervalo (0,1]

Nesta seção estamos interessados em estudar o experimento de selecionar um ponto ao acaso no intervalo $ (0,1] $. Para este experimento, o espaço amostral é dado por $ \Omega = (0,1] $, que não é enumerável. Assim, a construção da classe de eventos e a construção da probabilidade sobre esta classe deve ser realizada com cuidado. A classe de eventos, denominada $ \sigma $-álgebra de Borel, será construída a partir de intervalos do espaço amostral juntamente com as operações de união, intersecção e complementar. Paralelamente, utilizaremos a estratégia de construção de números reais para construirmos uma probabilidade (ou medida de Lebesgue, ou distribuição uniforme) sobre a classe de eventos, que representa a probabilidade do ponto selecionado pertencer aos eventos da $ \sigma $-álgebra de Borel.

Vamos construir a classe de eventos a partir intervalos abertos à esquerda e fechados à direita, na forma $ I = (a, b] $ com $ 0 \ < \ a \ < \ b \leq 1 $. Denotamos por $ \mathfrak{I}_0 $ a classe de subconjuntos de $ \Omega $ dada por:

$$ \mathfrak{I}_0 = (∅; Ω; (a,b]:0 < a < b ≤ 1.) $$

Com isso, definimos a função de conjunto $ |⋅| : \mathfrak{I}_0\to [0,1] $ como

$$|I| =|b-a| = b-a \ \ \ \text{se} \ \ \ I \in\mathfrak{I}_0,$$

que representa o “tamanho” do intervalo. Observe que estamos definindo nossa função de conjunto $ | \cdot | $ de forma intuitiva, pois o termo “ao acaso” nos diz que a “chance” do ponto selecionado pertencer ao intervalo é diretamente proporcional ao seu tamanho. Para estudarmos propriedades desta classe de eventos, introduzimos o conceito de semi-álgebra.

Definição 1.5.1.1 (Semi-Álgebra)

Uma classe $ \mathcal{X} $ de subconjuntos de $ \Omega $ é denominada semi-álgebra se esta satisfaz as seguintes condições:

  • $ \emptyset, \Omega \in \mathcal{X} $

  • Se $ A, B \in \mathcal{X} $ então $ A \cap B \in \mathcal{X} $

Screenshot_13

A seguir, vamos mostrar que a classe $ \mathfrak{I}_0 $ é uma semi-álgebra.

Proposição 1.5.1.1

A classe de eventos $ \mathfrak{I}_0 $ é uma semi-algebra.

Prova

Por definição de $ \mathfrak{I}_0 $, $ \emptyset \in \mathfrak{I}_0 $ e $ \Omega\in\mathfrak{I}_0 $, o que mostra que o item 1 está satisfeito. Para mostrar que o item 2 é satisfeito, considere $ A_1 = (a_1, b_1], e A_2 = (a_2, b_2] \in \mathfrak{I}_0 $. Se $ A_1 \cap A_2 = \emptyset $, então $ A_1\cap A_2 \in\mathfrak{I}_0 $. Se $ A_1\cap A_2\neq \emptyset $, três casos podem ocorrer. O primeiro consiste de $ A_1 $ estar inteiramente contido em $ A_2 $. Neste caso, $ A_1\cap A_2 = A_1\in\mathfrak{I}_0 $. O segundo caso consiste de $ A_2 $ estar inteiramente contido em $ A_1 $ e, neste caso, $ A_1\cap A_2 = A_2\in\mathfrak{I}_0 $ e o terceiro caso, consiste na inclusão não estrita. Neste caso, podemos supor, sem perda de generalidade, que $ a_1 \leq a_2 \ < b_1\leq b_2 $ e, desta forma,

$$A_1 \cap A_2 = (a_2,b_1] \in \mathfrak{I}_0.$$

Para verificar o item 3, seja $ A = (a, b] \in \mathfrak{I}_0 $ então $ A^c = (0, a] \cup (b, 1] $ e, apesar de $ A^c \notin \mathfrak{I}_0 $, obtemos que $ A^c $ é união disjunta de elementos de $ \mathfrak{I}_0 $, já que $ (0,a] $ e $ (b,1] $ pertencem a $ \mathfrak{I}_0 $. Com isso, concluímos a proposição.

Com objetivo de estendermos a classe de eventos $ \mathfrak{I}_0 $ de tal forma que esta acomode as operações de união finita e complementar, tomamos a classe de conjunto $ \mathcal{A} $ formada por uniões finitas disjuntas de elementos de $ \mathfrak{I}_0 $, na forma

caa62553bb471b2c8b95964268d752928c6781d6

Com isso, aumentamos a classe de conjuntos $ \mathfrak{I}_0 $ com novos eventos formado por operações de união finita disjunta de elementos elementares em $ \mathfrak{I}_0 $. Para estudarmos propriedades da classe de eventos $ \mathcal{A} $ introduzimos o conceito de álgebra.

Definição 1.5.1.2 (Álgebra)

Dizemos que uma classe de conjunto $ \mathcal{X} $ é uma álgebra, se satisfaz as seguintes condições:

  • $ \emptyset \in \mathcal{X} $

  • Se $ A, B \in \mathcal{X} $ então $ A \cap B \in \mathcal{X} $

  • Se $ A \in \mathcal{X} $ então $ A^c \in \mathcal{X} $

Na sequência, apresentamos algumas propriedades da álgebra de eventos que deixaremos como exercício.

Exercício

Considere $ S $ um conjunto qualquer e $ \mathcal{E} $ uma classe de eventos. Mostre que:

a) Se $ S \in \mathcal{E} $ e para todo $ A,B \in \mathcal{E} $, temos que $ A-B=A\cap B^c \in \mathcal{E} $. Então, obtemos que $ \mathcal{E} $ é uma álgebra;

b) Suponha que $ S \in \mathcal{E} $ e que $ \mathcal{E} $ é fechada para operação de complementar e união finita disjunta. Mostre que $ \mathcal{E} $ não necessariamente é uma álgebra.

Screenshot_14

Exercício

Dado $ S $ um conjunto qualquer e $ \mathcal{E} $ uma classe formada por subconjuntos de $ S $. A álgebra $ a(\mathcal{E}) $ gerada por $ \mathcal{E} $ é definida como a intersecção de todas as álgebras em $ S $ que contém $ \mathcal{E} $. Mostre que $ a(\mathcal{E}) $ é uma algebra tal que $ \mathcal{E} \subset a(\mathcal{E}) $ e que $ a(\mathcal{E}) $ é minimal no seguinte sentido: se $ \mathcal{G} $ é outra álgebra que contém $ \mathcal{E} $, então $ a(\mathcal{E}) \subset \mathcal{G} $.

A seguir, vamos mostrar que a classe de eventos $ \mathcal{A} $ satisfaz as propriedades de álgebra. Assim, obtemos que esta classe é fechada por operações de união e intersecção finita de conjuntos e também é fechada por operação de complementar.

Proposição 1.5.1.2

A classe de conjuntos $ \mathcal{A} $ é uma álgebra.

Prova

Por construção da classe de conjuntos $ \mathcal{A} $, temos que $ \emptyset\in\mathcal{A} $.

Sejam, $ A $ e $ B $ conjuntos de $ \mathcal{A} $, então $ A = A_1\cup \dots \cup A_n $ e $ B = B_1 \cup \dots \cup B_m $ disjuntos. Definimos $ C_{ij} = A_i \cap B_j $. Como $ A_i $ e $ B_j $ pertencem a $ \mathfrak{I}_0 $, que é uma semi álgebra, temos que $ A_i\cap B_j \in \mathfrak{I}_0 $. Observe que $ A\cap B = \cup^n_{i=1} \cup^m_{j=1} C_{ij} $ e então, $ A \cap B $ é união finita de elementos de $ \mathfrak{I}_0 $. Portanto, concluímos que $ A \cap B $ pertence a $ \mathcal{A} $.

Agora, nos resta mostrar a terceira propriedade de álgebra. Se $ A\in \mathcal{A} $, então $ A = A_1\cup \dots \cup A_n $ disjuntos. Ao aplicarmos a lei de De' Morgan, obtemos que

$$A^c = (\bigcup^n_{i=1}A_i)^c = \bigcap^n_{i=1} A^c_i.$$

Assim, $ A^c $ é interseção finita disjunta de elementos de $ \mathcal{A} $ e portanto pertence à classe de conjuntos $ \mathcal{A} $. Com isso, provamos que a classe $ \mathcal{A} $ é uma álgebra.

Na sequência, vamos estender a função de conjunto $ |\cdot| $, que está definida na semi-álgebra $ \mathfrak{I}_0 $, para uma função de conjunto $\lambda : \mathcal{A}\to[0,1] $ definida na álgebra $ \mathcal{A} $, de forma que para um intervalo $ A\in\mathfrak{I}_0 $ , $ |A| = \lambda (A) $. Assim, a restrição de $ \lambda $ sobre $ \mathfrak{I}_0 $ é igual a $ |\cdot| $. Neste sentido, dado um conjunto $ A\in \mathcal{A} $, sabemos que $ A=B_1\cup \cdots \cup B_n $ tal que $ B_i \in \mathfrak{I}_0 $, $ B_i \cap B_j = \emptyset $ para $ i\neq j $, então definimos

$$ \lambda(A) = \sum_{i=1}^n | B_i|.$$

Podemos mostrar que, apesar de $ A $ ter várias representações na álgebra de eventos $ \mathcal{A} $, a definição da função de conjunto $ \lambda $ é independente da representação. De fato, se tomarmos $ A=\cup_{\ell=1}^n I_{\ell}=\cup_{i=1}^m J_i $ no qual $ (I_{\ell}) $ e $ (J_{i}) $ são representações para $ A $, obtemos que

$$ \sum_{\ell=1}^n I_{\ell}=\sum_{\ell=1}^n \sum_{i=1}^m |I_{\ell}\cap J_{i}|=\sum_{i=1}^m |J_i|.$$

Assim, obtemos que a definição da função de conjunto $ \lambda $ é consistente.

Dizemos que uma função de conjunto $ \mu $ é $ \sigma $-aditiva na álgebra $ \mathcal{A} $ se, para toda sequência $ A_1 , A_2 , \cdots $ de elementos de $ \mathcal{A} $ disjuntos $ (A_i \cap A_j = \emptyset, ~i \neq j) $ tal que $ \bigcup A_i \in \mathcal{A} $, temos que

$$ \mu (\bigcup_{i=1}^{\infty}A_i) = \sum_{i=1}^{\infty} \mu (A_i). $$

A seguir, vamos mostrar que a função de conjunto $ \lambda $ satisfaz a propriedade de $ \sigma $-aditividade na álgebra.

Teorema 1.5.1.1

A função de conjunto $ \lambda $ é $ \sigma $-aditiva sobre a álgebra de eventos $ \mathcal{A} $.

A prova do Teorema 1.5.1 será dada através de dois lemas.

Lema 1.5.1.1

Se $ \bigcup_k (a_k, b_k] \subset (a, b] $ é uma sequência disjunta, finita ou infinita de intervalos $ (a_k, b_k] $, então

$$\sum_k (b_k - a_k) \leq (b - a)$$

Prova

Suponha que exista um número finito de intervalos, digamos n.

É claro que, para $ n = 1 $, a condição é satisfeita. Suponha que a hipótese seja válida para $ n-1 $ intervalos, vamos mostrar que esta também permanece satisfeita para $ n $ intervalos. Como os intervalos são disjuntos e a reta real é totalmente ordenada, podemos considerar o intervalo $ (a_n,b_n] $ de forma que $ a_n $ seja o máximo valor entre $ a_1, a_2, \dots , a_n $ e, desta forma, $ \bigcup^{n-1}_{k=1} (a_k, b_k] \subset (a, a_n] $

Então $ \sum^{n-1}_{k=1} (b_k - a_k) \leq (a_n - a) $ pela hipótese de indução e por isso,

$$\sum^n_{k=1} (b_k - a_k) \leq (a_n - a) + (b_n - a_n) \leq b - a.$$

Se existem infinitos intervalos, cada subcoleção finita de intervalos satisfaz a hipótese do Lema 1.5.1.1 e assim $ \sum^n_{k=1} (b_k - a_k) \leq (b - a) $ pelo caso tratado. Mas como $ n $ é arbitrário, o resultado segue.

Lema 1.5.1.2

Se $ (a, b] \subset \bigcup_k (a_k, b_k] $ para uma sequência finita ou infinita de intervalos (não necessariamente disjuntos), então $ b - a \leq \sum_{k} (b_k - a_k) $

Prova: Está claro que para $ n = 1 $ a condição é satisfeita. Suponha que o resultado seja válido para $ n-1 $ e que $ (a, b] \subset \bigcup^n_{k=1} (a_k, b_k] $. Suponha que $ a_n \ < \ b \leq b_n $. Se $ a_n \leq a $ o resultado segue imediatamente. Caso contrário, se $ (a,a_n] \subset \bigcup^{n-1}_{k=1} (a_k, b_k] $ então

$$\sum^{n-1}_{k=1} (b_k - a_k) \ge (a_n - a),$$

pela hipótese de indução. Logo,

$$\sum^n_{k=1} (b_k - a_k) \ge (a_n - a) + (b_n - a_n) \ge (b - a).$$

Portanto, o caso finito segue por indução.

Screenshot_15

$$b - (a + \varepsilon ) \leq \sum^n_{k=1} (b_k + \varepsilon 2^{-k} - a_k) \leq \sum^n_{k=1} (b_k - a_k) + \varepsilon .$$

Como $ \varepsilon $ é arbitrário segue o resultado.

Estes dois lemas apresentam os ingrediente básicos para demonstrarmos o Teorema 1.5.1.1. Para isto, tomamos $ A=\cup_k A_k $, no qual $ A $ e os $ ( A_k) $ são elementos da álgebra de eventos $ \mathcal{A} $, no qual $ A_i \cap A_j = \emptyset $ para todo $ i\neq j $. Desta forma, obtemos que $ A= \cup_{\ell=1}^{n} I_{\ell} $ e $ A_k = \cup_{i=1}^{m_k} J_{k,i} $ são uniões finitas disjuntas de elementos de $ \mathfrak{I}_0 $. Assim, a partir dos lemas e da definição da função de conjunto $ \lambda $, temos que

$$ \lambda(A)=\sum_{\ell=1}^n |I_{\ell}|=\sum_{\ell=1}^n \sum_{k=1}^{\infty} \sum_{i=1}^{m_k} |I_{\ell}\cap J_{k,i}|=\sum_{k=1}^{\infty} \sum_{i=1}^{m_k} |J_{k,i}|=\sum_{k=1}^{\infty}\lambda(A_k).$$

Com isso, obtemos que a função de conjunto $ \lambda $ é $ \sigma $-aditiva na álgebra de eventos $ \mathcal{A} $. Se $ A = \bigcup I_n \in \mathcal{A} $ é união enumerável disjunta de elementos de $ \mathcal{A} $, obtemos que

$$\lambda (A) = \sum^{\infty}_{n=1} \lambda (I_n).$$

O teorema 1.5.1 é o ponto de partida para a construção da medida de Lebesgue. O caso finito dos lemas 1.5.1 e 1.5.2 é uma aplicação do princípio da indução. No lema 1.5.1 a passagem do caso finito para infinito é simples. Entretanto, a passagem do caso finito para o caso infinito no lema 1.5.2 envolve o conceito de compacidade (Teorema de Heine-Borel).

Para a maioria das aplicações, os eventos dados pela álgebra são suficientes para descrever o experimento e seus objetivos. Entretanto, em alguns casos, precisamos lidar com operações enumeráveis de eventos, o que não é coberto pela álgebra $ \mathcal{A} $. Por exemplo, ao avaliarmos convergência de variáveis aleatórias lidamos com operações enumeráveis de conjuntos. Assim, precisamos estender a função de conjunto $ \lambda $ sobre uma classe de conjuntos que acomode operações enumeráveis com eventos. A seguir, vamos estender a função de conjunto $ \lambda $ definida sobre a álgebra $ \mathcal{A} $ para uma classe maior de eventos denominada $ \sigma $-álgebra de Borel. Para isto, começamos relembrando o conceito de $ \sigma $-álgebra.

Definição 1.5.1.3

Uma $ \sigma $-álgebra $ \mathcal{E} $ é uma coleção de subconjuntos do espaço amostral $ \Omega $ que satisfaz as seguintes condições:

  • $ \Omega \in \mathcal{E} $.

  • Se $ A \in \mathcal{E} $ então $ A^{c} \in \mathcal{E} $.

Screenshot_16

Na sequência, apresentamos dois exemplos elementares de $ \sigma $-álgebras.

Exemplo 1.5.1.1

Screenshot_17

Exemplo 1.5.1.2

Seja $ \Omega $ um conjunto não enumerável e considere a classe $ \mathcal{E} $ dada por

b3a0e4d544370bab9047b52d8579a327bd239a5b

Então $ \mathcal{E} $ é uma $ \sigma $-álgebra. De fato, temos que $ \Omega \in \mathcal{E} $ pois $ \Omega^c = \emptyset $ é um conjunto enumerável. Se $ A \in \mathcal{E} $ então ou $ A $ é enumerável ou $ A^c $ é enumerável, mas então ou $ A^c $ é enumerável ou $ (A^c)^c = A $ é enumerável, logo $ A^c \in \mathcal{E} $. Seja $ (A_j )_{j \in \mathbb{N}} \subset \mathcal{E} $ e considere $ \cup A_j $. Neste caso, duas coisas podem ocorrer:

  1. Todos os elementos de $ (A_j) $ são enumeráveis. Neste caso $ \bigcup_{j \in \mathbb{N}} A_j $ é uma união enumerável de conjuntos enumeráveis, que é um conjunto enumerável, logo $ \cup_{j \in \mathbb{N}} A_j \in \mathcal{E} $.

  2. Por outro lado, suponha que ao menos um elemento $ A_{j_0} $ seja não enumerável, neste caso obtemos que $ A^c_{j_0} $ é enumerável. Desta forma, concluímos que

$$\left(\bigcup_{j \in \mathbb{N}} A_j\right)^c = \bigcap_{j \in N} A^c_j \subset A^c_{j_0}.$$

Logo $ \left(\bigcup_{j\in\mathbb{N}}A_j\right)^c $ é enumerável e assim $ \bigcup_{j \in \mathbb{N}} A_j \in \mathcal{E} $. Assim, obtemos que $ \mathcal{E} $ é uma $ \sigma $-álgebra.

Dado um conjunto qualquer $ S $ e $ \mathcal{G} $ uma classe não vazia de subconjuntos de $ S $. A $ \sigma $-álgebra gerada por $ \mathcal{G} $, que será denotada por$ \sigma(\mathcal{G}) $, é a menor $ \sigma $-álgebra que contém a classe de eventos $ \mathcal{G} $. Obviamente, precisamos checar se tal “menor” $ \sigma $-álgebra existe. Para isto, basta mostrarmos o seguinte fato. Dado $ \mathbb{X} $ uma coleção não vazia de $ \sigma $-álgebras de subconjuntos $ S $, a intersecção $ \cap \mathbb{X} $ das $ \sigma $-álgebras também é uma $ \sigma $-álgebra. Aqui, tomamos

5d7e6a44f5b2d275f833b38f1e879abd7f0d28ac

Screenshot_18

A $ \sigma $-álgebra de Borel dos subconjuntos do intervalo $ (0,1] $, que será denotada por $ \beta((0,1]) $, é a menor $ \sigma $-álgebra que contém a álgebra de eventos $ \mathcal{A} $. Obviamente que esta classe contém conjuntos na forma: $ [1/2,2/3];(1/2) $. Para provarmos este fato, basta observarmos que intervalos fechado podem ser gerados a partir de intersecções enumeráveis de intervalos aberto (e, vice versa). Por exemplo, temos que

$$(a,b)=\cup_{i=1}^{\infty} (a,b-\frac{1}{n}],\quad [a,b)=\cap_{i=1}^{\infty} (a-\frac{1}{n},b),\quad (a)=\cap_{i=1}^{\infty} [a,a+\frac{1}{n})\quad \text{e} \quad [a,b]=[a,b)\cup (b).$$

Desde que, todo subconjunto aberto do intervalo $ (0,1] $ é a união enumerável de intervalos aberto disjuntos, concluímos que os conjuntos aberto são elementos da $ \sigma $-álgebra de Borel $ \beta((0,1]) $.

Exercício

Mostre que a $ \sigma $-álgebra de Borel do intervalo $ (0,1] $ é a menor $ \sigma $-álgebra que contém:

  • os intervalos abertos, na forma: $ (a,b) $ tal que $ 0< a< b\leq 1 $; ou

  • os intervalos fechados, na forma:$ [a,b] $ tal que $ 0< a< b\leq 1 $; ou

  • os conjuntos abertos; ou

  • os conjuntos fechados; ou

  • os conjuntos compactos.

Exercício

Mostre que existe uma sequência de conjuntos $ \mathcal{D}=(D_1,D_2, \cdots ) $ que gera a $ \sigma $-álgebra de Borel.

O teorema 1.5.1.1 nos garante que a função de conjunto $ \lambda $ é $ \sigma $-aditiva sobre álgebra de eventos $ \mathcal{A} $. A extensão da função de conjunto $ \lambda $ para a $ \sigma $-álgebra gerada por $ \mathcal{A} $ será denotada por $ \mathbb{P} $ e denominada medida de Lebesgue ou probabilidade uniforme. Esta construção segue do teorema de extensão de Caratheodory.

1.5.2 - Espaço de Cantor

O espaço de Cantor é um espaço metrizável compacto que é a base para a construção dos principais espaços de probabilidade. Aqui, definimos o espaço de Cantor $ S^{\infty} $ como o produto Cartesiano enumerável do espaço $ S=(0, 1) $, isto é, $ S^{\infty} $ é o espaço das sequências de zeros e uns. Com base nesta definição, vamos construir a classe de eventos mensuráveis através do produto das $ \sigma $- álgebras elementares do espaço binário $ S $, que será denotada por $ \mathcal{A} $. Através de propriedades simples do espaço mensurável $ (S^{\infty}, \mathcal{A}) $, mostraremos que toda probabilidade $ \mathbb{P} $ sobre $ (S^{\infty}, \mathcal{A}) $, satisfaz

$$\mathbb{P}(A) = \sup {(\mathbb{P}(C): C \subset A, C \in \xi)} ~~~ A \in \mathcal{A},$$

no qual $ \xi $ é a classe dos subconjuntos compactos do $ S^{\infty} $.

Por outro lado, ao tomarmos $ S $ com a topologia discreta e $ S^\infty $ com a topologia produto $ \tau $ de Tychonov, mostraremos que $ S^\infty $ é um espaço metrizável compacto. Com a topologia produto, mostramos que $ \mathcal{A} $ corresponde a $ \sigma $-álgebra gerada pelos abertos e que que $ \xi $ é a classe dos subconjuntos compactos. Desde que $ S^\infty $ é o produto enumerável do espaço binário $ S $, facilmente mostramos que $ \tau $ é separável e Hausdorff. Estas mesmas propriedades são estendidas a $ \sigma $-álgebra $ \mathcal{A} $. Portanto o espaço mensurável $ (S^{\infty}, \mathcal{A}) $ é separável, Hausdorff e toda probabilidade $ \mathbb{P} $ sobre $ \mathcal{A} $ pode ser aproximada pela probabilidade $ \mathbb{P} $ sobre a classe de conjuntos compactos $ \xi $.

Espaço de Probabilidade

Screenshot_19

767fa60de7ad97a780bc23e1365e5ad9a2b1cbf4

Screenshot_20

de tal maneira que podemos estabelecer uma identificação entre os espaços de probabilidade $ (\Omega_0 ,\mathcal{A}_0, \lambda_0) $ e $ (S, \mathcal{F}_1, \mathbb{P}_1) $.

Screenshot_21

estabelece um isomorfismo entre $ (\Omega_1, \mathcal{A}_1) $ e $ (S^n, \mathcal{F}_n) $, onde $ \mathcal{F}_n $ é a classe de todos os subconjuntos de $ S^n $.

Para estendermos a probabilidade $ \lambda_0 $ para o experimento de n lançamentos da moeda, vamos considerar que cada lançamento é independente um do outro. Com isso, para todo $ \omega = (\omega_1, \dots , \omega_n ) \in \Omega_1 $ tomamos a extensão de $ \lambda_0 $ por

$$\lambda_1((\omega )) = \left ( \frac{1}{2} \right )^n $$

Como todo elemento $ A \in \mathcal{A}_1 $ é união finita disjunta de pontos de $ \Omega_1 $, definimos

$$\lambda_1 (A) = \sum_{\omega \in A} \lambda_1 ((\omega)) $$

Screenshot_22

Qualquer função $ \mathbb{P}_n $ definida sobre $ (S^n , \mathcal{F}_n ) $ com valores em $ [0,1] $ que satisfaça as condições acima é denominada probabilidade.

A seguir, vamos estender nosso experimento para infinitos lançamentos da moeda. Tomamos por espaço amostral

Screenshot_23

i. $ \pi^{-1}_k((1))\cup \pi^{-1}_k((0)) = S^{\infty} $ e $ \pi^{-1}_k((1))\cap \pi^{-1}_k((0)) = \emptyset $ para todo $ k \in \mathbb{N} $.

ii. Para todo sequência $ (D_n) $ de cilindros com base em S tal que $ \cap D_k = \emptyset $, existe $ n_0 \in \mathbb{N} $ satisfazendo

$$\bigcap^{n_0}_{k=1} D_k = \emptyset .$$

De fato, observe que,

$$(i_1, i_2, \dots ) = ((i_1) \times S \times \dots ) \cap (S \times (i_2) \times S \times \dots ) \cap \dots =\bigcap^{\infty}_{k=1} \pi^{-1}_k ((i_k)) \neq\emptyset.$$

para todo elemento $ (i_1, i_2, \dots ) \in S^{\infty} $. Generalizando, se tomarmos um subconjunto de índices $ \mathcal{K} = (k_1, k_2, \dots ) \subset \aleph $ (com $ k_n \neq k_m $ para todo $ n \neq m $), temos que

$$(i_{k_1}, i_{k_2}, \dots ) = \bigcap_{j=1}^\infty \pi_j^{-1} ((i_{k_j})) \neq \emptyset \ \ ; \ \ i_{k_j} \in S.$$

Então se tomarmos uma sequência $ (D_k) $ de cilindros com base em S tal que

$$\bigcap^{\infty}_{k=1} D_k = \emptyset, $$

existe pelo menos dois elementos $ D_{k_1} \ e \ D_{k_2} $ tais que

$$ D_{k_1} = \pi^{-1}_m ((i_m)) \ e \ D_{k_2} = \pi^{-1}_m ((j_m))$$

com $ i_m \neq j_m $ para algum $ m \in \mathbb{N} $. Desta forma, se tomarmos $ n_0 = \max (k_1 , k_2) $, obtemos que

$$ \bigcap^{n_0}_{k=1} D_k = \emptyset $$

Com isso, dizemos que os cilindros com base em S formam uma classe compacta.

iii. A classe dos cilindros com base em $ S $ é enumerável e separa pontos no $ S^{\infty} $.

Que tal classe é enumerável é imediato. Além disso, para todo $ (i_1, i_2, \dots ), (j_1, j_2, \dots ) \in S^{\infty} $ distintos, existe pelo menos um índice $ m \in \mathbb{N} $ tal que $ i_m \ \neq \ j_m $ então,

47cbd550750610818ef8cdc2cf2cc01fa91c5149

Assim, obtemos que a classe dos cilindros com base em $ S $ é separável e separa pontos no espaço de Cantor.

A probabilidade $ \mathbb{P}_1 $ definida sobre $ (S, \mathcal{F}_1) $ pode ser estendida para um função $ \mathbb{P}^\prime $ definida sobre a classe dos cilindros com base em $ S $ da seguinte forma

$$\mathbb{P}^{\prime}(\pi^{-1}_k ((i)) ) = \mathbb{P}_1 ((i))$$

para todo $ i\in S $ e $ k \in \mathbb{N} $. Na sequência, vamos tomar intersecções finitas de cilindros com base em $ S $ e anexar o conjunto vazio e o $ S^{\infty} $. Considere $ \mathcal{D} $ a coleção de todos os subconjuntos finitos de números naturais. A classe dos subconjuntos

2d93de3968ff1d8353a917d8ed01a72ef02d690d

contém todos os cilindros com base em S e é fechada por intersecção finita. Como a semi-álgebra $ \Delta $ é obtida por intersecção finita de elementos de uma classe compacta, concluímos que $ \Delta $ também é uma classe compacta.

Exercício

Mostre que a classe de subconjuntos $ \Delta $ é uma semi-álgebra e compacta. Para toda sequência $ (D_n) $ tal que $ \cap_n D_n = \emptyset $, existe $ n_0 \in \mathbb{N} $ tal que $ \cap_n D_n^{n_0} = \emptyset $.

De forma natural, podemos estender a função $ \mathbb{P}^\prime $ para a semi-álgebra $ \Delta $, na forma

41594fa34bf67a33f71b3e6fa34f0cdbde992bd4

no qual $ (v_1,\ldots,v_n) \in D, \ (\omega_{v_1},\ldots,\omega_{v_n}) \in S^n \ e \ n \in \mathbb{N} $. A seguir vamos tomar uniões finitas disjuntas 2 a 2 de elementos de $ \Delta $.

Para todo $ v = (v_1, v_2, \dots , v_n ) \in D $ com $ n \in \mathbb{N} $, a projeção coordenada

$$\pi_v (\omega) = (\omega_{v_1}, \dots , \omega_{v_n}); \ \omega = (\omega_1,\omega_2 ,\dots) \in S^{\infty}$$

toma elementos sobre $ S^{\infty} $ e leva em $ S^n $. A classe dos cilindros

9ec4176287f479f789cfcb56cafb2f13590e08ad

é uma álgebra enumerável, pois satisfaz

a. $ \emptyset \in C_0 $ e $ S^{\infty} \in C_0 $;

b. Se $ A \in C_0 $, então $ A^c \in C_0 $;

c. Se $ A_1 $ e $ A_2 \in C_0 $, então $ A_1\cup A_2 \in C_0 $;

As propriedades a. e b. serão deixadas como exercício. Vamos verificar apenas a parte c.

Como $ A_1 $ e $ A_2 \in C_0 $, existe $ u_1 = (i_1, \dots , i_m) $ e $ u_2 = (j_1 , \dots , j_n) \in D $ tais que

Screenshot_24

Como a classe $ \Delta $ é compacta e a álgebra $ C_0 $ é formada por união finita disjunta de elementos de $ \Delta $, concluímos que os cilindros do $ S^{\infty} $ também formam uma classe compacta, ver o módulo probabilidades compactas. Assim, obtemos o seguinte lema.

Lema 1.5.1.1

Screenshot_25

Como todo cilindro tem diversas representações, precisamos mostrar que a definição acima é independente destas representações. Seja $ A $ um cilindro de $ S^{\infty} $ com as representações

$$A = \pi^{-1}_v(B_1) = \pi^{-1}_u (B_2)$$

onde $ v = (v_1, \dots \ v_n) $ e $ u = (u_1, \dots , u_m) $ são elementos de $ D $, $ B_1 \subset S^n $ e $ B_2 \ \subset S^m $. Se $ n = m $, temos que $ B_1 = B_2 $ e $ u = v $. Agora, caso $ n \neq m $, vamos admitir, sem perda de generalidade, que $ n \ < \ m $. Neste caso, o conjunto $ B_2 $ consiste dos elementos $ (\omega_1, \dots , \omega_m ) $ em $ S^m $ para os quais $ (\omega_1, \dots , \omega_n) \in B_1 $, isto é, $ B_2 = B_1\cup S^{m-n} $. Assim,

$$\sum_{B_2} \mathbb{P}_{\omega_1}\ldots \mathbb{P}_{\omega_n}\mathbb{P}_{\omega_{n+1}} \ldots \mathbb{P}_{\omega_m} = \sum_{B_1} \mathbb{P}_{\omega_1}\dots \mathbb{P}_{\omega_n} \sum_{S^{m-n}}\mathbb{P}_{\omega_{n+1}}\ldots \mathbb{P}_{\omega_m} = \sum_{B_1} \mathbb{P}_{\omega_1}\ldots \mathbb{P}_{\omega_n}$$

Portanto, a extensão da função de conjunto $ \mathbb{P}^{\prime} $ sobre a álgebra de cilindros do $ S^{\infty} $ é consistente. Como consequência direta da definição da função $ \mathbb{P}^{\prime} $, obtemos o seguinte lema.

Lema 1.5.1.2

A função $ \mathbb{P}^{\prime}: C_0 \to [0, 1] $ satisfaz

i $ \mathbb{P}^{\prime}(\emptyset) = 0 $ e $ \mathbb{P}^{\prime}(S^{\infty}) = 1 $;

ii.Se $ A_1, A_2 \in C_0 $ com $ A_1 \cap A_2 = \emptyset $, obtemos

$$\mathbb{P}^{\prime}(A_1\cup A_2) = \mathbb{P}^{\prime}(A_1) + \mathbb{P}^{\prime}(A_2).$$

Com isso, concluímos que a função $ \mathbb{P}^{\prime} $ é finitamente aditiva. Para mostrarmos que $ \mathbb{P}^{\prime} $ é uma $ \sigma $ aditiva, vamos utilizar o fato de que a álgebra $ C_0 $ é uma classe compacta.

Lema 1.5.1.3

Qualquer função $ \mathbb{P}^{\prime}: C_0 \to [0, 1] $ satisfazendo as propriedades (i) e (ii) do Lema 1.5.1.2 é $ \sigma $ - aditiva.

Demonstração

Considere $ (C_n) \ \subset \ C_0 $ uma sequência monótona de conjuntos tal que $ \cap ^{\infty}_{k=1}C_n = \emptyset $.

Utilizando o Lema 1.5.1.1, sabemos que existe $ n_0 \in \mathbb{N} $ tal que $ \cap^{n_0}_{k=1} C_k = \emptyset $.

Como $ (C_k) $ é monótona decrescente, temos que $ C_{n_0} = \cap ^{n_0}_{k=1}C_k = \emptyset $ e com isso,

$$\mathbb{P}^{\prime}(C_j) = 0 \ ; \ \forall \ j \ \ge \ n_0.$$

Portanto,

$$\lim_{n \to \infty} \mathbb{P}^{\prime}(C_n) = 0.$$

Com isso, concluímos que $ \mathbb{P}^{\prime} $ é contína no vazio. Desde que $ \mathbb{P}^\prime $ é finitamente aditiva, obtemos que $ \mathbb{P}^\prime $ é $ \sigma $-aditiva na álgebra $ C_0 $.

Em algumas aplicações na teoria de probabilidade, como a lei forte dos grandes números e a teoria dos jogos de azar, precisamos calcular probabilidades de conjuntos que dependem de um número infinito de coordenadas. Com isso, precisamos estender a função $ \mathbb{P}^{\prime} $ para uma classe mais ampla de conjuntos.

Denotamos por $ \xi $ a classe formada por limites monótonos decrescentes de elementos de $ C_0 $. Cnsidere $ \mathbb{P}^{\prime} $ uma função definida em $ C_0 $ satisfazendo as hipóteses do lema 1.5.1.2. Como $ \mathbb{P}^{\prime} $ é $ \sigma $-aditiva podemos estender $ \mathbb{P}^{\prime} $ sobre $ \xi $, na forma

$$\delta (G) = \lim_{n \to \infty} \mathbb{P}^{\prime}(B_n),$$

no qual $ (B_n) \subset C_0 $ é uma sequência monótona decrescente tal que $ G= \cap B_n $. Inicialmente, vamos mostrar que $ \delta $ é independente da sequência $ (B_n) $.

Lema 1.5.1.4

Considere $ (B_n) $ e $ (C_n) $ duas sequências monótonas decrescentes em $ C_0 $. Então,

a. se $ \cap_n B_n \subset \cap_n C_n $, temos que

$$\lim_{n \to \infty}\mathbb{P}^{\prime}(B_n) \leq \lim_{n \to \infty}\mathbb{P}^{\prime}(C_n).$$

b. se $ \cap_n B_n = \cap_n C_n $, temos que

$$\lim_{n \to \infty}\mathbb{P}^{\prime}(B_n) = \lim_{n \to \infty}\mathbb{P}^{\prime}(C_n).$$

Demonstração

Para todo $ n $ fixo, a sequência $ (C_n \cap B_k) $ é monótona decrescente em $ C_0 $, e satisfaz

$$\cap_k (C_n\cap B_k) = C_n.$$

Utilizando a $ \sigma $-aditividade da função $ \mathbb{P}^{\prime} $, obtemos que

$$\lim_{k \to \infty} \mathbb{P}^{\prime}(B_k) \leq \lim_{k \to \infty} \mathbb{P}^{\prime}(C_n \cap B_k ) = \mathbb{P}^{\prime} (C_n) \ \ ; \ n \in \mathbb{N}$$

Desta forma,

$$lim_{n \to \infty} \mathbb{P}^{\prime}(B_k) \leq \lim_{n \to \infty} \mathbb{P}^{\prime}(C_n).$$

Agora, se tomarmos $ \cap_n B_n = \cap_n C_n $, também obtemos para todo $ k $, que a sequência $ (C_n\cup B_k) $ é monótona decrescente. Mais uma vez, utilizando a $ \sigma $-aditividade da função $ \mathbb{P}^{} $, obtemos que

$$ \lim_{n \to \infty} \mathbb{P}^{\prime} (C_n) \leq \lim_{n \to \infty} \mathbb{P}^{\prime} (C_n \cup B_k ) = \mathbb{P}^{\prime} (B_k ) \ ; \ k \in \mathbb{N}$$

Portanto, da parte a, segue que

$$\lim_{k \to \infty} \mathbb{P}^{\prime} (B_k ) = \lim_{n \to \infty} \mathbb{P}^{\prime}(C_n ).$$

Com o lema acima, concluímos que a função $ \delta $ está bem definida. A seguir, vamos estudar as propriedades desta função e da classe $ \xi $.

Lema 1.5.1.5

A classe $ \xi $ de sbconjuntos do espaço de Cantor e a função $ \delta $, satisfazem

a. $ \delta (\emptyset ) = 0 $ e $ \delta(S^{\infty} ) = 1 $;

b. Para $ G_1, G_2 \in \xi $, temos que $ G_1 \cup G_2 \in \xi $ e $ G_1 \cap G_2 \in \xi $. Além disso,

$$\delta (G_1 \cup G_2 ) = \delta (G_1 ) + \delta (G_2 ) - \delta (G_1 \cap G_2 ).$$

c. Sejam $ G_1, G_2 \in \xi $ tais que $ G_1 \subset G_2 $. Então

$$\delta (G_1 ) \leq \delta (G_2 ).$$

d. Considere $ (G_n ) \subset \xi $ uma sequência monótona decrescente tal que $ \cap G_n = G $. Então, temos que $ G \in \xi $ e

$$\lim_{n \to \infty} \delta (G_n ) = \delta (G)$$

Demonstração

A parte a. é obvia. Para mostrarmos a parte b., sejam $ G_1, G_2 \in \xi $. Então, existe $ (A_{n,1}) $ e $ (A_{n,2}) $ sequências monótonas decrescentes tais que,

$$G_1 = \cap_n A_{n,1} = \lim \downarrow A_{n,1} \ \text{e} \ G_2 = \cap_n A_{n,2} = \lim \downarrow A_{n,2}$$

Além disso,

$$\lim \downarrow (A_{n,1} \cap A_{n,2} ) = G_1 \cap G_2 \ e \ \lim \downarrow (A_{n,1} \cup A_{n,2} ) = G_1 \cup G_2$$

Como

$$\mathbb{P}^{\prime} (A_{n,1}) + \mathbb{P}^{\prime} (A_{n,2}) = \mathbb{P}^{\prime} (A_{n,1} \cup A_{n,2}) + \mathbb{P}^{\prime}(A_{n,1} \cap A_{n,2})$$

obtemos que

$$\delta (G_1 ) + \delta (G_2 ) = \delta (G_1 \cap G_2) + \delta (G_1 \cap G_2 ).$$

A propriedade c. é consequência direta do lema anterior. Para mostrarmos a relação d., tomamos $ (A_{k,n})^{\infty}_{k=1} $ sequências monótonas decrescentes em $ C_0 $, tais que

$$\lim \downarrow A_{k,n} = G_n \ \text{e} \ \lim \downarrow G_n = G $$

Com isso, a sequência formada por

$$D_k = \cap_{n\leq k} A_{k,n}$$

é monótona decrescente, pois

$$D_k = \cap_{n\leq k} A_{k,n} \supset \cap_{n\leq k} A_{k+1, n} \supset D_{k+1}$$

Agora, para todo $ k \leq n $ temos que $ A_{k,n} \supset D_k \supset G_n $. Assim,

$$\mathbb{P}^{'} (A_{k,n} ) \ge \mathbb{P}^{'} (D_k ) \ge \delta (G_n) \ ; \ k \leq n$$

Desta forma, concluímos que $ D_k \downarrow G \in \xi $ e

$$\delta (G) = \lim \downarrow \delta (D_k ) = \lim \downarrow \delta (G_n)$$

como queríamos demonstrar.

Com este lema, obtemos que $ \xi $ é a menor classe de subconjuntos do $ S^{\infty} $ que contém a álgebra $ C_0 $ e satisfaz as propriedades do lema acima. Além disso,

$$\delta (B) = \mathbb{P}^{\prime} (B) \ ; \ B \in C_0$$

A seguir, vamos estender a função $ \delta $ sobre $ \xi $ para uma função definida sobre o conjunto das partes do espaço de Cantor.

Lema 1.5.1.6

A função de conjunto $ \delta_{\star} $, definida por

0d0a63d733f3d77ace166d42f62a3ae9fd571813

satisfaz as seguintes propriedades:

a. Para todo $ G \in \xi $ temos que $ \delta_{\star}(G) = \delta (G) $ e $ 0 \leq \delta_{\star}(A) \leq 1 $ qualquer que seja $ A \subset S^{\infty} $.

b. Para todo $ A_1 $ e $ A_2 $ subconjuntos de espaço de Cantor, obtemos que

$$\delta_{\star}(A_1 \cup A_2) + \delta_{\star}(A_1 \cap A_2) \ge \delta_{\star}(A_1)\delta_{\star} (A_2)$$

Em particular,

$$\delta_{\star}(A) + \delta_{\star}(A^c) \leq 1$$

c. Se $ A \subset B $, então $ \delta_{\star}(A) \leq \delta_{\star}(B) $.

d. Se $ A_n \downarrow A $, então $ \lim \downarrow \delta_{\star} (A_n) = \delta_{\star}(A) $.

Demonstração

A parte a. é consequência direta da definição de $ \delta_{\star} $. Dado ε > 0, escolhemos $ G_{1} $ e $ G_2 \in \xi $, tais que

$$\delta_{\star}(A_i) - \frac{\epsilon}{2} \leq \delta (G_i); i = 1,2.$$

Assim, utilizando o lema anterior, temos que

$$\delta_{\star}(A_1) + \delta_{\star}(A_2) - \epsilon \leq \delta(G_1) + \delta (G_2) = \delta(G_1 \cup G_2) + \delta (G_1 \cap G_2) \leq \delta_{\star}(G_1 \cup G_2) + \delta_{\star}(G_1 \cap G_2)$$

Como $ \epsilon \ > \ 0 $ é arbitrário, temos que

$$\delta_{\star}(A_1) + \delta_{\star}(A_2) \leq \delta_{\star} (A_1 \cup A_2) + \delta_{\star}(A_1\cap A_2).$$

Para mostrar a propriedade c., basta observar que

20aa0baafc4d7d99fa50839af9207885411a89e1

pois $ A_1 \subset A_2 $.

A seguir, vamos mostrar a parte d. Fixamos $ \epsilon \ > \ 0 $ e escolhemos uma sequência $ (\epsilon_n) $ de números reais positivos tais que $ \sum_n \epsilon_n = \epsilon $. Além disso, tomamos $ G_n \in \xi $ tal que $ G_n \subset A_n $ e,

$$\delta_{\star}(A_n) - \epsilon_n \leq \delta(G_n)$$

Considere

5eff258355e781d5d2c6eec976403dfd6958b7ef

Então, obtemos que $ G^{\prime}_k \subset A_k $ e a sequência $ (G^{\prime}_k) $ é monótona decrescente em $ \xi $. A seguir, vamos mostrar por indução, que

$$\delta_{\star}(A_k) - \sum^n_{k=1} \epsilon_k \leq \delta (G^{\prime}_k)$$

Para n = 1 temos por hipótese, que

$$\delta_{\star}(A_1) - \epsilon_1 \leq \delta (G^{\prime}_1)$$

suponha que a relação acima é válida para $ k \in \mathbb{N} $. Como

$$G_{k+1} \cup G^{\prime}_k \subset A_k$$

obtemos que

8e8c2e466146e083cbba492cac31aab9b6dff059

$ \left[\delta_{\star } (A_k ) \ - \ \sum^k_{n=1} \epsilon_n \right] \ + \ [\delta_{\star }(A_{k+1}) \ - \ \epsilon_{k+1} ] \ - \ \delta_{\star } (A_k ) \ge \delta_{\star }(A_{k+1} ) \ - \ \sum^{k+1}_{n=1} \epsilon_n $

Com isso,

$$\delta_{\star }(A_{k+1} ) \ - \ \sum^{k+1}_{n=1} \epsilon_n \ \leq \ \delta (G^{\prime}_{k+1} )$$

Ao tomarmos limite, concluímos que

$$\lim \downarrow G^{}_n \subset \lim \downarrow A_n \ = \ A$$

utilizando o lema anterior

$$\lim \downarrow \delta_{\star } (A_n ) \ - \ \epsilon \leq \lim \downarrow \delta (G^{\prime}_n ) \ = \ \delta [ \lim \downarrow G^{\prime}_n ] $$

Como,

fc6d35e30ae51a6f795f3c1c26f1f8a659929cb3

obtemos que

$$\lim \downarrow \delta_{\star }(A_n ) \ - \ \epsilon \ \leq \ \delta_{\star} [\lim \downarrow A_n ] $$

Desde que,

$$\lim \downarrow \delta_{\star } (A_n ) \ = \ \delta_{\star } [\lim \downarrow A_n ] \ = \ \delta_{\star }(A)$$

e $ \epsilon \ > \ 0 $ é arbitrário, concluímos que

$$\lim \downarrow \delta_{\star } (A_n ) = \delta_{\star } [ \lim \downarrow A_n ] $$

Com o lema acima, obtemos que para todo $ A \subset S^{\infty } $

$$\delta_{\star}(A) + \delta_{\star}(A^c) \leq 1.$$

Na sequência, vamos mostrar que a classe de subconjuntos do $ S^{\infty} $ definida por

3fe821d76c779de39ef6690d011b02bbfb59da0b

é uma $ \sigma $-álgebra e a restrição de $ \delta_{\star} $ sobre $ \mathcal{F}^{\star} $ define uma probabilidade. Tal resultado é conhecido como teorema de extensão de Carathèodory. Observe que $ A \in \mathcal{F}^{\star} $ implica que $ A^c \in \mathcal{F}^{\star} $. Além disso, se $ A_1 $ e $ A_2 \in \mathcal{F}^{\star} $, a soma do lado direito das desigualdades abaixo é igual a dois.

$$\delta_{\star}(A_1 \cup A_2) + \delta_{\star}(A_1 \cap A_2) \ge \delta_{\star}(A_1) + \delta_{\star}(A_2)$$

e

$$\delta_{\star}[(A_1 \cup A_2)^c] + \delta_{\star}[(A_1 \cap A_2)^c] = \delta_{\star}[(A_1)^c] + delta_{\star}[(A_2 )^c]$$

A propriedade b. do Lema 1.5.1.6 implica, que

$$\delta_{\star}(A_1 \cup A_2) + \delta_{\star}[(A_1 \cup A_2)^c] \leq 1$$

e

$$\delta_{\star}(A_1 \cap A_2) + \delta_{\star}[(A_1 \cap A_2)^c] \leq 1$$

Estas desigualdades são compatíveis somente se forem igualdades. Assim, obtemos que a classe $ \mathcal{F}^{\star} $ é fechada por união finita e intersecção finita e, a função $ \delta_{\star} $ é finitamente aditiva.

Considere $ (A_n) $ uma sequência de elementos de $ \mathcal{F}^{\star} $. Então, obtemos das propriedades c. e d. do Lema 1.5.1.6, que

$$\delta_{\star}[\cap^{\infty}_n A_n] = \lim_{n \to \infty} \delta_{\star}(A_n)$$

e

$$\delta_{\star}[(\cap^{\infty}_n A_n )^c] \ge \delta_{\star}(A^c_k); k \ge 1$$

Logo,

$ 1 \ = \ \lim_{n \to \infty} [\delta_{\star} (A_n ) \ + \ \delta_{\star} (A^c_n ) ] \ \leq \ \delta_{\star} [\cap^{\infty}_n A_n ] \ + \ \delta_{\star} [(\cap^{\infty}_n A_n )^c ] $

Como consequência da propriedade b, concluímos que $ \cap_n A_n \in \mathcal{F}^{\star} $. Então a classe de conjuntos $ \mathcal{F}^{\star} $ é uma $ \sigma $-álgebra e a restrição da função $ \delta_{\star} $ sobre $ \mathcal{F}^{\star} $ é uma probabilidade.

Denotamos por $ \mathcal{A} = \sigma (C_0) $ a menor $ \sigma $-álgebra dos subconjuntos de $ S^{\infty} $ que contém $ C_0 $. Como a $ \sigma $-álgebra $ \mathcal{F}^{\star} $ contém $ C_0 $, obtemos que $ \mathcal{A} \subset \mathcal{F}^{\star} $. Com isso, a restrição de $ \delta_{\star} $ sobre $ \mathcal{A} $, denotada por $ \mathbb{P} $, define uma probabilidade sobre o espaço mensurável $ (S^{\infty} , \mathcal{A}) $.

Com os resultados acima, obtemos um espaço mensurável $ (S^{\infty}, \mathcal{A}) $ e uma probabilidade $ \mathbb{P} $ sobre este, tal que

Screenshot_26

Como a classe $ C_0 $ é construída através de intersecções e uniões finitas de cilindros com base em $ S $, obtemos que

$$C_0 \subset \sigma(Pi ) \Longrightarrow \mathcal{A} = \sigma (C_0) \subset \sigma (\Pi).$$

Então,

$$\mathcal{A} = \sigma (C_0) = \sigma (\Pi).$$

Dadas duas probabilidades $ \mathbb{P}_1 $ e $ \mathbb{P}_2 $ sobre $ (S^{\infty}, \mathcal{A}) $, tais que

$$\mathbb{P}_1 (F) = \mathbb{P}_2 (F); F \in \Pi$$

vamos mostrar que estas probabilidades são iguais sobre $ \mathcal{A} $. Para isto, basta mostrarmos que a classe

391eed35453676a3d57d2235719dddbf2df6f6a9

é $ \sigma $-aditiva, isto é,

a. $ S^{\infty} \in \mathcal{G} $

b. Se $ F_1, F_2 \in \mathcal{G} $ com $ F_1 \cap F_2 = \emptyset $, então, $ F_1 \cup F_2 \in \mathcal{G} $, pois

$$\mathbb{P}_1 (F_1\cup F_2) = \mathbb{P}_1 (F_1) + \mathbb{P}_1 (F_2) = \mathbb{P}_2 (F_1) + \mathbb{P}_2 (F_2) = \mathbb{P}_2 (F_1\cup F_2).$$

Além disso, para todo $ F \in \mathcal{G} $, temos que

$$\mathbb{P}_1(F^c) = 1 - \mathbb{P}_1(F) = 1 - \mathbb{P}_2 (F) = \mathbb{P}_2(F^c).$$

c. Seja $ (F_n) \subset \mathcal{G} $ uma sequência de subconjuntos de $ S^{\infty} $ tal que $ F_k \cap F_n = \emptyset $ para $ k \neq n \in \mathbb{N} $.

Assim,

$$\mathbb{P}_1(\cup_n F_n) = \sum_n \mathbb{P}_1(F_n) = \sum_n \mathbb{P}_2(F_n) = \mathbb{P}_2(\cup_n F_n)$$

Portanto, para todo $ A \in \mathcal{A} $

$$\mathbb{P}_1 (A) = \mathbb{P}_2 (A)$$

Screenshot_27

Portanto, o espaço de probabilidade $ (S^{\infty} , \mathcal{A} , \mathbb{P}) $ é compacto para qualquer probabilidade $ \mathbb{P} $ definida sobre $ (S^{\infty} , \mathcal{A}) $.

Topologia no Espaço de Cantor

Na sequência, vamos defnir uma topologia no espaço de Cantor e estudar suas relações com o espaco mensurável $ (S^{\infty} , \mathcal{A}) $. Uma classe $ \beta $ de subconjuntos do espaço de Cantor $ S^\infty $ é uma base para uma topologia se ,

a) Para todo $ \omega \in S^\infty $, existe $ B \in \beta $ tal que $ \omega \in \beta $,

b) Se $ \omega \in B_1 \cap B_2 $ com $ B_1 $ e $ B_2 $ pertencente a $ \beta $, existe $ B_3 \in \beta $ tal que $ \omega \in B_3 \subset B_1 \cap B_2 $.

Facilmente, mostramos que a classe $ \Delta $ satisfaz as propriedades acima. Assim, obtemos que $ \Delta $ é uma base para a topologia

$$\tau = {( O \subset S^\infty: \forall \omega \in O, \exists B \in \Delta,~ \text{tal que} ~ \omega \in B \subset ))}.$$

Desde que $ \Delta $ é enumerável, dizemos que a topologia $ \tau $ é separável. Ao tomarmos $ S^\infty $ com a topologia $ \tau $ e o espaço finito dimensional $ S $ com a topologia discreta, obtemos que as projeções coordenadas $ \pi_k $ são funções contínuas, pois a classe de cilindros com base em $ S $

$${( \pi_{k}^{-1} ( {\omega_k}): \omega_k \in S, ~ k \in \mathbb{N} )} \subset \Delta \subset \tau ,$$

definie uma sub-base para a topologia $ \tau $. Assim, a menor topologia para o qual as projeções coordenadas são contínuas coincide com a topologia $ \tau $. Então, obtemos que $ \tau $ é a topologia produto sobre $ S^\infty $, e consequentemente, o teorema de Tychonov nos garante que o espaço de Cantor é compacto com a topologia $ \tau $.

Desde que as projeções coordenadas são contínuas, os cilindros com base em $ S $ são conjuntos abertos e fechados na topologia $ \tau $. Alem disso, como a álgebra $ C_0 $ é obtida via uniões e intersecções finitas de cilindros com base em $ S $, concluímos que os elementos de $ C_0 $ também são conjunto abertos e fechados na topologia $ \tau $. A seguir, apresentamos uma caracterização para os elementos de $ C_0 $ via a topologia produto $ \tau $ em $ S^\infty $.

Lema 1.5.1.7 Um subconjunto $ A \subset S^\infty $ é aberto e fechado a topologia $ \tau $ se, e só se, $ A \in C_0 $.

Prova: Suponha que $ A \subset S^\infty $ é um subconjunto aberto e fechado na topologia $ \tau $. Como $ A $ é aberto, qualquer que seja $ \omega \in A $, existe $ B_\omega \in \Delta $ tal que $ \omega \in B_\omega \subset A $. Então, temos que

$$\bigcup_{\omega \in A} B_{\omega} = A,$$

é uma cobertura aberta de $ A $. Desde que $ A $ também é fechado e o espaço de Cantor $ S^\infty $ com a topologia $ \tau $ é compacto, obtemos que $ A $ também é compacto. Desta forma, existe uma subcobertura finita $ (B_1, \cdots , B_m) $ para algum $ m \in \mathbb{N} $ tal que

$$\bigcup_{i=1}^m B_i = A.$$

Desde que $ B_i \in \Delta $ para todo $ i=1, \cdots , m $, concluímos que $ A \in C_0 $.

Screenshot_28

Na sequência, vamos mostrar que $ \rho_C $ é uma métrica, isto é, satisfaz para $ \omega_1, \omega_2 $ e $ \omega_3 \in S^\infty $

a) $ \rho_C (\omega_1 , \omega_2)=0 ~ \Leftrightarrow ~ \omega_1 = \omega_2 $,

b) $ \rho_C (\omega_1 , \omega_2)=\rho_C (\omega_2 , \omega_1) $ e

c) $ \rho_C (\omega_1 , \omega_3) \leq \rho_C (\omega_1 , \omega_2) + \rho_C (\omega_2 , \omega_3) $.

As propriedades (a) e (b) são óbvias. Para mostrarmos a propriedade (c), tomamos $ \omega=(\omega_1, \omega_2, \cdots) $ e $ x=(x_1, x_2, \cdots) $ elementos do espaço de Cantor. Se $ \omega = x $, obtemos que

$$0=\rho_C (\omega , x) \leq \rho_C (x , y) + \rho_C (y, \omega),$$

para todo $ y=(y_1, y_2, \cdots) \in S^\infty $. Por outro lado, se $ \omega \neq x $, existe $ n \in \mathbb{N} $ tal que

$$\rho_C (\omega , x) = \frac{1}{n}.$$

Vamos dividir a demonstração em dois casos, a saber $ k(x,y) \leq K(x, \omega) $ e o oposto. Assim, temos que

  1. Considere $ y=(y_1, y_2, \cdots) \in S^\infty $ tal que $ \rho_C (x,y) =\frac{1}{r} $, no qual $ r=k(x,y) > n = k(\omega , x) $. Então, temos que $ k(y,\omega)=r $ e

$$\rho_C (\omega , x) = \frac{1}{n} \leq \frac{1}{r} + \frac{1}{r} \leq \rho_C (x,y) + \rho_C (y,\omega ).$$

  1. Considere $ y=(y_1, y_2, \cdots) \in S^\infty $ tal que $ \rho_C (x,y) =\frac{1}{r} $, no qual $ r=k(x,y) < n = k(\omega , x) $. Então, temos que $ k(y,\omega)=n $ e

$$\rho_C (\omega , x) = \frac{1}{n} \leq \frac{1}{n} + \frac{1}{r} \leq \rho_C (x,y) + \rho_C (y,\omega ).$$

Portanto, para todo $ x,y $ e $ \omega $ elementos do espaço de Cantor, temos que

$$\rho_C (\omega , x) \leq \rho_C (x,y) + \rho_C (y,\omega ).$$

Como consequência, a função $ \rho_C $ define uma métrica sobre o espaço de Cantor. Além disso, para todo $ n \in \mathbb{N} $ e $ \omega=(\omega_1, \omega_2, \cdots) \in S^\infty $, a bola

Screenshot_29

Considere $ K $ um subconjunto compacto do $ S^\infty $, então $ K $ é fechado. Como $ K^c $ é aberto, existe uma sequência $ (B_n) \subset \Delta $, tal que

$$K^c = \bigcup_{n=1}^\infty B_n.$$

Desta forma, ao aplicarmos De Morgan, obtemos que

$$K = \bigcap_{n=1}^\infty B_n^c,$$

no qual $ B_n^c \in C_0 $ para todo $ n \in \mathbb{N} $. Por construção, obtemos que $ K \in \xi $.

Aproximações para probabilidades sobre o espaço mensurável $ (S^\infty , \mathcal{A}) $

A construção da probabilidade $ \mathbb{P} $ sobre o espaço mensurável $ (S^\infty , \mathcal{A}) $ é baseada no fato de que $ \mathcal{A} $ é gerada por uma álgebra enumerável, Hausdorff (separa pontos) e compacta. Sabemos que qualquer função de conjunto $ \mathbb{P}^\prime $ sobre a álgebra $ C_0 $ tal que $ \mathbb{}P^\prime (\emptyset)=0 $ e finitamente aditiva também é $ \sigma $-aditiva na álgebra. Como consequência do teorema de extensão de Carathéodory existe uma única extensão de $ \mathbb{P}^\prime $ sobre a $ \sigma $-álgebra $ \mathcal{A} $ gerada pela álgebra $ C_0 $ que é $ \sigma $-aditiva. Como consequência, obtemos uma probabilidade $ \mathbb{P} $ sobre o espaço mensurável $ (S^\infty , \mathcal{A}) $, satisfazendo

Screenshot_30

no qual $ \xi $ é a classe de subconjuntos compactos obtidos por intersecção enumerável de elementos da álgebra $ C_0 $.

Dados uma probabilidade $ \mathbb{P} $ sobre $ (S^\infty , \mathcal{A}) $ e $ A \in \mathcal{A} $, existe uma sequência $ (A_n) $ em $ \xi $ tal que $ A_n \subset A $ e

$$\mathbb{P}(A) - \frac{1}{n} \leq \mathbb{P}(A_n), ~ ~ n \in \mathbb{N}.$$

Ao tomarmos $ B = \cup_n A_n \subset A $, obtemos que

$$\mathbb{P}(B) \geq \mathbb{P}(A) \geq \mathbb{P}(A) - \frac{1}{n}, ~ ~ n \in \mathbb{N}.$$

Desde que $ n $ é arbitrário, concluímos que $ \mathbb{P}(B) \geq \mathbb{P}(A) $. Como consequência, obtemos que $ \mathbb{P}(B) = \mathbb{P}(A) $. Portanto, para qualquer subconjunto mensurável $ A \in \mathcal{A} $, existe um subconjunto $ B \in \xi_{\sigma} $ (a classe formada por uniões enumeráveis de elementos de $ \xi $) tal que $ \mathbb{P}(A) = \mathbb{P}(B) $.

Na sequência, vamos mostrar que para todo $ \epsilon > 0 $, existe um subconjunto $ C_\epsilon \in C_0 $ tal que

$$\mathbb{P} \left[(A^c \cap C_{\epsilon}) \cup (A \cap C_{\epsilon}^c) \right] \leq \epsilon.$$

Através da propriedade de compacidade da probabilidade $ \mathbb{P} $ sobre o espaço mensurável $ (S^\infty , \mathcal{A}) $, existe um subconjunto $ K_{\epsilon/2} \in \xi $ tal que $ K_{\epsilon/2} \subset A $ tal que

$$\mathbb{P}(A) \leq \mathbb{P}(K_{\epsilon/2}) + \frac{\epsilon}{2}.$$

Como consequência, obtemos que

$$\mathbb{P}(A-K_{\epsilon/2}) \leq \frac{\epsilon}{2}.$$

Através da definição da classe $ \xi $, concluímos que existe uma sequência $ (B_n) \subset C_0 $ tal que $ B_n \downarrow K_{\epsilon/2} $. Assim, obtemos que

$$\lim_n \mathbb{P}(B_n) = \mathbb{P}(K_{\epsilon/2}).$$

Desta forma, existe $ n_0 \in \mathbb{N} $ tal que

$$\mathbb{P}(K_{\epsilon/2}) \geq \mathbb{P}(B_k) - \frac{\epsilon}{2}; ~ ~ k \geq n_0.$$

Desde que $ K_{\epsilon/2} \subset B_k $ para todo $ k \in \mathbb{N} $, temos que

$$\mathbb{P}(B_k-K_{\epsilon/2}) \leq \frac{\epsilon}{2}, ~ ~ k \geq n_0.$$

Agora, para todo $ k \in \mathbb{N} $, obtemos que

$$A \cap B^c_k \subset A \cap K_{\epsilon/2}^c = A - K_{\epsilon/2} \quad {e} \quad A^c \cap B_k \subset K_{\epsilon/2}^c \cap B_k = B_k - K_{\epsilon/2}.$$

Desta forma, obtemos que

$$\mathbb{P} [A \cap B^c_k] + \mathbb{P} [ A^c \cap B_k] \leq \mathbb{P} [A \cap K_{\epsilon/2}^c] + \mathbb{P} [K_{\epsilon/2}^c \cap B_k] \leq \frac{\epsilon}{2} + \frac{\epsilon}{2} = \epsilon,$$

para todo $ k \geq n_0 $. Portanto, para todo $ \epsilon > 0 $, existe $ C_{\epsilon} \in C_0 $, tal que

$$\mathbb{P} \left[(A^c \cap C_{\epsilon}) \cup (A \cap C_{\epsilon}^c) \right] \leq \epsilon.$$

Screenshot_31

1.5.3 - Teorema de Extensão de Carathéodory

Considere $ \Omega $ o espaço amostral e $ \mathcal{A} $ uma álgebra de subconjuntos de $ \Omega $. Dado uma função de conjunto $\mu: \mathcal{A} \rightarrow [0,1]$, dizemos que $ \mu $ é $ \sigma $-aditiva na álgebra $ \mathcal{A} $ se, para toda sequência de eventos $ (A_i) \subset \mathcal{A} $ disjuntos com $ \cup_i A_i \in \mathcal{A} $, temos que

$$\mu(A)=\sum_{i=1}^{\infty} \mu(A_i).$$

Toda função de conjunto $\mu:\mathcal{A}\rightarrow [0,1]$ que é $ \sigma $-aditiva e $ \mu(\Omega)=1 $ será denominada probabilidade sobre a álgebra.

Como $ \mathcal{A} $ é uma álgebra, precisamos assumir que $ \cup_i A_i \in \mathcal{A} $, pois a álgebra não é fechada para união enumerável. Por outro lado, para toda família finita $ A_1, \cdots , A_n $ de elementos disjuntos de $ \mathcal{A} $, temos que

$$\mu\left(\cup_{i=1}^nA_i\right)=\sum_{i=1}^n \mu(A_i).$$

Esta propriedade é denominada aditividade finita. Suponha que $ \mu $ seja uma probabilidade sobre a álgebra $ \mathcal{A} $ e que $ A,B \in \mathcal{A} $ com $ A \subset B $. Desde que $ \mu(A) + \mu(B-A)=\mu(B) $, obtemos que $ \mu $ é monótona,

$$ \mu(A) \leq \mu(B),\quad \text{se}~~A\subset B.$$

Além disso, também obtemos que $ \mu(B-A)=\mu(B)-\mu(A) $ e como caso especial $ \mu(A)+\mu(A^c)=1. $ Também podemos mostrar que

$$\mu(A\cup B)=\mu(A)+\mu(B)-\mu(A\cap B).$$

De forma geral, dado uma família finita $ A_1, \cdots , A_n $ de eventos em $ \mathcal{A} $, obtemos a fórmula

$$\mu(\cup_{i=1}^{n} A_i)=\sum_{i=1}^n \mu(A_i) - \sum_{i < j} \mu(A_i \cap A_j)+\sum_{i< j < k} \mu(A_i \cap A_j \cap A_k) + \cdots + (-1)^{n+1} \mu(A_1 \cap \cdots \cap A_n).$$

Para deduzirmos esta expressão de forma indutiva, basta observarmos que

$$\mu(\cup_{i=1}^{n+1} A_i)=\mu(\cup_{i=1}^n A_i) + \mu(A_{n+1}) - \mu \left(\cup_{i=1}^n (A_i \cap A_{n+1})\right).$$

Se tomarmos $ B_1=A_1 $ e $ B_k=A_k \cap A^c_1\cap \cdots A^c_{k-1} $, então $ (B_k) $ são disjuntos e $ \cup_{k=1}^n B_k = \cup_{i=1}^n A_i $. Como consequência da propriedade de aditividade finita, obtemos que

$$\mu(\cup_{i=1}^n A_i)=\sum_{k=1}^n \mu(B_k).$$

Desde que $ \mu(B_k) \leq \mu (A_k) $, obtemos a propriedade de subaditividade finita,

$$\mu(\cup_{i=1}^n A_i) \leq \sum_{i=1}^n \mu(A_i).$$

As propriedades acima são válidas para uma família finita de eventos em $ \mathcal{A} $. A seguir, vamos derivar algumas propriedades com sequências de eventos na álgebra $ \mathcal{A} $.

Lema 1.5.3.1

Seja $ \mu $ uma probabilidade sobre a álgebra $ \mathcal{A} $. Então, para toda sequência de eventos $ (A_i) \subset \mathcal{A} $, temos que

  1. Se $ A_i \subset A_{i+1} $ para todo $ i=1,2, \cdots $ e $ A=\cup_i A_i \in \mathcal{A} $, temos que $ \mu(A_i) \uparrow \mu(A) $;

  2. Se $ A_{i+1} \subset A_i $ para todo $ i=1,2, \cdots $ e $ A=\cap_i A_i \in \mathcal{A} $, temos que $ \mu(A_i) \downarrow \mu(A) $;

  3. De forma geral, temos que

$$\mu \left(\cup_{i=1}^{\infty} A_i\right) \leq \sum_{i=1}^{\infty} \mu (A_i).$$

Prova

Para mostrarmos (1), basta tomarmos $ B_1=A_1 $ e $ B_k=A_k-A_{k-1} $. Como os eventos $ (B_k) $ são disjuntos e $ A=\cup_{k=1}^{\infty}B_k $, obtemos da $ \sigma $-aditividade que

$$\mu(A)=\sum_{k=1}^{\infty}\mu(B_k) = \lim_{n \rightarrow \infty}\sum_{k=1}^n \mu(B_k) = \lim_{n \rightarrow \infty}\mu(\cup_{k=1}^n B_k) = \lim_{n \rightarrow \infty} \mu(A_n).$$

A afirmação (2) é consequência do fato de que se $ A_{i+1} \subset A_i $, então $ A^c_{i} \subset A^c_{i+1} $ e da primeira afirmação. Como consequência da subaditividade finita e da afirmação (1), obtemos que (3) é válido. Segue o lema.

A seguir, vamos mostrar que dado uma função de conjunto $\mu:\mathcal{A} \rightarrow [0,1]$ finitamente aditiva, a propriedade de $ \sigma $-aditividade é equivalente a propriedade de continuidade no vazio.

Lema 1.5.3.2

Para que uma função de conjunto $\mu:\mathcal{A} \rightarrow [0,1]$ seja uma probabilidade na álgebra é necessário e suficiente que:

  1. $ \mu(\Omega)=1 $;

  2. Finitamente aditiva: para todo família finita $ A_1, \cdots , A_n $ de eventos disjuntos em $ \mathcal{A} $, temos que $ \mu(\cup_{i=1}^n A_i)=\sum_{i=1}^n \mu(A_i). $

  3. Continuidade no vazio: para toda sequência de eventos em $ \mathcal{A} $ decrescendo para o vazio, isto é, $ A_{i+1} \subset A_i $ para todo $ i=1,2,\cdots $ e $ \cap_i A_i =\emptyset $, temos que $ \lim_{i} \mu(A_i)=0 $.

Prova

Suponha que $ \mu $ seja uma probabilidade na álgebra $ \mathcal{A} $ e $ (A_i) $ uma sequência de eventos que decresce para o vazio. Como $ (A_i) $ é uma sequência monótona decrescente, temos $ A_n=\cup_{m\geq n} (A_m - A_{m+1}) $. Como consequência da $ \sigma $-aditividade, obtemos que

$$1 \geq \mu(A_n)=\sum_{m \geq n}\mu(A_m-A_{m+1})=\lim_{m \rightarrow \infty}\left(\mu(A_n)-\mu(A_{m+1}) \right).$$

Desta forma, obtemos que $ \lim_{m \rightarrow \infty}\mu(A_m)=0 $. Por outro lado, tomamos $ \mu $ uma função de conjunto satisfazendo as três propriedades do lema, vamos mostrar que $ \mu $ é uma probabilidade sobre a álgebra $ \mathcal{A} $. Considere $ (A_n) \subset \mathcal{A} $ uma sequência de eventos disjuntos tal que $ A=\cup_{i=1}^{\infty} A_i $. Então, temos que

$$A=\left(\cup_{i=1}^n A_i\right)\cup \left(\cup_{i=n+1}A_i\right).$$

Pela aditividade finita, sabemos que

$$\mu(A)=\sum_{i=1}^n \mu(A_i)+\mu(\cup_{i=n+1}A_i).$$

Tomamos $ B_n=\cup_{i=n+1}^{\infty} A_i $, então $ \cap_{n}B_n=\emptyset $ e portanto $ \mu(B_k) \downarrow 0 $, devido a continuidade no vazio. Logo, concluímos que

$$\sum_{i=1}^{\infty}\mu(A_i)=\lim_{n \rightarrow \infty}\sum_{i=1}^n \mu(A_i)=\mu(A).$$

Segue o lema.

Uma $ \sigma $-álgebra $ \mathcal{F} $ de subconjuntos de $ \Omega $ é uma classe de subconjuntos de $ \Omega $ que contém o $ \emptyset $ e $ \Omega $ e é fechada por operações de complementar e união e intersecção enumeráveis. O par $ (\Omega , \mathcal{F}) $ consistindo do espaço amostral $ \Omega $ e da $ \sigma $-álgebra $ \mathcal{F} $ será denominado espaço mensurável. A seguir, vamos introduzir uma classe de conjuntos que será utilizada para caracterizar a $ \sigma $-álgebra. Uma classe $ \mathcal{C} $ de subconjuntos de $ \Omega $ é denominada classe monótona se satisfaz:

a) Para toda sequência crescente $ (A_i) \subset \mathcal{C} $ tal que $ A_i \subset A_{i+1} $, temos que $ \cup_{i=1}^{\infty} A_i \in \mathcal{C} $;

b) Para toda sequência decrescente $ (A_i) \subset \mathcal{C} $ tal que $ A_{i+1} \subset A_i $, temos que $ \cap_{i=1}^{\infty} A_i \in \mathcal{C} $.

Lema

Dados um espaço amostral $ \Omega $ e uma álgebra $ \mathcal{F} $ de subconjuntos de $ \Omega $. Para que $ \mathcal{F} $ seja uma $ \sigma $-álgebra é necessário e suficiente que esta seja uma classe monótona.

Prova

Obviamente, toda $ \sigma $-álgebra é uma classe monótona. Por outro lado, considere $ \mathcal{C} $ uma classe de subconjuntos de $ \Omega $ que é fechada para uniões finitas, vamos mostrar que $ \mathcal{C} $ é fechada por união enumerável se, e só se, $ \mathcal{C} $ for fechada para uniões monótonas crescentes. Para isto, tomamos $ (A_n) \subset \mathcal{C} $ uma sequência de subconjuntos de $ \Omega $ e $ B_k = \cup_{n=1}^k A_n $. Desta forma, temos que

$$\cup_{n=1}^{\infty} A_n = \cup_{k=1}^{\infty} B_k,$$

no qual $ (B_k ) \subset \mathcal{C} $. Segue o lema. Na sequência, enunciamos o teorema de extensão de Carathéodory.

Teorema 1.5.3.1

Para toda probabilidade $ \mu $ sobre a álgebra $ \mathcal{A} $, existe um única probabilidade $ \mathbb{P} $ sobre a $ \sigma $-álgebra gerada por $ \mathcal{A} $ que estende a função de conjunto $ \mu $.

Suponha que $ \mu $ seja uma função de conjunto $ \sigma $-aditiva sobre a álgebra $ \mathcal{A} $ e denotamos por $ \mathcal{F}=\sigma(\mathcal{A}) $. Então, existe uma única probabilidade $ \mathbb{P} $ definida sobre $ \mathcal{F} $ tal que $ \mathbb{P}(A) = \mu(A) $ para todo $ A\in \mathcal{A} $. Além disso, se $ \mathbb{P}^{\prime} $ for outra probabilidade definida sobre $ \mathcal{F} $ tal que $ \mathbb{P}^{\prime}(A)=\mathbb{P}(A) $ para todo $ A\in \mathcal{A} $, então $ \mathbb{P}^{\prime}(A)=\mathbb{P}(A) $ para todo $ A\in \mathcal{F} $. Observe que a classe de eventos $ \mathcal{A} $ é uma álgebra, sendo fechada apenas por operações finitas de uniões e intersecções. Por outro lado, a função de conjunto $ \mu $ satisfaz uma propriedade de $ \sigma $-aditividade, que é válida para operações enumeráveis com eventos da álgebra. Somando esta propriedade com a estratégia de construção de números reais, vamos estender a função de conjunto $ \mu $ sobre a $ \sigma $-álgebra gerada por $ \mathcal{A} $ de tal forma que a propriedade de $ \sigma $-aditividade seja preservada.

Construção da extensão

Seja $ \mathbb{P} $ uma probabilidade definida sobre uma álgebra $ \mathcal{A} $ . A construção seguinte estende $ \mathbb{P} $ para uma classe geralmente muito maior do que $ \sigma (\mathcal{A}) $, no entanto, não contém todos os subconjuntos de $ \Omega $.

Definição 1.5.3.1

Para cada subconjunto $ A $ de $ \Omega $ definimos sua probabilidade exterior por

$$\mathbb{P}^{\ast}(A) = \inf \sum_n \mathbb{P}(A_n)$$

no qual o ínfimo se estende sobre todas as sequências finitas e infinitas $ A_1, A_2, \dots $ de $ \mathcal{A} $ satisfazendo $ A \subset \bigcup_n (A_n) $. Obviamente, a probabilidade exterior é uma primeira tentativa para definirmos uma “probabilidade” para o conjunto $ A $.

Por causa da regra $ \mathbb{P}(A^c) = 1 - \mathbb{P}(A) $, podemos definir a probabilidade inferior de $ A $ através da probabilidade exterior de $ A^c $, na forma

$$\mathbb{P}_{\ast}(A) = 1 - \mathbb{P}^{\ast}(A^c).$$

A probabilidade interior de $ A $, denotada por $ \mathbb{P}_{\ast} (A) $, é um segundo candidato para a probabilidade de $ A $. A probabilidade exterior (ou interior) tem a vantagem de estar definida para qualquer subconjunto $ A $, mas não satisfaz a propriedade $ \sigma $-aditividade. Para tornar a probabilidade exterior $ \sigma $-aditiva, vamos reduzir a classe de subconjuntos para o qual aplicamos a probabilidade exterior. Para isto, uma procedência plausível é atribuir uma probabilidade para $ A $ de forma que a probabilidade interior seja igual à probabilidade exterior, ou seja,

$$\mathbb{P}^{\ast}(A) = \mathbb{P}_{\ast}(A).$$

Observe que a probabilidade exterior e a probabilidade interior coincidem se, e só se,

$$ \mathbb{P}^{\ast}(A) + \mathbb{P}^{\ast}(A^c)=1.$$

Neste sentido, Carathéodory propôs um requerimento similar (porém, mais forte). Dizemos que um subconjunto $ A \subset \Omega $ é $ \mathbb{P}^{\ast} $-mensurável se

$$\mathbb{P}^{\ast}(A\cap E) + \mathbb{P}^{\ast}(A^c \cap E) = \mathbb{P}^{\ast}(E) (*),$$

para todo subconjunto $ E \subset \Omega $. Observe que $ \mathbb{P}^{\ast}(\Omega)=1. $ Considere $ \mathcal{M} $ a classe dos conjuntos $ \mathbb{P}^{\ast} $-mensuráveis. Temos como objetivo mostrar que $ \mathcal{M} \supset \sigma(\mathcal{A}) $. Para isto, listamos as principais propriedades da função $ \mathbb{P}^{\ast} $:

P1) $ \mathbb{P}^{\ast}(\emptyset) = 0 $

P2) $ \mathbb{P}^{\ast} $ é não negativa, isto é, $ \mathbb{P}^{\ast}(A)\geq 0 $ para todo $ A \subset \Omega $.

P3) $ \mathbb{P}^{\ast} $ é monótona, isto é, se $ A \subset B $ então $ \mathbb{P}^{\ast}(A)\leq \mathbb{P}^{\ast}(B) $.

P4) $ \mathbb{P}^{\ast} $ é $ \sigma $-subaditiva, isto é, $ \mathbb{P}^{\ast}\left(\bigcup_{n\in\mathbb{N}} A_n\right) \leq \sum_n \mathbb{P}^{\ast}(A_n) $.

As propriedades (P1), (P2) e (P3) são triviais, vamos verificar apenas a propriedade (P4). De fato, para um dado $ \varepsilon $, escolhemos conjuntos $ B_{nk} $ de $ \mathcal{A} $, tal que $ A_n \subset \bigcup_k B_{nk} $ e $ \sum_k \mathbb{P}^{\ast}(B_{nk}) \ < \ \mathbb{P}^{\ast}(A_n) + \varepsilon 2^{-n} $, o que é possível pela Definição 1.5.1.2.

Agora $ \bigcup_n (A_n) \subset \bigcup_{n,k} B_{nk} $, assim $ \mathbb{P}^{\ast}(\bigcup_n A_n) \leq \sum_{n,k} \mathbb{P}(B_{nk}) < \sum_n \mathbb{P}^{\ast}(A_n) + \varepsilon $, de onde segue a propriedade (P4).

Através da propriedade subaditiva da probabilidade exterior, um conjunto $ A $ é $ \mathbb{P}^{\ast} $-mensurável se,

$$\mathbb{P}^{\ast}(A\cap E)+\mathbb{P}^{\ast}(A^c\cap E)\leq \mathbb{P}^{\ast}(E).$$

Na sequência, vamos mostrar que a classe dos conjuntos $ \mathbb{P}^{\ast} $-mensuráveis é uma álgebra.

Lema 1.5.3.1

A classe $ \mathcal{M} $ é uma álgebra.

Demonstração

De fato, vamos verificar que $ \mathcal{M} $ satisfaz as condições definidas na Definição 1.5.1.2. Para isto, seja $ E $ um subconjunto arbitrário de $ \Omega $.

Inicialmente, vamos verificar que $ \emptyset\in\mathcal{M} $. De fato, temos que

$$\mathbb{P}^{\ast}(\emptyset\cap E) + \mathbb{P}^{\ast}(\emptyset^c\cap E) = \mathbb{P}^{\ast}(\emptyset) + \mathbb{P}^{\ast}(\Omega\cap E) =\mathbb{P}^{\ast}(\emptyset)+\mathbb{P}^{\ast}(E) = \mathbb{P}^{\ast}(E), \ \text{portanto} \ \emptyset \in \mathcal{M}.$$

Vamos verificar agora que, se $ A, B\in\mathcal{M} $, então $ A\cap B\in\mathcal{M} $. De fato,

$$\mathbb{P}^{\ast}(E) = \mathbb{P}^{\ast}(A \cap E) + \mathbb{P}^{\ast}(A^c\cap E) = \mathbb{P}^{\ast}(A \cap B \cap E) +\mathbb{P}^{\ast}(A \cap B^c \cap E)+ \mathbb{P}^{\ast}(A^c \cap B \cap E) + \mathbb{P}^{\ast}(A^c \cap B^c \cap E).$$

Através da propriedade de subaditividade da probabilidade exterior (P4), concluímos que

$$\mathbb{P}^{\ast}(E)\geq\mathbb{P}^{\ast}((A \cap B)\cap E) + \mathbb{P}^{\ast}((A^c \cap B) \cap E) \cup ((A \cap B^c) \cap E) \cup ((A^c \cap B^c) \cap E)= \mathbb{P}^{\ast}((A \cap B) \cap E) + \mathbb{P}^{\ast}((A \cap B)^c \cap E)$$

Portanto,

$$\mathbb{P}^{\ast}(E)= \mathbb{P}^{\ast}((A \cap B) \cap E) + \mathbb{P}^{\ast}((A \cap B)^c \cap E).$$

Finalmente, basta verificar que, se $ A\in\mathcal{M} $, então $ A^c\in\mathcal{M} $. Para isto, temos que

$$\mathbb{P}^{\ast}(A^c\cap E) + \mathbb{P}^{\ast}((A^c)^c\cap E) = \mathbb{P}^{\ast}(A\cap E) + \mathbb{P}^{\ast}(A^c\cap E) = \mathbb{P}^{\ast}(E)$$

Portanto, segue que $ \mathcal{M} $ é uma álgebra.

Lema 1.5.3.2

A função $ \mathbb{P}^{\ast} $ é finitamente aditiva em $ \mathcal{M} $.

Demonstração

De fato, suponha que $ A, B\in\mathcal{M} $ e que são disjuntos. Então

$$\mathbb{P}^{\ast}(A \cup B) = \mathbb{P}^{\ast}(A \cap (A \cup B)) + \mathbb{P}^{\ast}(A^c \cap (A \cup B)) = \mathbb{P}^{\ast}(A) + \mathbb{P}^{\ast}(B).$$

Segue por indução finita que

$$\mathbb{P}^{\ast}\left(\bigcup^n_{k=1}A_k\right) = \sum^n_{k=1} \mathbb{P}^{\ast}(A_k)$$

para conjuntos disjuntos $ A_1, A_2, \dots ,A_n $ de $ \mathcal{M} $.

Lema 1.5.3.3

Se $ A_1, A_2, \dots $ é sequência disjunta de conjuntos em $ \mathcal{M} $, então

$$\bigcup_n A_n \in \mathcal{M} \ \text{e} \ \mathbb{P}^{\ast}\left(\bigcup_n A_n\right) = \sum_n \mathbb{P}^{\ast}(A_n).$$

Demonstração

Seja $ A = \bigcup_n (A_n) $. Pelo Lema 1.5.3.2 e pela propriedade de monotonicidade, temos que

$$\sum_{n \leq m} \mathbb{P}^{\ast}\left(A_n\right) = \mathbb{P}^{\ast}\left(\bigcup_{n \leq m} A_n\right) \leq \mathbb{P}^{\ast}(A).$$

Portanto, $ \sum_n \mathbb{P}^{\ast}(A_n) \leq \mathbb{P}^{\ast}(A) $ e a desigualdade oposta segue por subaditividade.

Vamos provar que A é um conjunto $ \mathbb{P}^{\ast} $-mensurável. Seja $ B_m = \bigcup_{n\leq m} A_n \in \mathcal{M} $, pois $ \mathcal{M} $ é uma álgebra. Na sequência, vamos mostrar por indução que a equação

$$\mathbb{P}^{\ast}(E \cap B_m) = \sum_{n\leq m} \mathbb{P}^{\ast}(E \cap A_n)$$

é válida para todo $ m \in \mathbb{N} $. Esta certamente é verdadeira para m = 1. Assuma que é verdade para algum m e particione $ E \cap B_{m+1} $ pelo conjunto $ B_m $, na forma

$$\mathbb{P}^{\ast}(E \cap B_{m+1}) = \mathbb{P}^{\ast}(E \cap B_{m+1} \cap B_m) + \mathbb{P}^{\ast}(E \cap B_{m+1} \cap B^c_m),$$

no qual $ B_m \in \mathcal{M} $. Como consequência da aditividade finita da probabilidade exterior, obtemos que

$$\mathbb{P}^{\ast}(E\cap B_{m+1})= \mathbb{P}^{\ast}(E \cap B_m) + \mathbb{P}^{\ast}(E \cap A_{m+1}) = \sum _{n \leq m} \mathbb{P}^{\ast}(E \cap A_n) + \mathbb{P}^{\ast}(E \cap A_{m+1})$$

Agora, particionando $ E $ pelos conjuntos $ B_m $ temos que

$$\mathbb{P}^{\ast}(E) = \mathbb{P}^{\ast}(E \cap B_m ) + \mathbb{P}^{\ast}(E \cap B^c_m) = \sum_{n \leq m} \mathbb{P}^{\ast}(E \cap A_n) + \mathbb{P}^{\ast}(E \cap B^c_m) \ge \sum_{n \leq m} \mathbb{P}^{\ast}(E \cap A_n) + \mathbb{P}^{\ast}(E \cap A^c).$$

Assim, ao tomarmos o limite quando $ n \rightarrow \infty $, concluímos que

$$\mathbb{P}^{\ast}(E) \ge \sum_n \mathbb{P}^{\ast}(E \cap A_n) + \mathbb{P}^{\ast}(E \cap A^c) \ge \mathbb{P}^{\ast}(E \cap A) + \mathbb{P}^{\ast}(E \cap A^c).$$

Lema 1.5.3.4

A classe $ \mathcal{M} $ é uma $ \sigma $-álgebra e $ \mathbb{P}^{\ast} $ restrita a $ \mathcal{M} $ é $ \sigma $-aditiva.

Demonstração

Ao tomarmos $ A_1, A_2, \dots $ em $ \mathcal{M} $, obtemos que os conjuntos $ B_1 = A_1 $ e $ B_n = A_n \cap A^c_1 \cap \dots \cap A^c_{n-1} $ são disjuntos e também estão em $ \mathcal{M} $, pois $ \mathcal{M} $ é uma álgebra. Como consequência do lema 1.5.3.3 obtemos que $ \bigcup_n A_n = \bigcup_n B_n \in\mathcal{M} $. Portanto, concluímos que $ \mathcal{M} $ é uma $ \sigma $-álgebra. Desde que $ \mathbb{P}^{\ast} $ é $ \sigma $-aditiva em $ \mathcal{M} $ (lema 1.5.3.3), concluímos o lema.

Observe que os quatro lemas acima são consequências das propriedades (P1), (P2), (P3) e (P4) da probabilidade exterior. Nos próximos lemas, vamos utilizar a definição da probabilidade exterior via a probabilidade $ \mathbb{P} $ sobre a álgebra $ \mathcal{A} $.

Lema 1.5.3.5

Temos que $ \mathcal{A} \subset \mathcal{M} $.

Demonstração

Suponha que $ A \in \mathcal{A} $. Dados $ E $ e $ \varepsilon $ quaisquer, escolhemos conjuntos $ (A_n) $ de $ \mathcal{A} $ tais que $ E \subset \cup_n A_n $ e $ \sum_n \mathbb{P}(A_n) \leq \mathbb{P}^{\ast}(E) + \varepsilon $. Desde que $ \mathcal{A} $ é uma álgebra, os conjuntos $ B_n = A_n \cap A $ e $ C_n = A_n \cap A^c $ estão em $ \mathcal{A} $. Também temos que $ E \cap A \subset \cup_n B_n $ e $ E \cap A^c \subset \cup_n C_n $. Por definição de $ \mathbb{P}^{\ast} $ e a aditividade finita de $ \mathbb{P} $ sobre a álgebra $ \mathcal{A} $, obtemos que

$$\mathbb{P}^{\ast}(E \cap A) + \mathbb{P}^{\ast}(E \cap A^c) \leq \sum_n \mathbb{P}(B_n) + \sum_n \mathbb{P}(C_n)=\sum_n \left[\mathbb{P}(B_n) + \mathbb{P}(C_n)\right] =\sum_n \mathbb{P}(A_n) \leq \mathbb{P}^{\ast}(E) + \varepsilon.$$

Consequentemente $ A \in \mathcal{M} $, o que implica que $ \mathcal{A} \subset \mathcal{M} $. Portanto, segue o lema.

Lema 1.5.3.6

Para todo $ A \in \mathcal{A} $, temos que

$$\mathbb{P}^{\ast}(A)=\mathbb{P}(A).$$

Demonstração

É obvio da definição de probabilidade exterior que $ \mathbb{P}^{\ast}(A) \leq \mathbb{P}(A) $ para $ A \in \mathcal{A} $. Por outro lado, considere $ A \subset \cup_n A_n $, no qual $ A $ e $ (A_n) $ estão em $ \mathcal{A} $. Utilizando a $ \sigma $-subaditividade e a monotonicidade de $ \mathbb{P} $, concluímos que

$$ \mathbb{P}(A) \leq \sum_{n} \mathbb{P}(A \cap A_n)\leq \sum \mathbb{P}(A_n).$$

Portanto, segue o lema.

Ao denotarmos por $ \mathcal{F}=\sigma(\mathcal{A}) $, a $ \sigma $-álgebra gerada pela álgebra $ \mathcal{A} $, sabemos que

$$\mathcal{A} \subset \mathcal{F} \subset \mathcal{M} \subset 2^{\Omega}.$$

Assim, a probabilidade exterior $ \mathbb{P}^{\ast} $ restrita a $ \sigma $-álgebra $ \mathcal{M} $ é uma probabilidade. Da mesma forma, se restringirmos a probabilidade exterior a $ \mathcal{F} $ também obtemos uma probabilidade. Na sequência, vamos mostrar que a extensão da probabilidade é única.

Unicidade e teorema $ \pi $ - $ \lambda $

Para provar que a extensão da probabilidade apresentada acima é única vamos utilizar alguns conceitos auxiliares. Uma classe $ \mathcal{P} $ de $ \Omega $ é um $ \pi $-sistema se é fechado para interseções finitas, isto é, se $ A, B\in\mathcal{P} $ então

$$(\pi) \quad A, B \in \mathcal{P} \rightarrow A\cap B \in \mathcal{P} $$

Uma classe $ \mathcal{L} $ composta por subconjuntos de $ \Omega $ é um $ \lambda $-sistema se

$ (\lambda_1) $: Temos que $ \Omega \in \mathcal{L} $

$ (\lambda_2) $: Se $ A\in\mathcal{L} $ então $ A^c\in\mathcal{L} $.

$ (\lambda_3) $: Se $ A_1,A_2,\ldots\in\mathcal{L} $ e $ A_i\cap A_j = \emptyset $ para $ i\neq j $ então $ \cup_nA_n\in\mathcal{L} $.

Como os conjuntos na condição $ (\lambda_3) $ são disjuntos, um $ \lambda $-sistema é uma classe “mais fraca” do que uma $ \sigma $-álgebra. As propriedades $ (\lambda_1) $ e $ (\lambda_2) $ implicam que $ \emptyset \in \mathcal{L} $. Além disso, na presença das condições $ (\lambda_1) $ e $ (\lambda_3) $, segue que a condição $ (\lambda_2) $ é equivalente a dizer que $ \mathcal{L} $ é fechado para a diferença, isto é,

$$(\lambda_2^{\prime}): \quad A, B \in \mathcal{L} \ \text{e} \ A \subset B ~ ~ \text{implicam que}~~B - A \in \mathcal{L}.$$

Suponha que $ \mathcal{L} $ seja uma classe de subconjuntos de $ \Omega $ que satisfaz as propriedades $ (\lambda_2) $ e $ (\lambda_3) $, se $ A,B \in \mathcal{L} $ e $ A \subset B $, então $ B^c \in \mathcal{L} $, $ A \cup B^c \in \mathcal{L} $ e $ (A \cup B^c)^c = B-A \in \mathcal{L} $. Desta forma, a propriedade $ (\lambda_2^{\prime}) $ também é satisfeita. Por outro lado, se $ \mathcal{L} $ é uma classe de subconjuntos de $ \Omega $ que satisfaz $ (\lambda_1) $ e $ (\lambda_2^{\prime}) $, então se $ A \in \mathcal{L} $ temos que $ A^c = \Omega - A \in \mathcal{L} $. Portanto, a condição $ (\lambda_2) $ é satisfeita.

Lema 1.5.3.7

Uma classe $ \mathcal{F} $ que é um $ \pi $-sistema e um $ \lambda $-sistema é uma $ \sigma $-álgebra.

Demonstração

Esta classe contém $ \Omega $ por ser um $ \lambda $-sistema e, além disso, é fechada para a complementação e intersecções finitas por ser um $ \lambda $-sistema e um $ \pi $-sistema. Desta forma, a classe $ \mathcal{F} $ é uma álgebra. Também é uma $ \sigma $-álgebra pois, se $ \mathcal{F} $ contém uma sequência de conjuntos $ A_n $, então contém conjuntos disjuntos $ B_j = A_j -\left(A_1\cup \dots \cup A_{j-1}\right) $ para $ j=1,\ldots,n $ de forma que $ \cup_nA_n = \cup_nB_n $ e, pela propriedade $ (\lambda_3) $, temos que $ \cup_n A_n = \cup_n B_n \in \mathcal{F}. $

Teorema 1.5.3

Se $ \mathcal{P} $ é um $ \pi $-sistema e $ \mathcal{L} $ é um $ \lambda $-sistema então $ \mathcal{P} \subset \mathcal{L} $ implica que $ \sigma (\mathcal{P} ) \subset \mathcal{L}. $

Demonstração

Considere $ \mathcal{L}_0 $ o $ \lambda $-sistema gerado por $ \mathcal{P} $, isto é, a intersecção de todos os $ \lambda $-sistemas contendo $ \mathcal{P} $. Assim, obtemos que $ \mathcal{L}_0 $ é um $ \lambda $-sistema que contém $ \mathcal{P} $ e está contido em todo $ \lambda $-sistema que contém $ \mathcal{P} $. Então $ \mathcal{P} \subset \mathcal{L}_0 \subset \mathcal{L} $. Se mostrarmos que $ \mathcal{L}_0 $ é um $ \pi $-sistema, então, pelo Lema 1.5.3.7, temos que $ \mathcal{L}_0 $ é uma $ \sigma $-álgebra. Da minimalidade de $ \sigma(\mathcal{P}) $ segue que $ \sigma(\mathcal{P}) \subset \mathcal{L}_0 $ e então, é sufiente mostrar que $ \mathcal{L}_0 $ é um $ \pi $-sistema.

Para cada $ A $, seja $ \mathcal{L_{A}} $ a classe dos conjuntos $ B $ tal que $ A \cap B \in \mathcal{L}_0 $. Ao assumirmos que $ A $ está em $ \mathcal{P} $ ou em $ \mathcal{L}_0 $ obtemos que $ \mathcal{L}_{A} $ é um $ \lambda $-sistema. Visto que $ A\cap \Omega = A \in \mathcal{L}_0 $ por hipótese, $ \mathcal{L}_{A} $ satisfaz a primeira condição de um $ \lambda $-sistema. Se $ B_1, B_2 \in \mathcal{L}_{A} $ e $ B_1 \subset B_2 $ então o $ \lambda $-sistema $ \mathcal{L}_0 $ contém $ A \cap B_1 $ e $ A\cap B_2 $ e então, contém a diferença $ (A\cap B_2) - (A\cap B_1) = A\cap (B_2 - B_1 ) $. Como consequência $ \mathcal{L}_{A} $ contém $ B_2 - B_1 $ e, então $ \mathcal{L}_A $ satisfaz a propriedade $ (\lambda_2^{\prime}) $. Se $ B_n $ são conjuntos disjuntos de $ \mathcal{L}_{A} $ então $ \mathcal{L}_{0} $ contém os conjuntos disjuntos $ (A\cap B_n) $ e assim, também contém $ A\cap (\cup_n B_n) $, ou seja, $ \mathcal{L}_{A} $ satisfaz a propriedade $ (\lambda_3) $. Com isso, concluímos que $ \mathcal{L}_A $ é um $ \lambda $-sistema sempre que $ A \in \mathcal{L}_0 $.

Assim, se $ A\in \mathcal{P} $ e $ B \in \mathcal{P} $, então temos que $ A\cap B \in \mathcal{P} \subset \mathcal{L}_0 $, com isso obtemos que $ B \in \mathcal{L}_0 $. Portanto, se $ A \in \mathcal{P} $ implica que $ \mathcal{P} \subset \mathcal{L}_A $. Como $ \mathcal{L}_A $ é um $ \lambda $-sistema, a minimalidade de $ \mathcal{L}_0 $ nos garante que $ \mathcal{L}_0 \subset \mathcal{L}_A $.

Portanto, se $ A \in \mathcal{P} $ obtemos que $ \mathcal{L}_0 \subset \mathcal{L}_A $. De outra forma, se $ A \in \mathcal{P} $ e $ B \in \mathcal{L}_0 $ temos que $ B \in \mathcal{L}_A $ e então, $ A\in \mathcal{L}_B $, pois $ B \in \mathcal{L}_A $ se e só se $ A \in \mathcal{L}_B $. Este fato nos diz que $ B \in \mathcal{L}_0 $ implica que $ \mathcal{P} \subset \mathcal{L}_B $. Desde que $ \mathcal{L}_B $ é um $ \lambda $-sistema, obtemos da minimalidade que $ B \in \mathcal{L}_0 $ implica que $ \mathcal{L}_0 \subset \mathcal{L}_B $. Finalmente, temos que se $ B,C \in \mathcal{L}_0 $ concluímos que $ C \in \mathcal{L}_B $ e $ B \cap C \in \mathcal{L}_0 $. Portanto, concluímos que $ \mathcal{L}_0 $ é um $ \pi $-sistema. Portanto, segue o teorema.

Desde que toda álgebra também é um $ \pi $-sistema, a unicidade da extensão é consequência do seguinte teorema.

Teorema 1.5.3.4

Suponha que $ \mathbb{P}_1 $ e $ \mathbb{P}_2 $ sejam probabilidades definidas sobre $ \sigma (\mathcal{P}) $, no qual $ \mathcal{P} $ é um $ \pi $-sistema. Se $ \mathbb{P}_1 (C) = \mathbb{P}_2 (C) $ para todo $ C \in \mathcal{P} $, então obtemos que $ \mathbb{P}_1 = \mathbb{P}_2 $ sobre a $ \sigma $-álgebra $ \sigma(\mathcal{P}) $.

Demonstração

Tomamos $ \mathcal{L} $ a classe de todos os conjuntos $ A $ em $ \sigma(\mathcal{P}) $ tal que $ \mathbb{P}_1(A)=\mathbb{P}_2(A) $. Na sequência, vamos mostrar que $ \mathcal{L} $ é um $ \lambda $-sistema. Obviamente, temos que $ \Omega \in \mathcal{L} $. Se $ A \in \mathcal{L} $, então temos que $ \mathbb{P}_1(A^c)=1-\mathbb{P}_1 (A)=1-\mathbb{P}_2 (A)=\mathbb{P}_2(A^c) $ e então, concluímos que $ A^c \in \mathcal{L} $. Seja $ (A_n) $ uma sequência de conjuntos disjuntos em $ \mathcal{L} $, então

$$\mathbb{P}_1 (\cup_n A_n)=\sum_n \mathbb{P}_1(A_n)= \sum_n \mathbb{P}_2(A_n) = \mathbb{P}_2(\cup_n A_n).$$

Portanto, obtemos que $ \cup_n A_n \in \mathcal{L} $ e consequentemente, a classe de conjuntos $ \mathcal{L} $ é um $ \lambda $-sistema. Desde que $ \mathcal{P} \subset \mathcal{L} $ e $ \mathcal{P} $ é um $ \pi $-sistema, obtemos do teorema 1.5.3 que $ \sigma(\mathcal{P}) \subset \mathcal{L} $. Portanto, segue o teorema.

1.5.4 - Sequências de conjuntos

Dados $ (\Omega, \mathcal{F} , \mathbb{P}) $ um espaço de probabilidade e $ (A_n) $ uma sequência de eventos em $ \mathcal{F} $, vamos estudar o comportamento limite da sequência de eventos e suas relações com o espaço de probabilidade. Tomamos $ (A_n)_{n\geq 1} $ uma sequência de eventos em $ \mathcal{F} $. O limite superior da sequência $ (A_n) $ é definido como

$$\displaystyle \limsup_{n\rightarrow\infty} A_n=\bigcap_{n=1}^{\infty}\bigcup_{k=n}^{\infty}A_k.$$

Da mesma forma, podemos definir limite inferior por:

$$\displaystyle \liminf_{n\rightarrow\infty} A_n=\bigcup_{n=1}^{\infty}\bigcap_{k=n}^{\infty}A_k.$$

Como estes limites são formados por uniões e intersecções enumeráveis de eventos em $ \mathcal{F} $, concluímos que o conjunto limite inferior e o conjunto limite superior também pertencem à $ \sigma $-álgebra $ \mathcal{F} $.

Como consequência da definição, temos que $ \omega\in\limsup_{n\rightarrow\infty} A_n $ se, e só se, para todo $ n $ existe algum $ k \geq n $ tal que $ \omega \in A_k $. Assim, dizemos que $ \omega\in\limsup_{n\rightarrow\infty} A_n $ este pertence a um número infinito de $ A_n $. Da mesma forma, temos que $ \omega\in\liminf_{n\rightarrow\infty} A_n $ se, e só se, existe $ n $ tal que $ \omega \in A_k $ para todo $ k \geq n $. Então, podemos dizer que $ \omega\in\liminf_{n\rightarrow\infty} A_n $ se, só se, $ \omega $ pertence a todos os $ A_n $ exceto um número finito destes.

Temos que $ B_n=\cap_{k=n}^{\infty} A_n $ é uma sequência monótona crescente que converge para o $ \liminf_{n\rightarrow\infty} A_n $. De forma análoga, temos que $ C_n=\cup_{k=n}^{\infty} A_n $ é uma sequência monótona decrescente que converge para $ \limsup_{n\rightarrow\infty} A_n $. Para todo $ m $ e $ n $ temos que $ \cap_{k=m}^{\infty} A_k\subset\cup_{k=n}^{\infty} A_k $, pois para todo $ i \geq \max(m,n) $, o conjunto $ A_i $ contém o conjunto $ \cap_{k=m}^\infty A_k $ e está contido no conjunto $ \cup_{k=n}^\infty A_k $. Ao tomarmos união em $ m $ e intersecção em $ n $, concluímos que o $ \liminf_{n\rightarrow\infty} A_n\subset\limsup_{n\rightarrow\infty} A_n $. Esta conclusão também poderia ser obtida diretamente da interpretação destes conjuntos. Sabemos que $ \omega $ pertence ao conjunto limite inferior se este está em todos os $ A_n $ exceto um número finito e então, $ \omega $ pertence a um número infinito de $ A_n $. Como consequência, temos que $ \omega\in\liminf_{n\rightarrow\infty}A_n $ implica que $ \omega\in\limsup_{n\rightarrow\infty}A_n $. Se os conjuntos limite superior e limite inferior coincidem, dizemos que a sequência de conjuntos $ (A_n) $ tem limite e escrevemos,

$$ \lim_nA_n=\limsup_{n}A_n=\limsup_{n}A_n.$$

Desde que o conjunto limite inferior está contido no conjunto limite superior, para checarmos que uma dada sequência de conjuntos tem limite, basta provarmos que o conjunto limite superior está contido no conjunto limite inferior. Dado uma sequência monótona $ (A_n) $ de eventos em $ \mathcal{F} $ tal que $ A_n\subset A_{n+1} $, obtemos que $ \cup_{n=1}^{\infty}A_n=\lim_{n}A_n $. Da mesma forma, se $ A_{n+1}\subset A_n $ então $ \cap_{n=1}^{\infty}A_n=lim_nA_n $.

Teorema 1.5.4.1

Para toda sequência $ (A_n) $ de eventos em $ \mathcal{F} $, temos que

$$\mathbb{P}\left(\liminf_nA_n\right)\leq\liminf_n\mathbb{P}\left(A_n\right)\leq\limsup_n\mathbb{P}\left(A_n\right)\leq\mathbb{P}\left(\limsup_nA_n\right).$$

Prova: Ao tomarmos $ B_n=\cap_{k=n}^\infty A_k $ e $ C_n=\cup_{k=n}^\infty A_k $, obtemos que as sequência $ (B_n) $ e $ (C_n) $ são monótonas e então

$$\mathbb{P}(A_n)\geq\mathbb{P}(B_n)\rightarrow\mathbb{P}\left(\liminf_nA_n\right)\quad\text{e}\quad\mathbb{P}(A_n)\leq\mathbb{P}(C_n)\rightarrow\mathbb{P}\left(\limsup_nA_n\right).$$

O que prova o teorema.

1.5.5 - Probabilidades Compactas

Um dos principais pontos da teoria de probabilidade é a construção de um espaço de probabilidade que satisfaça os axiomas de Kolmogorov e as propriedades intuívas da probabilidade, conforme apresentado em fundamentos da teoria de probabilidade. Ao construirmos uma estrutura probabilística sobre o espaço de Cantor $ S^\infty $ com a respectiva $ \sigma $-álgebra de Borel $ \mathcal{F} $, obtemos que qualquer probabilidade $ \mathbb{P} $ definida em $ \mathcal{F} $ pode ser aproximada pela probabilidade sobre a classe de conjuntos compactos $ \mathcal{E} $, na forma

$$\mathbb{P}(A) = \sup {(P(C) : C \subset \mathcal{E})}, \quad A \in \mathcal{F}.$$

Qualquer espaço de probabilidade satisfzendo esta propriedade será denominado espaço de probabilidade compacto. No módulo espaço de Radon, mostramos que esta propriedade é fundamental para que um espaço de probabilidade satisfaça as propriedades intuítivas da teoria de probabilidade. A seguir, vamos apresentar a propriedade de compacidade de forma abstrata e mostrarmos como podemos utilizar esta propriedade na construção do espaço de probabilidade.

Definição 1.5.5.1

Uma classe $ \mathcal{C} $ de subconjuntos de $ \Omega $ é denominada compacta se, para toda sequência $ {C_n: \ n\geq1} $ em $ \mathcal{C} $ tal que $ \cap C_n = \varnothing $ existe um $ N\in\mathbb{N} $ tal que

$$\bigcap_{n=1}^NC_n = \varnothing.$$

A denominação de classe compacta vem do fato de que toda classe de subconjuntos compactos em um espaço topológico é compacta no sentido da definição acima. A seguir, mostrarmos que a propriedade de compacidade é fechada por intersecção enumerável e união finita.

Lema 1.5.5.1

Se a classe $ \mathcal{C} $ de subconjuntos de $ \Omega $ é compacta, o mesmo é válido para a classe $ \mathcal{C}^{\prime} $, fechada por interseção enumerável e união finita, que é gerada por $ \mathcal{C} $.

Demonstração: De fato, considere

$$\mathcal{C_s} = {(A\in\Omega: A = \bigcup_{i = 1}^nA_i, \ A_i\in\mathcal{C} \ \text{e} \ n\in\mathbb{N})}.$$

A classe $ \mathcal{C}_s $ é composta por uniões finitas de elementos de $ \mathcal{C} $. Vamos mostrar que $ \mathcal{C}_s $ é uma classe compacta. Para isto, seja $ {D_n: \ n\geq 1} $ uma sequência em $ \mathcal{C}_s $, tal que

$$\bigcap_{i=1}^pD_i\neq\varnothing$$

para todo $ p \ > \ 0 $. Para mostrarmos que $ \mathcal{C}_s $ é uma classe compacta, basta estabelecermos que

$$\bigcap_{i=1}^{\infty}D_i\neq\varnothing.$$

Por definição, temos que

$$D_n = \bigcup_{m=1}^{M_n}C^m_n$$

em que $ C^m_n\in\mathcal{C} $ para todo $ 1\leq m\leq M_n $ com $ M_n\in\mathbb{N} $ e $ n\in\mathbb{N} $. Denotamos por

$$J = \prod_{n=1}^\infty(1,\ldots,M_n)$$

o conjunto de todas as sequências $ ({m_n: \ n\geq 1}) $ de inteiros positivos tal que $ 1\leq m_n\leq M_n $. Considere $ J_p $ os subconjuntos de $ J $ que consistem das sequências $ (m_n) $ tais que

$$\bigcap_{n=1}^pC^{m_n}_n\neq \varnothing.$$

A fórmula distributiva

$$\varnothing \neq \bigcap_{n=1}^pD_n = \bigcap_{n=1}^p\left[\bigcup_{m=1}^{M_n}C^m_n\right] = \bigcup_J\left[\bigcap_{n=1}^pC^{m_n}_n\right]$$

o que nos mostra que $ J_p\neq\varnothing $ para todo $ p \ > \ 0 $. Além disso, a sequência de conjuntos $ J_p $ é decrescente. Então, basta mostrarmos que existe uma sequência $ (m_n^{\star})\in\bigcap_{p\in\mathbb{N}}J_p $, pois

$$\bigcap_{n=1}^pC^{m_n^{\star}}_n\neq\varnothing; \ \forall \ p$$

e $ \mathcal{C} $ é uma classe compacta. Então temos que

$$\bigcap_{n=1}^{\infty}C_n^{m_n^{\star}} \neq \varnothing.$$

Como

$$\varnothing\neq \bigcap_{n=1}^{\infty}C_n^{m_n^{\star}} \subset\bigcap_{n=1}^{\infty}D_n$$

temos que $ \mathcal{C_s} $ é uma classe compacta. Entretanto, precisamos mostrar a existência da sequência $ (m_n^{\star})\in\bigcap_{p}J_p $. Para isto, vamos utilizar o Teorema de Tychonoff. Considere os fatores $ (1,\ldots,M_n) $ com a topologia discreta e $ J $ com a topologia produto. Então, os subconjuntos $ J_p $ formam uma sequência decrescente de conjuntos não vazios e fechados e, como $ J $ é compacto (Teorema de Tychonoff), temos que

$$\bigcap_{p}J_p\neq\varnothing.$$

Como $ \mathcal{C}_s $ é uma classe compacta, se tomarmos $ \mathcal{C}^{\prime} $, a classe formada por interseções enumeráveis de elementos de $ \mathcal{C}_s $, obtemos que $ \mathcal{C}^{\prime} $ é uma classe compacta.

Então, utilizando o Lema 1.5.5.1, apresentamos um resultado sobre construção de probabilidades que foi obtido por Alexandrov (1941) e na forma abstrata por Marczewski (1954), Neveu (1965) e Meyer (1966).

Proposição 1.5.5.1

Seja $ \mathcal{A} $ uma álgebra ou uma semi-álgebra de subconjuntos de $ \Omega $ e $ \mathcal{C} $ uma classe compacta contida em $ \mathcal{A} $. Toda função de conjunto aditiva $ \mathbb{P}:\mathcal{A}\rightarrow [0,1] $ tal que $ \mathbb{P}(\Omega) = 1 $ e com a propriedade de aproximação

$$\mathbb{P}(A) = \sup(\mathbb{P}(C); \ C\subset A, C\in\mathcal{C}) \qquad\qquad\qquad (\star)$$

para todo $ A\in\mathcal{A} $ é, necessariamente, $ \sigma $-aditiva. Além disso, a função de conjunto $ \mathbb{P} $ pode ser estendida (de forma única) a uma probabilidade sobre a $ \sigma $-álgebra gerada por $ \mathcal{A} $ ($ \mathcal{F} = \sigma(\mathcal{A}) $), para todo $ A\in\mathcal{F} $ e satisfazendo a condição ($ \star $).

Demonstração

Primeiro, vamos considerar que $ \mathcal{A} $ é uma álgebra. Parar mostrarmos que $ \mathbb{P} $ é $ \sigma $-aditiva sobre a álgebra $ \mathcal{A} $, basta estabelecermos a propriedade de continuidade monótona: se $ A_n\downarrow\varnothing $ em $ \mathcal{A} $, então $ \mathbb{P}(A_n)\downarrow 0 $. Assim, considere $ A_n\downarrow\varnothing $ em $ \mathcal{A} $, utilizando a propriedade de aproximação, para todo $ \varepsilon \ > \ 0 $, existe $ C_n\in\mathcal{C} $ com $ C_n\in\mathcal{A}_n $, tal que

$$\mathbb{P}(A_n) \leq \mathbb{P}(C_n) + \varepsilon 2^{-n}; \ n\geq 1.$$

Como

$$\bigcap_{n=1}^{\infty}C_n\subset\bigcap_{j=1}^{\infty}A_n=\varnothing$$

segue da propriedade de compacidade de $ \mathcal{C} $, que existe $ N\in\mathbb{N} $, tal que

$$\bigcap_{n=1}^NC_n = \varnothing.$$

Agora, tomando

$$A_N = \bigcap_{n=1}^{N}A_n \subset \bigcup_{n=1}^N(A_n-C_n)$$

segue da aditividade de $ \mathbb{P} $, que

$$\mathbb{P}(A_N) \leq \mathbb{P}\left[\bigcup_{n=1}^N(A_n-C_n)\right]\leq\sum_{n=1}^N\left[\mathbb{P}(A_n) - \mathbb{P}(C_n)\right) \ < \ \varepsilon.$$

Fazendo $ \varepsilon \downarrow 0 $, obtemos que $ \mathbb{P}(A_n)\downarrow 0 $. Na sequência, vamos mostrar que o resultado sendo válido para uma álgebra, permanece válido para uma semi-álgebra. Considere $ R $ uma semi-álgebra cujas hipóteses da proposição são válidas. Pelo Lema 1.5.5.1, a classe $ \mathcal{C}_s $ (união finita de elementos de $ \mathcal{C} $) é compacta e está contida em $ \mathcal{A} $, a álgebra gerada pela semi-álgebra $ R $. Os elementos da álgebra $ \mathcal{A} $ tem a forma

$$A = \bigcup_{i=1}^nA_i \ A\in\mathcal{A}$$

em que $ A_1,\ldots,A_n $ são disjuntos (2 a 2) e pertencem a semi-álgebra $ R $. Escolhendo $ C_i\in\mathcal{C} $ com $ C_i\subset A_i $ e

$$\mathbb{P}(A_i)\leq \mathbb{P}(C_i)+\frac{\varepsilon}{n}; \ i = 1,\ldots,n$$

segue da aditividade de $ \mathbb{P} $, que

Screenshot_32

em que $ \mathbb{P}^{\prime} $ é a extensão de $ \mathbb{P} $ para $ \mathcal{A} $. Como

$$\bigcup_{i=1}^nC_i\in\mathcal{C}_s$$

concluímos que a álgebra $ \mathcal{A} $, a classe compacta $ \mathcal{C}_s $ e a função de conjunto $ \mathbb{P}^{\prime} $ satisfazem as hipóteses da proposição. Portanto, $ \mathbb{P}^{\prime} $ é $ \sigma $-aditiva sobre a álgebra.

A extensão da função de conjuntos a uma probabilidade sobre $ \mathcal{F} $ é consequência do teorema de extensão de Caratheodory. Para mostrarmos que é válido o procedimento de aproximação de $ \mathbb{P} $ sobre a $ \sigma $-álgebra $ \mathcal{F} $ através da classe compacta, basta utilizarmos o teorema da classe monótona. Tomando por $ \mathcal{M} $ a classe de todos os conjuntos $ A\in\mathcal{F} $ satisfazendo

$$\mathbb{P}(A) = \sup{(\mathbb{P}(C): \ C\subset A, \ C\in\mathcal{C}})$$

obtemos que $ \mathcal{M} $ é uma classe monótona que contém $ \mathcal{A} $. Portanto, segue do teorema da classe monótona que $ \mathcal{F} = \mathcal{M} $.

Com isso, mesmo trabalhando em espaços mensuráveis abstratos, estabelecemos uma forma para a construção de probabilidade que será utilizada para estabelecermos o produto qualquer de probabilidades. Para aplicarmos o método acima, utilizaremos o conceito de probabilidades compactas introduzido por Marczewski (1954).

Definição 1.5.5.2

Sejam $ (\Omega,\mathcal{F},\mathbb{P}) $ um espaço de probabilidade e $ \mathcal{C} $ uma classe compacta composta por elementos de $ \mathcal{F} $. Dizemos que a probabilidade $ \mathbb{P} $ é compacta (com respeito a $ \mathcal{C} $) se

$$\mathbb{P}(A) = \sup{(\mathbb{P}(C): \ C\subset A, C\in\mathcal{C})}$$

para todo $ A\in\mathcal{F} $.

1.5.6 - Teorema da Classe Monótona

Screenshot_33

Screenshot_34

Screenshot_35

Screenshot_36

Screenshot_37

Screenshot_38

Screenshot_39

1.5.7 - Isomorfismo

$ F_i $

(conteúdo em falta)

August 26, 2025: new changes (42d3c89a)