12. Processo Estocástico

Processo estocástico é uma coleção de variáveis aleatórias que, em geral, são utilizadas para estudar a evolução de fenômenos (ou sistemas) que são observados ao longo do tempo. Assim, ao invés de descrevermos o sistema através de equações determinísticas (como, equações diferenciais ordinárias), que dado uma condição inicial, conhecemos toda a evolução do sistema, vamos utilizar processos estocásticos, para o qual, dado uma condição inicial, ainda temos diversas trajetórias possíveis para a evolução do sistema.

1 - Base Estocástica

O processo estocástico é uma coleção de variáveis aleatórias que descreve a evolução de um sistema ao longo do tempo. Assim, a evolução da informação acumulada ao longo do tempo é fundamental para estudarmos o comportamento do sistema. Esta evolução da informação é definida através de uma coleção encaixante de $ \sigma $-álgebras, denominada filtragem. O conceito de filtragem foi introduzido por Doob e corresponde a uma das principais ferramentas para estudarmos processos estocásticos

Dado um espaço de probabilidade $ (\Omega , \mathcal{F} , \mathbb{P}) $, uma filtragem é uma coleção de sub-$ \sigma $-álgebras$ ( \mathcal{F_t} : t \geq 0 ) $ de $ \mathcal{F} $ tal que $ \mathcal{F_s} \subset \mathcal{F_t} $ para $ s \leq t $. Podemos interpretar $ \mathcal{F_t} $ como a $ \sigma $-álgebra dos eventos que ocorrerarm até o tempo $ t $ e a filtragem $(\mathcal{F_t} : t \geq 0)$ como a coleção de $ \sigma $-álgebras que representam a evolução da informação do sistema.

Definição 1.1

Screenshot_1

Dado uma filtragem $ \mathbb{F} $ associamos as seguintes filtragens:

$$\mathcal{F_{t^+}}=\displaystyle \bigcap_{s> t}\mathcal{F_s},$$

para todo $ t \geq 0 $ e

$$\mathcal{F_{t^-}}=\sigma( \displaystyle \bigcup_{s< t}\mathcal{F_s})=\bigvee_{s\leq t} \mathcal{F_s},$$

para todo $ t> 0 $. Para $ t=0 $ utilizamos $ \mathcal{F_{0^-}}=\mathcal{F_0} $.

Definição 1.2

Dizemos que uma filtragem $ \mathbb{F} $ é contínua a direita se $ \mathcal{F_t}=\mathcal{F_{t^+}}, $ para todo $ t \geq 0 $. Para facilitar a notação tomamos $ \mathcal{F_{\infty}}=\mathcal{F} $ e ainda

$$\displaystyle \mathcal{F_{\infty^-}}=\bigvee_{s\in\mathbb{R_{+}}}\mathcal{F_s}.$$

Lembrando que o símbolo $ \bigvee $ significa que é a $ \sigma $-álgebra gerada pela união das $ \mathcal{F_s} $, pois união de $ \sigma $-álgebra nem sempre é $ \sigma $-álgebra. A base estocástica $ \mathfrak{B}=(\Omega,\mathcal{F},\mathbb{F},\mathbb{P}) $ é chamada também de espaço de probabilidade filtrado.

Definição 1.3

Dizemos que uma base estocástica $ \mathfrak{B}=(\Omega,\mathcal{F},\mathbb{F},\mathbb{P}) $ satisfaz as hipóteses usuais da teoria geral de processos estocásticos se:

(i) O espaço $ (\Omega,\mathcal{F},\mathbb{P}) $ é completo.

(ii) $ \mathbb{F} $ é $ \mathbb{P} $-completada, isto é, $ \mathcal{F_0} $ contém todos os conjuntos $ \mathbb{P} $-nulos da $ \sigma $-álgebra $ \mathcal{F} $. Neste caso, temos que todo conjunto $ F $ que pertence ao $ \mathbb{P} $ completamento de $ \mathcal{F} $ com $ \mathbb{P}(F)=0 $ também pertence a $ \mathcal{F_t} $ para todo $ t \geq 0 $.;

(iii) A filtragem $ \mathcal{F} $ é contínua à direita.

1.1 - Tempos de Parada

Considere $ T $ uma variável aleatória que pode ser interpretada como o tempo de ocorrência de um fenômeno que depende “casualmente” da evolução do sistema. Aqui, casualidade significa que, para cada tempo $ t \geq 0 $, a resposta à questão: o fenômeno já ocorreu? depende somente da informação acumulada sobre o sistema até o tempo $ t \geq 0 $. Assim, o conjunto $ ( T \leq t ) $ deve ser um elemento da $ \sigma $-álgebra $ \mathcal{F_t} $. Seja $ \mathfrak{B}=(\Omega,\mathcal{F},\mathbb{F},\mathbb{P}) $ a base estocástica que carrega toda a informação acumulada sobre o sistema ao longo do tempo.

Definição 1.1.1

Seja $ T $ uma variável aleatória, tal que $T:\Omega \rightarrow \overline{\mathbb{R_+}}$, com $ \overline{\mathbb{R}}_+=[0,\infty] $, a parte dos positivos da reta estendida (incluindo o $ \infty $). Então dizemos que $ T $ é um $ \mathbb{F} $-tempo de parada se, e somente se,

$$(T\leq t)\in \mathcal{F_t}, \quad t \geq 0.$$

Observação

Note que $ T $ é um tempo de parada segundo alguma filtragem, ou seja, se mudarmos a filtragem pode ser que ele deixe de ser um tempo de parada. Além disso, usamos frequentemente o termo tempo de parada ao invés de $ \mathbb{F} $-tempo de parada, quando não houver dúvidas em relação a qual filtragem estamos nos referindo, ressaltamos também que $(T\leq t)=(\omega\in \Omega:T(\omega)\leq t)$

Proposição 1.1.1

Algumas propriedades de tempos de parada.

i) Se $ T $ é um tempo de parada com respeito à filtragem $ \mathbb{F} $, então $ (T< t)\in \mathcal{F_t} $ para todo $ t\geq 0 $

ii) Se $ T(\omega)=a, ~\forall \omega \in \Omega $, para qualquer constante $ a\in \overline{\mathbb{R}}_+ $. Então, $ T $ é um tempo de parada.

iii) Se $ T $ é um tempo de parada e $ a\in \overline{\mathbb{R}}_+ $ uma constante, então T+a também é um tempo de parada.

iv) Se $ T $ e $ S $ são tempos de parada sobre a mesma filtragem, então $ S+T $ também é um tempo de parada.

v) Se $ T $ e $ S $ são tempos de parada com respeito a mesma filtragem, então $ \min(S,T) $ e $ \max(S,T) $ também são tempos de parada.

vi) Se $ T $ é um tempo de parada e $ a\in \overline{\mathbb{R}}_+ $ uma constante, então $ \min(T,a) $ é um $ \mathcal{F}_a $- tempo de parada.

Demonstração

i) Note que $ (T< t)\in \mathcal{F_t} $, é equivalente a $ (T\leq t-1/n)\in \mathcal{F_t} $.

De fato, note que $ (T\leq t-1/n)\in \mathcal{F_{t-1/n}}\subset\mathcal{F_{t}} $ e portanto

$$(T< t )=\displaystyle \bigcup_{n\geq 1}(T\leq t-1/n)\in \mathcal{F_t},$$

para todo $ t \geq 0 $. Observe que entretanto $ (T< t)\in \mathcal{F_t} $ não implica $ (T\leq t)\in \mathcal{F_t} $, a menos que a filtragem seja contínua a direita. Neste caso, as definições são equivalentes.

ii) De fato, note que se $ T(\omega)=a, \forall \omega \in \Omega $ então para $ t< a $ temos que

$$(T\leq t)=\emptyset \in \mathcal{F_t}, \forall t< a,$$

pois $ \mathcal{F_t} $ é $ \sigma $-álgebra. Agora se $ t\geq a $ então

$$(T\leq t)=\Omega \in \mathcal{F_t},$$

para todo $ t \geq 0 $. Portanto $ T $ é um tempo parada.

iii) Temos que $ T $ é um tempo de parada logo, $ (T\leq k)\in \mathcal{F}_k $. Vamos mostrar que $ S=T+t $ também é um tempo de parada, ou seja, $ (S\leq k)\in\mathcal{F}_k $. Basta notar que se $ k< t $ então

$$(S\leq k)=\emptyset\Rightarrow (S\leq k)\in \mathcal{F}_k,~~\forall k< t.$$

Agora suponha que $ k\geq t $, então temos que

$$(S\leq k)=(T+t\leq k)=(T\leq k-t)\in\mathcal{F}_{k-t}\Rightarrow(S\leq k)\in \mathcal{F}_k,$$

pois $ \mathcal{F}_{k-t}\subset \mathcal{F}_k,~~\forall k\geq t. $ E o resultado segue.

iv) Seja $ t> 0 $, então

$$(T+S> t)=(T=0, S> t)\cup (0< T< t, T+S> t)\cup (T> t, S=0 )\cup(T\geq t, S > 0).$$

Como da um desses eventos pertence a $ \sigma $-álgebra $ \mathcal{F_t} $, então temos que a união também pertence e portanto $ S $ é tempo de parada e o resultado segue.

v) Note que, $ (\max(T,S)\leq t)=(S\leq t)\cap(T\leq t) $ e como $ (S\leq t)\in\mathcal{F_t} $ e $ (S\leq t)\in\mathcal{F_t} $, pois são tempos de parada e como $ \mathcal{F_t} $ é $ \sigma $-álgebra temos que

$$(\max(T,S)\leq t)=(S\leq t)\cap(T\leq t)\in \mathcal{F_t},$$

para todo $ t \geq 0 $. Para o mínimo basta observar que $ (\min(T,S)\leq t)=(S\leq t)\cup(T\leq t) $ e o resultado segue de forma análoga.

vi) De fato, basta notar que se $ t\leq a $ temos que

$$(\min(T,a)\leq t)=(T\leq t)\in\mathcal{F_t}\subset\mathcal{F}_a.$$

Por outro lado, se $ t\geq a $ então:

$$(\min(T,a)\leq t)=\Omega \in \mathcal{F}_a.$$

Portanto o resultado segue.

Teorema 1.1.1

Seja $ (T_n,n\geq 1) $ uma familia de $ \mathbb{F} $ tempos de parada. Então $ \sup_{n}T_n $ é um $ \mathbb{F} $ tempo de parada, e ainda $ \inf_n T_n $ é um $ (\mathcal{F}_{t+}) $ tempo de parada.

Demonstração

De fato, basta notar que

$$\displaystyle (\sup_{n}T_n \leq t)=\bigcap_n (T_n\leq t)\in\mathcal{F_t}$$

$$\displaystyle (\inf_{n}T_n \leq t)=\bigcup_{m\leq 1}\bigcap_{n\geq 1}(T_n< t+\frac{1}{m})\in\bigcap_{m\leq 1}\mathcal{F}_{t+\frac{1}{m}}=\mathcal{F}_{t+}$$

Observação

Em particular podemos notar que se $ \mathcal{F_t} $ é contínua a direita, então o $ \limsup T_n $ e $ \liminf T_n $ e o $ \lim T_n $ (caso existe) são $ \mathbb{F} $ tempos de parada.

Exemplo 1.1.1

Se $X: \Omega \times [0,\infty) \rightarrow \mathbb{R}$ é um processo estocástico com trajetórias contínuas à direita (ou contínuas à esquerda) e $ \mathbb{F} $ uma filtragem contínua à direita. Também admitimos que $ X(t) $ é $ \mathcal{F_t} $-mensurável para todo $ t \geq 0 $. Neste caso, dizemos que $ X $ é adaptado à filtragem $ \mathbb{F} $. Definimos $ T $ por:

5e543d2574b506d34e3147870c1d4cf6a1f5abd0

Então $ T $ é um tempo de parada.

Demonstração

Temos que $ (T> t)=(X(s)< c ~\forall s\in [0,t]) $. Como $ X $ é contínuo à direita (ou contínuo à esquerda) obtemos que:

$$\bigcap_{s \in [0,t]}~\displaystyle (X(s)< c)=\bigcup_{n=1}^{\infty}\bigcap_{k=0}^{2^n}(X(kt/2^n)< c)\in \mathcal{F_t},$$

para todo $ t \geq 0 $. Portanto o resultado segue.

$ \Box $

Considere $ (\Omega, \mathcal{F}, \mathbb{P}) $ um espaço de probabilidade, $ \mathbb{F} $ uma filtragem e $ T $ um tempo de parada. Na sequência, vamos definir a $ \sigma $-álgebra $ \mathcal{F_t} $ que representa as informações até o tempo $ T $.

Definição 1.1.2

i) Se $ T $ é um tempo de parada denotamos por $\mathcal{F_t}=(A\in \mathcal{F}:A\cap {T\leq t}\in\mathcal{F_t}, \forall t\in\mathbb{R_+})$.

ii) Se $ T $ é um tempo de parada denotamos por $ \mathcal{F_{T^-}} $ a $ \sigma $-álgebra gerada por $ \mathcal{F_0} $ e todos os conjuntos da forma $ A\cap (t< T) $, com $ A \in \mathcal{F_t} $ e $ t \geq 0 $.

A $ \sigma $-álgebra $ \mathcal{F_{T^-}} $ representas os eventos anteriores ao tempo de parada $ T $. Observe que $ \mathcal{F_{T^-}} $ também é a $ \sigma $-álgebra gerada pela seguinte família de subconjuntos de $ \mathcal{F} $,

$$(F \cap {t \leq T}: F \in \mathcal{F_{t^-}}, t \geq 0).$$

Note que a definição (i) acima apresenta algumas sutilezas, como por exemplo, será que de fato, $ \mathcal{F_t} $ é uma $ \sigma $-álgebra. Além disso, se tomarmos $ T=t $ para alguma constante $ t \geq 0 $, devemos obter que $ \mathcal{F_t}=\mathcal{F_t} $.

Proposição 1.1.2

A definição 1.1.2 (i) está bem definida.

Demonstração

Primeiramente mostremos que $ \mathcal{F_t} $ é de fato uma $ \sigma $-álgebra. De fato, $ \emptyset\in \mathcal{F_t} $, pois $ \emptyset \cap(T\leq t)=\emptyset \in \mathcal{F_t}, \forall t \in \mathbb{R_+} $. Mostremos que se $ A\in \mathcal{F_t} $ então $ A^c \in \mathcal{F_t} $. De fato, se

$$A\in \mathcal{F_t}\Rightarrow A\cap (T\leq t)\in \mathcal{F_t},\forall t \in \mathcal{R}_+.$$

Mas isso implica que $ (A\cap(T\leq t))^c\in \mathcal{F_t}, \forall t \in \mathbb{R_+} $, pois $ \mathcal{F_t} $ é $ \sigma $-álgebra. Além disso, como

$$(T\leq t)\in \mathcal{F_t}, \forall t\in \mathbb{R_+},$$

obtemos que

$$(A\cap(T\leq t))^c\cap (T\leq t)=A^c\cap(T\leq t)\in \mathcal{F_t}, \forall t\in \mathbb{R_+}.$$

Portanto temos que $ A^c\in \mathcal{F_t}. $

A seguir, tomamos $ A_1,A_2,\cdots \in \mathcal{F_t} $ uma sequência de conjuntos disjuntos, mostremos que $ \displaystyle \bigcup_{i=1}^{\infty}A_i\in \mathcal{F_t} $. De fato, basta notar que $ A_i\cap (T\leq t)\in \mathcal{F_t},\forall t\in \mathbb{R_+} ~e~ \forall i\in \mathbb{N}. $ Assim, obtemos que

$$\displaystyle \left(\bigcup_{i=1}^{\infty}A_i\right)\cap(T\leq t)=\bigcup_{i=1}^{\infty}\left(A_i\cap(T\leq t)\right)\Rightarrow \bigcup_{i=1}^{\infty}A_i\in \mathcal{F_t}.$$

Como consequência, obtemos que $ \mathcal{F_t} $ é uma $ \sigma $-álgebra.

Agora mostremos que se $ T=t $ para alguma constante $ t \geq 0 $, então $ \mathcal{F_t}=\mathcal{F_t} $. Na realidade, basta notarmos que se $ k< t $, então o conjunto $ (T\leq k)=\emptyset $ e se $ k\geq t $, então o conjunto $ (T\leq k)=\Omega $. Assim, obtemos que

$$A\cap\emptyset=\emptyset\in \mathcal{F}_k,\forall k< t$$

e

$$A\cap \Omega=A\in \mathcal{F}_k, \forall k\geq t \Leftrightarrow A\in\mathcal{F_t}.$$

Como consequência, concluímos que $ \mathcal{F_t}=\mathcal{F_t} $, e portanto não existe ambiguidade na notação.

$ \Box $

Teorema 1.1.2

Se $ T $ é um $ \mathbb{F}=(\mathcal{F_t}: t \geq 0) $ tempo de parada, então $ \mathcal{F_{T-}}\subset \mathcal{F_t} $ e T é $ \mathcal{F_{T-}} $-mensurável e portanto $ \mathcal{F_t} $-mensurável

Demonstração

Para mostramos que $ \mathcal{F_{T-}}\subset \mathcal{F_t} $, basta mostramos que o geradores de $ \mathcal{F_{T-}} $ pertencem a $ \mathcal{F_t} $. De fato, note que

$$\mathcal{F_0}\subset \mathcal{F_t}$$

para todo $ t \geq 0 $ e, ainda que

$$A_s \cap(s< T)\cap(T\leq t)=A_s\cap(s< T\leq t )\in \mathcal{F_t},~ \forall s,t\in [0,\infty)$$

com $ A_s\in\mathcal{F_s} $. Com isso concluimos que $ \mathcal{F_{T-}}\subset \mathcal{F_t} $. Agora para mostrar que T é $ \mathcal{F_{T-}} $-mensurável basta mostar que $ (T> a)\in\mathcal{F_{T-}}, ~\forall a \geq 0 $ e que $ (T=0)\in\mathcal{F_{T-}} $, o que de fato ocorre por que esses conjuntos são alguns dos geradores de $ \mathcal{F_{T-}} $.

$ \Box $

Teorema 1.1.3

Seja $ T $ um $\mathbb{F}=(\mathcal{F_t}:t\geq 0)$ tempo de parada e $S:\Omega\rightarrow [0,\infty]$ uma variável aleatória $ \mathcal{F_t} $-mensurável tal que $ S\geq T $, então S é um tempo de parada.

Demonstração

De fato, basta notar que

$$(S\leq t)=(S\leq t)\cap(T\leq t)\cup (S\leq t )\cap(T> t)$$

Entretanto como $ S\geq T $ temos que $ (S\leq t )\cap(T> t)=\emptyset $. Além disso, como $ S $ é $ \mathcal{F_t} $-mensurável, temos que $ (S\leq t)\in \mathcal{F_t} $ e portanto por definição temos que $ (S\leq t )\cap(T\leq t)\in \mathcal{F_t} $

$ \Box $

Uma consequência do teorema 1.1.3: acima é o corolário abaixo

Corolário 1.1.1

Qualquer tempo de parada pode ser aproximado por uma sequência decrescente $ (S_n,n\geq 1) $ de $\mathbb{F}=(\mathcal{F_t}:t \geq 0)$ tempos de parada assumindo um número enumerável de valores.

Demonstração

Basta tomarmos

150bb318440e8164e904ef3e2d667baf797f8a12

$ \Box $

Teorema 1.1.4

Sejam $ S $ e $ T $ dois $\mathbb{F}=(\mathcal{F_t}: t \geq 0)$ tempos de parada. Para todo $ A\in \mathcal{F_s} $ temos que $ A\cap(S\leq T)\in \mathcal{F_t} $ e $ A\cap (S< T)\in \mathcal{F_{T-}} $.

Demonstração

Para todo $ t\geq 0 $,

$$A\cap (S\leq T)\cap (T\leq t)=A\cap (S\leq t)\cap (T\leq t )\cap(\min{(S, t)}\leq \min{(T,t)})$$

Agora $ (\min{(S, t)}\leq \min{(T,t)})\in\mathcal{F_t} $, desde que $ \min{(S, t)} $ e $ \min{(T,t)} $ são $ \mathcal{F_t} $-mensurável, além disso $ A\cap (S\leq t)\in \mathcal{F_t} $, pois $ A\in\mathcal{F_s}\subset\mathcal{F_t} $ e claro como $ (T\leq t) $ é tempo de parada temos que $ (T\leq t)\in\mathcal{F_t} $, desta forma temos que $ A\cap (S\leq T)\cap (T\leq t)\in \mathcal{F_t}, ~\forall t\geq 0 $. Portanto concluímos que $ A\cap(S\leq T)\in \mathcal{F_t} $.

A segunda implicação deve-se ao fato de

$$A\cap (S< T)=\displaystyle \bigcup_{r\in \mathbb{Q}}A\cap (S\leq r)\cap(r\leq T)\in\mathcal{F_{T-}}$$

pois $ A\cap (S\leq r)\in \mathcal{F_{r}} $ e portanto $ A\cap (S\leq r)\cap(r\leq T) $ é um gerador de $ \mathcal{F_{T-}} $.

$ \Box $

Teorema 1.1.5

Sejam $ S $ e $ T $ dois $\mathbb{F}=(\mathcal{F_t}:t\geq 0)$ tempos de parada tal que $ S\leq T $. Então $ \mathcal{F_s}\subset\mathcal{F_t} $ e $ \mathcal{F_{S-}}\subset\mathcal{F_{T-}} $

Demonstração

Para concluirmos esse teorema, basta observarmos que $ A\cap(S\leq T)\in\mathcal{F_s} $, para todo $ A\in \mathcal{F_s} $, por que $ (S\leq T)=\Omega $, logo $ \mathcal{F_s}\subset \mathcal{F_t} $. Agora $ \mathcal{F_{S-}}\subset\mathcal{F_{T-}} $, pois todos os geradores de $ \mathcal{F_{S-}} $ também são geradores de $ \mathcal{F_{T-}} $, pois se $ A\in\mathcal{F_t} $

$$A\cap(t< S)=A\cap(t< S)\cap(t< T)=B\cap(t< T)$$

com $ B\in\mathcal{F_t} $. Portanto o resultado segue.

$ \Box $

Teorema 1.1.6

Seja $ (T_n,n\geq 1) $ uma sequência monótona de $\mathbb{F}=(\mathcal{F_t}:t\geq 0)$ tempos de parada, no qual $ \mathbb{F} $ contínua a direita. Então

i) Se $ (T_n, n\geq 1) $ é descrescente $ \mathcal{F_t}=\displaystyle \bigcap_{n\geq 1}\mathcal{F_{T_n}} $

ii) Se $ (T_n, n\geq 1) $ é crescente $ \mathcal{F_{T-}}=\displaystyle \bigvee_{n\geq 1}\mathcal{F_{T_n-}} $

Demonstração

Primeiramente note que $ T=\displaystyle \lim_n T_n $ é um tempo de parada, como demonstrado no teorema 1.1.1.

i) Pelo teorema 1.1.5 temos que $ \mathcal{F_t}\subset\mathcal{F_{T_n}},~\forall n\geq 1 $, portanto $ \mathcal{F_t}\subset\displaystyle \bigcap_{n\geq 1}\mathcal{F_{T_n}} $.

Inversamente seja $ A\in\mathcal{F_{T_n}}~\forall n\geq 1 $, logo para todo n temos que

$$A\cap (T_n< t)\in \mathcal{F_t}, ~\forall t\geq 0$$

Portanto temos que $ A\cap (T< t)\in \mathcal{F_t}, ~\forall t\geq 0 $, como $ \mathcal{F_t} $ é uma filtragem contínua a direita, temos que $ A\cap (T\leq t)\in \mathcal{F_t}, ~\forall t\geq 0 $, o que implica que $ A\in \mathcal{F_t} $.

ii) Pelo teorema 1.1.5 temos que $ \mathcal{F_{T_n-}}\subset \mathcal{F_{T-}},~\forall n\geq 1 $ e portanto

$$\displaystyle \bigvee_{n\geq 1}\mathcal{F_{T_n-}}\subset\mathcal{F_{T-}}$$

Inversamente seja $ A_s \cap (s< T) $ um gerador de $ \mathcal{F_{T-}} $, com $ A_s \in \mathcal{F_s} $. Note que $ A_s \cap(s< T) $, também está contido em $ \displaystyle \bigvee_{n\geq 1}\mathcal{F_{T_n-}} $, pois $ A_s \cap (s< T)=\displaystyle \lim_n A_s \cap(s< T_n) $. E portanto o resultado segue.

$ \Box $

Proposição 1.1.3

Se $ A\in\mathcal{F_t} $, então

36eb93da1fdcd2c66c2bb18265e2b5d97997953e

é um $ \mathbb{F} $-tempo de parada.

Demonstração

Vamos mostrar que $ (T_A\leq t)\in \mathcal{F_t} $. Basta notar que se $ A\in\mathcal{F_t} $, então $ A\cap(T\leq t)\in \mathcal{F_t}, ~ \forall t $. Assim temos que

$$(T_A\leq t)=A\cap(T\leq t)\in \mathcal{F_t},\forall t.$$

Portanto o resultado segue.

$ \Box $

Teorema 1.1.7

Se $ T $ é um $ \mathcal{F_t} $ tempo de parada e $ A\in\mathcal{F_\infty}=\mathcal{F}=\displaystyle \bigvee_{t\geq 0}\mathcal{F_t} $ o evento $ A\cap(T=\infty)\in \mathcal{F_{T-}} $

Demonstração

Primeiramente defina $G=(B\in\mathcal{F}:B\cap{T=\infty}\in \mathcal{F_{T-}})$, note que $ G $ é $ \sigma $-álgebra. De fato,

$ \emptyset \in G $, pois $ \emptyset\cap(T=\infty)=\emptyset\in\mathcal{F_{T-}} $. Da mesma forma temos que

$ \Omega \cap (T=\infty)=(T=\infty)\in \mathcal{F_{T-}} $. Além disso, se $ A_0,A_1,A_2,\cdots \in G $ então

$ A_i\cap(T=\infty)\in \mathcal{F_{T-}},~\forall i\geq 0 $. Assim, como $ \mathcal{F_{T-}} $ é $ \sigma $-álgebra, obtemos que $ \bigcap_{n\geq 0}A_n(T=\infty)\in\mathcal{F_{T-}} $ e portanto $ \bigcap_{n\geq 0}A_n $, logo $ G $ é $ \sigma $-álgebra.

Assim precisamos mostrar que $ \mathcal{F_n}\subset G, \forall \mathcal{F_n} $,e, como consequência $ \mathcal{F_\infty}\subset G $ e o resultado segue.

Então seja $ A\in\mathcal{F_n} $. Temos que $ A\cap(T=\infty)=\displaystyle \bigcap_{m\geq n}(A\cap(m< T))\in \mathcal{F_{T-}} $, pois $ A\cap(m< T) $ é um gerador de $ \mathcal{F_{T-}} $, sempre que $ m\geq n $. Finalizando a prova.

$ \Box $

Teorema 1.1.8

Sejam $ S $ e $ T $ dois $\mathbb{F}=(\mathcal{F_t}:t\geq 0)$ tempos de parada satisfazendo $ S\leq T $. Se além disso, $ S< T $ quando $ (0< T< \infty) $, então $ \mathcal{F_s}\subset \mathcal{F_{T-}} $

Demonstração

Para todo $ A\in \mathcal{F_s} $, podemos escrever o conjunto $ A $ da seguinte forma, $ (A\cap(S=0))\cup(S< T)\cup(A\cap(T=\infty)) $.

Mas note que $ A\cap (S=0)\in \mathcal{F_0} $, pela definição de $ \mathcal{F_s} $ e ainda temos que $ (S< T)\in \mathcal{T-} $ pelo Teorema 1.1.4. e por fim temos que $ A\cap(T=\infty)\in \mathcal{F_{T-}} $ pelo teorema anterior. Portanto o resultado segue.

$ \Box $

Corolário 1.1.2

Seja $ (T_n,n\geq 1) $ uma sequência monótona de $ \mathbb{F} $ tempos de parada, com $ \mathbb{F} $ contínua a direita. Então

i) Se $ (T_n,n\geq 1) $ e decrescente e se para todo $ n\geq 1 $ temos que $ T< T_n $ quando $ (0< T_n< \infty) $, então $ \mathcal{F_t}=\displaystyle \bigcap_{n\geq 1}\mathcal{F_{T_n-}} $

ii) Se $ (T_n,n\geq 1) $ e crescente e se para todo $ n\geq 1 $ temos que $ T_n< T $ quando $ (0< T< \infty) $, então

$ \mathcal{F_{T-}}=\displaystyle \bigvee_{n\geq 1}\mathcal{F_{T_n}} $

Demonstração

É consequência imediata do teorema 1.1.6 e dos teoremas 1.1.7 e teorema 1.1.8.

2 - Processo Estocástico

Considere $ (\Omega, \mathcal{F} , \mathbb{F}, \mathbb{P}) $ uma base estocástica, no qual $ (\Omega , \mathcal{F} , P) $ é um espaço de probabilidade e $\mathbb{F}=(\mathcal{F_t}: t \geq 0)$ uma filtragem. Neste módulo, vamos introduzir o conceito de processo estocástico e suas principais propriedades.

Definição 2.1

Screenshot_12

Seja $ (\Omega, \mathcal{F}, \mathbb{F},\mathbb{P}) $ uma base estocástica e $ X $ um processo estocástico com conjunto de índices $ T $ e espaço de estados $ (E,\mathcal{E}) $.

Definição 2.2

Um processo $ X $ é adaptado a filtragem $ \mathbb{F} $, se $ X(t) $ é $ \mathcal{F_t} $-mensurável para todo $ t \in T $. Muitas vezes, dizemos que o processo $ X $ é não antecipativo. O processo $ X $ é denominado mensurável se a transformação $X:(T\times \Omega, \beta_T \times \mathcal{F}) \rightarrow (E,\mathcal{E})$ é mensurável no qual $ \beta_T $ denota a $ \sigma $-álgebra de Borel do conjunto de índices $ T $.

Na sequência, tomamos como conjunto de índices $ T \subset [0, \infty] $. Um processo estocástico $ X $ é dito progressivamente mensurável, se para todo $ t\in T $ a transformação $ X $ restrita a $ ([0,t] \cap T)\times \Omega $ é $ \beta_{[0,t]} \times \mathcal{F_t} $-mensurável, no qual $ \beta_{[0,t]} $ denota a $ \sigma $-álgebra de Borel dos subconjuntos de $ [0,t]\cap T $.

Definição 2.3

A filtragem interna de um processo é definida como sendo

$$\mathcal{F_t}=\sigma(X_s:s\leq t),\quad t\geq 0.$$

Obviamente, que todo processo $ X $ é adaptado e progressivamente mensurável com respeito a sua filtragem interna.

Screenshot_17

Suponha que o espaço de estados $ E $ seja um espaço topológico com $ \mathcal{E} $ a $ \sigma $-álgebra de Borel (gerada pelos abertos da topologia). Um processo estocástico $ X $ é denominado contínuo à direita (cad) se este possui trajetória contínuas à direita. Da forma análoga, o processo $ X $ é contínuo à esquerda (cag) se este possui trajetórias contínuas à esquerda. Também, dizemos que o processo estocástico $ X $ é contínuo se este tem trajetórias contínuas e dizemos $ X $ é cadlag se possui trajetórias contínuas à direita e com limites à esquerda.

Teorema 2.4

Todo Processo $ X $ adaptado e cad (respectivamente, cag) é progressivamente mensurável.

Screenshot_16

Desde que $ X $ é adaptado, os processo estocásticos $ X^n_1 $ e $ X^n_2 $ são $ \beta_{[0,s]}\times \mathcal{F_s} $-mensurável em $ [0,s] \times \Omega $. Se $ X $ é cad (respectivamente, cag) a sequência n \geq 1) $ (respectivamente, n \geq 1) $) converge em $ [0,s] \times \Omega $ para $ X $. Portanto, obtemos que $ X $ é progressivamente mensurável. Segue o teorema.

Considere $ (\Omega, \mathcal{F}, \mathbb{F}, \mathbb{P}) $ uma base estocástica. Dizemos que um subconjunto $ O \subset [0, \infty) \times \Omega $ é opcional se este pertence a $ \sigma $-álgebra $ \mathcal{O} $ gerada pelos processos estocásticos cadlag à valores nos reais. Um processo estocástico $ X $ a valores no espaço topológico $ E $ é denominado opcional se este for $ \mathcal{O} $-mensurável. Como consequência do teorema 2.4 temos que $ \mathcal{O} \subset \mathcal{M}_1 $.

A $ \sigma $-álgebra $ \mathcal{P} $ de subconjuntos de $ [0, \infty) \times \Omega $ gerada pelos processos adaptados e contínuos à valores reais é denominada previsível. Um processo estocástico $ X $ a valores no espaço topológico $ E $ é denominado previsível se este for $ \mathcal{P} $-mensurável.

Teorema 2.5

(1) A seguinte inclusão é válida: $ \mathcal{P} \subset \mathcal{O} $.

(2) A $ \sigma $-álgebra $ \mathcal{P} $ é gerada pelos processos adaptados e cag e pelas seguintes classes de conjuntos:

Screenshot_2

no qual tomamos $ \mathcal{F_{0^-}}=\mathcal{F_{0}} $.

Prova: Como $ \mathcal{P} $ é a $ \sigma $-álgebra gerada pelos processos contínuos concluímos que facilmente que $ \mathcal{P} \subset \mathcal{O} $. Da mesma forma, temos que $ \mathcal{P} \subset \mathcal{P}^\prime $, no qual $ \mathcal{P}^\prime $ corresponde a $ \sigma $-álgebra gerada pelos processos adaptados e cag.

Screenshot_3

converge de forma pontual para $ X $ sobre $ [0, \infty )\times \Omega $. Com isso, obtemos que $ \mathcal{P}^\prime \subset \sigma(\mathcal{R}) $ e $ \mathcal{P} \subset \sigma(\mathcal{R}) $.

Para provarmos a igualdade entre $ \mathcal{P} $, $ \sigma(\mathcal{R}) $ e $ \mathcal{P}^\prime $ é suficiente mostrarmos $ \sigma(\mathcal{R}) \subset \mathcal{P} $. Para isto, tomamos $ (s,t] \times F \in \mathcal{R} $. Então, existe uma sequência $ (\varphi_n) $ de funções contínuas a valores positivos tal que

Screenshot_4

Como consequência, obtemos que

$$\sigma(\mathcal{R}_1) \subset \sigma(\mathcal{R}_2)=\sigma(\mathcal{R}_2^\prime)\subset \sigma(\mathcal{R}_1^\prime)=\sigma(\mathcal{R}_1).$$

Obtemos diretamente da definição $ \sigma(\mathcal{R}_1) \subset \sigma(\mathcal{R}) $. Por outro lado, sabemos que

Screenshot_5

o gráfico do tempo de parada $ T $.

Lema 2.6

Screenshot_6

Lema 2.7

Screenshot_7

Lema 2.8

Screenshot_8

Teorema 2.9

Screenshot_9

Teorema 2.10

Ao denotarmos por $ \mathcal{T} $ a classe de todos os tempos de parada, obtemos que

Screenshot_10

Screenshot_11

A seguir, estabelecemos uma construção da $ \sigma $-álgebraprevisível por intervalos estocástico.

Teorema 2.11

Considere $ (\Omega, \mathcal{F}, \mathbb{F}, \mathbb{P}) $ uma base estocástica. Ao denotarmos por $ \mathcal{T} $ a classe de todos os tempos de parada, obtemos que

$$\mathcal{P}=\sigma ([0, S]: S \in \mathcal{T}) = \sigma(]S,T] ~ ~ \text{e} ~ ~ (0) \times F, ~ F \in \mathcal{F}_0).$$

Screenshot_13

Segue o teorema.

Dado $ X $ um processo estocástico cadlag, denotamos por $ X^- $ a versão contínua à esquerda de $ X $ definida por $ X^-(t) = \lim_{n \rightarrow \infty} X \left(t-\frac{1}{n} \right)= X(t^-) $. O salto de $ X $ é dado por $ \Delta X(t) = X(t) - X^-(t) $. Então, o processo $ X^{-} $ é previsível. Além disso, se $ X $ for previsível, então $ \Delta X $ também é previsível.

Definição 2.12

Um conjunto estocástico $ B $ é denominado magro se,

$$B = \bigcup_{n=1}^\infty [T_n],$$

no qual $ (T_n : n \geq 1) $ é uma sequência de tempos de parada.

Lema 2.13

Screenshot_14

Teorema 2.12

Screenshot_15

Construção de Processo Estocástico

Dados $ (\Omega ,\mathcal{F},\mathbb{P}) $ um espaço de probabilidade, $ T $ um conjunto de índices qualquer e $ X_t : \Omega \rightarrow \Bbb{R} $ uma variável aleatória para todo $ t \in T $. Sejam $ t_1 , \cdots, t_n $ elementos de $ T $ e $ x_1, \cdots , x_n $ elementos em $ \Bbb{R} $ ou $ + \infty, - \infty $. Definimos a função de distribuição $ n $-dimensional de $ (X_{t_1}, \cdots,X_{t_n}) $, por

$$ F_{t_1, \cdots, t_n} (x_1, \cdots, x_n)=\mathbb{P}\left[ \cap_{i=1}^{n} \left(\omega\in \Omega:X_{t_1}(\omega) \leq x_i \right) \right]. $$

Quando $ n \in \mathbb{N} $ e os pontos $ t_i $’s em $ T $ variam, obtemos uma família de distribuições $ n $-dimensionais $ ( F_{t_1, \cdots t_n}:t_i \in T , n \in \mathbb{N} ) $.

Definição 2.6

Desde que $ (\omega: X_t (\omega)<\infty )=\Omega $ para todo $ t \in T $, temos

$$F_{t_1, \cdots, t_n} (x_1, \cdots, x_{n-1}, \infty) ~ = ~ F_{t_1, \cdots,t_{n-1}} (x_1, \cdots,x_{n-1})$$

e

$$F_{t_{i_1},\cdots,t_{i_n}} (x_{i_1},\cdots,x_{i_n})=F_{t_1,\cdots,t_n} (x_1,\cdots,x_n),$$

no qual $ (i_1,\cdots,i_n) $ é qualquer permutação de $ (1,\cdots,n) $. Estas relações são denominadas condições de compatibilidade de Kolmogorov da família $ (F_{t_1,\cdots t_n}:t_i \in T,n \in \mathbb{N} ) $.

Portanto, qualquer família de variáveis aleatórias $ (X_t:t \in T) $ sobre um espaço de probabilidade determina uma classe compatível de funções de distribuição finito dimensionais. Entretanto, existe um problema básico que é a existência do espaço de probabilidade $ (\Omega, \mathcal{F},\mathbb{P}) $ suportando a família de variáveis aleatórias. Um resultado fundamental de Kolmogorov nos diz que uma família compatível de distribuições finito dimensionais nos produz um espaço de probabilidade e uma coleção de variáveis aleatórias sobre este tal que suas distribuições finito dimensionais são iguais a classe compatível de distribuições. Entretanto, extensões do teorema de Kolmogorov para espaços mais gerais do que a reta $ (X_{t}(\omega)\in \mathbb{R}) $ não necessariamente são válido [Halmos (1950), pg. 150, ex. 3]. Na seção produto de espaços mensuráveis, vamos construir uma $ \sigma $-álgebra no espaço produto. Com isso, na seção probabilidade sobre o espaço produto, construímos uma probabilidade sobre o espaço produto que suporta a coleção de variáveis aleatórias $ (X_t:t\geq 0) $.

2.1 - Produto de espaços mensuráveis

Nesta seção, vamos definir o produto qualquer de espaços mensuráveis e construir uma $ \sigma $- álgebra sobre este espaço produto de tal forma que esta $ \sigma $- álgebra tenha algumas propriedades importantes. O produto de espaços mensuráveis é utilizado em diversas aplicações na teoria de probabilidade, como a construção de processos estocásticos, tais como a cadeia de markov e o movimento browniano.

Considere uma classe arbitrária de conjuntos $ ( \Omega_t : t \in T ) $ com $ \Omega_t \neq \emptyset $ para todo $ t \in T $, no qual $ T $ é um conjunto de índices. O espaço produto pode ser definido como

$$ \prod_{t \in T} \Omega_t \ = \ \left( { conjunto~das~famílias} \ w = (w_t : t \in T ) \ { com } \ w_t \in \Omega_t \right). $$

Para qualquer $ S \subset T $, também denotamos o espaço produto por $ \prod_S \Omega_s $ o espaço produto dos conjuntos $ \left( \Omega_s : s \in T \right) $. Em particular se $ \Omega_t = \Omega \ \forall t \in T $ denotaremos o espaço produto por $ \prod_{t \in T} \Omega_t \ = \Omega^T $ que é denominado o espaço das aplicações $ w : T \to \Omega $.

Exemplo 2.2.1

Considere $ T = (1,2,3) $, com $ \Omega_t = \mathbb{R}, \ \ \forall t \in T $. Então

$$\prod_{t=1}^3 \Omega_t = \prod_{t= 1}^3 \mathbb{R} = \mathbb{R}^3$$

Exemplo 2.2.2

Considere $ T = \mathbb{N} $, com $ \Omega_t = \mathbb{R}, \ \ \forall t \in T $. Então

$$ \prod_{t\in T} \Omega_t = \prod_{t\in\mathbb{N}} \mathbb{R} = \mathbb{R}^{\infty}=(\omega=(\omega_1,\omega_2,\cdots):-\infty< \omega_i<\infty,i=1,2,\cdots), $$

corresponde ao espaço das sequências ordenadas de números reais.

A seguir faremos algumas definições que serão utilizadas na construção da $ \sigma $-álgebra produto.

Definição 2.2.1

Dada um classe arbitrária de conjuntos $ ( \Omega_t : t \in T) $, no qual T é um conjunto de índices qualquer, definimos

a- aplicação coordenada em $ s \in T $ : a transformação $ X_s : \prod_T \Omega_t \to \ \Omega_s $, tal que $ X_s (w) = w_s $ para todo $ w\in \prod_T \Omega_t $. Esta aplicação pode ser interpretada como o estado da trajetória $ w $ no instante s.

b- seção : Para qualquer subconjunto $ S \subset T $, a seção para $ w_S = ( \omega_s : s \in S ) $ de uma parte $ A \in \prod_T \Omega_t \ \hbox{em} \ \prod_{u \in S^c } \Omega_u $ é definido por:

$$ A_{\omega_S } = ( ( \omega_u : u \in S^c ) :( \omega_t : t \in T ) \in A ) $$

c- cilindro : Uma parte $ A \in \prod_T \Omega_t $ é denominado cilindro de base B em $ \prod_{s \in S } \Omega_s $, com $ S \subset T $, se este for da forma:

$$ A \ = \ B \times \prod_{u \in S^c } \Omega_u $$

Portanto A é um cilindro de base B em $ \prod_{s \in S} \Omega_s $, se e só se, suas seções $ A_{\omega_{S^c}} $ são independentes de $ \omega_{S^c } $, no qual $ A_{\omega_{S^c}} = B $.

d- retângulo : Um retângulo em $ \prod_T \Omega_t $ é um subconjunto da forma:

$$ \prod_T A_t \ = \ ( \omega \in \prod_T \Omega_t : \omega_t \in A_t \ (t \in T ) ) $$

no qual $ A_t = \Omega_t $ exceto um número finito de $ t \in T $.

e- projeção : Para todo $ S \subset T $ e $ A \in \prod_T \Omega_t $, a transformação

$$ \pi_S (A) = ( ( \omega_s :s \in S ) :A_{\omega_S} \neq \emptyset ) $$

é denominado projeção da parte A nas coordenadas de S.

Para fins ilustrativos, vamos exemplificar as definições anteriores.

Exemplo 2.2.3

No caso do espaço das sequências ordenadas de números reais, denotada por $ \mathbb{R}^{\infty} $, a transformação coordenada $ X_n:\mathbb{R}^{\infty}\rightarrow \mathbb{R} $ é tomada na forma $ X_n(\omega)=\omega_n $, no qual $ \omega=(\omega_1,\omega_2,\cdots)\in \mathbb{R}^{\infty} $. Para qualquer subconjunto $ S\subset \mathbb{N} $, a seção para $ \omega_{S}=(\omega_s:s\in S) $ de uma parte $ A\subset \mathbb{R}^{\infty} $ em $ \mathbb{R}^{S^c} $ é dada por

Screenshot_18

Da mesma forma, dado $ B\subset \mathbb{R}^S $, um cilindro de base $ B $ é dado por $ A=B\times \mathbb{R}^{S^c} $. Por exemplo, se $ S=(1,2,\cdots,n) $, temos que $ B\subset \mathbb{R}^n $ e assim, $ A $ é um cilindro com base no $ \mathbb{R}^n $ na forma

$$A=B\times\mathbb{R}\times \mathbb{R}\times \cdots .$$

Além disso, um retângulo em $ \mathbb{R}^{\infty} $ é um subconjunto na forma

$$ \prod_{t\in \mathbb{N}}A_t=\left(\omega=(\omega_1,\omega_2,\cdots)\in \mathbb{R}^{\infty}:\omega_t\in A_t,t\in T\right), $$

no qual $ A_t=\mathbb{R} $ exceto um número finito de índices $ t \in \mathbb{N} $. Assim, ao tomarmos $ (A_1,A_2,\cdots ,A_n) $ subconjuntos dos números reais, obtemos que $ R=A_1\times A_2\times \cdots \times A_n \times \mathbb{R}\times \mathbb{R}\times \cdots $ é um retângulo de lados $ (A_1,\cdots ,A_n) $.

Para construir a $ \sigma $-álgebra produto, vamos usar as mesmas ideias que são utilizadas para construção da topologia produto. A principal exigência para a construção da topologia produto é que esta deve ser a menor topologia que faz cada aplicação coordenada contínua. Aqui, vamos trocar continuidade por mensurabilidade. Desta forma, queremos definir uma $ \sigma $-álgebra produto nos quais as transformações coordenadas sejam mensuráveis. Para isto, vamos definir a $ \sigma $-álgebra produto através da classe dos retângulos com lados mensuráveis.

Proposição 2.1.1

Considere $ ((\Omega_t , \mathfrak{F}_t ) : t \in T) $ uma família de espaços mensuráveis. Então o conjunto de todos os retângulos mensuráveis de $ \prod_T \Omega_t $, isto é, todos os retângulos $ \prod_T A_t $ tais que $ A_t \in \mathfrak{F}_t $, com $ A_t = \Omega_t $ exceto um número finito de t’s, formam uma semi-álgebra.

Demonstração

Vamos denotar por $ C $ a classe de todos os retângulos mensuráveis. Na sequência, vamos mostrar que a classe $ C $ é uma semi-álgebra. Sabemos que $ \prod_T \Omega_t $ é um retângulo mensurável, para isto basta tomarmos $ \Omega_t = A_t $ para todo $ t\in T $. Da mesma forma, o conjunto $ \emptyset $ é um conjunto um retângulo mensurável, pois basta tomarmos $ A_t \ = \ \emptyset $ para algum $ t \in T $.

Agora, vamos mostrar que a classe $ C $ é fechada por intersecção finita. Com esta finalidade, tomamos os retângulos mensuráveis $ B_1 \ e \ B_2 $, no qual $ B_i $ tem $ n_i $ componentes diferente de $ \Omega_t $, para $ i=1,2 $. Sem perda de generalidade podemos assumir que $ n_1 \leq n_2 $, assim temos que

$$B_1 \cap B_2 = (\prod_T A_t )\cap (\prod_T F_t) = $$

$$ = \left[ (A_{t_1} \times \dots \times A_{t_{n_1}}) \times \prod_{t \neq t_1 , \dots t_{n_1}} \Omega_t \right] \cap \left[ (F_{t_1 } \times \dots \times F_{t_{n_2}} ) \times \prod_{t \neq t_1 , \dots t_{n_2}} \Omega_t \right] = $$

$$ = \left[ (A_{t_1 }\cap F_{t_1 }) \times \dots \times (A_{t_{n_1}}\cap F_{t_{n_1}})\times (\Omega_{t_{n_1+1}}\cap F_{t_{n_1+1}})\times (\Omega_{t_{n_2}}\cap F_{t_{n_2}}))\times \prod_{t \neq t_1 , \dots t_{n_2}} \Omega_t \right] \in C.$$

Com isso concluímos que $ C $ é fechada por intersecção finita. Para finalizar, vamos mostrar que o complementar é união finita disjunta de elementos de $ C $. Para isto, tomamos,

$$A = A_1 \times A_2 \times \prod_{t\neq t_1 , t_2 } \Omega_t.$$

Então, temos que

$$A^c = A^c_{t_1 } \times A_{t_2 } \times \prod_{t\neq t_1 , t_2 } \Omega_t\cup A^{c}_{t_2}\times \prod_{t\neq t_2 } \Omega_t.$$

Assim, segue a proposição.

O ponto principal para a demonstração desta proposição concentra-se na restrição ‘'$ A_t = \Omega_t $ exceto para um número finito de índices t’', na definição de retângulo mensurável.

Assim, construímos uma semi-álgebra via os retângulos mensuráveis. Na sequência, acrescentando a classe dos retângulos mensuráveis uniões finitas (disjuntas 2 a 2) de retângulos mensuráveis obtemos uma álgebra. A álgebra dos retângulos mensuráveis será denotada por $ \mathcal{E} $. A $ \sigma $-álgebra gerada por esta álgebra, denotada por:

$$\beta^T=\bigotimes_T \mathcal{F_t}=\sigma(\mathcal{E})$$

é denominada $ \sigma $-álgebra produto. Para todo $ S \subset T $, vamos denotar por $ \beta^S $ a $ \sigma $-álgebra produto sobre o espaço $ \prod_S \Omega_s $. Por construção $ \beta^S $ é a menor $ \sigma $-álgebra que contém os retângulos mensuráveis. Com isso construímos o espaço mensurável produto

$$\prod_T (\Omega_t , \mathcal{F_t} ) = (\prod_T \Omega_t , \beta^T ).$$

Exemplo 2.2.4

No caso do $ \mathbb{R}^{\infty} $, temos que a $ \sigma $-álgebra gerada pelos retângulos mensuráveis será denotada por $ \beta^{\infty} $. Assim, concluímos que

$$\prod_{\mathbb{N}}(\mathbb{R},\mathcal{F})=(\mathbb{R}^{\infty},\beta^{\infty}),$$

no qual $ \mathcal{F} $ é a $ \sigma $-álgebra de Borel de $ \mathbb{R} $. Dado $ n \in \mathbb{N} $ um número natural, a construção da $ \sigma $-álgebra produto no $ \mathbb{R}^n $ através de retângulos mensuráveis está descrita em Distribuição de Probabilidade no $ \mathbb{R}^n $ e pode ser visto como um caso particular da contrução acima.

A principal característica da $ \sigma $-álgebra produto é que esta foi construída a partir dos retângulos mensuráveis e então, a partir de conjuntos que dependem apenas de um número finito de coordenadas. Na sequência, vamos explorar esta característica para apresentar algumas propriedades interessantes para a $ \sigma $-álgebra produto. Inicialmente, precisamos verificar se nossa forma de construção atende ao propósito básico de que esta é a menor $ \sigma $-álgebra cujas aplicações coordenadas sejam mensuráveis. Considere a aplicação coordenada $ X_s : \prod_T \Omega_t \to \Omega_s $, então

$$ \forall A \in {\cal F_s} \rightarrow X_{s}^{-1}(A) = A \times \prod_{t \neq s} \Omega_t $$

é um retângulo mensurável. Portanto, concluímos que $ \beta^T $ é a menor $ \sigma $-álgebra cujas aplicações coordenadas são mensuráveis. Além disso, a equação acima nos apresenta um fato importante, pois

$$ A \times \prod_{t \neq s} \Omega_t $$

é um cilindro de base $ A \in \mathcal{F_s} $. Com esta observação, podemos elaborar uma outra forma de construção da $ \sigma $-álgebra produto via os cilindros mensuráveis de base com dimensão finita. Esta estratégia foi aplicada na construção do espaço de Cantor $ S^\infty $ com sua respectiva $ \sigma $-álgebra produto $ \mathcal{F} $.

Para isto, introduzimos a seguinte notação,

$$ D ~ = ~ ( S \subset T ~ : ~ S ~ {finito} ) ~ ~ \text{e} ~ ~ C_S ~ = ~ ({família~dos~cilindros~com~base~em} ~ ~ \beta^S)~ ~ ; ~ ~ S\in D. $$

Para todo $ S \subset T $, a projeção coordenada $ X_{S} $ leva elementos de $ \prod_T \Omega_t $ em elementos de $ \prod_{S} \Omega_s $. Agora, se tomarmos $ S \in D $ e $ B \in \beta^S $, obtemos que

$$X_{S}^{-1} (B) ~ = ~ B \times \prod_{t \not \in S} \Omega_t $$

é um cilindro de base $ B \in \beta^S $. Desta forma, temos que $ C_S=(X^{-1}(B):B\in \beta^S) $. Vamos utilizar esta notação para denotarmos os cilindros mensuráveis no espaço produto. Na sequência, vamos mostrar como podemos obter a $ \sigma $-álgebra produto via os cilindros mensuráveis de dimensião finita.

Lema 2.1.1

A classe de subconjuntos $ \prod_T \Omega_t $, definida por

$$\mathcal{A}=\cup_{S\in D}C_S$$

é uma álgebra. Além disso, temos $ \beta^T=\sigma(\mathcal{A}) $.

Demonstração

Vamos mostrar que $ {\cal A} $ é uma álgebra. Sabemos que $ \emptyset, ~ \Omega^T ~ \in ~ {\cal A} $, pois

$$ \emptyset= \emptyset \times \prod_{t \neq t_1} \Omega_t ~ = ~ X_{(t_1)}^{-1}( \emptyset) ~ ~ \text{e} ~ ~ \Omega^T=\Omega_{t_1} \times \prod_{t \neq t_1} \Omega_t ~ = ~ X_{(t_1)}^{-1}(\Omega_{t_1}) ;; ;;; \forall ~ t_1 \in T.$$

Na sequência, tomamos $ A_1, A_2 \in \mathcal{A} $, na forma

$$A_1=X_{S_1}^{-1}(B_1) ~ ~ \text{e} ~ ~ A_2=X_{S_2}^{-1}(B_2)$$

com $ B_i\in \beta^{S_i} $, no qual $ S_i \in D $ para $ i=1,2 $. Assim, obtemos que

$$ A_1 \cap A_2=X_{(S_1 \cup S_2)}^{-1} (B_1 \cap B_2).$$

Agora, para todo $ A=X_{S}^{-1}(B) $, temos que

$$A^c =\left(X_{S}^{-1}(B)\right)^c=X_{S}^{-1}(B^c).$$

Com isso, concluímos que $ \mathcal{A} $ é uma álgebra.

Na sequência, vamos mostrar que $ \sigma(\mathcal{A}) = \beta^T $. Para isto, basta mostrarmos que $ C_{S} \subset \beta^T $ para todo $ S\in D $. Desde que a classe de conjuntos $ \mathcal{G}=(B\in\beta^S:X^{-1}_{S}(B)\in \beta^T) $ é uma $ \sigma $-álgebra e contém os retângulos mensuráveis, concluímos que $ X^{-1}_{S}(B)\in \beta^S $ para todo $ B\in \beta^S $. Portanto, concluímos o lema.

Na sequência, apresentamos mais caracterizações da $ \sigma $-álgebra produto. Denotamos por $ \mathcal{L} $ a classe de todos os subconjuntos finitos ou enumeráveis de índices. Para todo $ S\in \mathcal{L} $, definimos a projeção coordenada $ X_{S}:\prod_T \Omega_t \rightarrow \prod_S \Omega_s $ por $ X_{S}((\omega_t:t\in T))=(\omega_s:s\in S) $. Denotamos por $ \mathcal{H}_{S}=(X^{-1}_{S}(B):B\in \beta^S) $ a classe dos cilindros com base em $ \beta^S $, no qual $ S $ é um subconjunto finito ou enumerável de índices $ (S\in \mathcal{L}) $. Com esta notação, obtemos a seguinte proposição.

Proposição 2.1.2

A classe de de conjuntos $ \mathcal{F}=\cup_{S\in \mathcal{L}}\mathcal{H}_{S} $ é uma $ \sigma $-álgebra que coincide com a $ \sigma $-álgebra produto $ \beta^T $.

Demonstração

Obviamente que o vazio e $ \prod_T \Omega_t $ estão em $ \mathcal{F} $. Seja $ A\in \mathcal{F} $. Então, existe $ S\in \mathcal{L} $ e $ B\in \beta^S $ tal que $ A=X_{S}^{-1}(B) $. Desta forma, temos que $ A^c=[X^{-1}_{S}(B)]^c=X^{-1}_{S}(B^c)\in \mathcal{F} $, pois $ B^c\in \beta^S $. Na sequência, tomamos $ A_1, A_2, \cdots \in \mathcal{F} $. Então, existe $ S_i\in \mathcal{L} $ e $ B_i\in \beta^{S_i} $ tal que $ A_i=X^{-1}_{S}(B_i) $ para todo $ i=1,2,\cdots $. Com isso, obtemos que

$$\cup_{i=1}^{\infty}A_i=\cup_{i=1}^{\infty}X^{-1}_{S_i}(B_i)=X^{-1}_{\cup_i S_i}\left(\cup_{i=1}^{\infty}B_i\right)\in \mathcal{F},$$

pois temos que união enumerável de conjuntos enumeráveis é enumerável e $ \cup_i B_i \in \beta^{\cup_i S_i} $. Portanto, obtemos que $ \mathcal{F} $ é uma $ \sigma $-álgebra.

Na sequência, vamos mostrar que $ \mathcal{F} $ coincide com a $ \sigma $-álgebra produto $ \beta^T $. Desde que $ \beta^T=\sigma(\mathcal{A})\subset \mathcal{F} $, basta mostrarmos que $ X_{S}^{-1}(B)\in \beta^T $, para todo $ B\in \beta^S $ e $ S\in \mathcal{L} $. Para isto, dados $ S_1,S_2\in \mathcal{L} $ subconjuntos de índices tais que $ S_1\subset S_2 $, definimos a projeção coordenada $ X_{S2,S_1}:\prod_{t\in S_2} \Omega_t \rightarrow \prod_{u\in S_1} \Omega_u $ por $ X_{S_2,S_1}((\omega_t:t\in S_2))=(\omega_u :u\in S_1) $. Considere $ S\in \mathcal{L} $ um subconjunto enumerável de índices e $ S^{\prime} \subset S $ um subconjunto finito. Então, para todo $ B\in \beta^{S^{\prime}} $, sabemos que $ X^{-1}_{S,S^{\prime}}(B)\in \beta^{S} $. Além disso, temos que $ X_{S}^{-1}\left(X^{-1}_{S,S^\prime}(B)\right)=X^{-1}_{S^\prime}(B). $ Desde que a classe $ \mathcal{G}=(H\in \beta^S:X^{-1}_{S}(H)\in \beta^{\infty}) $ é uma $ \sigma $-álgebra e contém os cilindros de base finita, concluímos que $ \mathcal{G}=\beta^S $. Portanto, segue o lema.

A seguir, fechamos esta seção apresentando consequências da proposição acima.

Corolário 2.1.1

Se tomarmos o espaço produto $ (\prod_T \Omega_t , \beta^T) $ e $ S \subset T $, obtemos que os espaços mensuráveis $ (\Omega^S, \beta^S) $ e $ (\Omega^{S^c}, \beta^{S^c}) $ tem como produto $ (\prod_T \Omega_t, \beta^T) $ e toda seção

$$ A_{w_S} ~=~ \left( (w_u : u \in S^c ) : ( w_t : t \in T ) \in A \right) $$

com $ A \in \beta^T $ é mensurável em $ (\prod_{S^c} \Omega_u, \beta^{S^c}) $,

Em particular, se $ A $ é um cilindro em $ \prod_T \Omega_t $ com base $ B $ em $ \prod_S \Omega_s $, segue que $ A $ é mensurável em $ \beta^T $ se, e só se, $ B $ é mensurável em $ \beta^S $. Além disso, para toda função $X: \prod_{T} t \rightarrow \Bbb{R}$ mensurável, a seção

$$ X_{ ( w_S )} (w_{S^c}) ~ = ~ X \left[ w_{S} , w_{S^c} \right] $$

é mensurável sobre $ (\prod_{S^c} \Omega_u , \prod_{S^c} \beta_u) $.

Demonstração

Vamos mostrar que $ \beta^S\otimes \beta^{S^c}=\beta^T $. Se tomarmos $ A_1 \in \beta^{S} $ e $ A_2 \in \beta^{S^c} $, segue da proposição acima que, existe $ S_1,S_2 \subset T $ enumeráveis, tal que

$$ A_1 \times A_2 ~ \in ~ \beta^{S_1 \cup S_2} ~ \subset ~ \beta^{T} $$

Então,

$$ \beta^{S} \otimes \beta^{S^c} ~ \subset ~ \beta^T $$

Por outro lado, se tomarmos $ A \in \beta^T $, existe $ S^{\prime} \subset T $ enumerável, tal que $ A \in \beta^{S^{\prime}} $. Assim, definindo

$$ S_1 ~ = ~ S^{\prime} \cap S ~ ~ ~ {e} ~ ~ ~ S_{2}~ = ~ S^{\prime} \cap S^c $$

obtemos da proposição acima, que

$$ A ~ \in ~ \beta^{S_1 \cup S_2} ~ \subset ~ \beta^{S} \otimes \beta^{S^c} $$

Portanto,

$$ \beta^{S} \otimes \beta^{S^c} ~ = ~ \beta^T $$

Na sequência, se denotarmos por

$$ C_{w_S} ~ = ~ \left( A\subset\prod_T\Omega_t:A_{w_S} \in \beta^{S^c} \right) $$

com $ S \subset T $, obtemos que todo retângulo mensurável pertence a $ C_{w_S} $ e que esta classe é fechada por complementação e intersecção enumerável. Portanto,

$$ \beta^T ~ \subset ~ C_{w_S}.$$

Com isso, provamos o corolário.

Através do corolário acima, concluímos que se tomarmos $ ( S_i : i \in I ) $ uma partição de $ T $, então

$$ \prod_{T} ( \Omega_t , F_t ) ~ = ~ \prod_{i \in I} \left( \prod_{S_i} \Omega_s ,\beta^{S_i} \right) $$

Corolário 2.1.2

Todo subconjunto mensurável de $ \Omega^T $ e toda variável aleatória definida sobre $ (\Omega^T, \beta^T) $ depende somente de um número enumerável de coordenadas.

Portanto, através de uma família de espaços mensuráveis, construímos o espaço mensurável produto e estudamos algumas propriedades deste. Na próxima seção, vamos construir uma probabilidade sobre o espaço mensurável produto.

Espaços mensurável $ (\mathbb{R}^n,\beta(\mathbb{R}^n)) $

Na sequência, tomamos o espaço dos $ n $-pares ordenados $ \mathbb{R}^n=\mathbb{R}\times\mathbb{R}\times\cdots\times\mathbb{R} $. A partir dos resultados acima, vamos construir a $ \sigma $-álgebra produto no $ \mathbb{R}^n $ através de retângulos com base nos intervalos finitos.

Definição 2.1.1

O conjunto $ I=I_1\times I_2\times \cdots\times I_n $, com $ I_k=(a_k,b_k] $, definido por

$$ (x\in \mathbb{R}^n : x_k\in I_k, k=1,\dots,n) $$

é denominado de retângulo de lados $ I_i $. O conjunto de todos os retângulos I, será denotado por $ \mathcal{I} $. De forma geral, um conjunto $ A=A_1\times A_2\times \cdots\times A_n $ é chamado de retângulo de lados $ A_i $. Se $ A_i \in \beta(\mathbb{R}) $ dizemos que $ A $ é um retângulo de lados borelianos.

Definição 2.1.2

A $ \sigma $-álgebra de Borel de subconjuntos de $ \mathbb{R}^n $ é denotada por $ \beta(\mathbb{R}^n) $ e é a menor $ \sigma $-álgebra gerada por todos os retângulos de $ \mathbb{R}^n $ ($ \sigma(\mathcal{I}) $). Outra forma de gerarmos a $ \sigma $-álgebra de Borel é

$$\sigma(\beta(\mathbb{R})\times\beta(\mathbb{R})\times\cdots\times \beta(\mathbb{R}))$$

ou seja, é a menor $ \sigma $-álgebra que contém os retângulos com lados Borelianos, é comum essa $ \sigma $-álgebra ser denotada por

$$\beta(\mathbb{R})\otimes\beta(\mathbb{R})\otimes\cdots\otimes \beta(\mathbb{R})$$

Observação

É importante dizer que

$$\beta(\mathbb{R})\times\beta(\mathbb{R})\times\cdots\times \beta(\mathbb{R})\neq \beta(\mathbb{R})\otimes\beta(\mathbb{R})\otimes\cdots\otimes \beta(\mathbb{R})$$

mais do que isso $ \beta(\mathbb{R})\times\beta(\mathbb{R})\times\cdots\times \beta(\mathbb{R}) $ não é uma $ \sigma $-álgebra.

Teorema 2.1.1

$ \sigma(\mathcal{I})=\beta(\mathbb{R}^n)=\beta(\mathbb{R})\otimes\beta(\mathbb{R})\otimes\cdots\otimes \beta(\mathbb{R})=\sigma(\beta(\mathbb{R})\times\beta(\mathbb{R})\times\cdots\times \beta(\mathbb{R})) $

Demonstração

Note que o resultado é trivial se $ n=1 $. Assim sendo considere primeiramente $ n=2 $, e defina

$$ \mathcal{C}=(B_1\times B_2: B_i\in \beta(\mathbb{R}), i=1,2) $$

Note que, é óbvio que $ \mathcal{I}\subset \mathcal{C} $, logo é imediato que

$$\beta(\mathbb{R}^2)=\sigma(\mathcal{I})\subset \sigma(\mathcal{C})=\beta(\mathbb{R})\otimes\beta(\mathbb{R}).$$

Assim, basta mostrarmos que

$$\beta(\mathbb{R})\otimes\beta(\mathbb{R})\subset\beta(\mathbb{R}^2)$$

Para isso, vamos mostrar que dado uma classe $ \mathfrak{C} $ de subconjuntos de $ \mathbb{R} $, e seja $ B\subset\mathbb{R} $, temos que

$$ \mathfrak{C}\cap B=(A\cap B:A\in\mathfrak{{C}}). $$

Claro que, como $ \mathfrak{C}\subset \sigma(\mathfrak{C}) $ então

$$\mathfrak{C}\cap B\subset \sigma(\mathfrak{C})\cap B$$

Como $ \sigma(\mathfrak{C})\cap B $ é uma $ \sigma $-álgebra temos então que

$$\sigma(\mathfrak{C}\cap B)\subset \sigma(\mathfrak{C})\cap B$$

Agora vamos mostrar

$$\sigma(\mathfrak{C})\cap B\subset \sigma(\mathfrak{C}\cap B) $$

Para isso considere $ \mathcal{C}_B=(A\in\sigma(\mathfrak{C}):A\cap B\in \sigma(\mathfrak{C}\cap B)) $, a qual é uma $ \sigma $-álgebra, portanto

$$\mathfrak{C}\subset\mathcal{C}_B\subset \sigma(\mathfrak{C})$$

O que implica que $ \mathcal{C}_B= \sigma(\mathfrak{C}) $ o que implica que

$$A\cap B\in \sigma(\mathfrak{C}\cap B)$$

para todo $ A\in\mathfrak{C} $ e consequentemente $ \sigma(\mathfrak{C})\cap B\subset \sigma(\mathfrak{C}\cap B) $. O que finalmente implica que $ \mathfrak{C}\cap B=(A\cap B:A\in\mathfrak{{C}}) $. Com isso em mente, considere os seguinte conjuntos $ \mathcal{B}\times \mathbb{R}=(B\times \mathbb{R}| B\in\beta(\mathbb{R})) $ e $ \mathbb{R}\times \mathcal{B}=(\mathbb{R}\times B| B\in\beta(\mathbb{R})) $.

Então dado $ B_1\times B_2 $, com $ B_1,B_2\in \beta(\mathbb{R}) $, temos que

$$B_1\times B_2=(B_1\times \mathbb{R})\cap (\mathbb{R}\times B_2) \in \sigma(I_1\times \mathbb{R})\cap (B_2\times \mathbb{R})= \sigma((I_1\times \mathbb{R})\cap (B_2\times \mathbb{R}))\subset\sigma ((I_1\times \mathbb{R})\cap (I_2\cap \mathbb{R}))=\sigma(\mathcal{I})$$

no qual, $ I_i $ é o conjunto de todos os intervalos de $ \mathbb{R} $. Portanto o resultado segue.

Espaço mensurável $ (\mathbb{R}^\infty,\beta(\mathbb{R}^\infty) $

Este espaço mensurável é um dos espaços mais importante na teoria de probabilidade, pois é base para a construção de diversos modelos. Dizemos que $ x\in \mathbb{R}^\infty $ se $ x=(x_1,x_2,\dots) $ com $ -\infty< x_i< \infty, k\in\mathbb{N} $. Denotamos por $ I_k=(a_k,b_k] $ um intervalo e $ B_k $ um boreliano em $ \beta(\mathbb{R}) $. Nesse caso tomamos as seguintes classes de cilindros de base finita

$$ C(I_1\times\dots\times I_n)=(x\in\mathbb{R}^\infty: x=(x_1,x_2,\dots), x_1\in I_1,\dots,x_n\in I_n), $$

$$ C(B_1\times\dots B_n)=(x\in\mathbb{R}^\infty: x=(x_1,x_2,\dots), x_1\in B_1,\dots,x_n\in B_n) $$

$$ C(B^n)=(x\in\mathbb{R}^\infty: x=(x_1,x_2,\dots,x_n)\in B^n) $$

no qual $ B^n $ é um boreliano de $ \beta(\mathbb{R}^n) $. É importante notarmos que cada cilindro na forma $ C(B_1\times\dots B_n) $, ou mesmo $ C(B^n) $, pode ser definido como um cilindro com base em $ \mathbb{R}^{n+k} $, para qualquer $ k\in \mathbb{N} $, pois

$$C(B_1\times\dots B_n)=C(B_1\times\dots B_n\times \underbrace{\mathbb{R}\times\dots\times\mathbb{R}}_{k~ vezes}) ~ ~ \text{e} ~ ~ C(B^n)=C(B^{n+k})$$

no qual $ B^{n+k}=B^n\times \underbrace{\mathbb{R}\times \dots \times \mathbb{R}}_{k~vezes} $.

É fácil vermos que as classes de cilindros na formas $ C(B_1\times\dots B_n) $ e $ C(B^n) $ são álgebras, pois $ \emptyset \in C(B_1\times\dots B_n) $ e $ \emptyset \in C(B^n) $. Além disso, também é fácil observarmos que a união disjuntas destes cilindros também é um cilindro. Denotamos por $ \mathcal{A} $, $ \mathcal{A}_1 $ e $ \mathcal{A}_2 $ a álgebra gerada respectivamente pelas classes de cilindros $ C(I_1\times\dots\times I_n) $, $ C(B_1\times\dots B_n) $ e $ C(B^n $. Sejam $ \beta(\mathbb{R}^\infty) $, $ \beta_1(\mathbb{R}^\infty) $ e $ \beta_2(\mathbb{R}^\infty) $ a menor $ \sigma $-álgebra que contem estas classes de cilindros $ C(I_1\times\dots\times I_n) $, $ C(B_1\times\dots B_n) $ e $ C(B^n) $ respectivamente. Por construção, temos que

$$\beta(\mathbb{R}^\infty)\subset \beta_1(\mathbb{R}^\infty)\subset \beta_2(\mathbb{R}^\infty),$$

pois temos que $ C(I_1\times\dots\times I_n)\subset C(B_1\times\dots B_n)\subset C(B^n) $. Mostraremos que na verdade essas $ \sigma $-álgebras são identicas.

Teorema 2.1.2

$ \beta(\mathbb{R}^\infty)= \beta_1(\mathbb{R}^\infty)= \beta_2(\mathbb{R}^\infty) $

Demonstração

Para mostrar isso, como $ \beta(\mathbb{R}^\infty)\subset \beta_1(\mathbb{R}^\infty)\subset \beta_2(\mathbb{R}^\infty) $, basta mostrarmos que

$$\beta_2(\mathbb{R}^\infty)\subset \beta(\mathbb{R}^\infty)$$

De fato, considere o conjunto

$$ \mathcal{C}_n=(A\subset \mathbb{R}^n: (x\in \mathbb{R}^\infty:(x_1,x_2,\dots,x_n)\in A)\in \beta(\mathbb{R}^\infty)) $$

para $ n\in \mathbb{N} $. Seja $ B^n\in \beta(\mathbb{R}^n) $. Então,

$$B^n\in \mathcal{C}_n\subset \beta(\mathbb{R}^\infty)$$

pois $ (x\in\mathbb{R}^\infty: (x_1,x_2,\dots,x_n)\in B^n)\in \beta(\mathbb{R}^\infty) $. Mas $ \mathcal{C}_n $ também é uma $ \sigma $-álgebra de $ \mathbb{R}^\infty $, e portanto

$$\beta(\mathbb{R}^n)\subset\sigma(\mathcal{C}_n)=\mathcal{C}_n\subset\beta(\mathbb{R}^\infty)$$

Consequentemente pela definição de $ \beta_2(\mathbb{R}^\infty) $, temos que

$$\beta_2(\mathbb{R}^\infty)\subset\mathcal{C}_n\subset\beta(\mathbb{R}^\infty)$$

E portanto o resultado segue.

Daqui por diante descreveremos $ \beta(\mathbb{R}^\infty) $ como os conjuntos de Borel em $ \mathbb{R}^\infty $.

Espaço mensurável $ (\mathbb{R}^T,\beta(\mathbb{R}^T)) $

O espaço $ \mathbb{R}^T $ no qual T é um conjunto arbitrário é uma coleção de funções reais $ (x:T \rightarrow \mathbb{R}) $ com domínio em $ T $ e imagem na reta. Em geral, estamos interessados no caso em que $ T $ é um conjunto não enumerável do conjunto de números reais. Por simplicidade, podemos tomamos $ T=[0,\infty) $. Da mesma forma, consideramos três tipos de cilindros definidos como

$$ C_{t_1,t_2,\dots,t_n}(I_1\times\dots\times I_n)=(x\in\mathbb{R}^T: x_{t_1}\in I_1,\dots,x_{t_n}\in I_n), $$

$$ C_{t_1,t_2,\dots,t_n}(B_1\times\dots B_n)=(x\in\mathbb{R}^T: x_{t_1}\in B_1,\dots,x_{t_n}\in B_n), $$

$$ C_{t_1,t_2,\dots,t_n}(B^n)=(x\in\mathbb{R}^T: x=(x_{t_1},x_{t_2},\dots,x_{t_n})\in B^n) $$

definimos então $ I_k=(a_k,b_k] $ e $ B_k $ um boreliano de $ \beta(\mathbb{R}) $ e $ B^n $ é um boreliano de $ \beta(\mathbb{R}^n) $. Vamos então definir a $ \sigma $-álgebras geradas pelos cilindros $ \beta(\mathbb{R}^T) $, $ \beta_1(\mathbb{R}^T) $ e $ \beta_2(\mathbb{R}^T) $ geradas respectivamente $ C_{t_1,t_2,\dots,t_n}(I_1\times\dots\times I_n) $, $ C_{t_1,t_2,\dots,t_n}(B_1\times\dots B_n) $ e $ C_{t_1,t_2,\dots,t_n}(B^n) $.

É fácil ver que

$$\beta(\mathbb{R}^T)\subset \beta_1(\mathbb{R}^T)\subset \beta_2(\mathbb{R}^T)$$

É importante notar que assim como no caso anterior

$$\beta(\mathbb{R}^T)=\beta_1(\mathbb{R}^T)=\beta_2(\mathbb{R}^T)$$

Teorema 2.1.3

Seja $ T $ qualquer conjunto não enumerável. Então $ \beta(\mathbb{R}^T)=\beta_1(\mathbb{R}^T)=\beta_2(\mathbb{R}^T) $. Além disso, para todo conjunto $ A\in\beta(\mathbb{R}^T) $ existe um conjunto enumerável de índices $ t_1,t_2,\dots $ de $ T $ e um conjunto de Borel $ B\in \beta(\mathbb{R}^\infty) $ tal que

$$ A=(x\in\mathbb{R}^T: (x_{t_1},x_{t_2},\dots)\in B). $$

Demonstração

Desde que a $ \sigma $-álgebra gerada pelos retângulos coincide com a $ \sigma $-álgebra gerad pelos cilindros de base finita, concluímos que

$$\beta_1(\mathbb{R}^T)=\beta_2(\mathbb{R}^T).$$

Além disso, mostramos que a $ \sigma (I^n) $ gerada pelos intervalos do $ \mathbb{R^n} $ coincide com a $ \sigma $-álgebra de Borel do $ \mathbb{R}^n $. Assim, mostramos a igualdade entre as três $ \sigma $-álgebras. A partir da Proposição 2.1.2 obtemos o teorema.

O interessante do teorema anterior é que ele nos mostra que a $ \sigma $-algebra $ \beta(\mathbb{R}^T) $ é determinada por restrições no máximo em um conjunto enumeráveis de pontos imposta sobre as funções $ x=(x_t), ~t\in T $. Daí segue, em particular, que o conjunto

$$ A_1=(x\in\mathbb{R}^{[0,1]}: \sup x_t< C, \forall t\in [0,1]), $$

o qual depende do comportamento da função em um conjunto não-enumerável de pontos não pertence a $ \sigma $-álgebra produto $ \mathbb{R}^{[0,1]}) $. Para verificarmos isso, suponha que $ A_1\in \beta(\mathbb{R}^{[0,1]}) $. Então pelo teorema anterior existe $ (t_1^0,t_2^0,\dots) $ and um conjunto $ B^0\in \beta(\mathbb{R}^\infty) $ tal que

$$ \left(x\in\mathbb{R}^T:\sup_t x_t< C,~t\in[0,1]\right)=(x\in\mathbb{R}^{[0,1]}:(x_{t^0_1},x_{t^0_2},\dots)\in B^0). $$

Podemos então notar, que a função $ y_t=C-1 $ pertence a $ A_1 $, e consequentemente $ (y_{t_1^0},y_{t_2}^0,\dots)\in B^0 $. Agora considere a função

Screenshot_19

Então claro que

$$(y_{t_1^0},y_{t_2}^0,\dots)=(z_{t_1^0},z_{t_2}^0,\dots)$$

Screenshot_20

Desde que o conjunto $ A_1 $ são não-mensurável com respeito a $ \sigma $-álgebra $ \beta(\mathbb{R}^{[0,1]}) $ é o espaço de todas as funções $ x=(x_t) $ $ t\in [0,1] $ é natural que se considere como sendo a menor classe de funções para as quais esses conjuntos são mensuráveis.

Espaço mensurável $ (C(T),\beta(C(T))) $

Seja $ T=[0,1] $ e seja $ C(T) $ o espaço das funções continua $ x=(x_t) $ $ 0\leq t\leq 1 $. Esse espaço é um espaço métrico com a métrica

$$\rho(x,y)=\sup_{t\in T}|x_t-y_t|.$$

Iremos considerar duas $ \sigma $-álgebras em $ C(T) $, $ \beta(C(T)) $, gerada pelos cilindros

$$ C_{t_1,t_2,\dots,t_n}(b_1\times\dots\times b_n)=(x\in C(T):x_{t_1}< b_1,\dots,x_{t_n}< b_n), $$

a qual chamaremos $ \beta(C(T)) $ e a $ \sigma $-algebra gerada pelos abertos com respeito as métricas $ \rho(x,y) $ a qual chamaremos $ \beta_0(C(T)) $.

Vamos mostrar que ambas são idênticas, assim seja $ B=(x:x_{t_0}< b) $ claro que $ B $ é um cilindro, e ainda é aberto, disto segue

$$ (x:x_{t_1}< b_1,\dots , x_{t_n}< b_n )\in \beta_0(C(T)) $$

o que implica $ \beta(C(T))\subset \beta_0(C(T)) $.

Inversamente considere o conjunto $ B_\rho=(y\in C(T):y\in S_{\rho}(x^0)) $, no qual $ x^0 $ é um elemento de $ C(T) $ e

$$ S_{\rho}(x^0)=(x\in C:\sup_{t\in T}|x_t-x^0_t|< \rho) $$

é uma bola aberta com centro em $ x^0 $. Desde que as funções em $ C $ e são continuas,

$$ B_{\rho}=(y\in C(T): y\in S_{\rho}(x^0))=\left(y\in C(T):\max_t |y_t-x_t^0|< \rho\right)=\bigcap_{t_k}\left(y\in C(T): |y_{t_k}-x_{t_k}^0|< \rho\right)\in \beta(C(T)). $$

no qual $ t_k $ são pontos racionais de $ [0,1] $. Portanto $ \beta_0(C(T))\subset \beta(C(T)) $, o que implica $ \beta_0(C(T))=\beta(C(T)) $.

Espaço mensurável $ (D(T),\beta(D(T))) $

$ D(T) $ é o espaço das funções $ x=(x_t)_{t\in T} $ continuas as direita, com $ T=[0,1] $

Da mesma forma, como acontece com o espaço das funções contínuas, podemos introduzir uma métrica

$$ d(x,y)=\inf \left(\epsilon > 0: \exists \lambda \in \Lambda : \sup_t |x_t-y_{\lambda(t)}|\leq \epsilon \right) $$

onde $ \Lambda $ é um conjunto de funções $ \lambda =\lambda(t) $ estritamente crescente, o qual é continua de $ [0,1] $ e temos $ \lambda(0)=0 $, $ \lambda(1)=1 $.

Essa métrica foi introduzida por Skorohod e é uma métrica muito importante para esse espaço. E da mesma forma que o espaço das funções contínuas a $ \sigma $-algebra gerada pelos abertos da topologia de Skorohod é igual a $ \sigma $-algebra gerada pelos cilindros de $ D(T) $.

2.2 - Probabilidade sobre o espaço produto

Nesta seção vamos construir uma probabilidade sobre o espaço produto de espaços mensuráveis. Considere que o espaço de probabilidade $ (\Omega_t , \mathcal{F_t}, \mathbb{P}_t) $ seja compacto para todo $ t \in T $, no qual $ T $ é uma família de índices. Denotamos por $ D=( u: u \subset T, ~ u ~\text{subconjunto finito}) $ a classe de todos os subconjuntos finitos de $ T $. Suponha que a família de probabilidades $ (\mathbb{P_u}: u \in D) $ satisfaça as condições de compatibilidade de Kolmogorov, então, vamos mostrar que existe uma única probabilidade sobre o espaço produto que estende a família de probabilidades $ (\mathbb{P_u}: u \in D) $. Como toda probabilidade no $ (\mathbb{R}^n , \beta(\mathbb{R}^n)) $ é compacta, Kolmogorov mostrou que existe uma probabilidade $ \mathbb{P} $ sobre $ (\mathbb{R}^T ,\beta^T) $ se ,e só se, a família de probabilidades $ (\mathbb{P_u}: u \in D) $ satisfaz a condição de compatibilidade.

As condições de compatibilidade de Kolmogorov podem ser expressas numa forma mais sistemática usando a seguinte abstração devido a Bochner (1955). Para ilustração, seja $ \Omega_t=\mathbb{R} $, $ T\subset [0,\infty) $ e $ \beta^u $ a $ \sigma $-álgebra de Borel do $ \mathbb{R}^u $, com $ u=(t_1, \cdots, t_n) \subset T $. Denotamos por $ \mathbb{P_{u}} $ a probabilidade de Lebesgue-Stieltjes determinada pela função de distribuição $ F_{t_1, \cdots, t_n} $, na forma

$$\mathbb{P_{u}} (A) ~ = ~ \int_{A} \cdots \int d F_{t_1, \cdots, t_n} (dx_1, \cdots, x_n) ~ ~ ; ~ ~ A \in \beta^u.$$

Então a família de distribuições $ ( F_{t_1, \cdots, t_n} : t_i \in T, i \in \mathbb{N} ) $ é equivalente ao conjunto $ (P_{u}: u \in D ) $ de probabilidades, no qual $ D $ é o conjunto de todos os subconjuntos finitos de $ T $. Portanto, vamos traduzir as condições de compatibilidade de Kolmogorov para a família de probabilidades $ (\mathbb{P_{u}}:u\in D) $.

Se $ u $ e $ v $ é um par de elementos de $ D $, denotamos por $ u < v $ a relação $ u \subset v $. Neste caso, dizemos que$ D $ é um conjunto dirigido, isto é, $ (D, < ) $ é um conjunto parcialmente ordenado e para quaisquer dois elementos de $ D $ existe um terceiro (a união) que contém ambos. Se $ u < v $ denotamos por $ \pi_{uv} $ a projeção coordenada do $ \mathbb{R}^v $ em $ \mathbb{R}^u $. Portanto, as condições de compatibilidade tomam a forma

$$ \mathbb{P_{u}} ~ = ~ \mathbb{P}_{v} \circ \pi^{-1}_{uv} \qquad \qquad (1). $$

Considere uma família de espaços mensuráveis $ ((\Omega_t, \mathcal{F_t} ) : t \in T ) $ e $ D $ o conjunto dirigido formado por todos os subconjuntos finito de $ T $. Para facilitar a notação, tomamos

$$ \Omega^u ~ = ~ \prod_{t \in u} \Omega_t ~ ~ ; ~ ~ \beta^u ~ = ~ \otimes_{t \in u} \mathcal{F_t} $$

e $ \mathbb{P_u} : \beta^u \rightarrow [0,1] $ uma probabilidade para cada $ u \in D $. A família $ ( \mathbb{P_u} : u \in D ) $ é denominada compatível se (1) é válido para todo par $ u \ < \ v $ (em $ D $). Então, dado a família $ ( (\Omega^u , \beta^u , \mathbb{P_u} , \pi_{uv}) : u < v \in D ) $, procuramos por uma probabilidade $ \mathbb{P} $ sobre o espaço produto $ (\Omega^T , \beta^T) $ tal que sua $ u $-marginal seja $ \mathbb{P_u} $ para todo $ u \in D $.

A família $ ( (\Omega^u , \beta^u , \mathbb{P_u} , \pi_{uv}) : u < v \in D ) $ é denominada sistema projetivo de espaços de probabilidade se a classe $ ( \mathbb{P}_u : u \in D ) $ é compatível. Dizemos que o sistema projetivo admite um limite projetivo se existe uma probabilidade $ \mathbb{P} $ sobre $ (\Omega^T , \beta^T) $, tal que

$$ \mathbb{P_{u}} ~ = ~ \mathbb{P} \circ \pi^{-1}_{u} ,$$

para todo $ u \in D $

Na sequência, vamos demonstrar o teorema de Kolmogorov-Bochner em etapas. Para isto, vamos utilizar a notação e resultados da seção anterior, sobre a construção de espaços produto. Mais uma vez, dado uma família de espaços mensuráveis $ ((\Omega_t , \mathcal{F_t} : t \in T ) $, construímos o espaço mensurável produto

$$ \prod_{T} ( \Omega_t , \mathcal{F_t}) ~ = ~ ( \Omega^T , \beta^T) $$

no qual

$$\Omega^T ~ = ~ \prod_{T} \Omega_t ~ ~ ; ~ ~ \beta^T ~ = ~ \sigma \left[ \cup_{u \in D} C_u \right] $$

e

$$C_u ~ = ~ \left( A \subset \Omega^T : A = \pi^{-1}_u (B), ~ B \in \beta^u \right)$$

corresponde a classe dos cilindros com base em $ \beta^u $. Vamos denotar por

$$ \mathcal{A} ~ = ~ \cup_{u \in D} C_u,$$

a álgebra formada pelos cilindros de base finita.

Proposição 2.2.1

Dado uma família de espaços mensuráveis $ ((\Omega_t , \mathcal{F_t} : t \in T ) $ e uma família de probabilidades $ (\mathbb{P_u} : u \in D ) $, existe uma função de conjunto $ \mathbb{P} $ sobre a álgebra $ \mathcal{A} $ satisfazendo

$$\mathbb{P_u} ~ = ~ \mathbb{P} \circ \pi^{-1}_u ~ ~ ; ~ ~ u \in D \qquad \qquad (2)$$

se, e só se, a família $ (\mathbb{P_u} : u \in D ) $ é compatível.

Demonstração

As projeções coordenadas satisfazem a regra de composição

$$\pi_{uv} \circ \pi_{v \gamma} ~ = ~ \pi_{u \gamma} $$

para todo $ u \ < v \ < \ \gamma $ com $ \pi_{uu} $ a função identidade. Suponha que existe uma função de conjunto $ \mathbb{P} $ sobre $ \mathcal{A} $ tal que

$$\mathbb{P_u} ~ = ~ \mathbb{P} \circ \pi^{-1}_u ~ ~ ; ~ ~ u \in D .$$

Então, para todo $ A \in \beta^u $ e $ u \ < \ v $ em $ D $, temos que $ \pi_{u} = \pi_{uv} \circ \pi_v $ e

Screenshot_22

Assim, temos que

$$\mathbb{P_u} ~ = ~ \mathbb{P_v} \circ \pi^{-1}_{uv} $$

e a família $ (\mathbb{P_u} : u \in D ) $ é compatível.

Por outro lado, se a família $ (\mathbb{P_u} : u \in D ) $ é compatível, podemos construir uma função de conjunto $ \mathbb{P} $ sobre a ágebra $ \mathcal{A} $ satisfazendo (2). Para todo elemento $ A \in \mathcal{A} $, existe $ u \in D $ e $ B \in \beta^u $ tal que $ A ~ = ~ \pi^{-1}_u (B) $. Assim, definimos

$$\mathbb{P}(A) ~ = ~ \mathbb{P_u} (B) ~ ~ ; ~ ~ u \in D.$$

Na sequência, vamos mostrar que a função de conjunto $ \mathbb{P} $ está bem definida. Suponha que $ A \in \mathcal{A} $ tenha duas representações, isto é, existe $ u,v \in D $, $ B_1 \in \beta^u $ e $ B_2 \in \beta^v $, tal que

$$A ~ = ~ \pi_{u}^{-1} (B_1) ~ = ~ \pi_{v}^{-1} (B_2).$$

Como $ D $ é um conjunto dirigido, existe $ \gamma \in D $ tal que $ u \ < \ \gamma $ e $ v \ < \ \gamma $. Desde que, $ \pi_u = \pi_{u \gamma} \circ \pi_{\gamma} $ e $ \pi_v = \pi_{v \gamma} \circ \pi_{\gamma} $, temos

$$\pi_{\gamma}^{-1} \circ \pi_{u \gamma}^{-1}(B_1) ~ = ~ \pi^{-1}_u (B_1) ~ = ~ A ~ = ~ \pi^{-1}_v (B_2)~ = ~ \pi_{\gamma}^{-1} \circ \pi^{-1}_{v \gamma}(B_2) \qquad \qquad (3).$$

Além disso, como $ \pi_{\gamma} ( \Omega^T) = \Omega^{\gamma} $, a relação (3) no diz que

$$\pi_{u \gamma}^{-1}(B_1) ~ = ~ \pi^{-1}_{v \gamma}(B_2).$$

Então, utilizando a compatibilidade da família $ (\mathbb{P_u} : u \in D ) $, obtemos

Screenshot_23

Portanto, a função de conjunto $ \mathbb{P} $ definida sobre $ \mathcal{A} $ está bem definida. Com isso, concluímos a proposição.

Através desta proposição, definimos uma função de conjunto $ \mathbb{P} $ sobre a álgebra $ A $, na forma

$$\mathbb{P}(A) ~ = ~ \mathbb{P_u} (B) \quad (4)$$

no qual $ A= \pi^{-1}_u (B) $ para algum $ u \in D $ e $ B \in \beta^u $. Na sequência, vamos mostrar que esta função de conjunto satisfaz algumas propriedades interessantes.

Lema 2.2.1

A função de conjunto $ \mathbb{P} $ é não negativa, finitamente aditiva sobre a álgebra $ \mathcal{A} $ e $ \mathbb{P}(\Omega^T) = 1 $.

Demonstração

Desde que $ \mathbb{P_u} $ é não negativa $ (u \in D) $, obtemos que $ \mathbb{P} $ é não negativa. Se tomarmos $ A $ e $ B $ em $ \mathcal{A} $ disjuntos, existem $ u,v \in D $, $ A_1 \in \beta^u $ e $ B_1 \in \beta^v $, tais que

$$A ~ = ~ \pi_u^{-1} (A_1) ~ ~ ; ~ ~ B ~ = ~ \pi_{v}^{-1} (B_1).$$

Como $ D $ é um conjunto dirigido, existe $ \gamma \in D $ tal que $ u \ < \ \gamma $ e $ v \ < \ \gamma $,com

$$A ~ = ~ \pi_{\gamma}^{-1} \left[ \pi^{-1}_{u \gamma} (A_1) \right] ~ ~ ; ~ ~ B ~ = ~ \pi_{\gamma}^{-1} \left[ \pi^{-1}_{v \gamma} (A_2) \right].$$

Ao denotarmos por

$$A_{\gamma} ~ = ~ \pi_{u \gamma}^{-1}(A_1) ~ ~ ; ~ ~ B_{\gamma} ~ = ~ \pi^{-1}_{v \gamma} (A_2),$$

obtemos que $ A_{\gamma} $ e $ B_{\gamma} $ são elementos de $ \beta^{\gamma} $ e disjuntos, pois $ A $ e $ B $ são disjuntos. Com isso, temos que

Screenshot_24

Ao utilizarmos a equação (3), temos

$$\mathbb{P} \left( \Omega^T \right) ~ = ~ \mathbb{P_{u}} \left( \Omega^{u} \right) ~ = ~ 1 ~ ~ ; ~ ~ u \in D.$$

Com estes resultados preliminares, podemos apresentar e demonstrar uma versão do teorema de Kolmogorov-Bochner, que não utiliza hipóteses topológicas. Nossa construção está baseada no conceito de probabilidade compacta, que nos garante que a probabilidade de um conjunto da $ \sigma $-álgebra pode ser aproximado pela probabilidade de um subconjunto que pertence a uma classe compacta.

Teorema 2.2.1

Considere $ ((\Omega_t , \mathcal{F_t} : t \in T ) $ uma família de espaços mensuráveis e uma família compatível $ (\mathbb{P_u} : u \in D ) $ de probabilidades . Se, para todo $ t \in T $, a probabilidade $ \mathbb{P_t} $ é compacta. Então, o sistema projetivo $ ( (\Omega^u , \beta^u , \mathbb{P_u} , \pi_{uv} ) : u < v \in D ) $ tem um único limite projetivo.

Demonstração

Esta demonstração será baseada nos resultados de probabilidades compactas. Vamos mostrar que a função de conjunto $ \mathbb{P} $ (definida na equação (4)) é compacta com respeito a uma semi-álgebra formada por retângulos mensuráveis. Desta forma, podemos aplicar o teorema de exntensão de probabilidades compactas para mostrarmos a existência de um único limite projetivo.

Por hipótese, o espaço de probabilidade $ (\Omega_t , \mathcal{F_t} , \mathbb{P}_t) $ é compacto para todo $ t \in T $. Assim, sabemos que existe uma classe compacta $ \mathcal{C}_t $ composta de subconjuntos de $ \Omega_t $ tal que

$$ \mathbb{P}_t(A) = \sup ( P(C) : ~ C \subset A, ~ C \in \mathcal{C}_t). $$

Considere $ Y $ a classe de retângulos mensuráveis, na forma

$$C_t \times \prod_{s \neq t} \Omega_s $$

no qual $ C_t $ percorre a classe compacta $ \mathcal{C_t} $ e $ t $ percorre o conjunto de índices $ T $. Vamos mostrar que $ Y $ é uma classe compacta. Dado uma sequência $ (E_n)_{n \geq 1} \subset Y $, a intersecção

$$\bigcap_{n=1}^{\infty} E_{n} ~ = ~ \bigcap _{n=1}^{\infty} \left[ C_{t_n} \times \prod_{s \neq t_n} \Omega_s \right]$$

para $ C_{t_n} \in \mathcal{C}_{t_n} $ e $ t_n \in T $ com $ n \in \Bbb{N} $. Com isso, se tomarmos

$$ A_{t_k} ~ = ~ \bigcap_{ (n : t_n = t_k )} C_{t_n} $$

para $ k=1,2, \cdots $ , temos

$$\bigcap_{n=1}^{\infty} E_n ~ = ~ \bigcap _{k=1}^{\infty} \left[ A_{t_k} \times \prod_{s \neq t_k} \Omega_s \right] $$

Se $ \cap E_n = \emptyset $, existe pelo menos um $ A_{t_k} $ vazio, por exemplo $ A_{t_i} $. Como $ \mathcal{C}_{t_i} $ é uma classe compacta, existe um subconjunto finito $ J \subset (n : t_n = t_i ) $, tal que

$$ \bigcap_{J} C_{t_n} ~ = ~ \emptyset $$

o que implica em

$$\bigcap_{J} E_n ~ = ~ \emptyset $$

Com isso, a classe $ Y $ formada pelos retângulos mensuráveis é compacta. Além disso, a classe $ \mathcal{C} $ obtida via intersecções enumeráveis de elementos de $ Y $ também é compacta. Agora, considere $ A $ um retângulo mensurável, com base

$$\prod_{i=1}^{n} A_{t_i} $$

tal que $ A_{t_i} \in \mathcal{F}_{t_i} $. Para todo $ \varepsilon > 0 $, tomamos $ C_i \in C_{t_i} $ tal que

$$C_i \subset A_{t_i} ~ ~ {e} ~ ~ \mathbb{P}_{t_i}(A_{t_i}) ~ \leq ~ \mathbb{P}_{t_i}(C_i) ~ + ~ \frac{\varepsilon}{n} .$$

Agora, o conjunto

$$C ~ = ~ \bigcap_{i=1}^{n} \left[ C_i \times \prod_{t \neq t_i} \Omega_t \right] ~ \in ~ \mathcal{C} $$

e está contido em $ A $, a álgebra gerada pelos retângulos mensuráveis. Além disso,

$$A - C ~ \subset ~ \bigcup_{i=1}^{n} \left( (A_{t_i} - C_i) \times \prod_{s \neq t_i} \Omega_s \right) .$$

Assim, utilizando a aditividade finita de $ \mathbb{P} $, temos

$$\mathbb{P}(A) ~ - ~ \mathbb{P}(C) ~ \leq ~ \sum_{i=1}^n ~ \left( \mathbb{P}_{t_i}(A_{t_i}) - \mathbb{P}_{t_i} (C_i) \right) ~ \leq ~ \epsilon $$

Portanto, fazendo $ \epsilon \rightarrow 0 $, obtemos que

$$ \mathbb{P}(A) ~ = ~ \sup \left( \mathbb{P}(C) : C \subset A , A \in C \right) $$

para todo retângulo mensurável. Assim através do teorema da classe compacta, existe uma única probabilidade $ \mathbb{P} $ definida sobre o espaço das funções $ (\Omega^T, \beta^T) $ que estende a família compatível de probabilidades $ (\mathbb{P_u}: u \in D) $.

A partir do teorema de extensão de Komogorov-Bochner, mostrarmos a existência de uma única probabilidade $ \mathbb{P} $ sobre o espaço produto $ (\Omega^T, \beta^T) $ satisfazendo:

a) $ \mathbb{P} (A) = \mathbb{P_u} (B) $, no qual $ A=\pi^{-1}_u (B) $, com $ B \in \beta^u $ para algum $ u \in D $.

b) $ \mathbb{P}(A) = \sup ( \mathbb{P} (C) : C \subset \mathcal{C}) $, para todo $ A \in \beta^T $.

A seguir, apresentamos algumas aplicações do teorema de Kolmogorov-Bochner.

Distribuicao $ (\mathbb{R}^\infty,\beta(\mathbb{R}^\infty)) $

A construção da medida de probabilidade desse espaço é similar a do espaço $ \mathbb{R}^n $ na qual pode ser encontrada na seção de probabilidade, considere os retângulos de $ \mathbb{R}^\infty $ definidos como

$$ I_n(B)=(x\in\mathbb{R}^\infty:(x_1,x_2,\dots,x_n)\in B), ~B\in\beta(\mathbb{R}^n) $$

Seja $ \mathbb{P} $ uma medida de probabilidade em $ (\mathbb{R}^\infty,\beta(\mathbb{R}^\infty)) $. Para $ n=1,2,\dots $, temos

$$\mathbb{P}_n(B)=\mathbb{P}(I_n(B)),~ B\in\beta(\mathbb{R}^n)$$

A sequência de medida de probabilidade $ \mathbb{P}_1,\mathbb{P}_2,\dots,\mathbb{P}_n $, definida respectivamente em $ ((\mathbb{R},\beta(\mathbb{R})), (\mathbb{R}^2,\beta(\mathbb{R}^2)),\dots,(\mathbb{R}^n,\beta(\mathbb{R}^n))) $, temos então a seguinte propriedade

$$\mathbb{P}_{n+1}(B\times \mathbb{R})=\mathbb{P}_n(B)$$

para $ n=1,2,\dots $

Teorema 2.2.2

Seja $ \mathbb{P}_1,\mathbb{P}_2,\dots $ uma sequência de medidas de probabilidade em $ ((\mathbb{R},\beta(\mathbb{R})), (\mathbb{R}^2,\beta(\mathbb{R}^2)),\dots) $ tal que

$$\mathbb{P}_{n+1}(B\times \mathbb{R})=\mathbb{P}_n(B)$$

Então existe uma única medida de probabilidade $ \mathbb{P} $ em $ (\mathbb{R}^\infty, \beta(\mathbb{R}^\infty)) $, tal que

$$\mathbb{P}(I_n(B))=\mathbb{P}(B), ~B\in\beta(\mathbb{R}^n)$$

para $ n=1,2,\dots $

Demonstração

Seja $ B^n\in \beta(\mathbb{R}^n) $ e seja $ I_n(B^n) $ um cilindro com base $ B^n $. Atribuímos a medida $ \mathbb{P}(I_n(B^n)) $ para o cilindro tomando

$$\mathbb{P}(I_n(B^n))=\mathbb{P}_n(B^n)$$

Vamos mostrar que em virtude da condição de consistência, essa definição é consistente, isto é, o valor de $ \mathbb{P}(I_n(B^n)) $ é independente da representação do conjunto $ I_n(B^n) $. De fato, considere o mesmo cilindro representado de duas formas

$$I_n(B^n)=I_{n+k}(B^{n+k})$$

Disto segue que se $ (x_1,\dots,x_{n+k})\in\mathbb{R}^{n+k} $, temos que

$$(x_1,\dots,x_n)\in B^n\Leftrightarrow (x_1,\dots,x_{n+k})\in B^{n+k},$$

Com isso, temos que

$$ \mathbb{P_n}(B^n)=\mathbb{P_{n+1}}\left((x_1,\dots,x_{n+1}):(x_1,\dots,x_n)\in B^{n}\right) $$

$$ =\mathbb{P_{n+1}}\left((x_1,\dots,x_{n+2}):(x_1,\dots,x_{n+1})\in B^{n}\right) $$

$$=\dots=\mathbb{P}_{n+k}(B^{n+k})$$

Seja $ \mathcal{A}(\mathbb{R}^\infty) $ denota a coleção de todos os cilindros $ \bar{B}^n=I_n(B^n) $, $ B^n\in \mathbb{R}^n $, $ n=1,2,\dots $ .

Agora seja $ \bar{B}_1,\dots,\bar{B}_k $ conjuntos disjuntos em $ \mathcal{A}(\mathbb{R}^\infty) $. Podemos assumir sem perda de generalidade que $ \bar{B}_i=I_n(B_i^n), ~i=1,\dots,k $ para algum $ n $, no qual $ B^n_1,\dots,B^n_k $ são conjuntos disjuntos em $ \beta(\mathbb{R}^n) $. Então,

$$\mathbb{P}\left(\sum_{i=1}^k \bar{B}_i\right)=\mathbb{P}\left(\sum_{i=1}^k I_n{B}^n_i\right)=\mathbb{P}_n\left(\sum_{i=1}^k B^n_i\right)= \sum_{i=1}^k\mathbb{P}_n\left( B^n_i\right)=\sum_{i=1}^k\mathbb{P}\left( \bar{B}_i\right)$$

Isto implica que a função $ \mathbb{P} $ é finitamente aditiva na algebra $ \mathcal{A}(\mathbb{R}^\infty) $. Agora precisamos mostrar $ \mathbb{P} $ é continua em zero, isto é, se a sequência de conjuntos $ \bar{B}_n\downarrow \emptyset $, $ n\rightarrow \infty $, então $ \mathbb{P}(\bar{B}_n)\rightarrow 0 $ quando $ n\rightarrow \infty $. Para isso, suponha o contrario, isto é,

$$\lim_{n\rightarrow \infty}\mathbb{P}(\bar{B}_n)=\delta> 0.$$

Suponha sem perda de generalidade que $ (\bar{B}_n) $ tem a forma

$$ \bar{B}_n=(x\in\mathbb{R}^\infty:(x_1,\dots,x_n)\in B_n)~ B_n\in \beta(\mathbb{R}^n) $$

Para demonstrar isso vamos precisar de uma propriedade da medida de probabilidade $ \mathbb{P}_n $ no espaço $ (\mathbb{R}^n,\beta(\mathbb{R}^n)) $. Se $ B_n\in \beta(\mathbb{R}^n) $, para $ \delta> 0 $ dado podemos encontrar um compacto $ A_n\beta(\mathbb{R}^n) $ dado $ A_n\subset B_n $ e

$$\mathbb{P}_n(Bn-A_n)\leq \frac{\delta}{2^{n+1}}$$

Portanto se

$$ \bar{A}_n=(x\in \mathbb{R}^\infty:(x_1,x_2,\dots,x_n)\in A_n), $$

temos que

$$\mathbb{P}(\bar{B}_n-\bar{A}_n)=\mathbb{P}_n(B_n-A_n)\leq \frac{\delta}{2^{n+1}}$$

Seja $ \displaystyle \bar{C_n}=\bigcap_{k=1}^n \bar{A_k} $ e seja $ C_n $ tal que

$$ \bar{C}_n=(x\in \mathbb{R}^\infty:(x_1,x_2,\dots,x_n)\in C_n) $$

Então, desde que o conjuntos $ \bar{B}_n $ é decrescente, obtemos

$$ \mathbb{P}(\bar{B_n}-\bar{C_n})\leq \displaystyle \sum_{k=1}^{n}\mathbb{P}(\bar{B_n}-\bar{A_k})\leq\sum_{k=1}^{n}\mathbb{P}(\bar{B_k}-\bar{A_k})\leq \frac{\delta}{2} $$

Mas por hipótese

$$\displaystyle \lim_n \mathbb{P}(\bar{B}_n)> 0$$

e portanto $ \displaystyle \lim_n\mathbb{P}(\bar{C}_n)\geq \frac{\delta}{2} $, o que contradiz o fato de que $ \bar{C}_n\downarrow 0 $.

Vamos escolher um ponto $ \bar{x}^{(n)}=(x^{(n)}_1,x^{(n)}_2,\dots)\in \bar{C}_n $. Então $ (x^{(n)}_1,x^{(n)}_2,\dots,x^{(n)}_n)\in C_n $ para $ n\geq 1 $.

Seja $ (n_1) $ uma subsequência de $ (n) $ tal que $ x^{(n_1)}_1\rightarrow x_1^0 $, onde $ x^0_1 $ é um ponto de $ C_1 $. (Sabemos que tal sequência existe desde que $ x_1^{(n)}\in C_1 $ e $ C_1 $ é compacto). Então selecione uma subsequência de $ (n_2) $ de $ (n_1) $ tal que $ (x^{(n_2)}_1,x^{(n_2)}_2)\rightarrow (x^{(0)}_1,x^{0}_2)\in C_2 $. Similarmente seja

$$(x^{(n_k)}_1,\dots,x^{(n_k)}_k)\rightarrow (x^{(0)}_1,\dots,x^{(0)}_k)\in C_k$$

Finalmente forma a sequência de diagonais $ (m_k) $, no qual $ m_k $ é o k-ésimo termo de $ (n_k) $. Então $ x_i^{(m_k)}\rightarrow x_i $ como $ m_k\rightarrow \infty $ por $ i=1,2,\dots $, e $ (x^0_1,x^0_2,\dots)\in \bar{C}_n $ para $ n=1,2,\dots $, o qual evidentemente contradiz a afirmação que $ \bar{C}_n\downarrow \emptyset $, $ n\rightarrow \infty $. Isto completa a demonstração do Teorema.

Distribuição $ (\mathbb{R}^{T},\beta(\mathbb{R}^T)) $

Seja $ T $ o conjunto de índice $ t\in T $ e $ \mathbb{R_t} $ a reta real correspondente ao índice $ t $. Considere um conjunto desordenado $ \tau=[t_1,\dots,t_n] $ de indices distintos $ t_i $, $ t_i\in T, ~ n\geq 1 $, e $ \mathbb{P_\tau} $ seja a medida de probabilidade no espaço $ (\mathbb{R}^{\tau},\beta(\mathbb{R}^{\tau})) $, no qual $ \mathbb{R}^{\tau}=\mathbb{R}_{t_1}\times \mathbb{R}_{t_2}\times\dots\times \mathbb{R}_{t_n} $.

Dizemos que uma familia de medidas de probabilidades $ (\mathbb{P}_\tau) $, com $ \tau $ varia entre todos os conjuntos finitos e desordenados, é consistente se, para todos os conjuntos $ \tau=[t_1,t_2,\dots,t_n] $ e $ \sigma=[s_1,\dots,s_k] $ tal que $ \sigma\subset \tau $, temos que

Screenshot_26

para todo $ B\in \beta(\mathbb{R}^\sigma) $.

Teorema 2.2.3

Seja $ (\mathbb{P}_\tau) $ uma familia de probabilidade consistente em $ (\mathbb{R}^\tau,\beta(\mathbb{R}^\tau)) $. Então existe uma única probilidade $ \mathbb{P} $ em $ (\mathbb{R}^T,\beta(\mathbb{R}^T)) $ tal que

$$\mathbb{P}(I_\tau(B))=\mathbb{P}_\tau(B)$$

para todo conjunto $ \tau=[t_1,\dots,t_n] $ com diferentes indices $ t_i\in T, ~ B\in \beta(\mathbb{R}^\tau) $ e $ I_\tau (B)=(x\in \mathbb{R}^T:(x_{t_1},\dots,x_{t_n})\in B) $.

Demonstração

Seja um conjunto $ \bar{B}\in \beta(\mathbb{R}^T) $. Então, pelo Teorema 2.1.3 da seção anterior temos que existe um conjunto enumerável $ S=(s_1,s_2,\dots)\subset T $ tal que $ \bar{B}=(x\in \mathbb{R}^T:(x_{s_1},x_{s_2},\dots)\in B) $ no qual $ B\in \beta(\mathbb{R}^S) $, $ \mathbb{R}^S=\mathbb{R}_{s_1}\times\mathbb{R}_{s_2}\times \dots $. Ou seja,

$$\bar{B}=I_{S}(B)$$

é um cilindro com base $ B \in \beta(\mathbb{R}^S) $. Desta forma, podemos definir uma função $ \mathbb{P} $ definida da seguinte forma

$$\mathbb{P}(I_S(B))=\mathbb{P}_S(B),$$

no qual a existência da medida $ \mathbb{P}_S $ é garantida pelo Teorema 2.1.3 da seção anterior.

Agora a medida $ \mathbb{P} $, iremos demonstrar a sua existência nesse teorema, para isso primeiramente vamos mostrar a consistência da definição a cima, ou seja, queremos mostrar que $ \mathbb{P}(\bar{B}) $, para todas as possíveis representação de $ \bar{B} $.

Seja $ \bar{B}=I_{S_1}(B_1) $ e $ \bar{B}=I_{S_2}(B_2) $ então $ \bar{B}=I_{S_1\cup S_2}(B_3) $, para algum $ B_3\in \beta(\mathbb{R}^{S_1\cup S_2}) $, portanto é suficiente mostrar que se $ S\subset A $ e $ B\in \beta(\mathbb{R}^S) $, então $ \mathbb{P}_{A}(B^\prime)=\mathbb{P}_S(B) $, no qual

$$ B^\prime=((x_{a_1},x_{a_2},\dots)\in \mathbb{R}^{A}: (x_{s_1},x_{s_2},\dots)\in B) $$

com $ A=(a_1,a_2,\dots) $ e $ S={s_1,s_2,\dots} $, porém a consistência devido a consistência admitida para conjuntos finitos e ao Teorema 2.1.3 da seção anterior temos que $ \mathbb{P}(\bar{B}) $ independe da representação de $ \bar{B} $.

Screenshot_25

$$\mathbb{P}\left(\displaystyle \sum_{n=1}^\infty \bar{B}_n\right)=\mathbb{P}\left(\displaystyle \sum_{n=1}^\infty I_S(B_n)\right)=\mathbb{P}_S\left(\displaystyle \sum_{n=1}^\infty B_n\right)=\displaystyle \sum_{n=1}^\infty \mathbb{P}_S\left( B_n\right)$$

$$=\displaystyle \sum_{n=1}^\infty \mathbb{P}\left( I_S(B_n)\right)=\displaystyle \sum_{n=1}^\infty\mathbb{P}\left( \bar{B}_n\right)$$

Então, pela propriedade $ \mathbb{P}(I_\tau(B))=\mathbb{P}_\tau(B) $, o resultado segue.

Exemplo 2.2.1

Considere o caso em que $ T=[0,\infty) $. Então $ \mathbb{R}^T $ é o espaço de todas as funções reais $ x=(x_t)_{t\geq 0} $. O exemplo mais famoso de medida de probabilidade desse espaço é a medida de Wiener, a qual é construída da seguinte forma.

Considere a familia $ (\phi_t(y|x))_{t\geq 0} $ de densidades Gaussian como função de $ y $ para $ x $ fixado.

$$\phi_t(y|x)=\displaystyle \frac{1}{\sqrt{2\pi t}}e^{-(y-x)^2/2t}, ~y\in \mathbb{R}.$$

e para cada $ \tau=[t_1,\dots,t_n] $, $ t_1< t_2< \dots < t_n $, e para cada conjunto

$$B=I_1\times \dots\times I_n, ~~ I_k=(a_k,b_k),$$

construímos a medida $ \mathbb{P}_{\tau}(B) $ de acordo com a fórmula

Screenshot_21

O significado intuitivo deste método de atribuição de uma medida ao cilindro.

2.3 - Processo de Bernoulli

O processo de Bernoulli é definido como uma família finita ou enumerável de variáveis aleatórias assumindo valores binários dados por $ 0 $ e $ 1 $. Desta forma, temos um processo estocástico a tempo discreto e a valores no conjunto $ S=(0,1) $. Como as variáveis aleatórias são binárias, a existência do processo de Bernoulli está garantida pela construção do espaço de Cantor. A seguir, mostramos como o teorema de extensão de Kolmogorov também pode ser utilizado na construção do processo de Bernoulli.

Considere $ \Omega $ um espaço amostral (diferente do vazio) e $ A_1 , A_2 ,\dots $ uma sequência de eventos, isto é, subconjuntos de $ \Omega $. Dado a sequência de eventos, definimos uma sequência de funções

Screenshot_27

Para cada função $ X_n $ associamos uma probabilidade em $ \Omega $, na forma

Screenshot_28

nos quais $ 0 < p < 1 $, $ \mathbb{P}(\emptyset )=0 $ e $ \mathbb{P}(\Omega )=1 $.

Para aplicarmos o teorema de extensão de Kolmogorov, precisamos de um conjunto de distribuições finito dimensionais satisfazendo a condição de compatibilidade de Kolmogorov. Para isto, admitimos que as probabilidade conjuntas seja definidas por

$$ \mathbb{P} \left[ \cap_{j=1}^n \left(\omega : X_j (\omega)=i_j \right) \right] = p^{\sum_{j=1}^n i_j } (1-p)^{n-\sum_{j=1}^n i_j}, $$

para todo família finita $ (i_1, \cdots , i_n) \in S^n $. Desta forma, temos uma distribuição de probabilidade definida sobre $ \Omega $ com a $ \sigma $-álgebra finita dada por $ \mathcal{A}_n = \sigma (A_1, A_2 , \cdots , A_n) $. Para detalhes sobre a construção da família de probabilidades ver a seção sobre o espaço de Cantor. Por construçao, a família de probabilidades finito dimensionais satisfaz a condição de compatibilidade de Kolmogorov e assim, existe uma única probabilidade $ \mathbb{P} $ sobre $ \Omega $ com a $ \sigma $-álgebra $ \mathcal{F} $ gerada pela sequência de eventos $ (A1, A_2 , \cdots ) $ tal que

$$ \mathbb{P} \left[ \cap_{j=1}^n \left(\omega : X_j (\omega)=i_j \right) \right] = p^{\sum_{j=1}^n i_j } (1-p)^{n-\sum_{j=1}^n i_j}, $$

para todo família finita $ (i_1, \cdots , i_n) \in S^n $, para todo $ n \geq 1 $. A partir do teorema de extensão de Kolmogorov, existe um espaço de probabilidade $ \Omega, \mathcal{F} , \mathbb{P}) $ no qual $ (X_1 , X_2 , \cdots ) $ é uma sequência de variáveis aleatórias independentes e identicamente distribuídas (iid) com $ \mathbb{P}[X_j=1]=p $ para todo $ j \geq 1 $.

Definição 2.3.1

O processo estocástico $ X=(X_n: n \geq 1) $, nos quais $ X_1, X_2, \cdots $ são variáveis iid com com $ \mathbb{P}[X_j=1]=p $ para todo $ 0 < p < 1 $ e $ j \geq 1 $ é denominado processo de Bernoulli.

Exemplo 2.3.1

Suponha que uma fábrica de lentes de contato produza lentes de contatos que apresente defeitos que distorcem a imagem com probabilidade $ p = 0,96 $ de que haja erro na lente. Definimos $ X_n $ como 1 ou 0 se apresenta algum erro de distorção na n-ésima lente produzida ou se não apresenta, respectivamente. Assumindo que a produção da lente ocorra de forma independente, as variáveis aleatórias $ X_1,X_2,\cdots $ são independentes. Então $ X=(X_n;n = 1,2,\cdots) $ é um processo de Bernoulli com probabilidade de sucesso $ \mathbb{P}(X_n= 1) = p = 0,96 $.

a) Qual a probabilidade das duas primeiras lentes terem defeitos e as duas subsequentes não tenha ?

$$\mathbb{P}(X_1= X_2= 0,X_3= X_4= 1) \stackrel{indep}{=} \mathbb{P}(X_1= 0)\mathbb{P}(X_2= 0)\mathbb{P}(X_3= 1)\mathbb{P}(X_4= 1)$$

$$= (1- p)(1- p)pp = (1- p)^2p^2 = 0,9232.$$

Dado $ X=(X_i : i \geq 1) $ um processo de bernoulli, associamos um processo de contagem $ N=(N_n, n\in \mathbb{N}) $ que conta o número de sucessos, na forma

$$N_n=\displaystyle \sum^n_{i=1}X_i, \quad n \geq 1.$$

Note que podemos recuperar o processo de Bernoulli a partir do processo de contagem pois,

$$\Delta N_n=N_n-N_{n-}=X_n.$$

Como $ X_n $ segue uma distribuição de Bernoulli de parâmetro $ p $ então a esperança e a variância de $ X_n $ são dadas por:

$$E[X_n]=E[X_n^2]=E[X_n^3]=E[X_n^4]=\cdots =p \quad \text{e} \quad Var[X_n]=p-p^2=p(1-p).$$

Além disso, temos que:

$$E[b^{X_n}]=b^0\mathbb{P}[X_n=0]+b\mathbb{P}[X_n=1]=b(1-p)+bp.$$

Podemos generalizar da seguinte forma

$$E[f(X_n)]=f(0)\mathbb{P}[X_n=0]+f(1)\mathbb{P}[X_n=1]=f(0)(1-q)+f(1)p.$$

Quanto ao processo de contagem, dado n fixado, temos que

$$E[N_n]=E[\displaystyle \sum_{i=1}^{n}X_i]=\sum_{i=1}^{n}E[X_i]=\sum_{i=1}^{n}p=np.$$

Como $ X_j $’s são independentes temos que

$$Var[N_n]=Var[\sum_{i=1}^{n}X_i]=\sum_{i=1}^{n}Var[X_n]=\sum_{i=1}^{n}(1-p)p=np(1-p).$$

Dado que $ X_n $ tem distribuição de Bernoulli, o processo de contagem $ N_n $ tem distribuição binomial. Portanto temos que

Screenshot_29

$$\displaystyle N_{j+i}-N_i=\sum_{w=i+1}^{j+i}X_w=\sum_{w=1}^{j}X_{i+w}.$$

Lema 2.3.1

Para qualquer $ m,n \in \mathbb{N} $ temos que

Screenshot_30

para todo $ k=0, \cdots , m $.

Demonstração

Notemos primeiramente que a variável $ N_j $ depende exclusivamente das variáveis $ X_0,\cdots,X_j $ assim conhecer $ N_0,\cdots,N_n $ é equivalente a conhecer $ X_0,\cdots,X_n $. Além disso, temos que $ X_0,\cdots,X_n $ é independente de $ X_{n+1},\cdots,X_m $ e portanto, temos que

Screenshot_31

3 - Esperança Condicional: caso geral

Na módulo de probabilidade, apresentamos a esperança condicional para variáveis aleatória discretas e absolutamente contínuas de forma simples e intuítiva. Aqui, faremos uma discussão detalhada sobre esperança condicional com respeito a uma $ \sigma $-álgebra. Para isto, começamos com o conceito de probabilidade condicional dado uma partição finita do espaço amostral.

3.1 - Probabilidade Condicional para uma partição

Seja $ (\Omega,\mathcal{A},\mathbb{P}) $ um espaço de probabilidade e $ \mathcal{D}=(D_1,\cdots, D_k) $ uma partição finita de $ \Omega $ tal que $ D_i\in \mathcal{A}, \mathbb{P}(D_i)> 0, $ para todo $ i\in (1,\cdots,k)) $ e $ \displaystyle \cup_{i=1}^{k} D_i=\Omega $. Dado $ A \in \mathcal{A} $ um evento, tomamos $ \mathbb{P}(A|D_i) $ a probabilidade condicional do evento $ A $ dado $ D_i $.

Para a família finita de probabilidades condicionais $ (\mathbb{P}(A|D_i), i=1,\cdots,k) $, associamos a variável aleatória

Screenshot_33

assumindo valor $ \mathbb{P}(A|D_i) $ no elemento $ D_i $ da partição $ \mathcal{D} $. Note que a variável aleatória $ \pi $ está associada especificamente a partição $ \mathcal{D} $ e será denominada probabilidade condicional do evento $ A $ dado a partição $ \mathcal{D} $. Utilizaremos a seguinte notação

Screenshot_32

Como consequência da definição da probabilidade condicional dada uma partição, temos que

$$\mathbb{P}(\cup_{i=1}^n A_i \mid \mathcal{D})(\omega)=\sum_{i=1}^{\infty} \mathbb{P}(A_i \mid \mathcal{D})(\omega), \quad \omega \in \Omega,$$

no qual $ (A_i) \subset \mathcal{A} $ é uma sequência de eventos disjuntos $ (A_i \cap A_j = \emptyset, ~ i \neq j) $. Se tomarmos $ \mathcal{D} $ a partição trivial, ou seja, $ \mathcal{D}=(\Omega) $, então

$$\mathbb{P}(A|\mathcal{D})=\mathbb{P}(A|\Omega)=\mathbb{P}(A), \quad A \in \mathcal{A}.$$

Assim, a probabilidade condicional com respeito a partição $ \mathcal{D} $ é uma função $ \mathbb{P}(\cdot \mid \mathcal{D}): \mathcal{A} \times \Omega \rightarrow [0,1] $ satisfazendo

(i) Para todo $ A \in \mathcal{A} $, temos que $ \mathbb{P}(A \mid \mathcal{D}): \Omega \rightarrow [0,1] $ é uma variável aleatória;

(ii) Para todo $ \omega \in \Omega $, temos que $ \mathbb{P}(\cdot \mid \mathcal{D}) (\omega): \mathcal{A} \rightarrow [0,1] $ é uma probabilidade.

Desde que a probabilidade condicional é uma variável aleatória simples, para todo $ A \in \mathcal{A} $, temos que

Screenshot_34

nos quais $ D_i = ( \omega \in \Omega: X(\omega)=x_i) $, $ \mathcal{R}_X=(x_1, \cdots , x_n) $ números distintos e $ \mathcal{D}_X=(D_1, \cdots ,D_n) $ a partição induzida pela variável aleatória $ X $. A probabilidade condicional $ \mathbb{P}(\cdot \mid \mathcal{D}_X) $ será denotada por $ \mathbb{P}(\cdot \mid X) $ e denominada probabilidade condicional dado a variável aleatória $ X $. Da mesma forma, temos que $ \mathbb{P}(A \mid X=x_i) = \mathbb{P}(A \mid D_i) $, para todo $ i=1,2, \cdots, n $ e $ A \in \mathcal{A} $.

Dados $ X_1, \cdots , X_k $ variáveis aleatórias simples, denotamos por $ \mathcal{D}_{X_1,\cdots , X_k} $ a partição induzida pelo vetor de variáveis aleatórias $ (X_1, \cdots , X_k) $, na forma

$$ D_{x_1, \cdots , x_k}=(\omega \in \Omega: X_1(\omega)=x_1, \cdots , X_k=x_k), \quad (x_1,\cdots , x_k) \in \mathcal{R}_{X_1} \times \cdots \times \mathcal{R}_{X_k}, $$

Screenshot_35

3.2 - Esperança Condicional para uma partição

Sejam $ (\Omega,\mathcal{A},\mathbb{P}) $ um espaço de probabilidade e $ \mathcal{D}=(D_1,\cdots, D_k) $ uma partição finita de $ \Omega $. Uma variável aleatória simples é dada por

Screenshot_36

Sabemos que a esperança de uma variável aleatória simples é uma combinação linear dos elementos do conjunto de probabilidades $ (\mathbb{P}(D_1), \cdots , \mathbb{P}(D_k)) $, na forma

$$\mathbb{E}[X]=\displaystyle \sum_{j=1}^{n}x_j \mathbb{P}(A_j)$$

De forma similar, podemos definir a esperança condicional de $ X $ dado uma partição finita $ \mathcal{D} $ como uma combinação linear dos elementos da família de probabilidades condicionais $ (\mathbb{P}(A_1 \mid \mathcal{D}), \cdots , \mathbb{P}(A_n \mid \mathcal{D}) $. Na seção probabilidade condicional dado uma partição, definimos a probabilidade condicional do evento $ A \in \mathcal{A} $ dado a partição $ \mathcal{D} $, por

Screenshot_37

Assim, chegamos a seguinte definição de esperança condicional.

Definição 3.2.1

A esperança condicional da variável aleatória simples $ X $ dado a partição finita $ \mathcal{D}=(D_1, \cdots , D_k) $ é definida pela forma

$$\displaystyle \mathbb{E}[X|\mathcal{D}]=\sum_{j=1}^{n}x_j \mathbb{P}(A_j|\mathcal{D}).$$

Observe que a esperança condicional $ \mathbb{E}[X|\mathcal{D}] $ é uma variável aleatória. Além disso, para todo $ \omega \in D_i $, temos que $ \mathbb{E}(X \mid \mathcal{D})(\omega)=\sum_j x_j \mathbb{P}(A_j \mid D_i) $. Como consequência, denotamos por

Screenshot_38

A seguir, vamos apresentar propriedades da esperança condicional.

Proposição 3.2.1

Sejam $ X $ e $ Y $ variáveis aleatórias simples e $ a,b\in \mathbb{R} $, e ainda $ C $ uma função constante. Então as seguintes propriedades são satisfeitas.

(i) $ \mathbb{E}[aX+bY|\mathcal{D}]=a\mathbb{E}[X|\mathcal{D}]+b\mathbb{E}[Y|\mathcal{D}] $;

(ii) $ \mathbb{E}[X|\Omega]=\mathbb{E}[X] $;

(iii) $ \mathbb{E}[C|\mathcal{D}]=C $;

Screenshot_39

(v) Temos que $ \mathbb{E}[\mathbb{E}[X|\mathcal{D}]]=\mathbb{E}[X] $;

no qual $ \mathcal{D} $ é uma partição finita de $ \Omega $.

Demonstração

Os itens (i)-(iv) são consequências direta da definição. Para provarmos o item (v), basta aplicarmos o fato de que a esperança da probabilidade condicional do evento $ A_j $ dado a partição $ \mathcal{D} $ é $ \mathbb{P}(A_j) $, de fato

$$\mathbb{E}[\mathbb{E}[X|\mathcal{D}]]=\mathbb{E}[\displaystyle \sum_{j=1}^{n}x_j\mathbb{P}(A_j|\mathcal{D})]= \sum_{j=1}^{n}x_j\mathbb{E}[\mathbb{P}(A_j|\mathcal{D})]=\sum_{j=1}^{n}x_j\mathbb{P}(A_j)=\mathbb{E}[X].$$

Segue a proposição.

Considere $ \mathcal{D}=(D_1, \cdots , D_k) $ uma partição finita de $ \Omega $. Neste caso, a $ \sigma $-álgebra gerada por $ \mathcal{D} $, que será denotada por $ \sigma(\mathcal{D}) $, é a classe formada por união de elementos de $ \mathcal{D} $ e o conjunto vazio. Dado $ Y $ uma variável aleatória simples, dizemos que $ Y $ é mensurável com respeito a $ \sigma(\mathcal{D}) $ (ou, com respeito a partição $ \mathcal{D} $), se a $ \sigma(Y)\subset \sigma(\mathcal{D}) $

Lema 3.2.1

Dado $ \mathcal{D} $ uma partição de $ \Omega $. Uma variável aleatória simples $ Y $ é mensurável com respeito a $ \sigma(\mathcal{D}) $ se, e só se, $ Y $ pode ser representada na forma

Screenshot_40

Demonstração

Basta aplicarmos o teorema da representação de Doob.

Dados duas partições finitas $ \mathcal{D_1} $ e $ \mathcal{D_2} $, dizemos que $ \mathcal{D_2} $ é mais fina que $ \mathcal{D_1} $, se para todo elemento $ D\in \mathcal{D_1} $, existe uma família $ (F_1, \cdots , F_m) \subset \mathcal{D}_2 $ tal que $ D=F_1\cup \cdots \cup F_m $. Assim, obtemos que $ \mathcal{D_2} $ é mais fina que $ \mathcal{D_1} $ se, e só se, $ \sigma(\mathcal{D_1})\subset \sigma(\mathcal{D_2}) $ (exercício).

Considere $ \mathcal{D}=(D_1, \cdots , D_k) $ uma partição de $ \Omega $ e $ Y $ uma variável aleatória simples na forma

Screenshot_41

Teorema 3.2.1

Considere $ Y $ uma variável aleatória simples, $ \mathcal{D} $ uma partição finita de $ \Omega $. A esperança condicional de $ Y $ dado $ \mathcal{D} $ é a única variável aleatória $g:\Omega \rightarrow \mathbb{R}$ satisfazendo

(i) $ g $ é mensurável com respeito a $ \sigma(\mathcal{D}) $;

(ii) Para todo $ F\in\sigma(\mathcal{D}) $, temos que

Screenshot_42

Observe que esta equação é válida para todo elemento da $ \sigma $-álgebra gerada pela partição $ \mathcal{D} $. Além disso, ela caracteriza a esperança condicional no seguinte sentido: a esperança condicional é a única variável aleatória simples, mensurável com respeito a $ \sigma(\mathcal{D}) $ e satisfazendo (1). Na sequência, apresentamos algumas propriedades da esperança condicional

Proposição 3.2.2

Sejam $ X $ uma variável aleatória simples e $ Y $ uma variável aleatória mensurável com respeito $ \sigma(\mathcal{D}) $. Então, temos que

$$\mathbb{E}[X Y \mid \mathcal{D}]=Y\mathbb{E}[X \mid \mathcal{D}].$$

Demonstração

Screenshot_43

Screenshot_44

Screenshot_45

Segue a proposição.

Na sequência, vamos mostrar a propriedade de “torre” da esperança condicional.

Proposição 3.2.3

Considere $ \mathcal{D_1} $ e $ \mathcal{D_2} $ partições de $ \Omega $ tal que $ \sigma(\mathcal{D_1})\subset\sigma(\mathcal{D_2}) $. Para todo variável aleatória simples $ X $, temos que

Screenshot_46

Demonstração

Desde que $ \mathbb{E}(X \mid \mathcal{D_1}) $ é uma variável aleatória simples mensurável com respeito a $ \sigma(\mathcal{D_2}) $, segue da proposição 3.2.2 que

$$\mathbb{E}\left[\mathbb{E}\left(X \mid \mathcal{D_1}\right) \mid \mathcal{D_2}\right]=\mathbb{E}\left(X \mid \mathcal{D_1}\right).$$

Screenshot_47

$$\mathbb{E}\left[\mathbb{E}\left(X \mid \mathcal{D_2}\right) \mid \mathcal{D_1}\right]=\displaystyle \mathbb{E}\left[\sum_{j=1}^{n}x_j\mathbb{P}(A_j|\mathcal{D_2})\mid \mathcal{D_1}\right].$$

Assim, basta mostrarmos que $ \mathbb{E}[\mathbb{P}(A_j|\mathcal{D_2})|\mathcal{D_1}]=\mathbb{P}(A_j|\mathcal{D_1}) $. Notemos primeiramente que

Screenshot_48

Screenshot_49

Segue a proposição.

Proposição 3.2.4

Sejam $ X $ e $ Y $ variáveis aleatórias independentes, com $ \mathbb{E}(|X|)< \infty $ e $ \mathbb{E}(|Y|)< \infty $. Então, temos que $ \mathbb{E}(XY)=\mathbb{E}(X)\mathbb{E}(Y) $.

Demonstração

Primeiramente considere o caso em que $ X\geq 0 $ e $ Y\geq 0 $. Seja

Screenshot_50

Então $ X_n\leq X $, $ |X_n-X|\leq 1/n $ e $ Y_n\leq Y $, $ |Y_n-Y|\leq 1/n $. Desde que $ \mathbb{E}(X)< \infty $ e $ \mathbb{E}(Y)< \infty $. Assim, segue do teorema da convergência dominada que

$$\lim_{n\rightarrow \infty} \mathbb{E}(X_n)=\mathbb{E}(X)$$

$$\lim_{n\rightarrow \infty} \mathbb{E}(Y_n)=\mathbb{E}(Y).$$

Além do mais, desde que $ X $ e $ Y $ são independente,

Screenshot_51

Agora note que

$$|\mathbb{E}(XY)-\mathbb{E}(X_n Y_n)|\leq \mathbb{E}(|XY-X_nY_n|) $$

$$\leq \mathbb{E}(|X||Y-Y_n|)+\leq \mathbb{E}(|Y_n||X-X_n|)\leq\displaystyle \frac{1}{n} \mathbb{E}(X)+\frac{1}{n}\mathbb{E}\left(Y+\frac{1}{n}\right)\rightarrow 0, ~n\rightarrow \infty.$$

Portanto,

$$\displaystyle \mathbb{E}(XY)=\lim_{n\rightarrow \infty}\mathbb{E}(X_nY_n)=\lim_{n\rightarrow \infty}\mathbb{E}(X_n)\lim_{n\rightarrow \infty}\mathbb{E}(Y_n).$$

De modo geral se reduz a seguinte representação

$$X=X^+ +X^-$$

$$Y=Y^+ +Y^-$$

$$XY=X^+Y^+ -X^-Y^+ -X^+Y^- X^-Y^-.$$

E isto completa a prova.

3.3 - Esperança Condicional com respeito a uma sigma-álgebra

Considere $ (\Omega,\mathcal{F},\mathbb{P}) $ um espaço de probabilidade e $ \mathcal{G} $ uma $ \sigma $-álgebra tal que $ \mathcal{G}\subset\mathcal{F} $. Seja $ X $ uma variável aleatória positiva e $ Q $ uma medida definida sobre $ (\Omega , \mathcal{G}) $, na forma

Screenshot_52

Como consequência, apresentamos a seguinte definição da esperança condicional.

Definição 3.3.1

A esperança condicional de uma variável aleatória positiva $ X $ dado a $ \sigma $-álgebra $ \mathcal{G}~(\subset \mathcal{F}) $, denotada por $ \mathbb{E}[X|\mathcal{G}] $, é a única $ (\mathbb{P}-q.c.) $ variável aleatória satisfazendo

i) $ \mathbb{E}[X|\mathcal{G}] $ é $ \mathcal{G} $-mensurável

ii) Para todo $ A\in \mathcal{G} $

$$\displaystyle \int_{A}X d \mathbb{P}=\int_{A}\mathbb{E}[X|\mathcal{G}]d\mathbb{P}.$$

​A esperança condicional de uma variável aleatória qualquer $ X $ com respeito a uma $ \sigma $-álgebra é dada por

$$\mathbb{E}[X|\mathcal{G}]=\mathbb{E}[X^+|\mathcal{G}]-\mathbb{E}[X^-|\mathcal{G}],$$

caso $ \mathbb{E}[X^+|\mathcal{G}] < \infty $ ou $ \mathbb{E}[X^-|\mathcal{G}])< \infty, $ nos quais $ X^+=\max(X,0) $ e $ X^-=\min(-X,0) $. Podemos definir também a variância condicional da seguinte forma.

Definição 3.3.2

Seja $ X $ uma variável aleatória quase integrável e $ \mathbb{E}[X|\mathcal{G}] $ a esperança condicional com respeito a $ \sigma $-álgebra $ \mathcal{G} $. Então a variância condicional é dada por

$$Var[X|\mathcal{G}]=\mathbb{E}[(X-\mathbb{E}[X|\mathcal{G}])^2|\mathcal{G}]$$

Definição 3.3.3

Dado $ B\in \mathcal{F} $, a probabilidade condicional de $ B $ dado a $ \sigma $-álgebra $ \mathcal{G} $ é definido por

Screenshot_53

Dado $ \mathcal{D}=(D_1, \cdots , D_k) $ uma partição finita de $ \Omega $, definimos e estudamos propriedades da esperança condicional com respeito a partição $ \mathcal{D} $. A seguir, vamos verificar que esta definição de esperança condicional está coerente com a definição via $ \sigma $-álgebra. O lema abaixo foi demonstrado no módulo anterior.

Lema 3.3.1

Seja $ X $ uma variável aleatória $ \sigma(\mathcal{D}) $-mensurável. Então $ X $ pode ser representado da forma

Screenshot_54

com $ c_k\in \mathbb{R} $, ou seja, $ X $ é constante em $ D_k $.

Proposição 3.3.1

Se $ \mathcal{G}=\sigma(\mathcal{D}) $, com $ \mathcal{D} $ sendo uma partição e seja $ X $ uma variável aleatória tal que, $ \mathbb{E}[X] <\infty $.

Screenshot_55

Demonstração

De acordo com o lema anterior temos que $ \mathbb{E}[X|\mathcal{G}]=c_i $ em $ D_i $, onde $ c_i\in \mathbb{R} $, Mas

$$\displaystyle\int_{D_i}X d\mathbb{P}=\int_{D_i}\mathbb{E}[X|\mathcal{G}] d\mathbb{P}=c_i\mathbb{P}(D_i).$$

Assim, temos que

Screenshot_56

Portanto o resultado segue.

Agora vamos demonstrar algumas propriedades da esperança condicional dado uma $ \sigma $-àlgebra

Propriedades da Esperança condicional

P1: Se $ C $ é uma constante e $ X=C $, quase certamente, então $ \mathbb{E}[X|\mathcal{G}]=C $, quase certamente.

P2: A esperança condicional é linear, sejam c e b constantes e X e Y variáveis aleatórias. Então,

$$\mathbb{E}[cX+bY|\mathcal{G}]=c\mathbb{E}[X|\mathcal{G}]+b\mathbb{E}[Y|\mathcal{G}]~\mathbb{P}-q.c.$$

P3: Se $ X\leq Y $ quase certamente, então $ \mathbb{E}[X|\mathcal{G}]\leq \mathbb{E}[Y|\mathcal{G}]~\mathbb{P}-q.c. $

P4: Seja $ \mathcal{G} \subset \mathcal{F} $ uma $ \sigma $-álgebra e $ \sigma(X) $ a $ \sigma $-álgebra gerada pela variável aleatória X, com $ \sigma(X)\subset\mathcal{G} $. Então

$$\mathbb{E}[X|\mathcal{G}]=X~\mathbb{P}-q.c..$$

P5: Seja X uma variável aleatória e as $ \sigma $-álgebras $ \mathcal{G}_1\subset\mathcal{G}_2 $. Então,

a) $ \mathbb{E}[X|\mathcal{G}_1]=\mathbb{E}[\mathbb{E}[X|\mathcal{G}_1]|\mathcal{G}_2]~\mathbb{P}-q.c. $ e

b) $ \mathbb{E}[X|\mathcal{G}_1]=\mathbb{E}[\mathbb{E}[X|\mathcal{G}_2]|\mathcal{G}_1]~\mathbb{P}-q.c. $

P6: Se a variável aleatória $ X $ e a $ \sigma $-álgebra $ \mathcal{G} $ são independentes, obtemos que

$$\mathbb{E}[X|\mathcal{G}]=\mathbb{E}[X]~\mathbb{P}-q.c..$$

Em particular se X e Y são variáveis aleatórias independentes então $ \mathbb{E}[X|Y]=\mathbb{E}[X]~\mathbb{P}-q.c. $.

P7: A esperança de $ X $ e a esperança de $ \mathbb{E}[X|\mathcal{G}] $ são as mesmas, ou seja

$$\mathbb{E}[X]=\mathbb{E}\left[\mathbb{E}[X|\mathcal{G}]\right]~\mathbb{P}-q.c..$$

Demonstração

P1 - Claro que a função constante é mensurável com respeito a $ \mathcal{G} $. Assim basta verificar se

$$\displaystyle \int_{A}X d\mathbb{P}=\int_{A}C dP, ~ A\in \mathcal{G}.$$

Entretanto por hipótese temos que $ X=C $ quase certamente, então essa equação é satisfeita e o resultado segue.

P2 - A propriedade 2 é consequência direta de propriedades da integral,

$$\displaystyle \int_{A}(cX+bY)d\mathbb{P}=c\int_{A}X d\mathbb{P}+b\int_{A}Y d\mathbb{P}=c\int_{A}\mathbb{E}[X|\mathcal{G}] d\mathbb{P}+b\int_{A}\mathbb{E}[Y|\mathcal{G}] d\mathbb{P}=$$

$$\int_{A}\left(c\mathbb{E}[X|\mathcal{G}]+b\mathbb{E}[X|\mathcal{G}] \right)d\mathbb{P}.$$

e portanto o resultado segue.

P3 - Se $ X\leq Y $ quase certamente, então

$$\displaystyle \int_{A}X d\mathbb{P} \leq \int_{A}Y d\mathbb{P}, ~ A \in \mathcal{G}$$

mais isso implica que

$$\displaystyle \int_{A}\mathbb{E}[X|\mathcal{G}] d\mathbb{P} \leq \int_{A}\mathbb{E}[Y|\mathcal{G}] d\mathbb{P}, ~ A \in \mathcal{G}$$

e portanto o resultado segue.

P4 - Desde que $ \sigma(X)\subset \mathcal{G} $, temos então que $ X $ é $ \mathcal{G} $-mensurável, logo

$$\displaystyle \int_AXd\mathbb{P}=\int_A\mathbb{E}(X|\mathcal{G})d\mathbb{P}, ~A\in\mathcal{G}$$

o que implica que $ X=\mathbb{E}(X|\mathcal{G}) $ $ \mathbb{P} $-q.c.

E portanto o resultado segue.

P5 - a) De fato, seja $ A\in \mathcal{G}_1 $ então

$$\displaystyle \int_A \mathbb{E}(X|\mathcal{G}_1)d\mathbb{P}=\int_AXd\mathbb{P}$$

desde que $ \mathcal{G}_1\subset\mathcal{G}_2 $, temos que $ A\in \mathcal{G}_1 $ implica em $ A\in \mathcal{G}_2 $ então

$$\displaystyle \int_{A}\mathbb{E}(X|\mathcal{G}_2)d\mathbb{P}=\int_A\mathbb{E}[\mathbb{E}(X|\mathcal{G}_1)|\mathcal{G}_2]d\mathbb{P}=\int_AXd\mathbb{P}$$

E portanto o resultado segue

b) Seja $ A\in \mathcal{G}_1 $ e $ Y=\mathbb{E}[X|\mathcal{G}_1] $

$$\displaystyle \int_A Yd\mathbb{P}=\int_A Xd\mathbb{P}$$

Por outro lado por P4 temos que desde que $ A\in \mathcal{G}_1\subset\mathcal{G}_2 $

$$\displaystyle \int_A\mathbb{E}[\mathbb{E}[X|\mathcal{G}_2]|\mathcal{G}_1]d\mathbb{P}=\int_A\mathbb{E}[X|\mathcal{G}_2]d\mathbb{P}=\int_A\mathbb{E}(X|\mathcal{G}_1)d\mathbb{P}=\int_A Xd\mathbb{P}$$

então o resultado segue.

P6 - Temos que desde que $ \mathbb{E}[X] $ é $ \mathcal{G} $-mensurável, temos apenas que verificar que

$$\displaystyle \int_A X d\mathbb{P} =\int_A \mathbb{E}[X]d\mathbb{P},\quad A\in \mathcal{G}$$

Screenshot_57

P7 - Tome primeiramente a $ \sigma $-álgebra trivial $ \mathcal{G}_1=(\emptyset,\Omega) $. Então seja $ A\in \mathcal{G}_1 $, temos

$$\displaystyle \int_{A}\mathbb{E}[X|\mathcal{G}_1]d\mathbb{P}=\int_{A}X d\mathbb{P}.$$

claro que, $ A\in \mathcal{G}_1\subset\mathcal{G} $ então

$$\displaystyle \int_{A}\mathbb{E}[\mathbb{E}[X|\mathcal{G}_1]|\mathcal{G}]d\mathbb{P}=\int_{A}\mathbb{E}[X|\mathcal{G}]=\int_{A}X d\mathbb{P}$$

e portanto o resultado segue

Abaixo definiremos algumas desigualdades importantes para esperança.

Teorema 3.3.4

Seja $ (X_n)_n\in\mathbb{N} $ uma sequência de variáveis aleatórias. Então

i) Se $ |X_n|\leq Y $, $ \mathbb{E}[Y]< \infty $ e $ X_n\rightarrow X $ quase certamente, então

$$\mathbb{E}[X_n|\mathcal{G}]\rightarrow \mathbb{E}[X|\mathcal{G}]~quase~certamente$$

e

$$\mathbb{E}[|X_n-X||\mathcal{G}]\rightarrow 0~quase~certamente$$

ii) Se $ X_n\geq Y $, $ \mathbb{E}[Y]> -\infty $ e $ X_n\uparrow X $ quase certamente, então

$$\mathbb{E}[X_n|\mathcal{G}]\uparrow \mathbb{E}[X|\mathcal{G}]~quase~certamente$$

iii) Se $ X_n\leq Y $, $ \mathbb{E}[Y]< \infty $ e $ X_n\downarrow X $ quase certamente, então

$$\mathbb{E}[X_n|\mathcal{G}]\downarrow \mathbb{E}[X|\mathcal{G}]~quase~certamente$$

iv) Se $ X_n\geq Y $, $ \mathbb{E}[Y]> -\infty $, então

$$\mathbb{E}[\liminf X_n|\mathcal{G}]\leq\liminf \mathbb{E}[X_n|\mathcal{G}]~quase~certamente$$

v) Se $ X_n\leq Y $, $ \mathbb{E}[Y]<\infty $, então

$$\mathbb{E}[\limsup X_n|\mathcal{G}]\geq\limsup \mathbb{E}[X_n|\mathcal{G}]~quase~certamente$$

vi) Se $ X_n\geq 0 $, então

$$\displaystyle \mathbb{E}[\sum X_n|\mathcal{G}]=\sum \mathbb{E}[X_n|\mathcal{G}]~quase~certamente$$

Demonstração

i)Seja $ W_n= \sup_{m\geq n |X_n-X|} $. Como $ X_n \rightarrow X $ quase certamente, temos que $ W_n\downarrow 0 $ quase certamente. A esperança $ \mathbb{E}[X_n] $ e $ \mathbb{E}[X] $ são finitas, assim usando as propriedades de esperança condicional temos que:

$$|\mathbb{E}[X_n|\mathcal{G}]-\mathbb{E}[X|\mathcal{G}]|=|\mathbb{E}[X_n-X|\mathcal{G}]|\leq \mathbb{E}[|X_n-X||\mathcal{G}]\leq \mathbb{E}[W_n|\mathcal{G}].$$

Desde que$ \mathbb{E}[W_{n+1}|\mathcal{G}]\leq \mathbb{E}[W_n|\mathcal{G}] $ quase certamente, e assim o $ \lim_n \mathbb{E}[W_n|\mathcal{G}]=h $ existe quase certamente. Então

$$0\leq \int_{\Omega}h d\mathbb{P}\leq \int_{\Omega}\mathbb{E}[W_n|\mathcal{G}]d\mathbb{P}=\int_{\Omega}W_nd\mathbb{P}\rightarrow 0, ~ n\rightarrow \infty,$$

onde a ultima igualdade decorre do teorema da convergência dominada, o qual é um teorema muito importante dentro da teoria da medida. Assim $ \int_{\Omega}hd\mathbb{P}=0 $ implica pelas propriedades de esperança condicional, isto implica que h=0 quase certamente. E portanto o resultado segue.

ii) Primeiro seja, $ Y=0 $. Desde que $ \mathbb{E}[X_n|\mathcal{G}]\leq \mathbb{E}[X_{n+1}|\mathcal{G}] $ quase certamente. Seja $ \lim_{n}\mathbb{E}[X_n|\mathcal{G}]=W(\omega) $ existe quase certamente. Então a equação

$$\int_{A}X_n d\mathbb{P}=\int_A \mathbb{E}[X_n|\mathcal{G}]d\mathbb{P}, ~ A\in \mathcal{G},$$

e pelo teorema da convergência monótona, temos que

$$\int_A X_nd\mathbb{P}=\int_A W d\mathbb{P}, ~ A \in \mathcal{G}$$

Consequentemente $ X=W $ quase certamente. E portanto o resultado segue.

iii) O resultado segue do resultado anterior.

iv) Seja $ W_n= \inf_{m\geq n}X_m $, então $ X_n\uparrow X $, onde $ W=\liminf X_n $. Usando ii) $ \mathbb{E}[W_n|\mathcal{G}]\uparrow \mathbb{E}[W|\mathcal{G}] $ quase certamente. Portanto,

$$\mathbb{E}[W|\mathcal{G}]=\lim_{n}\mathbb{E}[W_n|\mathcal{G}]=\liminf \mathbb{E}[W_n|\mathcal{G}]\leq \liminf \mathbb{E}[X_n|\mathcal{G}]$$

e o resultado segue.

v) Segue do iv)

vi) Se $ X_n \geq 0 $, pelas propriedades de esperança condicional temos que

$$\mathbb{E}\left[\displaystyle \sum_{k=1}^{n}X_k|\mathcal{G}\right]=\sum_{k=1}^{n}\mathbb{E}[X_k|\mathcal{G}]$$

Assim uma utilizando ii), e o resultado segue.

Proposição 3.3.2

Seja $ \mathcal{G} $ uma $ \sigma $-álgebra e $ \sigma(X) $ a $ \sigma $-álgebra gerada pela variável aleatória X, com $ \sigma(X)\subset\mathcal{G} $. Ao tomarmos $ Y $ uma variável aleatória qualquer, obtemos que

$$\mathbb{E}[XY|\mathcal{G}]=X\mathbb{E}[Y|\mathcal{G}]~\mathbb{P}-q.c..$$

Em particular se $ X $ é uma função da variável $ Z $, então $ \sigma(X)\subset\sigma(Z) $ e,

$$\mathbb{E}[XY|Z]=X\mathbb{E}[Y|Z]~\mathbb{P}-q.c..$$

Demonstração

Considere primeiramente $ Y=1_{B} $ e $ B\in \mathcal{G} $. Então, para todo $ A\in \mathcal{G} $,

$$\displaystyle \int_A XYd\mathbb{P}=\int_{A\cap B} Xd\mathbb{P}=\int_{A\cap B}\mathbb{E}(X|\mathcal{G})d\mathbb{P}=\int_{A}{1}_B\mathbb{E}(X|\mathcal{G})d\mathbb{P}=\int_A Y\mathbb{E}(X|\mathcal{G})d\mathbb{P}$$

Então, pela propriedade de aditividade da integral temos que

$$\displaystyle \int_A XYd\mathbb{P}=\int_A Y\mathbb{E}(X|\mathcal{G})d\mathbb{P},~A\in\mathcal{G}$$

é valido para $ Y=\displaystyle \sum_{k=1}^n y_k {1}_{B_k} $, $ B_k\in \mathcal{G} $, o que implica que

$$\mathbb{E}(XY|\mathcal{G})=Y\mathbb{E}(X|\mathcal{G})$$

Agora seja $ Y $ qualquer variável $ \mathcal{G} $-mensurável com $ \mathbb{E}(|Y|)< \infty $ e seja $ (Y_n)_{n\geq 1} $ uma sequência de variáveis tal que $ |Y_n|\leq Y $ e $ Y_n\rightarrow Y $. Então como é valido para variáveis simples temos que

$$\mathbb{E}(XY_n|\mathcal{G})=Y_n\mathbb{E}(X|\mathcal{G})$$

Claro que $ |XY_n|\leq |XY| $, com $ |XY|< \infty $. Portanto pelo teorema 3.3.4 temos que

$$\mathbb{E}(XY_n|\mathcal{G})\rightarrow \mathbb{E}(XY|\mathcal{G})$$

E portanto o resultado segue.

3.4 - Teorema de Radon-Nikodym

Um dos problemas mais comuns estudados em análise matemática é encontrar uma representação conveniente para algumas funções especiais. Por exemplo, sobre certas condições, pode-se representar um funcional linear sobre um espaço de Hilbert em termos de um produto escalar dado. Uma situação similar ocorre na teoria da medida. Dado duas medidas $ \nu $ e $ \mu $ sobre um espaço mensurável $ (X,\mathcal{F}) $, uma questão importante que surge é se conseguimos representar $ \nu $ em termos de $ \mu $ através de algum operador linear. O teorema de Radon-Nikodym garante tal representação sobre certas hipóteses.

Definição 3.4.1

Uma medida sinal sobre um espaço mensurável $ (X,\mathcal{F}) $ é uma função a valores reais estendidos $ \nu $ definida para conjuntos de $ \mathcal{F} $ satisfazendo

  • $ \nu $ assume no máximo um dos valores $ +\infty $, $ -\infty $;
  • $ \nu(\emptyset)=0 $; Screenshot_60

Outro conceito importantíssimo é a noção de conjunto positivo e conjunto negativo.

Definição 3.4.2

Um conjunto $ A $ é dito ser positivo, se para qualquer subconjunto $ E\subset A $, temos que $ \nu(E)\geq 0 $. Similarmente, dizemos que $ B $ é um conjunto negativo se, para qualquer subconjunto $ E\subset B $, temos que $ \nu(E)\leq 0 $.

Lema 3.4.1

Todo subconjunto mensurável de um conjunto positivo é ele mesmo positivo. A união de uma coleção enumerável de conjuntos positivos é um conjunto positivo.

Prova:

A primeira afirmação sai direto da definição de conjunto positivo.

Seja $ A $ a união de uma sequência de conjuntos positivos. Se $ E $ é qualquer subconjunto mensurável de A. Defina

$$E_n=E\cap(A_n-\cup_{i=1}^{n-1}A_i)$$

Cada $ E_n $ é um subconjunto mensurável de $ A_n $ e portanto $ \nu(E_n)\geq 0 $. Desde que $ E_n $ são disjuntos e $ E=\cup_{n=1}^{\infty}E_n $, da definição de medida, temos que

$$\nu(E)=\nu(\cup_{n=1}^{\infty})=\sum_{n=1}^{\infty}\nu(E_n)\geq 0.$$

Então $ A $ é um conjunto positivo.

$ \square $

Lema 3.4.2

Seja $ E $ um conjunto mensurável tal que $ 0 < \nu(E)<\infty $. Então existe um conjunto positivo $ A\subset E $ com $ \nu(A)> 0 $.

Prova:

Se $ E $ é um conjunto positivo, não há nada a provar. Suponha que $ E $ não seja um conjunto positivo. Então ele contém conjuntos de medida não positiva. Seja $ n_1 $ o menor inteiro positivo tal que existe um conjunto mensurável $ E_1\subset E $ com $ \nu(E)< -\frac{1}{n_1} $.

Procedendo indutivamente, se $ E-\cup_{i=1}^{k-1}E_i $, ainda não for um conjunto positivo, seja $ n_k $ o menor inteiro positivo para o qual existe um conjunto mensurável $ E_k $ tal que $ E_k -\cup_{i=1}^{k-1}E_i $ e $ \nu(E_k)< -\frac{1}{n_k} $.

Defina $A:=E-\cup_{i=1}^{\infty}E_i$. Vamos mostrar que $ A $ é um conjunto positivo.

Note que $ E=A\cup(\cup_{i=1}^{\infty}E_i) $ e que esta é uma união disjunta. Entã, temos que

$$\nu(E)=\nu(A)+\nu(\cup_{i=1}^{\infty}E_i).$$

Por outro lado, temos que

$$\sum_{i=1}^{\infty}|\nu(E_i)|=|\nu(\cup_{i=1}^{\infty}E_i)|\leq |\nu(E)|< \infty.$$

Então $ \sum_{i=1}^{\infty}\nu(E_i) $ converge absolutamente. Assim, vale que

$$\nu(E)=\nu(A)+\sum_{i=1}^{\infty}\nu(E_i).$$

Desde que $ |\nu(E_k)|=-\nu(E_k)\geq \frac{1}{n_k} $. Do critério da comparação, como $ \sum_{i=1}^{\infty}|\nu(E_i)|<\infty $ converge, segue quea série $ \sum_{i=1}^{\infty}\frac{1}{n_i} $ converge. Então $ \frac{1}{n_k}\rightarrow 0 $ quando $ k\rightarrow \infty $, isto é, $ \lim_{k\rightarrow \infty}n_k=\infty $.

Como $ n_k\rightarrow\infty $, existe $ k $ tal que $ (n_k-1)^{-1}\leq\varepsilon $.

Suponha que $ A $ contém um conjunto $ C $ com medida menor do que $ -(n_k-1)^{-1} $. Observe que $ C\subseteq A\subseteq E-\cup_{i=1}^{k-1}E_i $ e

$$\nu(C)<-\frac{1}{n_k-1}<-\frac{1}{n_k}$$

Temos uma contradição, desde que $ n_k $ é o menor inteiro positivo para o qual existe um conjunto mensurável $ E_k\subset E-\cup_{i=1}^{k-1}E_i $ tal que $ \nu(E_k)< -\frac{1}{n_k} $. Então o conjunto $ A $ não pode conter conjuntos mensuráveis com medida menor do que $ -(n_k-1)^{-1} $, qual é maior do que $ -\varepsilon $. Então $ A $ nã contém conjuntos com medida menor do que $ -\varepsilon $. Como $ \varepsilon $ é arbitrário, segue que $ A $ não contém conjuntos com medida negativa, e portanto é um conjunto positivo.

$ \square $

Teorema 3.4.1 (Teorema da Decomposição de Hahn)

Seja $ \nu $ medida sinal sobre $ (X,\mathcal{F}) $. Então, existe um conjunto positivo $ A $ e um conjunto negativo $ B $ tal que

$$X=A\cup B\ \ \ e \ \ \ A\cap B=\emptyset.$$

Prova:

Como $ \nu $ assume no máximo um valor de $ -\infty $ ou $ +\infty $, vamos assumir que $ -\infty\leq\nu(E)<\infty $ para qualquer conjunto mensurável $ E $.

Seja

$$ \lambda:=\sup(\nu(A):A \text{é conjuto positivo com respeito a $\nu$}) $$

Como $ \emptyset $ é positivo e $ \nu(\emptyset)=0 $, temos que $ \lambda\geq 0 $.

Screenshot_61

Então

$$\nu(A)=\nu(A_i)+\nu(A-A_i)\geq\nu(A_i)$$

para todo $ i $. Assim,

$$\lambda=\lim_{n\to\infty}n(A_i)\leq \nu(A)\leq\lambda$$

Temos então

$$\nu(A)=\lambda$$

Seja $ B=X-A $. Vamos mostrar que $ B $ é um conjunto negativo. Suponha que $ E $ é um subconjunto positivo de $ B $. Então $ E $ e $ A $ são disjuntos e $ E\cup A $ é um conjunto positivo.

$$\lambda\geq\nu(E\cup A)=\nu(E)+\nu(A)=\nu(E)+\lambda.$$

Como $ \lambda<\infty $, temos que $ \nu(E)=0 $. Se $ B $ contém um conjunto com medida positiva, pelo Lema 3.4.2 existe um subconjunto positivo $ A\subset E $ tal que $ \nu(A)>0 $. Então $ B $ é um conjunto negativo.

$ \square $

Definição 3.4.3

Se $ (X,\mathcal{F}) $ é um espaço mensurável e $ \mu $ e $ \nu $ duas medidas sinais sobre $ \mathcal{F} $, dizemos que $ \mu $ e $ \nu $ são mutuamente singulares, $ \mu\perp\nu $, se existe dois conjuntos $ A $ e $ B $ no qual $ A\cup B=X $ e para todo subconjunto mensurável $ E $,

$$|\mu|(A\cap E)=|\nu|(E\cap B)=0.$$

Teorema 3.4.2 (Teorema da Decomposição de Jordan)

Seja $ \nu $ uma medida sinal sobre o espaço mensurável $ (X,\mathcal{F}) $. Então existem duas medidas mutuamente singulares $ \nu^{+} $ e $ \nu^{-} $ sobre $ (X,\mathcal{F}) $ tal que

$$\nu=\nu^{+}-\nu^{-}$$

e o par $ (\nu^{+},\nu^{-}) $ é único.

Prova:

Seja $ A $ e $ B $ a decomposição de Hahn para $ \nu $. Defina \mathcal{F}\rightarrow[0,+\infty] $ e \mathcal{F}\rightarrow[0,+\infty] $ por

$$\nu^{+}(E)=\nu(E\cap A).$$

$$\nu^{-}(E)=-\nu(E\cap B).$$

Como $ A $ e $ B $ são respectivamente conjunto positivo e negativo, temos que $ \nu^{+} $ e $ \nu^{-} $ são medidas não negativas.

Agora, vamos verificar que $ \nu^{+} $ e $ \nu^{-} $ são mutuamente singulares.

Desde que $ A $ e $ B $ são conjuntos mensuráveis disjuntos, então

$$\nu^{+}(B\cap E)=\nu(E\cap (A\cap B))=\nu(\emptyset)=0$$

$$\nu^{-}(A\cap E)=\nu(E\cap (A\cap B))=\nu(\emptyset)=0$$

Para todo conjunto mensurável $ E $, temos que $ \nu^{+} $ e $ \nu^{-} $ são mutuamente singulares. Vamos checar que $ \nu=\nu^{+}-\nu^{-} $.

$$\nu(E)=\nu(E\cap X)=\nu(E\cap (A\cup B))=\nu(E\cap A)+\nu(E\cap B)=\nu^{+}(E)-\nu^{-}(E).$$

Só nos resta mostrar que a decomposição é única. Seja $ X=A^{\prime}\cup B^{\prime} $ outra decomposição de Hahn para $ \nu $. Vamos mostrar que $ \nu(E\cap A)=\nu(E\cap A^{\prime}) $ e $ \nu(E\cap B)=\nu(E\cap B^{\prime}) $. Observe que $ E\cap (A-A^{\prime})\subset A $ então $ \nu(E\cap (A-A^{\prime}))\geq 0 $ e $ E\cap (A-A^{\prime})\subset B^{\prime} $ então $ \nu(E\cap (A-A^{\prime}))\leq0 $. Assim, $ \nu(E\cap (A-A^{\prime}))=0 $, e por simetria $ \nu(E\cap (A^{\prime}-A))=0 $.

Note que $ A\cup A^{\prime}=A\cup (A^{\prime}-A) $, então

$$\nu(E\cap (A\cup A^{\prime}))=\nu(E\cap(A\cup (A-A^{\prime})))\nu(E\cap A)+\nu(E\cap(A^{\prime}-A))=\nu(E\cap A).$$

e

$$\nu(E\cap (A\cup A^{\prime}))=\nu(E\cap(A^{\prime}\cup (A-A^{\prime}))=\nu(E\cap A^{\prime})+\nu(E\cap(A-A^{\prime}))=\nu(E\cap A^{\prime}).$$

Similarmente, podemos mostrar que $ \nu(E\cap B)=\nu(E\cap B^{\prime}) $.

$ \square $

Definição 3.4.4

Se $ (X,\mathcal{F}) $ é um espaço mensurável e $ \mu $ e $ \nu $ medidas sinais sobre $ \mathcal{F} $, dizemos que $ \nu $ é absolutamente contínua com respeito a $ \mu $, $ \nu\ll\mu $, se $ \nu(E)=0 $ para todo conjunto mensurável $ E $ para qual $ |\nu|(E)=0 $.

Proposição 3.4.1

Se $ \nu $ e $ \mu $ são medidas sinais, então as condições

  1. $ \nu\ll\mu $
  2. $ \nu^{+}\ll\mu $ e $ \nu^{-}\ll\mu $
  3. $ |\nu|\ll|\mu| $

são equivalentes.

Prova:

$ 1\rightarrow 2 $.

Seja E conjunto mensurável tal que $ |\mu|(E)=0 $. Então

$$0\leq|\mu|(A\cap E)\leq|\mu|(E)=0$$

Similarmente, $ |\mu|(B\cap E)=0 $. E $ \nu\ll\mu $, temos que $ \nu(A\cap E)=0 $ e $ \nu(B\cap E)=0 $, isto é, $ \nu^{+}(E)=\nu^{-}(E)=0 $. Assim, $ \nu^{+}\ll\mu $ e $\nu^{-}\ll\mu $.

$ 2\rightarrow 3 $.

Seja $ E $ um conjunto mensurável tal que $ |\mu|(E)=0. $ Então

$$\nu^{+}\ll\mu\Rightarrow\nu^{+}(E)=0.$$

$$\nu^{-}\ll\mu\Rightarrow\nu^{-}(E)=0.$$

Então, $ |\nu|(E)=\nu^{+}(E)+\nu^{-}(E)=0+0=0 $. E portanto

$$|\nu|\ll|\mu|.$$

$ 3\rightarrow 1 $.

Seja $ E $ conjunto mensurável tal que $ |\nu|(E)=0. $ Desde que $ |\nu|\ll|\mu| $, temos que $ |\nu|(E)=0 $. Como $ 0\leq\nu^{+}(E)\leq|\nu|(E)=0 $, então $ \nu^{+}(E)=0 $. Similarmente $ \nu^{-}(E)=0 $. Como $ \nu(E)=\nu^{+}(E)-\nu^{-}(E)=0-0=0 $. Portanto $ \nu\ll\mu $.

Lema 3.4.3

Se $ \nu $ e $ \mu $ são medidas finitas tal que $ \nu\ll\mu $ e $ \nu $ não é identicamente nula, então existe um número positivo $ \epsilon $ e um conjunto mensurável $ A $ tal que $ \nu(A)>0 $ e $ A $ um conjunto mensurável positivo para a medida sinal $ \nu-\epsilon\mu $.

Prova:

Para cada $ n=1,2,3,\dots $, considere a medida sinal $ \nu-\frac{1}{n}\mu $ e seja $ X=A_n\cup B_n $ a decomposição de Hahn com respeito a medida $ \nu-\frac{1}{n}\mu $. Seja $ A_0=\cup_{n=1}^{\infty}A_n $ e $ B_0=\cap_{n=1}^{\infty}B_n $.

Como $ B_0\subset B_n $ para cada $ n\in\mathbb{Z}_{+} $, como cada $ B_n $ é um conjunto negativo, temos que

$$0\leq\nu(B_0)\leq\frac{1}{n}\mu(B_0)$$

para todo $ n\in\mathbb{Z}_{+} $. Assim, $ \nu(B_0)=0 $.

Note que $ X=A_0\cup B_0 $ é uma união disjunta. Se $ \nu(A_0)=0 $ então $ \nu(X)=\nu(A_0)+\nu(B_0)=0+0=0 $, ou seja, $ \nu(X)=0 $, mas como $ \nu $ não é identicamente nula, então $ \mu(A_0)> 0 $.

Como $ \nu\ll\mu $, temos que $ \nu(A_0)> 0 $. Por outro lado

$$0<\mu(A_0)=\mu(\cup_{n=1}^{\infty}A_n)\leq\sum_{n=1}^{\infty}\mu(A_n).$$

Então, para no mínimo um $ N $, devemos ter $ \mu(A_N)> 0 $. Defina

$$A=A_N\ \ e\ \ \epsilon=\frac{1}{N}$$

Portanto temos que

$$\mu(A)> 0\ \ \ e\ \ \ \nu(A)-\epsilon\mu(A)> 0.$$

$ \square $

Teorema 3.4.3 (Teorema de Radon-Nikodym para medidas finitas)

Seja $ (X,\mathcal{F}, \mu) $ é um espaço de medida, com $ \mu $ medida finita. Se $ \nu $ é uma medida finita sobre $ \mathcal{F} $ absolutamente contínua com respeito a medida $ \mu $, então existe uma função mensurável finita $ f $ sobre $ X $ tal que

$$\nu(E)=\int_{E}fd\mu\ \ \ \ \ (1)$$

para todo conjunto mensurável $ E $. A função $ f $ é única no sentido que se $ g $ é uma função que satisfaz $ (1) $, então $ f=g $ quase certamente.

Prova:

Seja $ \mathcal{C} $ a classe das funções não negativas, integráveis com respeito a $ \mu $ tal que $ \int_Ef d\mu\leq \nu(E) $ para todo conjunto mensurável $ E $ e defina

$$ \alpha=\sup\left(\int f d\mu:f\in\mathcal{C}\right) $$

Note que $ \mathcal{C}\neq\emptyset $ uma vez que $ 0\in\mathcal{C} $. Mais ainda,

$$0\leq\int f d\mu\leq\nu(X)<\infty\ \ \ \text{para toda}\ f\in\mathcal{C}.$$

o que implica que $ 0\leq\alpha<\infty $.

Desde que $ \alpha $ é um ponto limite do conjunto $ \left(\int f d\mu:f\in\mathcal{C}\right) $, então existe uma sequência de funções em $ \mathcal{C} $ tal que $ \alpha=\lim_{n\to\infty}\int f_n d\mu $. Seja $ E $ um conjunto mensurável e $ n $ um inteiro positivo. Defina a função $ g_n:X\rightarrow [0,\infty] $, por

$$g_n=\max(f_1,f_2,\dots,f_n).$$

Seja

$$A_i=E\cap(\cap_{k=1,k}^n(f_i-f_k)^{-1}([0,\infty)))$$

para $ i=1,2,\dots,n $. Defina

$$E_1=A_1, E_2=A_2-A_1,\dots, E_n=A_n-\cup_{i=1}^{n-1}A_i.$$

Screenshot_58

Temos que $ f_0(x)=\lim_{n\to\infty}g_n(x) $

Como $ (g_n) $ é uma sequência de funções não decrescente que converge pontualmente para $ f_0 $, pelo teorema da convergência monótona, temos que

$$\int_Xf_0d\mu=\lim_{n\to\infty}\int_Xg_nd\mu$$

Como cada $ g_n\in\mathcal{C} $, então

$$\int_xg_nd\mu\leq\alpha$$

para todo $ n $, então

$$\int_Xf_0d\mu=\lim_{n\to\infty}\int_Xg_nd\mu\leq\alpha .$$

Também $ f_n\leq g_n $ para todo $ n $, temos

$$\int_Xf_nd\mu\leq\int_Xg_nd\mu$$

Então

$$\alpha=\lim_{n\to\infty}\int_Xf_nd\mu\leq\lim_{n\to\infty}\int_Xg_nd\mu=\int_Xf_0d\mu.$$

Portanto

$$\int_Xf_0d\mu=\alpha.$$

Mais ainda,

$$\int_Ef_0d\mu=\lim_{n\to\infty}\int_Eg_nd\mu\leq\lim_{n\to\infty}\nu(E)=\nu(E).$$

Então $ f_0\in\mathcal{C} $.

Seja $ \nu_0:\mathcal{M}\rightarrow [0,\infty] $ função dada por

$$\nu_0(E)=\nu(E)-\int_Efd\mu.$$

Observação: $ \nu_0 $ é uma medida finita e que $ \nu_0\ll \mu $.

Vamos mostrar que $ \nu_0 $ é identicamente zero. Suponha que não. Então $ \nu_0 $ satisfaz a hipótese do lema 3.4.3 e portanto, existe $ \epsilon> 0 $ e um conjunto mensurável $ A $ tal que $ \mu(A)> 0 $ e $ A $ é um conjunto positivo para $ \nu_0-\epsilon\mu $.

Seja $ E $ mensurável, então $ E\cap A\subset A $ é mensurável e como $ A $ é positivo para $ \nu_0-\epsilon\mu $, temos que $ \nu_0(E\cap A)-\epsilon\mu(E\cap A)\geq 0 $, isto é, $ \epsilon\mu(E\cap A)\leq \nu_o(A\cap E)=\nu(E\cap A)-\int_{E\cap A}fd\mu $

Screenshot_59

$$\int_Egd\mu=\int_ef d\mu+\epsilon\mu(E\cap A)=\int_{E\cap A}f d\mu+\int_{E-A}f d\mu+\epsilon\mu(E\cap A)$$

$$\leq \int_{E-A}f d\mu+\nu(E\cap A)\leq \nu(E-A)+\nu(E\cap A)=\nu(E).$$

Então $ g\in\mathcal{C} $. Contudo, $ \int_Xg d\mu=\int_X f d\mu+\epsilon\mu(A)> \alpha $, temos uma contradição desde que $ \alpha $ é o supremo do conjunto $ \left(\int_X f d\mu:f\in\mathcal{C}\right) $ e $ \int_X g d\mu\in\left(\int_Xf d\mu\right) $. Então $ \nu_0(E)=0 $ para qualquer conjunto mensurável $ E $, isto é

$$\nu(E)=\int_E fd\mu$$

Agora, vamos mostrar a unicidade de $ f $. Seja $ g $ outra função não negativa mensurável satisfazendo $ (1) $. Desde que $ \nu(E)<\infty $ para todo $ E\in\mathcal{F} $, então

$$0=\nu(E)-\nu(E)=\int_Eg d\mu-\int_Ef d\mu=\int_E(g-f) d\mu$$

para todo $ E\in \mathcal{F} $. Então, temos que $ f=g $ quase certamente.

$ \square $

5 - Cadeia de Markov

A cadeia de markov é um processo estocástico caracterizado por seu estado futuro depender apenas do seu estado atual, sendo que os estados passados não influenciam no estado futuro. O nome cadeia de markov foi dado em homenagem ao matemático russo Andrey Markov.

Definição 5.1

Um processo de Markov $ {X_t} $ é um processo estocástico com a propriedade de que, dado o valor de $ X_t $ os valores de $ X_s $, para $ t \ < \ s $ não são influenciados pelos valores de $ X_u $ para $ u \ < \ t $. Ou seja, a probabilidade de qualquer comportamento futuro do processo, quando o seu estado atual é conhecida exatamente, não é alterada pela conhecimento adicional sobre seu comportamento passado.

Se o conjunto de índice for discreto então a propriedade da cadeia de markov é dada da seguinte forma

$ \mathbb{P}[X_{n}=x_n|X_0=x_0, \cdots, X_{n-1}=x_{n-1}]=\mathbb{P}[X_{n}=x_{n}|X_{n-1}=x_{n-1}]= $

$ \mathbb{P}(x_{n-1},x_{n}) $.

Vamos trabalhar apenas com o conjunto de índice discreto, assim notamos que a cadeia e markov é um processo de estados

Definimos a probabilidade de transição de n-passos como:

$$p_n (i, j ) = \mathbb{P} (X_{n+m} = j | X_m = i ) $$

Exemplo 5.1

Seja $ (X_t) $ um processo estocástico com $X_i: \Omega \rightarrow\mathbb{N}$, no qual $ \mathbb{N} $ é o conjuntos dos naturais com o zero. Definamos o seguinte que:

$$\mathbb{P_k(i,i+1)}=\mathbb{P}[X_k=i+1|X_{k-1}=i]=p$$

$$\mathbb{P_k(i,i-1)}=\mathbb{P}[X_k=i-1|X_{k-1}=i]=q$$

$$\mathbb{P_k(i,i)}=\mathbb{P}[X_k=i|X_{k-1}=i]=1-(p+q)$$

Esse processo é chamado de processo de nascimento e morte, pois no fundo estamos dizendo que existem apenas 3 possibilidades em cada instantes

  • Nascer - acrescentar um novo elemento com probabilidade de que isso ocorra sendo p.
  • Morrer - diminuir um novo elemento com probabilidade de que isso ocorra sendo q.
  • Nada - não acrescentar, nem diminuir com probabilidade $ 1-(p+q) $.

Notemos que no processo de nascimento e morte, a probabilidade de acrescentar, diminuir ou nada acontecer não depende do tamanho atual da população, ou seja, não depende de i.

Teorema 5.1 (Chapman - Kolmogorov)

Dado uma cadeia de Markov $ (X_t) $ com o espaço de estados E, ou seja, E é o conjunto dos possíveis valores de $ X_i $ e a probabilidade de transição $ \mathbb{P}_k(\cdot,\cdot) $. Para $ n < m $ temos que

$$\displaystyle \mathbb{P}[X_{m}= j|X_{n} = i]=\sum_{m=1}^{\infty}\mathbb{P}_{m-k} [x_m , j] \mathbb{P}_{k-n}[i ,x_m]$$

Demonstração

Primeiramente lembremos que $ \displaystyle \mathbb{P}[A|B]=\mathbb{P}[A\cap \Omega|B]=\frac{\mathbb{P}[A\cap \Omega ;B]}{\mathbb{P}[B]} $, podemos encontrar mais detalhes sobre a probabilidade condicional na apostila de probabilidade.

Assim, temos que

$$\displaystyle \mathbb{P}[X_{m}=j|X_{n}=y]=\mathbb{P}\left[(X_{m}=j)\bigcap \left(\bigcup_{p=1}^{\infty}(X_k=x_p)\right)|X_{n}=i\right]$$

Observe que $ ((X_{m}=j)\cap(X_k=x_p))\cap((X_{m}=j)\cap(X_k=x_p))=\emptyset $, se $ j\neq i $, ou seja eles são dois a dois disjuntos assim:

$$\displaystyle \mathbb{P}[X_{m}=j|X_{n}=i]=\sum_{p=1}^{\infty}\mathbb{P}\left[(X_{m}=j)\cap(X_k=x_p)|X_{n}=i\right]$$

$$\displaystyle \sum_{p=1}^{\infty}\mathbb{P}[X_{m}=j|(X_k=x_p)\cap X_{n}=i]\mathbb{P}[X_k=x_p|X_{n}=i]$$

$$\displaystyle \sum_{p=1}^{\infty}\mathbb{P}[X_{m}=j|X_k=x_p]\mathbb{P}_{k}(i,x_p)=\sum_{p=1}^{\infty}\mathbb{P}_{k-n}(i, x_p)\mathbb{P}_{m-k} (x_p , j)$$

E portanto o resultado segue.

Uma notação muito usada e útil é a notação matricial que nos fornece toda informação sobre os estados de transição.

1a98c243e64b15167944cfc2a0a644578560d22b

6653f1ddd4e5ca63ed6d5149c4573a1262e87537

Essa matriz é conhecida como matriz de transição.

Exemplo 5.2

Usando a notação matricial qual seria a matriz de transição do exemplo 5.1. A matrix de transição do processo de nascimento e morte é dada por:

5dcc5c951f172e2ec93a818bb037d37978120c1f

Exemplo 5.3

Suponha que uma concessionária tem a seguinte estratégia para um determinado veículo modelo de veículo de seu estoque. Todo sexta-feira a noite quando a concessionária fecha ela contabiliza o número de veículos deste modelo e faz um pedido para o fornecedor que lhe entrega na segunda-feira pela manhã antes da concessionária abrir novamente.

  • Se há veículos no estoque, a concessionária não faz nenhum pedido
  • Se não há veículos no estoque, a concessionária pede 3 veículos ao fornecedor
  • Caso durante a semana este modelo de veículo termine no estoque, ele não será vendido até a semana seguinte.

Assim definamos nosso processo $ X_n $ como sendo o número de veículos na sexta feira da semana n, e $ X_0 $ como sendo o número inicial de veículos.

Definimos $ D_i $ a demanda da semana i. Suponha que $ D_1,D_2, D_3, \cdots \sim Po(\lambda) $ e sejam independentes, ou seja, $ D_i $ tem distribuição poisson com parâmetro $ \lambda $. Para mais detalhes sobre a distribuição poisson consulte apostila de probabilidade.

Desta forma nossa variável

f8e42cf5cfcfb7a91f5dc8f5ddad10800849939f

A primeira coisa que devemos fazer é verificar se esse processo é uma cadeia de markov se a resposta for afirmativa então devemos encontrar sua matriz de transição.

Notemos que nosso processo tem apenas 4 fases possíveis, ou seja, nosso espaço de fase é dado por:

$$E=(0,1,2,3)$$

$$\mathbb{P}[X_{n+1}=x_{n+1}|X_0=x_0,X_1=x_1,\cdots, X_{n}=x_n]$$

Se $ x_n=0 $, então

$$\mathbb{P}[X_{n+1}=x_{n+1}|X_0=x_0,X_1=x_1,\cdots, X_{n}=0]=$$

$$\mathbb{P}[max(3-D_{n+1},0)x_{n+1}|X_0=x_0,X_1=x_1,\cdots, X_{n}=0]=$$

$$\mathbb{P}[max(3-D_{n+1},0)x_{n+1}| X_{n}=0]$$

Se $ x_n> 0 $

$$\mathbb{P}[X_{n+1}=x_{n+1}|X_0=x_0,X_1=x_1,\cdots, X_{n}=x_{n}]=$$

$$\mathbb{P}[max(x_n-D_{n+1},0)=x_{n+1}|X_0=x_0,X_1=x_1,\cdots, X_{n}=x_n]=$$

$$\mathbb{P}[max(x_n-D_{n+1},0)x_{n+1}| X_{n}=x_{n}]$$

.

Agora estamos em posição de calcular a matriz de transição.

Screenshot_62

O interessante da cadeia de markov é que dado um estado inicial, podemos calcular a distribuição assintótica do sistema.

Definição 5.2

Uma cadeia de markov é dita ser homogênea se a probabilidade de transição for estacionária, ou seja, se a probabilidade de transição não depender da etapa n.

Teorema 5.2

Seja $ {X_n} $ um processo markoviano, então dado um estado inicial $ \mu_0 $ temos que

$$\displaystyle \mu_n=\mu_0\prod_{i=1}^{n}\mathbb{P}_i$$

Se o a cadeia de markov for homogênea então $ \mu_n=\mu_0 \mathbb{P}^{n} $.

Demonstração

Como $ \mu_0 $ é o estado inicial então temos que $ \mu_0=(\mathbb{P}[X_0=0], \mathbb{P}[X_0=1], \mathbb{P}[X_0=2], \cdots) $. Assim

$$\mu_1=(\mathbb{P}[X_1=0|X_0], \mathbb{P}[X_1=1|X_0], \mathbb{P}[X_1=2|X_0], \cdots)$$

Agora usando a equação de Chapman-Kolmogorov, temos que

$$\mu_1=\mu_0 \mathbb{P}_1$$

.

Assim por indução temos que

$$\mu_n=\mu_0 \prod_{j=1}^{n}\mathbb{P}_j$$

E portanto o resultado segue.

Exemplo 5.4

Seja uma cadeia de markov $ (X_t) $ homogênea com o espaço de transição $ E=(0,1,2) $ e a seguinte matriz de transição:

Screenshot_64

Calcule $ \mathbb{P}[X_2=1; X_3=1|X_1=0] $ e $ \mathbb{P}[X_1=0; X_2=0|X_0=2] $.

Basta observarmos que:

$$\displaystyle \mathbb{P}[X_2=1; X_3=1|X_1=0]=\frac{\mathbb{P}[X_2=1; X_3=1|X_1=0]}{\mathbb{P}[X_2=1;X_1=0]}=$$

$$\frac{\mathbb{P}[X_3=1|X_2=1;X_1=0]}{\mathbb{P}[X_2=1;X_1=0]}\mathbb{P}[X_2=1|X_1=0]$$

$$\displaystyle \mathbb{P}[ X_3=1|X_2=1;X_1=0]\mathbb{P}[X_2=1|X_1=0]=$$

$$\mathbb{P}[ X_3=1|X_2=1]\mathbb{P}[X_2=1|X_1=0]=(0,1)(0,17)=0,017$$

Da mesma forma temos que

$$\mathbb{P}[X_1=0; X_2=0|X_0=2]=\mathbb{P}[X_2=0|X_1=0]\mathbb{P}[X_1=0|X_0=2]=(0,73)(0,68)=0,4964 $$

Exemplo 5.5

Seja uma cadeia de markov $ (X_t) $ homogênea com o espaço de transição $ E=(0,1,2) $ e a seguinte matriz de transição:

Screenshot_65

E com a seguinte condição inicial $ \mu_{0}=[0,2; 0,8; 0] $

Calcule $ \mathbb{P}[X_0=1; X_1=0; X_2=2] $

Observemos que

$ \mathbb{P}[X_0=1; X_1=0; X_2=2]=\mathbb{P}[X_2=2| X_1=0; X_0=1]\mathbb{P}[X_0=1; X_1=0]=\mathbb{P}[X_2=2| X_1=0]\mathbb{P}[X_1=0| X_0=1]\mathbb{P}[X_0=1]=(0,1)(0,55)(0,8)=0,044 $

Exemplo 5.6

Suponha que 3 bolas brancas e 3 bolas pretas são distribuídas em uma urna de tal forma que cada urna tenha exatamente 3 bolas. Suponha que em cada etapa uma bola de cada urna é selecionada e trocada de urna. Seja $ X_n $ o numero de bolas brancas na urna 1. Seja $ (X_t) $ o processo estocástico associado.

i) Esse processo é um processo markoviano?

ii) Se o estado inicial do sistema é $ X_0=1 $, ou seja, $ \mu_0=(0, 1, 0, 0) $. Qual a probabilidade de $ X_2 $ ser igual a 0?

iii) Se $ \mu_0=(1/4, 1/4, 1/4, 1/4) $ calcule $ \mu_{10} $

iv) Se $ \mu_{1/4,2/4, 0, 1/4} $ calcule $ \mu_{10} $.

i) Primeiramente definíamos as seguintes variáveis aleatórias

$ B_{n}^1 $={Pegar uma bola branca na urna um na etapa n.}

$ B_{n}^2 $={Pegar uma bola branca na urna dois na etapa n.}

Notemos que $ B_n^1, B_{n}^2 $, pode assumir apenas o valor 0 ou 1, pois vamos pegar uma única bola em cada etapa. Assim $ B_n^1 $ será 1 se pegarmos uma bola branca na urna 1 e zero caso contrário e o mesmo vale para $ B_n^{2} $ só que para a urna 2.

Portanto temos que o nosso processo $ X_n $ será dado da seguinte forma:

$$X_n=X_{n-1}-B_n^1+B_n^2$$

Ou seja o número de bolas brancas na etapa n depende do numero de bolas que tínhamos na etapa anterior, menos o $ B_n^1 $ que é o número de bolas brancas que tiramos da urna 1, mais $ B_n^2 $ que é o número de bolas brancas que tiramos da urna 2. Assim temos que:

$$\mathbb{P}[X_n=x_n| X_{n-1}=x_{n-1}]=\mathbb{P}[X_{n-1}-B_n^1+B_n^2=x_n| X_{n-1}=x_{n-1}]=$$

$$\mathbb{P}[B_n^2-B_n^1=x_n-X_{n-1}| X_{n-1}=x_{n-1}]=$$

$$\mathbb{P}[B_n^2-B_n^1=x_n-x_{n-1}| X_{n-1}=x_{n-1}]$$

Como $ B_n^1 $ e $ B_n^2 $ assumem apenas valores 0 ou 1, então temos que $ B_n^2-B_n^1 $ pode assumir apenas o valores -1, 0 e 1.

Calculemos primeiramente então

7a413579dca8d4f1830edbc2db965551945d8b86

743251a84d02846c6b8c723b94062d2cbe2a4bb5

Notemos que:

$$\mathbb{P}[B_n^{2}=0;B_n^{1}=1|X_{n-1}=x_{n-1}]=\mathbb{P}[B_n^{2}=0|X_{n-1}=x_{n-1}]\mathbb{P}[B_n^{1}=1|X_{n-1}=x_{n-1}]=\left(\frac{x_{n-1}}{3}\right)^2$$

$$\mathbb{P}[B_n^{2}=0;B_n^{1}=0|X_{n-1}=x_{n-1}]+\mathbb{P}[B_n^{2}=1;B_n^{1}=1|X_{n-1}=x_{n-1}]=$$

$$\mathbb{P}[B_n^{2}=0|X_{n-1}=x_{n-1}]\mathbb{P}[B_n^{1}=0|X_{n-1}=x_{n-1}]+\mathbb{P}[B_n^{2}=1|X_{n-1}=x_{n-1}]\mathbb{P}[B_n^{1}=1|X_{n-1}=x_{n-1}]$$

$$=\left[2\frac{x_{n-1}}{3}\left(1-\frac{x_{n-1}}{3}\right)\right]$$

$$\mathbb{P}[B_n^{2}=1;B_n^{1}=0|X_{n-1}=x_{n-1}]=\mathbb{P}[B_n^{2}=1|X_{n-1}=x_{n-1}]\mathbb{P}[B_n^{1}=0|X_{n-1}=x_{n-1}]=\left(1-\frac{x_{n-1}}{3}\right)^2$$

Desta forma temos que:

$$\mathbb{P}[B_n^2-B_n^1=x_{n}-x_{n-1}|X_{n-1}=x_{n-1}] =$$

Screenshot_63

Portanto concluímos que $ X_n $ é de fato uma cadeia de markov homogênea.

ii) Por definição temos que

$$\mu_n=(\mathbb{P}[X_n=0], \mathbb{P}[X_n=1], \mathbb{P}[X_n=2], \mathbb{P}[X_n=3])$$

Assim para encontrarmos $ \mathbb{P}[X_2=0] $, basta encontrarmos $ \mu_2 $. Entretanto pela equação de Chapman-Kolmogorov temos que

$$\mu_2=\mu_0 \mathbb{P}^2$$

Screenshot_66

Lembrando que nosso $ \mu_0=[0, 1, 0, 0] $ assim temos que:

$$\mu_2(4/81, 41/81, 32/81, 4/81)$$

Portanto temos que, $ \mathbb{P}[X_2=0]=41/81 $

iii) Para encontrarmos $ \mu_{10} $ basta utilizarmos a equação de Chapman-Kolmogorov, desta forma temos que

$$\mu_{10}=\mu_0 \mathbb{P}^{10}$$

Para encontrarmos $ \mathbb{P}^10 $ usamos métodos computacionais, com $ \mu_0=(1/4, 1/4, 1/4, 1/4) $

$$\mu_{10}=(0,05; 0,45; 0,45; 0,05)$$

iv) Idêntico ao item anterior, basta mudarmos $ \mu_0=(1/4, 2/4, 0, 1/4) $

$$\mu_{10}=(0,05; 0,45; 0,45; 0,05)$$

Notemos que o resultado foi o mesmo do item anterior apesar de ter uma condição inicial distinta. Isso nos indica que após um determinado número de etapas nossa $ \mu_n $ passa a não depender mais da sua condição inicial.

Exemplo 5.7

Generalize o exemplo 5.6 para o caso de N bolas brancas e N bolas pretas.

Primeiramente definíamos as seguintes variáveis aleatórias

$ B_{n}^1 $={Pegar uma bola branca na urna um na etapa n.}

$ B_{n}^2 $={Pegar uma bola branca na urna dois na etapa n.}

Notemos que $ B_n^1, B_{n}^2 $, pode assumir apenas o valor 0 ou 1, pois vamos pegar uma única bola em cada etapa. Assim $ B_n^1 $ será 1 se pegarmos uma bola branca na urna 1 e zero caso contrário e o mesmo vale para $ B_n^{2} $ só que para a urna 2.

Portanto temos que o nosso processo $ X_n $ será dado da seguinte forma:

$$X_n=X_{n-1}-B_n^1+B_n^2$$

Ou seja o número de bolas brancas na etapa n depende do numero de bolas que tínhamos na etapa anterior, menos o $ B_n^1 $ que é o número de bolas brancas que tiramos da urna 1, mais $ B_n^2 $ que é o número de bolas brancas que tiramos da urna 2. Assim temos que:

$$\mathbb{P}[X_n=x_n| X_{n-1}=x_{n-1}]=\mathbb{P}[X_{n-1}-B_n^1+B_n^2=x_n| X_{n-1}=x_{n-1}]=$$

$$\mathbb{P}[B_n^2-B_n^1=x_n-X_{n-1}| X_{n-1}=x_{n-1}]=\mathbb{P}[B_n^2-B_n^1=x_n-x_{n-1}| X_{n-1}=x_{n-1}]$$

Como $ B_n^1 $ e $ B_n^2 $ assumem apenas valores 0 ou 1, então temos que $ B_n^2-B_n^1 $ pode assumir apenas o valores -1, 0 e 1.

Calculemos primeiramente então

ae656232e228d9d4de7c8417bce0700dfc6dd375

fc9d0e943aec60e640e2713a3fb1cb522c0ecae4

Notemos que:

$$\mathbb{P}[B_n^{2}=0;B_n^{1}=1|X_{n-1}=x_{n-1}]=\mathbb{P}[B_n^{2}=0|X_{n-1}=x_{n-1}]\mathbb{P}[B_n^{1}=1|X_{n-1}=x_{n-1}]=\left(\frac{x_{n-1}}{N}\right)^2$$

$$\mathbb{P}[B_n^{2}=0;B_n^{1}=0|X_{n-1}=x_{n-1}]+\mathbb{P}[B_n^{2}=1;B_n^{1}=1|X_{n-1}=x_{n-1}]=$$

$$\mathbb{P}[B_n^{2}=0|X_{n-1}=x_{n-1}]\mathbb{P}[B_n^{1}=0|X_{n-1}=x_{n-1}]+ \mathbb{P}[B_n^{2}=1|X_{n-1}=x_{n-1}]\mathbb{P}[B_n^{1}=1|X_{n-1}=x_{n-1}]$$

$$=\left[2\frac{x_{n-1}}{N}\left(1-\frac{x_{n-1}}{3}\right)\right]$$

$$\mathbb{P}[B_n^{2}=1;B_n^{1}=0|X_{n-1}=x_{n-1}]=\mathbb{P}[B_n^{2}=1|X_{n-1}=x_{n-1}]\mathbb{P}[B_n^{1}=0|X_{n-1}=x_{n-1}]=\left(1-\frac{x_{n-1}}{N}\right)^2$$

Desta forma temos que:

$$\displaystyle \mathbb{P}[B_n^2-B_n^1=x_{n}-x_{n-1}|X_{n-1}=x_{n-1}] = $$

25d93721c1c1e3dea05834879a02cf00c38ea99f

Assim a matriz de transição do processo $ X_n $ é dada

78275825971b085b241c322d3a86c3bc8463a7ec

Concluímos também que para o caso geral de N bolas a matriz permanece homogênea.

Exemplo 5.8

Talvez o exemplo mais simples de cadeia de markov seja o exemplo de um movimento completamente determinado, o qual pode ser definido da seguinte forma seja $ \mathbb{P} $ uma matriz de transição com apenas zeros e uns. Assim para cada estado i existe um estado g(i) tal que

$\mathbb{P}({i,g(i)})=1 $ , $ \mathbb{P}({i,j})=0,~\forall j \neq g(i)$

Notemos que isso significa que se estamos no estado i necessariamente no próximo estado estaremos no estado g(i). Notemos que nesse caso basta sabermos o instante inicial e então saberemos todo o futuro, pois se $ X_0=i $ então

$X_1=g(1) $, $ X_2=g(g(1))=g^{(2)}(1),~~\cdots X_{n}=g^{(n)}(1)$

Observação

Muitas vezes apenas olhando para a matriz de transição podemos verificar se as variáveis são $ X_0, X_1, X_2,\cdots $ formão variáveis independentes e identicamente distribuídas, ou seja, com distribuição comum. Basta apenas que a matriz de transição seja homogênea e suas linhas sejam idênticas.

5.1 - Tempos de Paradas na cadeia de Markov

Uma importante propriedade da cadeia de Markov é quando usamos uma forma de dizer o passado em relação ao tempo, ou seja, quando a informação passada é aleatória e temporal. Essa variável é conhecida como tempo de parada, e cadeia de markov com essa propriedade é conhecida como tempo de Markov.

Definição 5.1.1

Seja $ (X_n:~n=0,1,2\cdots) $ um processo estocástico com um espaço de estado enumerável definida no espaço de probabilidade $ (\Omega,\mathcal{F},\mathbb{P}) $. Uma variável aleatórial $ \tau $ definida neste espaço de probabilidade é dita ser um tempo de parada se:

(i) Se assumir valores não negativos inteiros, sendo que existe a possibilidade dela assumir o valor $ +\infty $

(ii) Para todo inteiro não negativo m o evento $ (\omega:\tau (\omega)\leq m) $ é determinado por $ X_0,X_1,X_2,\cdots,X_m $.

Observe que essa definição é um caso particular da definição de tempo de parada anterior, pois essa definição refere-se apenas a um espaço enumerável e não a um espaço contínuo como dito anteriormente.

Intuitivamente, se $ \tau $ é um tempo de parada, então ele será parado ou não pelo tempo m o qual é decidido pela observação do processo estocástico até o momento m. Por exemplo consideremos o primeiro tempo de parada $ \tau_y $ o processo $ X_n $ atinge o estado x, definido por:

$$ \tau_y (\omega)=\inf(n\geq 0: X_n(\omega)=x). $$

Se $ \omega $ é tal que $ X_n\neq x $ para qualquer n, ou seja, o processo nunca assume o valor x, então é claro que $ \tau_x(\omega)=\infty $. Observe que a seguinte igualdade é válida

$$ (\omega:\tau_x(\omega)\leq m)=\displaystyle \bigcup_{n=0}^{m}(\omega: X_n(\omega)=x). $$

Teorema 5.1.1

Toda cadeia de Markov tem a propriedade forte de markov se para todo tempo de parada $ \tau $, a distribuição condicional do processo após $ \tau $, o qual é dado por $ X_\tau^{+}=(Y_{\tau+n}:n=0,1,2,\cdots) $, dado que o passado até o tempo $ \tau $ é dado como sendo $ \mathbb{P}_{X_{\tau}} $ no conjunto

Demonstração

Escolhemos um m e k inteiros não negativos com m fixo, e k um tempo tal que $ 0\leq m_1< m_2< \cdots < m_{k} $ e estados $ i_0,i_1,\cdots , i_m $, $ j_1,j_2,\cdots, j_k $. Então

$$\mathbb{P}(X_{\tau+m_1}=j_1,X_{\tau+m_2}=j_2,\cdots, X_{\tau+m_k}=j_k|\tau=m, X_0=i_0,\cdots, X_m=i_m)=$$

$$\mathbb{P}(X_{m+m_1}=j_1,X_{m+m_2}=j_2,\cdots, X_{m+m_k}=j_k|\tau=m, X_0=i_0,\cdots, X_m=i_m)$$

Agora se $ (\tau=m) $ não é consistente com o evento $ (X_0=i_0,\cdots, X_m=i_m) $ então $ (\tau=m, X_0=i_0,\cdots, X_m=i_m)=\emptyset $, por outro lado se $ (\tau=m) $ é consistente com o evento $ (X_0=i_0,\cdots, X_m=i_m) $ então $ (\tau=m, X_0=i_0,\cdots, X_m=i_m)=(X_0=i_0,\cdots, X_m=i_m) $. Portanto temos que

$$\mathbb{P}(X_{m+m_1}=j_1,X_{m+m_2}=j_2,\cdots, X_{m+m_k}=j_k|\tau=m, X_0=i_0,\cdots, X_m=i_m)=$$

$$\mathbb{P}(X_{m+m_1}=j_1,X_{m+m_2}=j_2,\cdots, X_{m+m_k}=j_k|X_0=i_0,\cdots, X_m=i_m)$$

Usando a propriedade da cadeia de Markov temos que

$$\mathbb{P}(X_{m+m_1}=j_1,X_{m+m_2}=j_2,\cdots, X_{m+m_k}=j_k|X_0=i_0,\cdots, X_m=i_m)=$$

$$\mathbb{P}(X_{m+m_1}=j_1,X_{m+m_2}=j_2,\cdots, X_{m+m_k}=j_k|X_m=i_m)=$$

Screenshot_67

no conjunto $ (\tau =m) $. Como m é fixo porém arbitrário e portanto $ m< \infty $, temos então que o resultado segue.

5.2 - Classificação de Estados em uma Cadeia de Markov

Uma importante caracterização da cadeia de markov seria a classificação dos estados.

Definição 5.2.1

O estado j é dito acessível pelo estado i se j pode ser alcançado a partir do estado i por um número finito de passos. Se dois estados i e j são acessíveis ou seja j é acessível a i e i é acessível a j então dizemos são comunicado.

Probabilisticamente temos que essa definição implica que

$ i \rightarrow j $ (j é acessível de i) se para algum $ 0\leq n< \infty $, $ \mathbb{P}_{i,j}^n > 0 $

$ j \rightarrow i $ (i é acessível de j) se para algum $ 0\leq n< \infty $, $ \mathbb{P}_{j,i}^n > 0 $

$ i \leftrightarrow j $ (i e j são comunicados) se para algum $ 0\leq n< \infty $, e se para algum $ 0\leq m< \infty $ $ \mathbb{P}^n_{i,j} > 0 $ $ \mathbb{P}_{j,i}^m > 0 $

Reciprocamente temos que

$ i \rightarrow j $ (j não é acessível de i) se para todo $ 0\leq n< \infty $, $ \mathbb{P}_{i,j}^n = 0 $

$ j \rightarrow i $ (i não é acessível de j) se para todo $ 0\leq n< \infty $, $ \mathbb{P}_{j,i}^n = 0 $

$ i \leftrightarrow j $ (i e j não são comunicados) se para todo $ 0\leq n< \infty $, e se para todo $ 0\leq m< \infty $ $ \mathbb{P}^n_{i,j}=0 $ $ \mathbb{P}_{j,i}^m= 0 $.

Notemos que como consequência desta definição temos que a relação de comunicação é uma relação de equivalência:

i) Reflexiva

De fato é reflexiva pois $ i\leftrightarrow i $ basta tomarmos n=0.

ii) Simétrica

Se $ i\leftrightarrow j $, então $ j\leftrightarrow i $

iii) Transitividade

Se $ i\leftrightarrow j $, e $ j\leftrightarrow k $, então $ i\leftrightarrow k $

Sabemos que existe dois inteiros r e s tal que:

d6ec60c0c53282191e6e8cdfa339d4f265e8088d

Mas temos que

80150d97a972514d34a03aa089c6b43f97176733

Logo temos que $ i\rightarrow k $. Similarmente mostramos que existe um inteiro n tal que

$$\mathbb{P}^{n}_{k,i}> 0$$

Portanto $ k\rightarrow i $. Combinando esses dois resultados temos que $ i\leftrightarrow k $.

Definição 5.2.2

Se a cadeia de markov tem todos os estados pertence a uma única classe de equivalência, então ele é dito irredutível.

Definição 5.2.3

Um estado é dito recorrente se e somente se, partindo deste estado eventualmente retornamos ao mesmo estado, ou seja, um estado é recorrente é

se existe um $ n> 0 $ tal que $ f_{i,i}^{\star}=1 $, no qual $ f_{i,i}^{\star}=1 $ é definido da seguinte forma

$$f^{n}_{i,i}=\mathbb{P}[X_n=i,X_r\neq i|X_0=i]$$ $$r\in(1,2,\cdots,n-1)$$

então

$$f_{i,i}^{\star}=\displaystyle \sum_{n=1}^{\infty}f^{n}_{i,i}$$

note que $ f^{n}_{i,i} $ é a probabilidade de começarmos em i e retornarmos para i, em um tempo n.

Em termos de probabilidade temos temos que um estado é dito recorrente se e somente se $ f_{i,i}^{\star}=1 $.

Quando o estado i é recorrente podemos definir,

$$\mu_i=\sum_{n=1}^{\infty}n f_{i,i}^{n}$$

note que $ \mu $ define o valor esperado do numero de passos necessários para que retorne ao estado i. O qual é chamado de tempo de recorrência. Portanto $ \mu_i $ pode ser chamado de média de recorrência do estado i.

Usando a média de recorrência podemos classificar o seu estado recorrência nula ou recorrência

Dizemos que um estado recorrente é dito se um estado recorrente nulo se e somente se o tempo média recorrente é $ \infty $, ou seja, se $ \mu_i $.

Dizemos que um estado tem recorrência positiva se, e somente se, o tempo médio recorrente é finito, ou seja, $ \mu_{i} $.

Definição 5.2.4

Um estado é dito ser transiente se, e somente se, partindo do estado i, existe uma probabilidade positiva do processo não eventualmente retornar a este estado.

Isto implica que $ f^{\star}_{i,i}< 1 $.

Outra forma de classificarmos os estados em recorrente e transiente pode ser dado em termos das probabilidade $ \mathbb{P}_{i,i}^{n} $ que é a probabilidade do processo ocupar o estado i depois de n passos, dado que o estado inicial também foi i.

Teorema 5.2.1

i) Um estado i é recorrente se

$$\displaystyle \sum_{n=1}^{\infty}\mathbb{P}_{i,i}^{n}=\infty$$

ii) Um estado i é transiente se

$$\displaystyle \sum_{n=1}^{\infty}\mathbb{P}_{i,i}^{n}< \infty$$

Demonstração

Os estados de equivalência $ \displaystyle \sum_{n}f_{i,i}^{n}=1 $ e $ \displaystyle \sum_{n}\mathbb{P}_{i,i}^{n}=\infty $ o que nos mostra claramente a distinção entre $ f_{i,i}^{n} $ e $ \mathbb{P}^{n}_{i,i} $. $ f_{i,i}^{n} $ nos refere a probabilidade do primeiro retorno de i em n passos e $ \displaystyle \sum_{n}f_{i,i}^{n} $ é a probabilidade do processo retornar a i eventualmente.

Screenshot_73

Seja $ Q_{ii}^{(N)} $ a probabilidade de partindo do estado i que a cadeia de markov retorne a este estado pelo menos N vezes. Então se tomarmos $ N\rightarrow \infty $ é a probabilidade de retornar infinita vezes no estado i. É claro que se o estado é recorrente então temos que

$$\displaystyle \lim_{N\rightarrow \infty}Q_{ii}^{(N)}=1$$

e por outro lado se o estado é dito ser transiente então temos que

$$\displaystyle \lim_{N\rightarrow \infty}Q_{ii}^{(N)}=0$$

Definição 5.2.5

O período de um estado i é definido como sendo o maior divisor comum de todos os inteiros $ n\geq 1 $, para o qual $ \mathbb{P}^{n}_{ii}> 0 $. Quando o período é 1, o estado é dito ser aperiódico.

Exemplo 5.2.1

Screenshot_68

Analisando a matriz podemos ver que os todos os estados se interligam além disso $ \mathbb{P}_{ii}^{n}> 0 $, para $ n\geq 1 $, portanto o período que é o máximo divisor comum é 1.

Como todos os estados comunicam-se temos que existe uma única classe de equivalência.

Exemplo 5.2.2

Screenshot_69

Observando a matriz que todos os estados se comunicam, pois $ 1\rightarrow 4\rightarrow 3\rightarrow 1 $ ou $ 1\rightarrow 4\rightarrow 2\rightarrow 4\rightarrow 3 \rightarrow 1 $.

Portanto todos os estados pertencem a mesma classe de equivalência. Além disso temos que $ \mathbb{P}_{ii}^{n}> 0 $ é válido apenas para n=3, n=6 ou múltiplos de deles e portanto temos que o período que é o máximo divisor comum é 3.

Exemplo 5.2.3

Um exemplo clássico de um processo Markoviano, seria o chamado passeio aleatório nos inteiros. Nesse exemplo podemos imaginar uma partícula qualquer, que se movimenta de acordo com a seguinte lei:

$$p(i,i+1)=p e p(i,i-1)=1-p$$

Note que essa partícula apenas se movimenta para frente dando um passo ou para trás dando apenas um passo. A respeito desse exemplo podemos nos fazer diversas perguntas, como por exemplo o sobre quais condições o passeio aleatório é recorrente?

Note que o passeio aleatório é uma cadeia irredutível. Assim basta mostrarmos que um estado é recorrente que os demais também serão recorrentes. Vamos considerar a origem observe que para a partícula saindo da origem voltar a ela, necessitará de um número par de passos, pois nossa cadeia dá apenas um passo para frente ou para trás. Assim se n é ímpar $ \mathbb{P}^n_{0,0}=0 $, então

Screenshot_74

Podemos usar a formula de Stirling

$$\displaystyle \lim_{n\rightarrow \infty}\frac{n!}{n^ne^n\sqrt{2\pi n}}=1$$

Com alguma manipulação algebrica, temos que

$$\displaystyle \lim_{n\rightarrow \infty}\frac{\mathbb{P}^{2n}(0,0)}{(4pq)^n/\sqrt{\pi n}}=1$$

Observe que quando $ p\neq 1/2 $ temos que $ 4pq< 1 $ e que quando $ p=1/2 $ temos que $ 4pq=1 $. Assim quando $ p=1/2 $ a série $ \displaystyle\sum_{n=1}^{\infty}\mathbb{P}^{2n}_{0,0} $ diverge e quando $ p\neq 1/2 $ a serie converge pois é basicamente a serie geométrica. Logo pelo Teorema 5.2.1, temos que o passeio aleatório é recorrente se, e somente se p=1/2.

Exemplo 5.2.4

Suponha que tenhamos 10 bolas, 5 pretas e 5 brancas e duas urnas A e B nas quais, são colocadas aleatoriamente 5 bolas em cada uma. Em cada passo 1 bola de cada urna é retirada e colocada na outra. Seja $ X_n= $número de bolas brancas na urna A, na etapa n. Qual a matriz de transição da cadeia.

Primeiramente note que temos um processo markoviano, pois claramente

$$\mathbb{P}(X_{n+1}=j|X_n=i_n,\cdots,X_0=i_0)=\mathbb{P}(X_{n+1}=j|X_n=i_n)$$

Calculemos nossa matriz de transição. Observe que para que o número de bolas se mantenha é necessário retirar duas bolas de mesma cor em cada urna. Assim

$$\mathbb{P}_{i,i}=\displaystyle \frac{i}{5}\frac{5-i}{5}+\frac{5-i}{5}\frac{i}{5}=\frac{2}{25}i(5-i)$$

Para que o número de bolas brancas aumente na urna A devemos pegar uma bola preta nela e uma bola branca na urna B. Então

$$\mathbb{P}{i,i+1}=\frac{5-i}{5}\frac{5-i}{5}=\frac{(5-i)^2}{25}$$

Para que o número de bolas brancas diminua na urna A devemos pegar uma bola branca nela e uma bola preta na urna B. Então

$$\mathbb{P}_{i,i-1}=\frac{i}{5}\frac{i}{5}=\frac{i^2}{25}$$

Logo a matriz de transição é dada por:

Screenshot_70

Exemplo 5.2.5 (Cadeia de Ehrenfest.)

Considere r bolas rotuladas de 1 a r. Algumas estão na caixa 1 e outras na caixa 2. A cada passo um número é escolhido aleatoriamente e a bola correspondente é movida de sua caixa para a outra. Seja $ X_n= $número de bolas na caixa 1 após n passos. Qual a matriz de transição deste processo ?

Primeiramente temos que

$$\mathbb{P}_{0,1}=1$$

$$\mathbb{P}_{r,r-1}=1$$

Para $ 0< i < r $ temos que

$$\mathbb{P}{i,i}=0$$

$$\displaystyle \mathbb{P}{i,i-1}=\frac{i}{r}$$

$$\displaystyle \mathbb{P}_{i,i+1}=\frac{(r-i)}{r}$$

Como exemplo tomemos r=4, então

Screenshot_71

Definição 5.2.5

Screenshot_75

$$\mathbb{P}(T_j< \infty|X_0=i)=0$$

com $ T_j=\inf(n\geq 1 |X_n=j) $.

Teorema 5.2.2

Um classe finita é recorrente se, e somente se é fechado.

Demonstração

Iremos provar por contradição, assim seja $ \mathcal{C} $ uma classe finita fechada e transiente. Seja i e j em $ \mathcal{C} $. Pelo Teorema 5.2.1 temos que

$$\displaystyle \lim_{n\rightarrow \infty}\mathbb{P}^{n}_{i,j}=0$$

e então

$$\displaystyle \sum_{j\in\mathcal{C}}\lim_{n\rightarrow \infty}\mathbb{P}^{n}_{i,j}=0$$

Como $ \mathcal{C} $ é uma classe finita, podemos permutar o limite com a somatória.

$$\displaystyle \lim_{n\rightarrow \infty}\sum_{j\in \mathcal{C}}\mathbb{P}_{i,j}^{n}=0$$

mas $ \displaystyle \sum_{j\in\mathcal{C}}\mathbb{P}^n_{i,j}=\mathbb{P}(X_n\in \mathcal{C}|X_0=i) $. Desde que a classe é fechada temos que a soma das probabilidades dever ser igual a 1. O que contradiz a equação acima. Assim temos que $ \mathcal{C} $ é recorrente. O que mostra o resultado.

Exemplo 5.2.6

Seja $ S=(1,2,3,4,5,6) $ e a matriz de transição

Screenshot_72

Encontre todas as classes e determine qual é transiente e qual é recorrente.

Primeiramente observe o diagrama que nos ajuda a identificar as classes.

diagrama

Pelo diagrama podemos identificar as seguinte classes:

$$C_1=(1,2)\text{ recorrente}$$

$$C_2=(3,5)\text{ recorrente}$$

$$C_3=(4,6)\text{ transiente}$$

$ C_1 $ e $ C_2 $ são classes recorrentes, pois são fechadas pelo Teorema 5.2.2.

$ C_3 $ é transiente, pois não é fechada e portanto não recorrente.

Exemplo 5.2.7

Dê um exemplo de uma classe fechada infinita a qual é transiente.

Um exemplo é o passeio aleatório, é fácil ver que este é fechado, pois todos os estados pertence a mesma classe.

Além disso, como $ S=\mathbb{Z} $ que é infinito enumerável, então temos uma classe fechada e infinita.

Como todos os estados pertence a mesma classe para mostrar que é transiente basta mostrar que

$$\sum_{n=0}^{\infty}p_n(0,0)> \infty$$

pela contra-positiva do Teorema 5.2.1.

Assim defina o passeio aleatório da seguinte forma:

$$p(i,i+1)=p$$

$$p(i,i-1)=1-p=q$$

Pelo exemplo 5.2.3, temos que

$$\sum_{n=0}^{\infty}p_n(0,0)> \infty$$

se, e somente se $ p\neq 1/2 $. Logo para $ p\neq 1/2 $ o passeio aleatório é transiente.

5.3 - Autovalores e Cadeias Irredutíveis

Seja P uma matriz de transição e seja $ \lambda $ os autovalores da matriz P, o qual é definido da seguinte forma

$$PX=\lambda X$$

A solução desta equação quando X é um vetor não nulo temos que X é chamado de autovetor e $ \lambda $ é o autovalor. Podemos reescrever a equação da seguinte forma:

$$|\lambda I- P|=0$$

Seja $ \Lambda = \lambda I $, seja $ M $ uma matriz onde os autovetores de P, onde os autovalores compõem a matriz M em forma de coluna.

Assim P é dito diagonalizável se P pode ser escrito como sendo

$$P=M\Lambda M^{-1}$$

$$P^2=(M\Lambda M^{-1})(M\Lambda M^{-1})=M\Lambda^2 M^{-1}$$

Por indução temos que $ P^n=M\Lambda^n M^{-1} $

Exemplo 5.3.1

Seja

Screenshot_76

o que implica que

$$x_{12}=x_{11}$$

Além disso temos que

$$1/2(x_{11}+x_{12})=x_{12}$$

Screenshot_77

Assim temos que $ P=M\lambda M^{-1} $ e portanto $ P^n =M\lambda^{n} M^{-1} $

Screenshot_78

Uma enorme de informação a respeito de uma cadeia de markov finita pode ser retirada a partir da natureza dos autovalores associados a matriz de probabilidade de transição, como por exemplo pelo teorema de Perron-Frobenius da teoria de matrizes temos que existe um autovalor $ r $ chamado de autovalor de perron-frobenius, tal que para qualquer outro autovalor $ \lambda $ temos que $ |\lambda|\leq r $, se $ r $ for menor ou igual a $ 1 $, então temos que a cadeia de markov é irredutível, mas isso vale apenas para cadeias finitas. Além disso o número de autovalores unitários em modulo nos fornece a periodicidade das cadeias de markov periódicas.

Teorema 5.3.1 (lema de Kemeny-Snell)

Seja P uma matriz estocástica (m$ \times $ m) sm nenhum elemento zero. Seja $ \epsilon $ a menor entrada de P. Seja X qualquer vetor coluna com $ m $ componentes, e com o menor componente dado por $ a_0 $ e o maior dado por $ b_0 $. Seja $ a_1 $ e $ b_1 $ o mínimo e o máximo componente respectivamente de PX. Então

$$a_1\geq a_0$$

$$b1\leq b_0$$

e

$$b_1-a_1\leq (1-2\epsilon)(b_0-a_0)$$

A demonstração pode ser encontrada no livro Bhat e Miller e também no artigo Kemeny-Snell (1959).

Note que esse lema implica que o poder da matriz probabilidade de transição P é crescente e o mínimo e o máximo de cada coluna correspondente fica mais próximo e portanto no limite $ \displaystyle \lim_{n\rightarrow \infty}P^n $ todos os elementos de uma mesma coluna serão idênticos, ou seja, teremos linhas idênticas.

Esse teorema nos ajuda a determinar o comportamento limite de uma cadeia de markov.

5.4 - Comportamento Limite

O comportamento limite descreve bem o comportamento do processo estocástico em si, por que de modo geral a convergência é rápida, isto não ocorre apenas se entra em uma região critica, a qual nem sempre existe. Além disso, de modo geral é mais fácil trabalhar com o limite o processo.

Observe que o teorema 5.3.1 da seção anterior nos dá uma taxa de convergência $ (1-2\epsilon) $. Pelo teorema 5.3.1 anterior como ele garante que as linhas são idênticas temos que $ \displaystyle \lim_{n\rightarrow \infty}P_{ij}^n=\pi_{j}, \forall i ~e~ \forall j \in(1,2,\cdots,m) $.

Teorema 5.4.1

Seja $ \displaystyle \lim_{n\rightarrow \infty}P_{ij}^n=\pi_{j}; \forall i ~e~ \forall j \in(1,2,\cdots,m) $, então existe uma constante c e uma constante r com $ c > 0 $ e $ 0> r> 1 $, tal que

Screenshot_79

onde

$$|e^{(n)}_{ij}|\leq c r^n$$

Quando a matriz de transição não tem nenhum zero então c=1.

Demonstração

Do teorema 4.3.1 anterior podemos escrever

$$|e^{(n)}_{ij}|\leq b_n-a_n=d_n$$

onde $ d_n $ é o maior dos $ d^{(j)}_n\leq (1-2\epsilon)^n, \forall n\geq 1 $. A constante c e r podem ser obtidas comom $ c=(1-2\epsilon_N)^{-1} $ e $ r=(1-2\epsilon_N)^{1/N} $, no qual N é o menor valor de $ P^n $, para o qual $ P^n $ não tem nenhum elemento zero.

Em termos pratico podemos encontrar

$$N_{\alpha}^{\star}=min\left(n|P_{ij}^{(n)}-\pi_j|< \alpha\right)$$

$$=min\left(n|e^{(n)}_{ij}|< \alpha\right)$$

$$=cr^n< \alpha$$

Quando P não tem nenhum elemento igual a zero, temos que a desigualdade $ r^n<\alpha $.

Teorema 5.4.2

Screenshot_80

$$\displaystyle \lim_{n\rightarrow \infty}P^{(n)}_{ii}=\frac{1}{\mu_i}$$

ii)Seja j um outro estado que pertence a mesma classe de equivalência de i e seja $ P^{(n)}_{ji} $ a probabilidade do n-ésimo passo com transição de $ i\rightarrow i $. Então

$$\displaystyle \lim_{n\rightarrow \infty}P^{(n)}_{ji}=\displaystyle \lim_{n\rightarrow \infty}P^{(n)}_{ii}.$$

Definição 5.4.1

Suponha que $ p=(p_1,p_2,\cdots) $ é um vetor de probabilidade tal que $ \sum p_i=1 $. Então a distribuição de probabilidade $ (p_i) $ é dita estacionária, com P sendo a matriz de transição de probabiliaade então

$$p=pP$$

Teorema 5.4.3

Em uma cadeia de Markov irredutível com estados ergótico, a probabilidade limite $ p $ satisfaz a equação

$$p_j=\displaystyle \sum_{i=0}^{\infty}p_iP_ij,~~ j=0,1,2,\cdots$$

e

$$\sum p_j=1$$

A distribuição limite é estacionária.

Demonstração

Note que a distribuição limite é estacionária, pois

$$p_j=\displaystyle \sum_{i=0}^{\infty}p_iP_{ij}$$

$ p_k=\displaystyle \sum_{j=0}^{\infty}p_jP_jk=\displaystyle \sum_{i=0}^{\infty}p_i\sum_{j=0}^{\infty} P_{ij}P_jk=\sum_{i=0}^{\infty}p_iP^{(2)}_{ik}=\cdots \sum_{i=0}^{\infty}p_i P^{(n)}_{ij},~~ n\geq 1. $

o que demonstra que ela é estacionária.

Exemplo 5.4.1

Vendedor de uma determinada empresa, pode visitar três cidades A,B e C para vender o seu produto. Mas para ir para essas cidades ele segue algumas regras caso ele esteja na cidade A ele escolhe ir para a cidade B com probabilidade $ 2/3 $ e com probabilidade $ 1/3 $. Se ele estiver na cidade B ele vai para cidade A com probabilidade $ 3/8 $ e para cidade C com probabilidade 1/2 e permanece na mesma cidade com probabilidade $ 1/8 $. Caso ele esteja na cidade C ele vai para cidade A ou para cidade B com probabilidade $ 1/2 $. A pergunta que fica, qual seria a probabilidade de ele visitar a cidade A, B e C a longo prazo.

A matriz de transição da cadeia de Markov é dada por

Screenshot_81

Assim

$$\displaystyle p_A=\frac{3}{8}p_B+\frac{1}{2}p_B$$

$$\displaystyle p_B=\frac{2}{3}p_A+\frac{1}{8}p_B+\frac{1}{2}p_C$$

$$\displaystyle p_C=\frac{1}{3}p_A+\frac{1}{2}p_B$$

Lembrando que as equações não são independentes, pois existe uma condição

$$p_A+p_B+p_C=1.$$

Combinando todas as equações temos que

$$p_A+p_B+p_C=1$$

$$4p_A-9p_B+8p_C=0$$

$$2p_A+3p_B-6p_C=0$$

Com resolvendo as equações temos que

$$p_A=0,3 ~p_B=0,4 ~p_C=0,3$$

ou seja, podemos dizer que o vendedor vai para cidade A, C e B respectivamente $ 30(porcentagem) , 30(porcentagem) e 40(porcentagem) $.

Exemplo 5.4.2

Suponha que queremos avaliar o número de acidentes em uma determinada rodovia. Assim seja X a variável aleatória que conta o número de acidentes. Definida da seguinte forma

Nº $ 0~ 1~\geq 2 $

Pr $ p~q~r $

Screenshot_82

pelo teorema 5.4.3 $ p=(p_0,p_1,\cdots) $ é o vetor da probabilidade limite

Usando a matriz de transição temos que $ pP=p $ logo

$$(p+q)p_0+pp_1=p_0$$

$$rp_0+qp_1+pp_2=p_1$$

$$rp_1+qp_2+pp_3=p_2$$

$$\vdots$$

da primeira equação temos que:

$$p p_1=(1-p-q)p_0=rp_0$$

$$p_1=\displaystyle \frac{r}{q}p_0.$$

da segunda equação

$$p p_2=(1-p-q)p_1=rp_1$$

$$p_2=\displaystyle \frac{r}{q}p_1=\displaystyle \left(\frac{r}{q}\right)^2 p_0$$

Procedendo da mesma forma temos que

$$p_n=\displaystyle \left(\frac{r}{q}\right)^n p_0$$

Por outro lado temos que

$$\displaystyle p_0\sum_{n=1}^{\infty}\left(\frac{r}{p}\right)^n=1$$

$$\displaystyle \left(1-\frac{r}{p}\right)^{-1}p_0=1$$

$$p_0=\displaystyle 1-\frac{r}{p}$$

Assim de modo geral,

$$p_n=\displaystyle \left(1-\frac{r}{p}\right)\left(\frac{r}{p}\right)^n$$

Exemplo 5.4.3

Consideremos uma modificação do exemplo anterior. Seja o número de chegadas dada pela tabela abaixo:

Nº $ 0~ 1 ~ 2 ~ \geq 3 $

Pr $ p ~q ~ r~ s $

com p+q+r+s=1

A matriz de transição é dada por

Screenshot_83

Note que as equações correspondente ao modelo são:

$$(p+q)p_0+p p_1=p_0$$

$$rp_0+qp_1+pp_2=p_1$$

$$sp_0+rp_1+qp_2+pp_3=p_2$$

$$sp_1+rp_2+qp_3+pp_4=p_3$$

$$\vdots$$

Multiplicando apropriadamente potências de z, onde $ |z|< 1 $, assim temos

$$(p+q)p_0+p p_1=p_0$$

$$rp_0z+qp_1z+pp_2z=p_1z$$

$$sp_0z^2+rp_1z^2+qp_2z^2+pp_3z^2=p_2z^2$$

$$sp_1z^3+rp_2z^3+qp_3z^3+pp_4z^3=p_3z^3$$

$$\vdots$$

Somando essas equações e escrevendo $ \sum_{i=0}^{\infty}p_iz^i=K $, após algumas simplificações temos que:

$$p p_0+sz^2 K+rzK+qzK+qK+\displaystyle\frac{p}{z}[K-p_0]=K$$

$$\displaystyle \left(sz^2+rz+q+\frac{p}{z}-1\right)K=\left(\frac{p}{z}-p\right)p_0$$

$$[sz^3+rz^2+(q-1)z+p]K=p(1-z)p_0$$

dando assim

$$K=\displaystyle \frac{p(1-z)p_0}{sz^3+rz^2+(q-1)z+p}$$

5.5 - Existência da Cadeia de Markov

Para garantir a existência da cadeia de markov, vamos construir um espaço de probabilidade para tal processo estocástico.

Considerando um experimento, vamos descrever o espaço de probabilidade $ (\Omega , \mathcal{F} , \mu ) $. Para uma variável aleatória $ X $ que toma valores em

$$X : \Omega \to \Re$$

O espaço amostral é no máximo um conjunto enumerável de valores, ou seja:

$$\Omega = (\omega_n ;n \in \mathbb{N} ) $$

A $ \sigma - $álgebra é a classe de subconjuntos do espaço amostral,

Screenshot_85

e a probabilidade é

$$\mu : \mathcal{F} \to [0 ,1]$$

o qual $ \mu $ é a probabilidade do instante inicial da cadeia.

Agora em um segundo instante, vamos definir um espaço de probabilidade para um vetor de variáveis aleatórias $ X = (X_1 , X_2 , \dots , X_n ) $

O espaço amostral para o vetor aleatória é o espaço amostral produto:

$$ \Omega^n = \Omega \times \Omega \times \dots \times \Omega $$

A $ \sigma - $álgebra é a $ \sigma - $álgebra produto, ou seja:

$$ \mathcal{F}^n = \mathcal{F} \times \mathcal{F} \times \dots \times \mathcal{F} $$

Como as variáveis aleatórias $ X_1 , X_2 , \dots X_n $ não são independentes, existe probabilidade de transição entre as variáveis, não podemos proceder da mesma forma como no processo de Bernoulli. Mas da teorema de Bayes, temos:

$$ \mu(A|B) = \frac{\mu(A , B) }{\mu (B) }$$

ou seja,

$$ \mu(A , B) = \mu (A|B) \mu (B) $$

E como a probabilidade de transição de um estado para outro é conhecido, definimos a probabilidade sobre o vetor aleatório como

$$\eta (X_1 = i_1 , X_2 = i_2 ,\dots , X_n = i_n ) = \eta (X_1 = i_1 ) \eta (X_2 = i_2 | X_1 = i_1) \dots \eta (X_n = i_n | X_{n-1} = i_{n-1} ) $$

Assim temos um espaço de probabilidade $ (\Omega^n , \mathcal{F}^n , \eta ) $ para o vetor aleatório.

Agora queremos estender esta estrutura para uma sequência de variáveis aleatórias $ X = (X_1 , X_2 , \dots ) $

O espaço amostral para um sequência de variáveis aleatórias é

$$ \Omega^{\infty } = \Omega \times \Omega \times \dots $$

A $ \sigma - $álgebra é a $ \sigma - $álgebra produto

$$\mathcal{G} = \mathcal{F} \times \mathcal{F} \times \dots = \otimes \mathcal{F} $$

e a função de probabilidade $ \mathbb{P} $ é definida da seguinte forma

Screenshot_84

Assim, temos um espaço de probabilidade $ (\Omega^{\infty} , \mathcal{G} , \mathbb{P} ) $ para a cadeia de Markov. Portanto a existência é garantida.

6 - Martingale

O nome Martingale foi intoduzido na literatura de probabilidade por Ville em 1939 e o termo martingale foi detalhado por Doob nas décadas de 40 e 50. A teoria de martingale, assim como a teoria de probabilidade, tem origem na teoria de jogos de azar. A ideia de martingale expressa o conceito de jogo justo.

Considere um jogo de azar com duas possibilidades, o apostador ganha ou perde sua aposta. O termo martingale vem da estratégia de jogo denominada “la grand martingale”, uma estratégia no qual o apostador dobra sua aposta a cada perda. Se o apostador dobra sua aposta a cada perda, na primeira vez que ganhar, vai recuperar todo o dinheiro investido e ainda terá um pequeno lucro. Desde que em qualquer jogo sempre temos uma chance positiva de ganhar, esta estratégia nos garante lucro sempre.

Um martingale é um modelo probabilístico para o jogo justo. O que é um jogo justo? Considere o seguinte exemplo. Um dado é jogado e você ganha uma unidade monetária se o resultado for $ 1, 2 $ ou $ 3 $ e você perde a mesma quantidade se o valor for $ 4, 5 $ pu $ 6 $. Neste caso, o ganho esperado é zero, o que significa que não podemos ganhar sistematicamente. Denotamos por $ Y_n $ a fortuna do apostador na etapa $ n $, ou seja, $ Y_n= X_0 + X_1 + \cdots + X_n $, nos quais $ X_0 $ é a fortuna inicial do apostador e $ X_i $ é o resultado do jogo na etapa $ i $. Por construção, temos que $ X_i=1 $ ou $ X_i=-1 $ com probabilidade $ 0,5 $ para todo $ i=1, \cdots , n $. Além disso, assumimos que as variáveis aleatórias $ X_1, \cdots , X_n $ são independentes. Desta forma, o processo estocástico $ (Y_n: n \geq 1) $ é um martingale.

A questão é: qual a característica essencial de um martigale. Confome ilustrado no exemplo, o martingale mantém saltos de tamanho esperado zero ao longo das etapas. A consequência é que o valor esperado de $ Y_{n+1} $ dado $ Y_n $ é o mesmo valor da etapa $ n $ (ou seja, $ Y_n $). Outra questão importante é como podemos nos beneficiar do conceito de martingale. Suponha que o processo de interesse seja um martingale. Então, se nós conhecemos o estado atual do processo, também temos uma infomação valiosa sobre seu futuro. Sabemos que o valor esperado de amanhã é igual ao valor de hoje, que é conhecido. Em qualquer área de aplicação, ter conhecimentos sosbre o futuro é essencial. Para maiores detalhes ver Modelo de Black e Scholes.

Screenshot_91

Definição 6.1

Screenshot_90

Lema 6.1

Seja X um processo estocástico discreto, então X é um martingale se, e somente se, $ \mathbb{E}[X_n|\mathcal{F_s}]=X_s $, para qualquer $ n \geq s $.

Demonstração

De fato, suponha que $ \mathbb{E}[X_n|\mathcal{F_s}]=X_s $, para qualquer $ s< n $, então ao tomarmos $ s=n-1 $ chegamos a definição de martingale. Agora suponha que X é um martingale, logo

Screenshot_89

Definição 6.2

Seja $ (Y_n,n\geq 1) $ um processo estocástico e seja $ (\mathcal{F_n},n\geq 1) $ uma filtragem. Se

$$\mathbb{E}[Y_n|\mathcal{F}_{n-1}]=0,$$

dizemos que $ (Y_n, \mathcal{F_n}, n\geq 1) $ é um martingale array difference.

Screenshot_88

A seguir apresentamos alguns exemplos de martingales.

Exemplo 6.1

Screenshot_87

$$X_n=X_{n-1} + V_n \eta_n, \quad X_0=0.$$

É natural admitirmos que a aposta $ V_n $ investida na $ n $-ésima rodada pode depender dos resultados das rodadas anteriores, isto é, depende de $ V_1, \cdots , V_{n-1} $ e $ \eta_1, \cdots , \eta_{n-1} $. Em outras palavras, tomamos $ \mathcal{F_0} = (\Omega, \emptyset) $ e $ \mathcal{F_n} = \sigma (\eta_1, \cdots , \eta_n) $. Neste caso, obtemos que a estratégia do jogador na rodada $ n $, dada por $ V_n $, é $ \mathcal{F}_{n-1} $-mensurável. Então, dizemos que a estratégia $ V_n $ é previsível. Ao denotarmos $ Y_n = \eta_1 + \cdots + \eta_n $, concluímos que

$$X_n = \sum_{i=1}^n V_i \Delta Y_i, \quad n \geq 1,$$

no qual $ \Delta Y_i = Y_i - Y_{i-1} $.

Do ponto de vista do jogador, dizemos que o jogo é justo (favorável ou desfavorável) se, para qualquer rodada do jogo, temos que

$$\mathbb{E} [X_{n+1} - X_n \mid \mathcal{F_n}] = 0 \quad (\geq 0, \leq 0).$$

Screenshot_86

$$\sum_{i=1}^n 2^{i-1} = 2^n - 1.$$

Portanto, se obtivermos $ \eta_{n+1}=1 $, concluímos que

$$X_{n+1} = X_n + V_{n+1}= -(2^n - 1) + 2^n =1.$$

Na prática de jogos de azar, este sistema de jogo (dobra a aposta a cada rodada perdida e para o jogo assim que ganhar) é denominado martingale. Como dissemos, esta é a origem do termo matemático “Martingale”.

Exemplo 6.2

Consideramos o exemplo 1, se quisermos ao invés de ir para casa apenas 1 real mais rico quisermos ir $ x $ reais mais rico, basta apostarmos no primeiro lançamento x reais e ir dobrando nos lançamentos seguintes.

Exemplo 6.3

Seja T uma variável aleatória integrável e seja $ (\mathbb{F}=\mathcal{F_n}, n\geq 1) $ uma filtragem. Tomamos

$$T_n=\mathbb{E}[T|\mathcal{F_n}],$$

para cada $ n\geq 1 $. Desde que

04ce8dd9e66a702caac178e1a55d349930d78e8c

concluímos que $ (T_n : n \geq 1) $ é um martingale.

Exemplo 6.4

Sejam $ (Y_n : n \geq 1) $ variáveis aleatórias independentes com $ \mathbb{E}[Y_j]=1 $ para todo $ j\geq 1 $. Então, o processo estocástico $ X=(X_n : n \geq 1) $ com $ \displaystyle X_n=\prod_{k=1}^{n}Y_k $ e $ \mathcal{F_n}=\sigma(Y_j:j=1,\cdots n) $ é um martingale. Basta notarmos que

6987539d3b77e80bb854e7d25b1abce24df0c1a8

6.1 - Estruturas que mantém a propriedade martingale.

Nessa seção vamos estudar algumas estruturas que preservam a propriedade martingale ou a propriedade supermartingale.

Teorema 6.1.1

Sejam $ X= (X_n : n \geq 1) $ um martingale com respeito a filtragem $ \mathbb{F} $ e $ f: \mathbb{R} \rightarrow \mathbb{R} $ uma função convexa tal que $ \mathbb{E} \mid f(X_n)\mid < \infty $. Então, o processo estocástico $ Y=(f(X_n): n \geq 1) $ é um submartingale.

Demonstração

Como aplicação da desingualdade de Jensen (ver, propriedade da esperança condicional), obtemos que

Screenshot_93

$ \Box $ Como a função $ \mid \mid^p $ para $ p \leq 1 $ é convexa, obtemos o seguinte Corolário.

Corolário 6.1.2

Para $ p\geq 1 $ se $ (Y_n, n\geq 1) $ é um martingale com $ E[|Y_n|^{p}]< \infty $ para $ n\geq 1 $, então $ (|Y_n|^{p}, n\geq 1) $ é um submartingale.

Demonstração

A demonstração deste corolário é imediata, pois basta usarmos os teorema1 e lembrarmos que é $ |\cdot|^{p} $ é uma função convexa.

$ \Box $

Considere $ (\Omega, \mathcal{F}, \mathbb{P}) $ um espaço de probabilidade e $ X=(X_n: n \geq 0) $ um martingale que representa um jogo. Denotamos por $ \mathbb{F}^X $ a filtragem interna associada ao jogo $ X=(X_i : i \geq 1) $. Tomamos por $ C=(C_i : i \geq 1) $ um processo estocástico que representa a aposta do jogador em cada etapa. É intuítivo supormos que o valor de $ C_i $ depende somente da história do jogo até a etapa $ i-1 $. Este princípio, denominado “previsível” , nos garante qe $ C_i $ é $ \mathcal{F}^X_{i-1} $-mensurável. O ganho do jogador na etapa $ n $ é dado por $ C_n (X_n - X_{n-1}) $ e o total acumulado até a etapa $ n $ é dado por

$$Y_n = X_0 + \sum_{i=1}^n C_i (X_i - X_{i-1}), \quad n \geq 1 \quad {e} \quad Y_0=X_0.$$

O processo estocástico $ Y=(Y_n: \geq 1 ) $ é denominado “transformação martingale”. Este é o análogo discreto da integral estocástica. Com isso, motivamos as seguintes definições.

Definição 6.1.1

Um processo estocástico $ X=(X_n : n \geq 1) $ é denominado previsível para a filtragem $ \mathbb{F}=(\mathcal{F_n} ; n \geq 1) $ se, $ X_n $ é $ \mathcal{F}_{n-1} $-mensurável, para todo $ n\geq 1 $.

Definição 6.1.2

Sejam $ M=(M_n: n \geq 0) $ e $ X=(X_i:i \geq 1) $ dois processos estocásticos. Definimos o processo $ X.M $ com $ (X.M)_0=0 $ na forma

Screenshot_94

Dizemos que $ X.M $ é a integral estocástica discreta de $ X $ com respeito a $ M $. Se $ M $ é um super ou um sub-martingale, dizemos que é uma transformação martingale de $ M $ por $ X. $

A seguir, vamos utilizar a definição de integral estocástica para introduzirmos transformações que preservam a propriedade martingale.

Teorema 6.1.3

Seja $ X $ um processo previsível tal que para todo $ n $ existe uma constante $ K_n $ tal que $ |X_1|,\dots,|X_n|\leq K_n. $ Se $ M $ é um martingale, então o processo estocástico $ X.M $ também é um martingale. Se $ X $ também é não negativo e $ M $ é um (super)submartingale, obtemos que $ X.M $ também é um (super)submartingale.

Demonstração

Consideramos $ Y=X.M, $ a integral estocástica. Então, $ Y $ é um processo adaptado. Se $ |X_n|\leq K_n $ q.c. para todo $ n $, obtemos que

$$\mathbb{E}|Y_n|\leq 2K_n\sum_{k\leq n}\mathbb{E}|M_k|< \infty.$$

Agora suponhamos que $ M $ é um submartingale e $ X $ não negativo. Então

Screenshot_95

Portanto, $ Y $ também é um submartingale. Se M é um martingale, a última desigualdade é uma igualdade, independentemente do sinal de $ X_n. $ Isso implica que $ Y $ é um martingale.

$ \Box $

Seja $ Y=(Y_n, n\geq 0) $ um martingale que representa o ganho acumulado de um jogador até a $ n $-ésima rodada. Neste jogo, gostaríamos de construir uma estrutura probabilística que possibilitasse ao jogador parar o jogo em alguma etapa finita $ n $ com ganho positivo. Além disso, esta parada opcional deve preservar a propriedade martingale. Esta estrutura é denominada tempo de parada, uma das mais importantes armas dentro da abrangente teoria de processos estocásticos. Para relembrar o conceito de tempo de parada, dado $ (\Omega , \mathcal{F}, \mathbb{P}) $ um espaço de probabilidade e $ \mathbb{F}= (\mathcal{F_n} : n \geq 1 ) $ uma filtragem, dizemos que uma variável aleatória positiva e discreta $\tau : \Omega \rightarrow \mathbb{N}$ é um tempo de parada se $ (\tau = n ) \in \mathcal{F_n} $ para todo $ n \geq 1 $.

Seja $ Y=(Y_{n},\mathcal{F_n},n\geq 1) $ um martingale e $ \tau $ um tempo de parada, tomamos

$$Y_{n}^{(\tau)}(\omega)=Y_{min(\tau(\omega),n)}(\omega) = Y_{\tau(\omega)\wedge n}(\omega), \quad \omega \in \Omega.$$

Assim, sobre o o conjunto $ (\omega \in \Omega : \tau (\omega)=n) $ teremos a sequência

$$Y_1, Y_2, \cdots, Y_{n- 1}, Y_{n}, Y_n, \cdots .$$

Por definição, temos que $ Y_n=Y_n^{(\tau)} $ para $ \tau\geq n $ e $ Y_{n}^{(\tau)}=Y_{n-1}^{(\tau)}=Y_{\tau} $ para $ \tau< n $. Desta forma, sobre o evento $ [\tau\geq n] $, obtemos que

$$(Y_1^{(\tau)}, Y_2^{(\tau)}, \cdots, Y_{n-1}^{(\tau)})=(Y_1,Y_2,\cdots, Y_{n-1}).$$

Suponha $ Y=(Y_{n},\mathcal{F_n},n\geq 0) $ um martingale e $ \tau $ um tempo de parada. Assim, temos que

Screenshot_96

Corolário 6.1.4

Seja $ M $ um (super,sub)martingale e $ \tau $ um $ \mathbb{F} $-tempo de parada. Então o processo parado $ M^\tau $ também é um (super,sub)martingale.

É importante sabermos se a propriedade martingale $ (\mathbb{E} X_n = \mathbb{E} X_{n-1}) $ se mantém quando a etapa $ n $ é subtituída por um tempo de parada. A principal diferença entre os dois casos é que $ n $ é constante e $ \tau $ é uma variável aleatória que depende da trajetória. A seguir, apresentamos o teorema da parada opcional de Doob. Dado $ \tau $ um tempo de parada, definimos

$$ \mathcal{F_{\tau}} = (A \in \mathcal{F}: A \cap (\tau = n) \in \mathcal{F_n}, \quad \forall n \geq 1). $$

Esta classe de eventos é uma $ \sigma $-álgebra, que é denominada $ \sigma $-álgebra dos eventos anteriores ao tempo de parada $ \tau $.

Teorema 6.1.4

Seja M um (sub)martingale e seja $ \tau,\kappa $ dois tempos de parada tal que $ \kappa\leq \tau\leq K $ para alguma constante $ K $ positiva. Então

$$\mathbb{E}(M_\tau|\mathcal{F}_\kappa)\overset{(\geq)}{=}M_\kappa, \quad q.c.\quad (6.1.1)$$

Um processo $ M $ adaptado e integrável é um martingale se, e somente se,

$$\mathbb{E}(M_\tau)=\mathbb{E}(M_\kappa),$$

para quaisquer pares de tempos de parada limitados $ \kappa\leq \tau. $

Demonstração

Suponha que $ M $ seja um martingale. Definimos o processo

Screenshot_97

Pela definição de $ \mathcal{F}_\tau $ temos que

$$(\kappa^A\leq n)=(A\cap (\kappa \leq n))\cup (A^c\cap (K\leq n))\in \mathcal{F_n},$$

para todo $ n \geq 1 $. Com isso, obtemos que $ \kappa^A $ e $ \tau^A $ são tempos de parada tal que $ \kappa^A\leq \tau^A\leq K $. De forma análoga temos que $ \mathbb{E}(M_{\tau^A})=\mathbb{E}(M_{\kappa^A}), $ isto é,

$$\int_A M_\kappa~d\mathbb{P}+\int_{A^c} M_K~d\mathbb{P}=\int_A M_\tau~d\mathbb{P}+\int_{A^c} M_K~d\mathbb{P} \quad (6.1.2)$$

com $ \displaystyle\int_A M_\kappa~d\mathbb{P}=\int_A M_\tau~d\mathbb{P}. $

Screenshot_92

Assim, com $ M $ um processo adaptado com $ \mathbb{E}(M_{\tau})=\mathbb{E}(M_{\kappa}), $ para cada par limitado $ \kappa\leq \tau $ de tempos de parada. Tomamos $ \kappa=n-1 $ e $ \tau=n $ e o procedimento usado para tempos de parada truncados $ \kappa^A $ e $ \tau^A $ para $ A\in \mathcal{F}_{n-1}. $ Então de (6.1.2) para $ A\in \mathcal{F}_{n-1} $ e para os tempos de parada $ \kappa^A $ e $ \tau^A $ implica que $ \mathbb{E}[M_n|\mathcal{F}_{n-1}]=M_{n-1}, $ em outras palavras, $ M $ é um martingale.

Para $ M $ sub-martingale o procedimento é análogo.

$ \Box $

6.2 - Decomposição de Doob

Considere $ (\Omega, \mathcal{F}, \mathbb{P}) $ um espaço de probabilidade, $ \mathbb{F}=( \mathcal{F_n}: n \geq 0 ) $ uma filtragem e $ Z=(Z_n:n \geq 1 ) $ um processo estocástico adaptado à filtragem $ \mathbb{F} $, satisfazendo $ \mathbb{E}\mid Z_n \mid < \infty $. Então, o processo estocástico $ Z $ pode ser decomposto na soma de um martingale e um processo previsível. Este ressultado, motivado pela teoria de integral estocástica, tem diversas aplicações que vamos estudar ao longo deste texto.

Definição 6.2.1

Um processo estocástico $ X=(X_n:n\geq 1) $ é previsível se $ X_n $ for $ \mathcal{F}_{n-1} $-mensurável para todo $ n \geq 1 $.

A seguir apresentamos o teorema da decomposição de Doob.

Teorema 6.2.1

Seja $ Z=(Z_n : n \geq 1) $ um processo estocástico adaptado à filtragem $ \mathbb{F}=(\mathcal{F_n} :n \geq 0) $ tal que $ \mathbb{E}\mid Z_n \mid < \infty $. Então o processo pode ser decomposto de forma única em

$$Z=M+A$$

no qual M é um martingale e A é um processo previsível, satisfazendo:

$$M_n=Z_0+\displaystyle\sum_{\ell=1}^{n}\left[Z_\ell-\mathbb{E}[Z_\ell|\mathcal{F}_{\ell-1}]\right] \quad {e} \quad A_n=\displaystyle\sum_{\ell=1}^{n}\left[\mathbb{E}[Z_\ell|\mathcal{F}_{\ell-1}]-Z_{\ell-1}\right].$$

Demonstração

Vamos mostrar por indução

$$Z_0=0=M_0+A_0.$$

Para $ n=1 $, temos que

$$Z_1=Z_0+Z_1-\mathbb{E}[Z_1|\mathcal{F_0}]+ \mathbb{E}[Z_1|\mathcal{F_0}]-Z_0 =M_1+A_1.$$

Para $ n=2 $, temos que

$$Z_2=Z_0+Z_1-\mathbb{E}[Z_1|\mathcal{F_0}]+ \mathbb{E}[Z_1|\mathcal{F_0}]-Z_0 + Z_2- \mathbb{E}[Z_2|\mathcal{F}_1]+ \mathbb{E}[Z_2|\mathcal{F}_1]-Z_1 =M_2+A_2.$$

Suponha que essa propriedade seja válida para n-1, vamos mostrar que também vale para n. Considere

$$Z_n=Z_{n-1}+Z_n-\mathbb{E}[Z_n|\mathcal{F}_{n-1}]+\mathbb{E}[Z_n|\mathcal{F}_{n-1}]- Z_{n-1} =$$

$$ =M_{n-1}+A_{n-1}+Z_n-\mathbb{E}[Z_n|\mathcal{F}_{n-1}]+\mathbb{E}[Z_n|\mathcal{F}_{n-1}]- Z_{n-1}= $$

$$ =M_n+A_n. $$

Agora vamos mostrar que $ M_n $ é um martingale

Screenshot_98

Logo é previsível.

A unicidade da decomposição é uma aplicação do conceito de previsível. Suponha que tenhamos duas decomposições $ M^1 + A^1 = M^2 + A^2 $. Então, temos que $ X=M^1 - M^2 = A^1 - A^2 $. Desde que $ A^1 - A^2 $ é previsível e $ M^1 - M^2 $ um martingale, concluímos que $ X $ é um martingale previsível, então

$$X_{n-1}=\mathbb{E}[X_n \mid \mathcal{F}_{n-1}]=X_n,$$

o que ocorre somente se $ X=0 $. Portanto, temos a unicidade da decomposição de Doob.

$ \Box $

Considere $ X=( X_n ; n \geq 1) $ um submartingale. Por construção, o processo previsível $ A=( A_n: n \geq 1) $ é não descrescente. Além disso, o processo previsível $ A $ é denominado compensador relacionado ao processo estocástico $ X $.

6.2.1 - Variação quadrática Previsível

O conceito de variação quadrática de um martingale deriva da decomposição de Doob. Seja $ M $ um martingale com $ \mathbb{E} \mid X_n \mid^2 < \infty $ para todo $ n \geq 1 $. Como consequência da desigualdade de Jensen, sabemos que $ M^2 $ é um submartingale, pois

$$\mathbb{E}[M^2_\ell|\mathcal{F}_{\ell-1}]\geq \left(\mathbb{E}[M_\ell|\mathcal{F}_{\ell-1}]\right)^2=M^2_{\ell-1}, \ell \geq 1.$$

Como consequência da decomposição de Doob, existe um único processo previsível não decrescente, denotado por $ < M,M> $, tal que

$$M^2_\ell-< M,M> _\ell=\overline{M}_\ell, \quad \ell \geq1$$

é um martingale. O processo estocástico $ < M,M> $ é denominado variação quadrática previsível. A partir da decompsição de Doob e da definição de martingale, obtemos que

c9a450a69c83affa925e084f9862a751d6a148da

Para todo $ \ell \leq k $, concluímos que

$$\mathbb{E} [(M_k - M_\ell)^2 | \mathcal{F}_{\ell}] = \mathbb{E} [M^2_k - M^2_\ell | \mathcal{F}_{\ell} ]= \mathbb{E} [< M,M> _k - < M,M> _\ell | \mathcal{F}_\ell].$$

Em particular, obtemos que $ \mathbb{E} \mid X_i \mid^2 = \mathbb{E} < M,M> _i $ para todo $ i \geq 1 $.

Suponha $ M $ um martingale com $ M_0=0 $ e $ M_i = \xi_1 + \cdots + \xi_i $, no qual $ (\xi_i : i \geq 1) $ é uma sequência de variáveis aleatórias independentes com $ \mathbb{E} \xi_i=0 $ e $ \mathbb{E} \xi_i^2 < \infty $. Então, a variação quadrática previsível é dada por

$$ < M,M> _i=\mathbb{E} M^2_i = Var(\xi_1) + \cdots + Var(\xi_i),$$

que é determinística e coincide com a variância.

Considere $ X=(X_n : n \geq 1) $ e $ Y=(Y_n : n \geq 1) $ martingales com $ \mathbb{E} \mid X_n \mid^2 < \infty $ e $ \mathbb{E} \mid Y_n \mid^2 < \infty $ para todo $ n \geq 1 $. Definimos a variação cruzada previsível por

$$< X,Y> _i=\frac{1}{4} \left[ < X+Y,X+Y> _i\right]-< X-Y,X-Y> _i.$$

Facilmente, podemos mostrar que $ X_n Y_n - < X,Y> _n $ é um martingale e portanto, para todo $ \ell \leq k $, temos que

$$\mathbb{E} \left[ (X_k - X_\ell) (Y_k - Y_\ell) \mid \mathcal{F}_\ell\right]=\mathbb{E} \left[ (< X,Y> _k - < X,Y> _\ell) \mid \mathcal{F}_\ell\right].$$

Ao tomarmos $ X_n = \xi_1 + \cdots + \xi_n $ e $ Y_n = \eta_1 + \cdots + \eta_n $, nos quais $ (\xi_i) $ e $ (\eta_i) $ são sequências de variáveis aleatórias independentes com $ \mathbb{E} \xi_i=\mathbb{E} \eta_i=0 $, $ \mathbb{E} \xi_i^2 < \infty $ e $ \mathbb{E} \eta_i^2 < \infty $, obtemos que o processo variação cruzada previsível é dado por

5c7e9d2c31413a6c646ea10a5ad99cb767428f54

Tomamos $ C=(C_i : i \geq 1 ) $ um processo previsível limitado e $ X=(X_i : i \geq 1 ) $ uma martingale. Sabemos que a transformação martingale $ Y=C \cdot X $ também é um martingale. Neste caso, temos que

95c2c63f71033fa5b3ae8dd86205917391d14b21

Como consequência, obtemos que

da3a0062c1edf0fcb0b2b71813b849ebbc1b7243

Screenshot_100

Da mesma forma, temos que

$$A_2= A_1 + \mathbb{E}\left[ \left(X_2 -X_1\right) \mid \mathcal{F}_1 \right]=A_2 = A_1 + \mathbb{E}\left[ \left(X_2 -X_1\right) \mid X_1 \right].$$

Se $ X_1=1 $, temos que $ X_2-X_1=0 $. Assim concluímos que $ \mathbb{E} \left[ \left( X_2 - X_1 \right) \mid X_1=1 \right] =0 $. Por outro lado, temos que

$$\mathbb{E} \left[ X_2 - X_1 \mid X_1=0 \right] = \mathbb{E} \left[ X_2 \mid X_1=0 \right]=\frac{\mathbb{P}[W=2]}{\mathbb{P}[W \geq 2]}.$$

Desta forma, obtemos que

Screenshot_99

Assim, obtemos uma relação um a um entre a taxa de risco e a distribuição de uma variável aleatória discreta. A partir desta caracterização podemos estudar variáveis aleatórias discretas através do modelo de intensidade multiplicativo de Aalen e consequentemente da teoria de martingales. A seguir, vamos calcular o processo variação quadrática associado ao martingale $ M=X-A $, na forma

$$M_\ell^2=2\sum_{i=1}^{\ell}M_{i-1}\Delta M_i+\sum_{i=1}^{\ell}[\Delta M_i]^2.$$

De fato,

$$2\sum_{i=1}^{\ell}M_{i-1}\Delta M_i + \sum_{i=1}^{\ell}[\Delta M_i]^2 =2\sum_{i=1}^{\ell}M_i[ M_i-M_{i-1}]+\sum_{i=1}^{\ell}[M_i-M_{i-1}]^2=$$

$$=\sum_{i=1}^{\ell}2M^2_i- 2M_iM_{i-1}+\sum_{i=1}^{\ell}[M^2_i-2M_iM_{i-1}+M^2_{i-1}]=\sum_{i=1}^{\ell}M^{2}_i-M^{2}_{i-1}=M^{2}_\ell-M^{2}_0=M^{2}_\ell,$$

pois $ M_0=0 $. Mas por outro lado temos que

$$[\Delta M_\ell]^2= [\Delta X_\ell-\Delta A_\ell]^2=[\Delta X_\ell]^2-2\Delta X_\ell\Delta A_\ell+[\Delta A_\ell]^2.$$

Desta forma temos que

$$M_\ell^2= 2 \sum_{i=1}^{\ell}M_{i-1}\Delta M_i+\sum_{i=1}^{\ell}[\Delta M_i]^2=$$

$$=2\sum_{i=1}^{\ell}M_{i-1}\Delta M_i+\sum_{i=1}^{\ell}[\Delta X_i]^2-2\sum_{i=1}^{\ell}\Delta X_i\Delta A_i+\sum_{i=1}^{\ell}[\Delta A_i]^2=$$

$$=2\sum_{i=1}^{\ell}M_{i-1}\Delta M_i+\sum_{i=1}^{\ell}[\Delta X_i]-2\sum_{i=1}^{\ell}\Delta X_i\Delta A_i+\sum_{i=1}^{\ell}[\Delta A_i]^2=$$

$$\stackrel{\Delta X=\Delta M+\Delta A}{=} 2 \sum_{i=1}^{\ell}M_{i-1}\Delta M_i+ \sum_{i=1}^{\ell}\Delta M_i+\sum_{i=1}^{\ell}\Delta A_i-2\sum_{i=1}^{\ell}\Delta X_i\Delta M_i-\sum_{i=1}^{\ell}[\Delta A_i]^2$$

$$= \sum_{i=1}^{\ell}[2M_{i-1}+1-2\Delta A_i]\Delta M_{i}+ \sum_{i=1}^{\ell}\Delta A_i[1-\Delta A_i].$$

Notamos que $ \displaystyle \sum_{i=1}^{\ell}\Delta A_i[1-\Delta A_i] $ é a parte previsível. Para verificar esse fato, basta observarmos que

$$\displaystyle\sum_{i=1}^{\ell}[2M(_{i-1}+1-2\Delta A_i]\Delta M(i)$$

é um martingale, pois $ C_i=[2M(_{i-1}+1-2\Delta A_i] $ é previsível. Portanto, como a decomposição é única temos que

dbb4854068299249669613c6677cca3168a55d0a

6.3 - Convergência para martingales

Neste módulo, vamos apresentar os principais resultados sobre convergência de martingales. Aqui, vamos estender os resultados de convergência para sequências de variáveis aleatórias independentes para sequências que formam a estrutura martingale. Vamos mostrar que é válido a lei dos grandes números e o teorema central do limite sem a hipótese de independência das variáveis aleatórias.

6.3.1 - Martingales Uniformemente Integráveis

Integrabilidade uniforme desempenha papel importante quando se estuda convergência de martingales. Na seção convergência em média p, mostramos que a integrabilidade uniforme é condição necessária e suficiente para que a convergência em média seja consequência da convergência em probabilidade. Aqui, vamos mostrar que o mesmo resultado é válido para uma sequência de variáveis aleatórias que tem a propriedade martingale.

Definição de Integrabilidade Uniforme para sequências de variáveis aleatórias

A coleção $ (X_i)_{i\in I} $ de variáveis aleatórias é chamada uniformemente integrável (UI) se

Screenshot_101

Observação

Vale lembrar que uma família UI é limitada em $ \mathcal{L}^1, $ mas a recíproca é falsa. Por outro lado, se uma família é limitada em $ \mathcal{L}^p, $ para algum $ p> 1, $ então é UI.

A seguir apresentamos o primeiro resultado para famílias UI.

Teorema 6.3.1.1

Seja $ X\in \mathcal{L}^1. $ Então a classe

$$ (\mathbb{E}[X|\mathcal{G}]: ~\mathcal{G}~\text{uma sub-}\sigma\text{-álgebra de }~\mathcal{F}) $$

é UI.

Demonstração

Como $ X\in \mathcal{L}^1, $ obtemos que para todo $ \varepsilon> 0 $ existe um $ \delta> 0 $ tal que sempre que $ \mathbb{P}(A)\leq \delta, $ então

Screenshot_102

$ \Box $

Agora, apresentamos a definição de martingales UI’s.

Definição 6.3.1.2

Um martingale $ X=(X_n : n \geq 0) $ é um martingale uniformemente integrável, se $ X $ é um martingale e a coleção de variáveis aleatórias $ (X_n) $ é uma família UI.

A partir desta definição, apresentamos o seguinte resultado.

Teorema 6.3.1.2 Teorema de Convergência para martingales UI:

Seja $ X=(X_n : n \geq 0) $ um martingale. As seguintes afirmações são equivalentes.

(i) $ X $ é um martingale uniformemente integrável;

(ii) $ X_n $ converge q.c. e em $ \mathcal{L}^1(\Omega,\mathcal{F},\mathbb{P}) $ para uma variável aleatória limite $ X_\infty $ com $ \mathbb{E} \mid X_{\infty} \mid < \infty $;

(iii) Existe $ Z\in\mathcal{L}^1(\Omega,\mathcal{F},\mathbb{P}) $ tal que $ X_n=\mathbb{E}[Z|\mathbb{F}_n] $ P-q.c. para todo $ n\geq 0. $

Demonstração

(i)$ \Rightarrow $(ii) Como $ X $ é um martingale UI, obtemos que $ \sup_n \mathbb{E} \mid X_n \mid < \infty $. Assim, como consequência do lema de upcrossing de Doob concluímos que $ X_\infty = \lim_n X_N $ existe e é finito quase certamente. Como $ X $ é UI concluímos que $ X_n \rightarrow X_\infty $em média, isto é,

$$\mathbb{E} \mid X_n - X_\infty \mid \rightarrow 0, ~ ~ n \uparrow \infty.$$

(ii)$ \Rightarrow $(iii) Seja $ Z=X_\infty\in \mathcal{L}^1. $ Vamos mostrar que $ X_n=\mathbb{E}[Z|\mathcal{F_n}] $ q.c.

De fato, para $ m\geq n $ e pela propriedade de martingale obtemos que

$$\parallel X_n-\mathbb{E}[X_\infty|\mathcal{F_n}] \parallel_1=\parallel \mathbb{E}[X_n-X_\infty|\mathcal{F_n}] \parallel_1\leq \parallel X_n-X_\infty\parallel_1\xrightarrow{m\rightarrow\infty}0.$$

(iii)$ \Rightarrow $(i) Notamos que da propriedade de esperança condicional $ \mathbb{E}[Z|\mathcal{F_n}] $ é um martingale. Por fim, a integrabilidade uniforme é obtida do teorema 6.3.1.1.

$ \Box $

Observação 6.3.1.3

Se $ X $ é um martingale UI e $ T $ é um tempo de parada, no qual também pode ter o valor $ \infty, $ então podemos obter de forma única que

Screenshot_103

Teorema 6.3.1.3 [Parada opcional para martingales UI]

Seja $ X $ um martingale UI e $ S $ e $ T $ tempos de parada com $ S\leq T. $ Então

$$\mathbb{E}[X_T|\mathcal{F}_S]=X_S,\quad \text{P-q.c.}$$

Demonstração

Observamos que $ \mathbb{E}[X_\infty|\mathcal{F}_T]=X_T $ P-q.c. para qualquer tempo de parada $ T. $

De fato, desde que $ X_T\in \mathcal{L}^1 $ e $ |X_n|\leq \mathbb{E}(|X_\infty|~|\mathcal{F}_T) $ obtemos que

Screenshot_104

$ \Box $

6.3.2 - Upcrossings

No módulo martingales uniformemente integráveis, mostramos que uma sequência de variáveis aleatórias que forma a estrutura martingale tem limite se e só se, a sequência de variáveis aleatórias for uniformemente integrável. Neste módulo, vamos estender este resultado supermartingales (ou submartingales).

O número de vezes que um processo estocástico “passa” de forma crescente ou descrescente através de um intervalo é denominado número de upcrossings e respectivamente, número de downcrossings do processo. O número de upcrossings será denotado por $ U_\infty (a,b) $. Por definição, sabemos que $ U_\infty ([a,b]) $ assume valores inteiros não negativos ou é infinito. De forma similar, o número de downcrossings será denotado por $ D_\infty (a,b) $ e também assume valores inteiros não negativos ou é infinito.

O significado de upcrossings para a convergência de processo estocástico é devido ao seguinte critério para convergência de uma sequência de números reais. Uma sequenência de números reais $ (x_n : n \geq 1) $ converge para um real extendido $ (\mathbb{R} \cup (-\infty , \infty)) $ se e só se o número de upcrossings for finito para todo $ a < b $. Na realidade, denotamos por

$$L = \liminf_{n \rightarrow \infty} x_n \quad \text{e} \quad U= \limsup_{n \rightarrow \infty} x_n .$$

Então, temos que $ L \leq U $ e a sequência converge se e só se $ L=U $. Suponha que a sequência seja convergente. Se $ a < L $ então, existe $ N $ tal que $ x_n > a $ para todo $ n \geq N $. Como consequência, todo upcrossing do intervalo $ [a,b] $ deve começar antes de $ N $ e então, o número de upcrossings $ U_\infty (a,b) \leq N $ é finito. Por outro lado, se $ L \leq a $ então $ U=L < b $ e assim, podemos concluir que $ x_n < b $ para todo $ n \geq N $ e algum $ N $. Mais uma vez, obtemos que $ U_\infty (a,b) \leq N $.

Contrariamente, suponha que a sequência $ (x_n) $ não converge e assim $ U > L $. Escolha $ a < b $ no intervalo $ (L.U) $. Para qualquer inteiro positivo $ n $, existe $ r > n $ tal que $ x_r > b $ e um $ s > n $ com $ x_s < a $. Este fato nos permite definir duas sequência $ (s_k) $ e $ (t_k) $ por $ t_0=0 $ e

$$ s_k = \inf ( m \geq t_{k-1}: x_m \leq a) \quad \text{e} \quad t_k = \inf ( m \geq s_{k}: x_m \geq b), $$

para todo $ k \geq 1 $. Por construção, temos que $ s_1 < t_1 < s_2 < \cdots $ e $ x_{s_k} \leq a < b \leq x_{t_k} $ para todo $ k \geq 1 $. Portanto, concluímos que $ U_\infty (a,b) = \infty $.

A seguir, vamos utilizar a estratégia de Doob para adaptarmos o teorema de upcrossing que caracteriza sequências de números convergentes para processos estocásticos. A desigualdade de upcrossings de Doob nos fornece uma limitação uniforme para o número de upcrossings (e downcrossings) de uma sequência de variáveis aleatórias que forma uma estrutura martingale.

Seja X um supermartingale e $ a< b $ dois números reais. Um upcrossing é um par $ (X_k,X_\ell) $ tal que

$$X_k\leq a< b\leq X_\ell.$$

Em outras palavras o processo completa um upcrossing se para um determinado tempo ele está abaixo de $ a $ e então após alguns passos ele ultrapassa $ b. $ Denotamos $ U_N(a,b) $ como sendo o número de upcrossing até o tempo N. Podemos definir o upcrossing através dos tempos de paradas,

$$\tau_0=0,$$

$$ \tau_1=\inf(n> 0: X_n\leq a), $$

$$ \tau_2=\inf(n> \tau_1: X_n\geq b), $$

$$\vdots$$

$$ \tau_{2k-1}=\inf(n> \tau_{2k-2}: X_n\leq a), $$

$$ \tau_{2k}=\inf(n> \tau_{2k-1}: X_n\geq b), $$

$$\vdots$$

No gráfico os pontos em vermelho representam os upcrossing.

UPCROSSING_0

Para qualquer inteiro N definimos

$$ U_N(a,b)=\sup(n\geq 0:\tau_{2n}\leq N). $$

Dado $ x \in \mathbb{R} $ uma constante, denotamos por $ x^+=\max (x,0) $ e $ x^-=-\min (x,0) $. Na Figura ilustrativa, temos $ U_N(a,b) = 3 $.

Lema 6.3.1 (Upcrossing de Doob)

Seja $ X=(X_n : n \geq 0) $ um supermartingale. Para qualquer inteiro N, temos

$$\displaystyle E[U_N(a,b)]\leq \frac{1}{b-a}E[(a-X_N)^+ ]\leq \frac{1}{b-a}(|a|+E[X_N]).$$

Demonstração:

Seja

$$D=\displaystyle \sum_{k=1}^{N}\left[X_{\tau_{2k\wedge N}}-X_{\tau_{2k-1\wedge N}}\right].$$

Se para algum $ \ell $ temos que

$$\tau_{2\ell-1}< N< \tau_{2\ell},$$

dizemos que temos um upcrossing incompleto. Portanto, temos que

$$D\geq (b-a)U_N(a,b)+R_N,$$

no qual o resíduo $ R_N $ satisfaz $ R_N=0 $ se não existe upcrossing incompleto, ou $ R_N\geq X_{N}-a $, se existe algum upcrossing incompleto. Desde que $ X $ é um supermartingale e $ \tau_i\wedge N $ é um tempo de parada limitado, temos que

$$E[D]\leq 0.$$

Assim, obtemos que

$$\displaystyle E[U_N(a,b)]\leq \frac{1}{b-a}E[-R_N]\leq \frac{1}{b-a}E[(a-X_N)^+]\leq \frac{1}{b-a}(|a|+E[|X_N|]).$$

$ \Box $

Corolário 6.3.1

Sejam $ a,b \in \mathbb{R} $, com $ a< b $ e $ X=(X_n : n \geq 0) $ um supermartingale limitado em $ L^1 $ em que

$$\sup_{n}E[|X_n|]< \infty.$$

Se denotarmos por $ U_{\infty}[a,b]:=\uparrow \lim_N U_N[a,b] $, obtemos que $ (b-a)E[U_\infty[a,b]]\leq |a|+\sup_{n}E[|X_n|]< \infty $. Como consequência, concluímos que $ P(U_\infty [a,b]=\infty)=0. $

Demonstração

Pelo Lema anterior temos que para $ n\in\mathbb{N} $,

$$(b-a)E[U_N[a,b]]\leq |a|+E[|X_N|]\leq |a|+\sup_n E[|X_n|].$$

Ao tomarmos o limite quando $ N\uparrow \infty $, concluímos que o resultado é consequência do teorema da convergência monótona.

$ \Box $

Definimos a $ \sigma $-álgebra “limite” como sendo

$$\mathcal{F}_{\infty}=\sigma\left(\bigcup_n\mathcal{F_n}\right).$$

Teorema 6.3.2

Seja X um supermatingale limitado em $ L^1 $, ou seja,

$$\sup_n E[|X_n|]< \infty.$$

Então $ \lim X_n $ existe e é finito quase certamente. Definimos por $ X_\infty (\omega):=\limsup X_n(\omega), \forall \omega $, então temos que $ X_\infty $ é variável aleatória $ \mathcal{F_\infty} $-mensurável e $ X_\infty= \lim X_n $ quase certamente.

Demonstração

Seja $ \overline{\mathbb{R}}=[-\infty,\infty] $. Assim definimos o conjunto

$$A=(\omega\in\Omega|\liminf X_n< \limsup X_n)$$

$$ =\bigcup_{(a,b\in \mathbb{Q}:a< b)}\left(\omega\in \Omega| \liminf X_n(\omega)< a < b< \limsup X_n(\omega)\right):=\bigcup_{(a,b\in \mathbb{Q})} A_{a,b} $$

Note que

Screenshot_106

Mas utilizando o corolário anterior temos que $ P(A_{a,b})=0 $. Como $ A $ é uma união enumerável temos que $ P(A)=0 $, e portanto

$$ X_\infty := \lim X_n $$

existe quase certamente em $ \overline{\mathbb{R}} $. Assim nos resta mostrar penas que $ E[|X_\infty|]< \infty $. Pelo lema de fatou

$$E[|X_\infty|]=E[\liminf |X_n|]\leq \liminf E[|X_n|]\leq sup E[|X_n|]< \infty$$

o que implica que $ P(X_\infty< \infty)=1 $.

$ \Box $

A seguir, apresentamos uma demonstração alternativa para o lema dos upcrossings de Doob.

Lema 6.3.2 [Lema dos upcrossing de Doob]

Seja $ M $ uma supermartingale. Em seguida, para todo $ a< b, $ o número de upcrossings $ U_n[a, b] $ do intervalo $ [a, b] $ é uma variável aleatória $ \mathcal{F_n} $-mensurável e satisfaz

$$(b-a)\mathbb{E}\left(U_n[a,b]\right)\leq \mathbb{E}\left[(M_n-a)^-\right]$$

O número total de upcrossings $ U_\infty[a,b] $ é $ \mathcal{F_\infty} $-mensurável.

Demonstração

Screenshot_105

Definimos $ Y=X.M, $ com isso, o processo $ X $ é igual a 0, até $ M $ cair abaixo do nível a, então permanece até $ M $ ficar acima de b e assim por diante. Assim, cada upcrossing concluído de $ [a, b] $ aumenta o valor de Y, pelo menos, $ b - a. $ Se o último upcrossing ainda não foi completado no tempo n, então esta pode reduzir Y por, no máximo, $ (M_n - a)^-. $

Veja a ilustração a seguir:

upcrossing

Logo, a desigualdade fundamental com $ Y_0\doteq 0. $

$$Y_n\geq (b-a)U_n[a,b]-(M_n - a)^-\quad (6.3.1)$$

Vale lembrar que $ Y=X.M $ é um super-martingale, fato visto no lema 6.1.1 (para mais detalhes consulte estruturas que mantém a propriedade de martingale).

upcrossing1

Em particular, $ \mathbb{E}[Y_n]\leq \mathbb{E}[Y_0]=0. $ Portanto, para concluir este resultado, basta aplicarmos a esperança em ambos os lado em (6.3.1).

$ \Box $

6.3.3 - Teoremas de convergência para martingales

Inicialmente vamos apresentar algumas desigualdades importantes, para em seguida mostrar os principais resultados de convergência para martingales.

Teorema 6.3.3.1 [Desigualdade do submartingale de Doob]

Seja M um submartingale, para todo $ \lambda > 0,~ n\geq 1 $

Screenshot_107

Demonstração

Definimos o tempo de parada $ \tau=n\wedge \inf(k;~M_k\geq \lambda) $ com $ \tau\leq n. $ Assim, temos que $ \mathbb{E}[M_n]\geq \mathbb{E}[M_\tau]. $

Como consequência, concluímos que

Screenshot_108

Portanto, temos um lado da desigualdade, a outra parte é imediata.

$ \Box $

Teorema 6.3.3.2 [Desigualdade $ \mathcal{L}^p $ de Doob]

Se $ M $ é um martingale ou um submartingale não negativo e $ p> 1. $ Então para todo $ n\geq 1 $ temos que

$$\mathbb{E}\left[\max_{k\geq n}|M_n|^p\right]\leq \left(\frac{p}{1-p}\right)^p\mathbb{E}|M_n|^p$$

Demonstração

Consideramos $ M^*=\max_{k\geq n}|M_n| $ e $ M $ definido sobre o espaço de probabilidade $ (\Omega,\mathcal{F},\mathbb{P}). $ Assim, para qualquer $ m\geq 1 $ obtemos que

$$\mathbb{E}[(M^*\wedge m)^p]=\int_{\omega}(M^*(\omega)\wedge m)^p d\mathbb{P}(\omega)=\int_{\omega}\int^{(M^*(\omega)\wedge m)}_0 px^{p-1}dx~ d\mathbb{P}(\omega)=$$

Screenshot_109

$$=p\int_\omega|M_n(\omega)|\int^{M^*(\omega)\wedge m}_0 x^{p-2}~dx~d\mathbb{P}(\omega)=$$

$$=\frac{p}{p-1}\mathbb{E}[|M_n|(M^*(\omega)\wedge m)^{p-1}]$$

Usando a desigualdade de Hölder com $ \frac{1}{p}+\frac{1}{q}=1 $ obtemos que

Screenshot_110

Para $ p> 1 $ obtemos que $ q=\frac{p}{p-1}, $ iso implica que

Screenshot_111

Elevando a p dos dois lados obtemos que

$$\mathbb{E}[|M^*\wedge m|^p]\leq \left(\frac{p}{p-1}\right)^p\mathbb{E}[|M_n|^p]$$

Para completar a demonstração, basta $ m $ tender ao infinito.

$ \Box $

Corolário 6.3.2.1

Seja $ M $ um martingale quadrado integrável. Então existe um único processo previsível crescente $ A $ com $ A_0=0 $ tal que $ M^2-A $ é um martingale. Além disso, a variável aleatória $ A_{n+1}-A_n $ é uma versão da variância condicional de $ M_n $ dado $ \mathcal{F}_{n-1}, $ isto é,

$$A_{n+1}-A_n=\mathbb{E}\left[(M_n-\mathbb{E}[M_n|\mathcal{F}_{n-1}])^2|\mathcal{F}_{n-1}\right]=\mathbb{E}\left[(M_n-M_{n-1})^2|\mathcal{F}_{n-1}\right]\quad P\text{-}q.c.$$

Concluímos que o teorema de Pitágoras é válido para martingales quadrados integráveis.

$$\mathbb{E}[M^2_n]=\mathbb{E}[M^2_0]+\sum^n_{k=1}\mathbb{E}[(M_n-M_{n-1})^2]$$

O processo $ A $ é chamado de processo de variação quadrática previsível de $ M $ e denotado por $ \langle M\rangle. $

Demonstração

Pela desigualdade de Jensen, temos que $ M^2 $ é um submartingale. Como $ M $ é um martingale, temos que

$$\mathbb{E}\left[(M_n-M_{n-1})^2|\mathcal{F}_{n-1}\right]=\mathbb{E}\left[M^2_n+M^2_{n-1}-2M_n M_{n-1}|\mathcal{F}_{n-1}\right]=$$

$$=\mathbb{E}\left[M_n^2|\mathcal{F_{n-1}}\right]-2M_{n-1}\mathbb{E}[M_n|\mathcal{F}_{n-1}]+M_{n-1}^2=$$

$$=\mathbb{E}\left[M^2_n|\mathcal{F_{n-1}}\right]-M^2_{n-1}=$$

$$=\mathbb{E}\left[M^2_n-M^2_{n-1}|\mathcal{F}_{n-1}\right]=A_{n}-A_{n-1}$$

$ \Box $

Definição 6.3.3.1

Definimos a $ \sigma $-álgebra “limite” como sendo

$$\mathcal{F}_{\infty}=\sigma\left(\bigcup_n\mathcal{F_n}\right)$$

Para demonstramos os teoremas de convergência consideramos $ M $ supermartingale e um intervalo compacto $ [a, b]\subset \mathbb{R}. $

Como apresentado no módulo upcrossing, o número de upcrossings no intervalo $ [a, b] $ até o tempo $ n, $, representa o número de vezes que o processo passa a partir de um nível inferior $ a $ ao um nível superior de $ b ~ (X_k \leq a < b \leq X_\ell) $.

Teorema 6.3.3.3 [Teorema da convergência de martingales de Doob]

Seja $ M $ uma supermartingale tal que é limitado em $ \mathcal{L}^1, $ então $ M_n $ converge quase certamente para um limite finito $ M_\infty $ que é $ \mathcal{F_\infty} $-mensurável quando $ n\rightarrow \infty, $ com $ \mathbb{E}|M_\infty|< \infty. $

Demonstração

Suponhamos que $ M $ é definido no espaço de probabilidade $ (\Omega, \mathcal{F}, \mathbb{P}). $ Suponha que $ M (\omega) $ não converge para um limite de $ \overline{\mathbb{R}}. $ Então existem dois racionais $ a < b $ tal que $ \liminf M_n (\omega) < a < b < \limsup M_n (\omega). $ Em particular, $ U_\infty [a, b] (\omega) =\infty. $ Pelo lema (lema upcrossings de Doob) $ \mathbb{P} (U_\infty [a, b] =\infty) = 0. $

Agora observamos que

$$A\doteq (\omega ; M(\omega)~\text{não converge para um limite em }~\overline{\mathbb{R}})\subset \bigcup_{a< b}(\omega; U_\infty [a, b] (\omega) =\infty), \quad a,b\in \mathbb{Q}.$$

Logo,

$$\mathbb{P}[A]\leq \sum_{a< b}\mathbb{P}(U_\infty[a,b]=\infty)=0,$$

Isto implica que $ M_n $ converge quase certamente para o limite $ M_\infty\in \overline{\mathbb{R}}. $ Assim, pelo lema de Fatou

$$\mathbb{E}[M_\infty]=\mathbb{E}(\liminf |M_n|)\leq \liminf \mathbb{E}|M_n|\leq \sup\mathbb{E}|M_n|< \infty.$$

Com isso, obtemos que $ M_\infty $ é finito quase certamente e é integrável. Vale lembrar que $ M_n $ é $ \mathcal{F_n} $-mensurável e portanto é $ \mathcal{F_\infty} $-mensurável, desde que $ \displaystyle M_\infty=\lim_{n\rightarrow \infty}M_n $ é o limite de aplicações $ \mathcal{F_\infty} $-mensuráveis, logo é $ \mathcal{F_\infty} $-mensurável.

$ \Box $

Teorema 6.3.3.4

Seja $ M $ um supermartingale que é limitada em $ \mathcal{L}^1. $ Então $ M_n\xrightarrow{\mathcal{L}^1}M_{\infty}, $ quando $ n\rightarrow\infty $ se, e somente se, $ (M_n)_{n\in\mathbb{Z}_+} $ é uniformemente integrável, em que $ M_\infty $ é integrável e $ \mathcal{F}_{\infty} $-mensurável. Neste caso,

$$\mathbb{E}[M_\infty| \mathcal{F_n}]\leq M_n,\quad \text{q.c.}\quad (6.3.3.1)$$

Adicionalmente, se $ M $ é um martingale, então temos uma igualdade em (6.3.3.1). Neste caso, dizemos que $ M $ é um Doob Martingale.

Demonstração

Primeiramente, observamos que do teorema da convergência de martingales de Doob que $ M_n\xrightarrow{q.c.}M_\infty, $ para $ M_\infty $ uma variável aleatória finita. Com isso, segue que $ M_n\xrightarrow{P}M_\infty, $ logo se $ (M_n)_{n\in\mathbb{Z}_+} $ é uniformemente integrável temos que $ M_n\xrightarrow{\mathcal{L}^1}M_{\infty}. $

Por outro lado suponhamos que $ M_n\xrightarrow{\mathcal{L}^1}M_{\infty}, $ desde que $ M $ seja um super-martingale, obtemos que

Screenshot_112

isto implica que $ \mathbb{E}[M_\infty| \mathcal{F_n}]\leq M_n,\quad \text{q.c.}. $

$ \Box $

Com este resultado obtemos que um martingale uniformemente integrável é limitado em $ \mathcal{L}^1 $ e são Doob martingales. Por outro lado, seja $ X $ uma variável aleatória integrável $ \mathcal{F} $-mensurável e seja $ \mathbb{F}^n=(\mathcal{F_n}, ~n=0,1,2\dots) $ a filtragem. Então $ \mathbb{E}[X|\mathcal{F_n}] $ é um Doob martingale uniformemente integrável. Para Doob martingales podemos identificar o limite explícito em termos da $ \sigma $-álgebra limite $ \mathcal{F_\infty}. $

Teorema 6.3.3.5 [Teorema upward de Lévy]

Seja $ X $ uma variável aleatória integrável, definido no espaço de probabilidade $ (\Omega, \mathcal{F},\mathbb{P}) $ e seja $ \mathbb{F}^n=(\mathcal{F_n}, ~n=0,1,2\dots) $ a filtragem com $ \mathcal{F_n}\subset \mathcal{F} $ para todo $ n. $ Então

$$\mathbb{E}[X|\mathcal{F_n}]\xrightarrow{q.c.} \mathbb{E}[X|\mathcal{F_\infty}], \quad\text{quando}~n\rightarrow\infty$$

e também em $ \mathcal{L}^1. $

Demonstração

O processo $ M_n=\mathbb{E}[X|\mathcal{F_n}] $ é uniformemente integrável, com isso é limitada em $ \mathcal{L}^1. $ Pelo teorema (6.3.3.4) $ M_n\xrightarrow{q.c.}M_\infty $ e em $ \mathcal{L}^1, $ quando $ n\rightarrow\infty $ com $ M_\infty $ integrável e $ \mathcal{F_\infty} $-mensurável. Este último basta mostrar que $ M_\infty=\mathbb{E}[X|\mathcal{F_\infty}] $ quase certamente.

De fato, observamos que

Screenshot_113

Logo, $ Q_1 $ e $ Q_2 $ concordam em $ \sigma\left(\bigcup_n\mathcal{F_n}\right). $ Este implica da definição de esperança condicional que $ M_\infty=\mathbb{E}[X|\mathcal{F_\infty}] $ quase certamente.

Finalmente, consideramos o caso especial $ X $$ \mathcal{F} $-mensurável, então $ X=X^+-X^-, $ é a diferença de duas funções não negativas $ \mathcal{F} $-mensurável. Usamos a linearidade da esperança condicional para completar a demonstração.

$ \Box $

Corolário 6.3.3.2 [Lema de Hunt]

Suponha que $ X_n\xrightarrow{q.c.}X $ e que $ |X_n|\leq Y $ quase certamente para todo n, em que $ Y $ é uma variável aleatória integrável. Além disso, suponha $ \mathcal{F_n}\subseteq \mathcal{F}_{n+1},~n\geq 1 $ sequência crescente de $ \sigma $-álgebras.

Então $ \mathbb{E}[X_n|\mathcal{F_n}]\xrightarrow{q.c.}\mathbb{E}[X|\mathcal{F_\infty}] $ em que $ \displaystyle\mathcal{F_\infty}=\sigma\left(\bigcup_n\mathcal{F_n}\right). $

Demonstração

Para $ m\in \mathbb{Z_+}, $ tomamos $ U_m=\inf_{n\geq m} X_n $ e $ V_m=\sup_{n\geq m} X_n. $ Caso $ X_m\xrightarrow{q.c.}X, $ necessariamente temos que $ V_m-U_m\xrightarrow{q.c.}0 $ quando $ m\rightarrow \infty. $

Logo, $ |V_m-U_m|\leq 2Y. $

Da convergência dominada temos que $ \mathbb{E}(V_m-U_m)\rightarrow 0, $ quando $ m\rightarrow \infty. $

De fato,

Dado $ \varepsilon> 0 $ e escolhemos $ m $ suficientemente grande tal que

$$\mathbb{E}(V_m-U_m)< \varepsilon.$$

Para $ n\geq m $ obtemos que

$$U_m\leq X_n\leq V_m, \quad q.c.\quad (6.3.3.4)$$

Disto, obtemos que

$$\mathbb{E}[U_m|\mathcal{F_n}]\leq \mathbb{E}[X_n|\mathcal{F_n}]\leq \mathbb{E}[V_m|\mathcal{F_n}], \quad q.c.$$

Os processos do lado esquerdo e direito são martingales que satisfazem as condições do teorema upward Lévy. Considerando n tendendo ao infinito obtemos

$$\mathbb{E}[U_m|\mathcal{F_\infty}]\leq \liminf\mathbb{E}[X_n|\mathcal{F_n}]\leq \limsup\mathbb{E}[X_n|\mathcal{F_n}]\leq \mathbb{E}[V_m|\mathcal{F_\infty}], \quad q.c.\quad (6.3.3.5)$$

Com isso, obtemos que

$$0\leq\mathbb{E}\left(\liminf\mathbb{E}[X_n|\mathcal{F_n}]- \limsup\mathbb{E}[X_n|\mathcal{F_n}]\right)\leq \mathbb{E}\left(\mathbb{E}[V_m|\mathcal{F_\infty}]-\mathbb{E}[U_m|\mathcal{F_\infty}]\right)$$

$$\leq\mathbb{E}(V_m-U_m)< \varepsilon$$

Considerando $ \varepsilon\downarrow 0 $ obtemos que $ \liminf\mathbb{E}[X_n|\mathcal{F_n}]= \limsup\mathbb{E}[X_n|\mathcal{F_n}] $ q.c.

Assim, $ \mathbb{E}[X_n|\mathcal{F_n}] $ converge quase certamente. Agora, para $ n\rightarrow \infty $ em (6.3.3.4) obtemos $ U_m\leq X\leq V_m $ q.c. Logo,

$$\mathbb{E}[U_m|\mathcal{F_\infty}]\leq \mathbb{E}[X|\mathcal{F_\infty}]\leq \mathbb{E}[V_m|\mathcal{F_\infty}], \quad q.c.\quad (6.3.3.6)$$

De (6.3.3.5) e (6.3.3.6) implicam que tanto $ \lim \mathbb{E}(X_n|\mathcal{F_n}) $ quanto $ \mathbb{E}(X|\mathcal{F_\infty}) $ estão q.c. entre $ V_m $ e $ U_m. $ Consequentemente temos que

$$\mathbb{E}\left|\lim \mathbb{E}(X_n|\mathcal{F_n})- \mathbb{E}(X|\mathcal{F_\infty})\right|\leq \mathbb{E}(V_m-U_m)< \varepsilon$$

Portanto, tomando $ \varepsilon\downarrow 0 $ obtemos que

$$\lim_n \mathbb{E}(X_n|\mathcal{F_n})= \mathbb{E}(X|\mathcal{F_\infty}),\quad q.c.$$

$ \Box $

A seguir, apresentamos um resultado que nos diz que um martingale $ M $ e dois tempos de parada limitados $ \kappa\leq \tau $ tal que $ E (M_{\tau} | \mathcal{F}_{\kappa}) = M_{\kappa}. $ Assim, vamos apresentar o seguinte teorema.

Teorema 6.3.3.6 [Teorema da amostragem opcional (Optional sampling)]

Seja $ M $ um (super)martingale uniformemente integrável (U.I.). Então a família de variáveis aleatórias $ (M_\tau|\tau~\text{é um tempo de parada finito}) $ é uniformemente integrável e para todo tempo de parada $ \kappa\leq \tau $ obtemos

$$\mathbb{E}(M_\tau|\mathcal{F}_{\kappa})\overset{(\leq)}{=}M_\kappa\quad P-q.c.$$

Demonstração

Consideramos apenas o caso de martingale. Do teorema (6.3.3.4) temos que $ \displaystyle M_{\infty}=\lim_{n\rightarrow \infty}M_n $ existe P-q.c. em em $ \mathcal{L}^1 $ e $ \mathbb{E}(M_{\infty}|\mathcal{F_n})=M_n. $ Agora, seja $ \tau $ um tempo de parada arbitrário e $ n\in \mathcal{N}\cup(0). $

Vale lembrar que quando $ \tau\wedge n\leq n $ isto implica que $ \mathcal{F}_{\tau\wedge n}\subseteq \mathcal{F_n}. $

Das propriedades de esperança condicional temos que para todo n

$$\mathbb{E}(M_{\infty}|\mathcal{F}_{\tau\wedge n})=\mathbb{E}[\mathbb{E}(M_{\infty}|\mathcal{F}_{n})|\mathcal{F}_{\tau\wedge n}]=\mathbb{E}(M_{n}|\mathcal{F}_{\tau\wedge n})\quad q.c.$$

Do teorema (6.1.4) (para mais detalhes consulte estruturas que mantém a propriedade de martingale) obtemos que

$$\mathbb{E}(M_{\infty}|\mathcal{F}_{\tau\wedge n})=M_{\tau\wedge n}$$

Fazendo $ n\rightarrow \infty $ implica que $ M_{\tau\wedge n}\rightarrow M_\tau $ q.c. Do teorema upward de Lévy o lado esquerdo converge q.c. em $ \mathcal{L}^1 $ para $ \mathbb{E}(M_\infty|\mathcal{G}) $ em que

$$\mathcal{G}=\sigma\left(\bigcup_{n}\mathcal{F}_{\tau\wedge n}\right)$$

Portanto,

$$\mathbb{E}(M_\infty|\mathcal{G})=M_\tau\quad P-q.c.$$

Screenshot_114

Portanto, $ \mathbb{E}(M_\infty|\mathcal{F}_{\tau})=M_\tau $ P-q.c. pois $ \mathcal{F}_\kappa\subseteq \mathcal{F}_\tau $

$ \Box $

Para a igualdade $ \mathbb{E}(M_\tau|\mathcal{F}_{\kappa})=M_\kappa $ P-q.c. no teorema anterior é necessário que $ M $ seja uniformemente integrável. Existem martingales (positivos) que são limitadas em $ \mathcal{L}^1 $ mas não são uniformemente integráveis, para os quais a igualdade falha em geral. Para super-martingales não negativos sem propriedades integrabilidade adicionais temos somente uma desigualdade. A seguir vamos apresentar o resultado que mostrar este fato.

Teorema 6.3.3.7

Seja $ M $ um super-martingale não negativo e seja $ \kappa \leq\tau $ um tempo de parada. Então

$$\mathbb{E}(M_\tau|\mathcal{F}_{\kappa})\leq M_\kappa\quad \text{P-q.c}.$$

Demonstração

Primeiramente, observamos que $ M $ é limitada em $ \mathcal{L}^1 $ com isso converge. Fixamos $ n\in \mathbb{N}\cup (0), $ pelo teorema () o super-martingale parado $ M^{\tau\wedge n} $ é um super-martingale também e ainda uniformemente integrável.

$$\mathbb{E}(M_{\tau\wedge n}|\mathcal{F}_{\kappa})=\mathbb{E}(M^{\tau\wedge n}_\infty|\mathcal{F}_{\kappa})\leq M^{\tau\wedge n}_\kappa=M_{\tau\wedge n}\quad \text{P-q.c}.$$

Screenshot_115

Agora pelo lema de Faltou condicional obtemos que

$$\mathbb{E}(M_\tau|\mathcal{F}_\kappa)\leq\mathbb{E}(\liminf M_{\tau\wedge n}|\mathcal{F}_{\kappa})$$

$$\leq\liminf \mathbb{E}(M_{\tau\wedge n}|\mathcal{F}_{\kappa})$$

$$\leq\liminf M_{\kappa\wedge n}=M_\kappa\quad \text{P-q.c}.$$

Portanto, segue o resultado.

$ \Box $

6.3.4 - Lei dos Grandes Números para martingales

Segundo Helland, martingales são generalizações de somas de i.i.d.’s de variáveis aleatórias com média zero. Para tais somas, podemos derivar a Lei dos Grandes Números, Teorema Central do Limite e a lei do Logaritmo Iterado.

A questão então é:

  • que essas leis também se aplicam a martingales?
  • se sim, que tipo de condições que precisamos exigir.

A seguir, apresentamos um resultado importante.

Teorema 6.3.4.1 [Lei 0-1 de Kolmogorov]

Screenshot_118

Demonstração

Screenshot_116

quando $ \mathcal{F_\infty}\subseteq \mathcal{G}_\infty. $

Portanto,

$$\mathbb{P}(A)\in (0,1).$$

$ \Box $

Teorema 6.3.4.2

Screenshot_119

Demonstração

Screenshot_120

Screenshot_117

Pela desigualdade de Jensen $ (\mathbb{E}|S^\tau_n|)^2\leq \mathbb{E}[(S^\tau_n)^2]\leq K^2. $

Como consequência $ S^\tau $ é um martingale que é limitada em $ \mathcal{L}^1. $ Pelo teorema de convergência martingale, converge q.c. um limite integrável $ S_{\infty} $.

Portanto $ S_n $ converge q.c. no evento $ \tau=\infty, $ em outras palavras, no evento $ (\displaystyle\sum^\infty_{k=1}\mathbb{E}[X^2_k|\mathcal{F}_{k-1}]\leq K) $ com $ K\uparrow \infty. $

$ \Box $

Definição 6.3.4.1 [Backward martingales]

Screenshot_121

$$\mathbb{E}[X_{n+1}|\mathcal{G}_n]=X_n\quad \text{P-q.c.}$$

Teorema 6.3.4.3 [Lei Forte do Grandes Números]

Seja $ (X_n)_{n\geq 1} $ sequência de variáveis aleatórias i.i.d. em $ \mathcal{L}^1 $ com $ \mathbb{E}[X_1]=\mu. $ Seja $ S_n=X_1+\dots+X_n, $ para $ n\geq 1 $ e $ S_0=0. $ Então

$$\frac{S_n}{n}\xrightarrow{q.c.}\mu\quad \text{e}\quad \frac{S_n}{n}\xrightarrow{\mathcal{L}^1}\mu,~\text{quando}~n\rightarrow\infty.$$

Demonstração

Screenshot_122

De fato, obtemos para $ m\leq -1 $ que

$$\mathbb{E}\left[M_{m+1}|\mathcal{F}_m\right]=\mathbb{E}\left[\frac{S_{-(m+1)}}{-(m+1)}|\mathcal{F}_{-m}\right]\quad (6.3.4.1)$$

Fazendo $ n=-m, $ e desde que $ X_n $ seja independente de $ X_{n+1},X_{n+2},\dots, $ obtemos que

$$\mathbb{E}\left[\frac{S_{n-1}}{n-1}|\mathcal{F}_{n}\right]=\mathbb{E}\left[\frac{S_{n}-X_n}{n-1}|\mathcal{F}_{n}\right]=\frac{S_n}{n-1}-\mathbb{E}\left[\frac{X_{n}}{n-1}|\mathcal{F}_{n}\right]\quad (6.3.4.2)$$

Screenshot_123

$$\mathbb{E}[X_1|S_n]+\dots+\mathbb{E}[X_n|S_n]=\mathbb{E}[S_n|S_n]=S_n$$

com isso, $ \mathbb{E}[X_n|S_n]=\frac{S_n}{n}. $

Logo, de (6.3.4.2) obtemos que

$$\mathbb{E}\left[\frac{S_{n-1}}{n-1}|\mathcal{F}_{n}\right]=\frac{S_n}{n-1}-\frac{1}{n-1}\underbrace{\mathbb{E}\left[X_{n}|\mathcal{F}_{n}\right]}_{S_n/n}=\frac{S_n}{n-1}-\frac{S_n}{n(n-1)}=\frac{S_n}{n}$$

Logo, pelo teorema da convergência do backward martingale obtemos que $ \frac{S_n}{n} $ converge quase certamente e em $ \mathcal{L}^1 $ quando $ n\rightarrow \infty $ para a variável aleatória $ Y=\lim \frac{S_n}{n}, $ tal que para todo $ k $

$$Y=\lim\frac{X_{k+1}+\dots+X_{k+n}}{n}$$

Assim, $ Y $ é $ \sigma(X_{k+1},\dots) $-mensurável para todo $ k $ e portanto $ \displaystyle\bigcap_k \sigma(X_{k+1},\dots) $-mensurável. Pela lei 0-1 de Kolmogorov concluímos que existe uma constante $ c\in \mathbb{R} $ tal que $ \mathbb{P}(Y=c)=1, $ mas

$$c=\mathbb{E}[Y]=\lim\mathbb{E}\left[\frac{S_n}{n}\right]=\mu.$$

$ \Box $

6.4 - Teorema Central do Limite para Martingales

Pierre Simon de Laplace (o marquês de Laplace), escreveu sobre fundamentos da teoria de probabilidade e estabeleceu os métodos de equações diferenciais e de funções geradoras de momentos, que deu uma nova formulação e uma prova heurística do teorema central do limite. O conceito de momentos foi utilizado anos depois por Chebyshev, em seguida por seu aluno Andrei Markov para dar uma prova rigorosa do teorema central do limite. Outro de seus famosos estudantes, Alexander Lyapunov, posteriormente usou o conceito de funções características para dar uma prova mais simples desse importante teorema. Markov fez estudos sobre dependência de variáveis aleatórias analisando as hoje denominadas cadeias de Markov em tempo discreto. Com a construção axiomática escrita por Henri Lebesgue e Èmile Borel, obtemos a a base necessária para o desenvolvimento dos processos estocásticos, esperança condicional. Disto possibilitou Joseph Doob e Paul Lévy o desenvolvimento da teoria de martingale, que será utilizado para demonstrar os principais resultados do teorema central do limite para variáveis aleatórias dependentes.

Os teoremas centrais do limite clássicos são generalizados imediatamente à partir das matrizes de variáveis aleatórias dependentes, que sob condições de convergência todas probabilidades, esperança e variância são condicionados com respeito ao passado conforme dito no artigo de Helland. Helland deduziu um único teorema do limite central básico, em que as condições de de convergência são em termos doa momentos de variáveis truncadas. Outra importante contribuição foi mostrar a estreita conexão entre todos os diferentes teoremas centrais do limite dependentes que apareceram nos últimos anos.

6.4.1 - Teorema Central do Limite para soma de variáveis aleatórias dependentes

Como mencionado, a propriedade de martingale substitui a suposição de independência. Teoremas centrais do limite para martingales foi iniciada em 1970 (Brown, 1971; Dvoretsky, 1972). A particular importância para o desenvolvimento da presente teoria se deve a McLeish (1974 [17]). A aplicação de processos de contagem de análise de sobrevivência, incluindo a aplicação do artigo de McLeish foi feito por Aalen durante 1974-1975.

O teorema do limite central para martingales está relacionada ao fato de que um martingale com trajetórias contínuas e um processo de variação previsível determinístico é um martingale Gaussiano, ou seja, com distribuições normais de dimensão finita. Assim, o teorema central do limite para processos de contagem associado a martingales dependem de duas condições:

(i) o tamanho dos saltos ir a zero (isto é, aproximando-se a continuidade das trajetórias);

(ii) o processo de variações previsíveis converge para uma função determinística.

Em teoria da probabilidade, a década de 1960 e 1970 foram o auge do estudo de teoremas centrais do limite para martingales. O teorema central do limite para martingales não era apenas uma generalização do clássico teorema central do limite de Lindeberg, mas que a prova foi a mesma. Era simplesmente uma questão de inserção criteriosa de esperanças condicionais, de modo que a mesma linha de prova trabalhada exatamente. Em outras palavras, a prova clássica do teorema central do limite de Lindeberg já é a prova do teorema central do limite para martingales.

Na seção Teorema Central do Limite, vimos que $ (X_n)_{n\geq 1} $ sequência de variáveis aleatórias tem como suposição a independência. Nesta seção vamos trabalhar os resultados utilizando a teoria de martingale (para mais detalhes consulte Martingale) e a ideia de matrizes triangulares que pode ser escrito como:

Definição 6.4.1.1

Suponha que para cada n ≥ 1, é dada Xn1,…,Xnn uma sequência de variáveis aleatórias independentes. Dizemos que uma matriz triangular dada por

MatTCL

de variáveis aleatórias, no qual cada linha é independente. Porém, vamos trocar a notação de $ X_{nk} $ para $ X^n_k, $ e denotamos $ S_n=X^n_{1}+\dots+X^n_{n}. $

O teorema central do limite para somas $ S_n=X^n_{1}+\dots+X^n_{n}, $ n≥1 de variáveis aleatórias $ (X^n_1,\dots,X^n_n), $ foi estabelecido sob o pressuposto de independência, segundos momentos finitos e o limite de seus termos são desprezíveis. Nesta seção, não vamos partir do pressuposto da independência e até mesmo dos valores absolutos finitos dos momentos de primeira ordem. Com isso, supomos $ (\Omega, \mathcal{F}, \mathbb{P}) $o espaço de probabilidade completo e as sequências

$$X^n=(X^n_k,\mathcal{F}^n_k), \quad 0\leq k \leq n, ~n\geq 1$$

com $ X^n_{0}=0, $ e denotamos $ (\Omega,\mathcal{F},\mathbb{F},\mathbb{P}) $ a base estocástica com $ \mathbb{F}^{n}=(\mathcal{F}^{n}_{i},~i=0,1\dots,k) $ a filtragem (para mais detalhes consulte o conteúdo de base estocástica) definida por $ \mathcal{F}^n_0=(\emptyset,\Omega), $$ \mathcal{F}^n_k \subseteq \mathcal{F}^n_{k+1}\subseteq \mathcal{F}. $ Agora, seja para cada n, kn um tempo de parada (para mais detalhes consulte tempos de parada) com respeito a $ (\mathcal{F}^n_k)_{k\geq 0}. $ Assim, obtemos

$$X^n(t)=\sum^{k_n}_{k=0}X^n_k$$

Screenshot_128

Teorema 6.4.1.1

ara um dado $ t,~t\in [0,1], $ as seguintes condições são satisfeitas:

e89b0981640e0340747fda733607bd2c28a39a26

a3b874499fc7c707d4b93e38c758b2eefcad43cd

afbfb0a2be7e405a5677a3e2fc81fccb57814177

Então $ X^n(t)\overset{\mathcal{D}}{\rightarrow}N(0,\sigma^2(t)) $

Demonstração

Primeiramente, temos a seguinte observação.

Observação

Screenshot_124

Screenshot_125

Para cada $ \delta\in(0,1), $

622515696f6a50b2f9f108f83f7fa71045036999

Assim,

dbfe96d474e0539a5e4ed2bd657908ad7bc6bdae

Da condição (A) obtemos que

$$V^n_{k_n}\equiv\sum^{k_n}_{k=0} \int_{|x|>1}d\nu^n_k\overset{P}{\rightarrow}0\quad (6.4.1.4)$$

e $ V^n_{k_n} $ é $ \mathcal{F}^n_{k-1} $-mensurável. Então pelo corolário 2 parágrafo 3 do capítulo 7 do livro do Shiraev [3] obtemos que

$$V^n_{k_n}\overset{P}{\rightarrow}0\quad \Rightarrow \quad U^n_{k_n}\overset{P}{\rightarrow}0\quad (6.4.1.5)$$

Também pelo corolário e da desigualdade $ \Delta U^n_{k_n}\leq 1 $ obtemos

$$U^n_{k_n}\overset{P}{\rightarrow}0\quad \Rightarrow \quad V^n_{k_n}\overset{P}{\rightarrow}0$$

De (6.4.1.3) a (6.4.1.5) temos que

$$X^n(t)=Y^n(t)+Z^n(t)$$

em que

73bdd8bd417369bae7a2f0a64a1c243dab9ae2a0

Para mostrar que $ X^n(t)\overset{\mathcal{D}}{\rightarrow}N(0,\sigma^2(t)). $ Basta mostrar que

$$Y^n(t)\overset{\mathcal{D}}{\rightarrow}N(0,\sigma^2(t))$$

Assim, seja $ Y^n(t) $ escrito da forma

$$Y^n(t)=\gamma^n_{k_n}(\varepsilon)+\Delta^n_{k_n}(\varepsilon),\quad \varepsilon\in(0,1],$$

em que

$$\gamma^n_{k_n}(\varepsilon)=\sum^{k_n}_{k=0} \int_{\varepsilon<|x|\leq1}x d(\mu^n_k-\nu^n_k)$$

$$\Delta^n_{k_n}(\varepsilon)=\sum^{k_n}_{k=0} \int_{|x|\leq \varepsilon}x d(\mu^n_k-\nu^n_k)$$

Da condição (A), obtemos $ \gamma^n_{k_n}(\varepsilon)\overset{P}{\rightarrow}0 $ quando $ n\rightarrow \infty. $ Agora, a sequência $ \Delta^n(\varepsilon)=(\Delta^n_{k}(\varepsilon),\mathcal{F}^n_{k}),1\leq k\leq n, $ é um martingale quadrado integrável com variação quadrática

Screenshot_135

Da condição (C) obtemos que

$$\langle\Delta^n(\varepsilon)\rangle_{k_n}\overset{P}{\rightarrow}\sigma^2(t)$$

Portanto, para cada $ \varepsilon\in (0,1], $

$$\max(\gamma^n_{k_n}(\varepsilon)~ ;~|\langle\Delta^n(\varepsilon)\rangle_{k_n}-\sigma^2(t)|)\overset{P}{\rightarrow}0\quad (6.4.1.6)$$

Logo, $ M^n_{k_n}\overset{\mathcal{D}}{\rightarrow}N(0,\sigma^2(t)), $ em que

$$M^n_k\equiv \Delta^n_k(\varepsilon_n)=\sum^k_{i=0}\int_{|x|\leq \varepsilon_n}x(\mu^n_i-\nu^n_i)\quad (6.4.1.7)$$

Para $ \Gamma\in \sigma(R(0)), $ seja

Screenshot_136

e $ \Delta M^n_k=M^n_k-M^n_{k-1},k\geq 1, M^n_0=0. $ Então o martingale quadrado integrável $ M^n=(M^n_k,\mathcal{F}^n_{k}),1\leq k\leq n, $ pode ser escrito da forma

$$M^n_k=\sum^k_{i=1}\Delta M^n_i=\sum^k_{i=1}\int_{|x|\leq 2\varepsilon_n}x d\tilde{\mu}^n_k$$

lembrando que $ |\Delta M^n_i|\leq 2\varepsilon_n $ por (6.4.1.7). Para mostrar (6.4.1.6), temos que para cada $ \lambda\in \mathbb{R}, $

$$\mathbb{E}[\exp(i\lambda M^n_{k_n})]\rightarrow \exp(-\frac{1}{2}\lambda^2\sigma^2(t))$$

Definimos

$$G^n_k=\sum^k_{j=1}\int_{|x|\leq 2\varepsilon_n}(e^{i\lambda x}-1)d\tilde{\nu}^n_j,\quad \text{e}\quad \mathcal{E}^n_k(G^n)=\prod^k_{j=1}(1+\Delta G^n_k).$$

Observe que

$$1+\Delta G^n_k=1+\int_{|x|\leq 2\varepsilon_n}(e^{i\lambda x}-1)d\tilde{\nu}^n_k = \int_{|x|\leq 2\varepsilon_a}e^{i\lambda x}d\tilde{\nu}^n_k=E[\exp(i\lambda \Delta M^n_k)|\mathcal{F}^n_{k-1}]$$

e consequentemente

$$\mathcal{E}^n_k(G^n)=\prod^k_{j=1}(1+\Delta G^n_k)$$

Agora, para cada $ \lambda\in \mathbb{R}, $ temos que

$$|\mathcal{E}^n_{k_n}(G^n)|=\left|\prod^k_{j=1}\mathbb{E}[\exp(i\lambda \Delta M^n_k)|\mathcal{F}^n_{k-1}]\right|\geq C(\lambda)>0\quad (6.4.1.8)$$

e

$$\mathcal{E}^n_{k_n}(G^n)\overset{P}{\rightarrow}\exp(-\frac{1}{2}\lambda^2\sigma^2(t))\quad (6.4.1.9)$$

Representamos $ \mathcal{E}^n_{k}(G^n) $ da forma

$$\mathcal{E}^n_{k}(G^n)=\exp(G^n_k)\prod^k_{j=1}(1+\Delta G^n_j)\exp(-\Delta G^n_j)$$

Desde que

$$\int_{|x|\leq 2\varepsilon_n}x d\tilde{\nu}^n_j=\mathbb{E}[\Delta M^n_j| \mathcal{F}^n_{j-1}]=0$$

obtemos que

$$G^n_k=\sum^k_{j=1}\int_{|x|\leq 2\varepsilon_n}(e^{i\lambda x}-1-i\lambda x)d\tilde{\nu}^n_j\quad (6.4.1.10)$$

Portanto,

$$|\Delta G^n_k| \leq\int_{|x|\leq 2\varepsilon_n}|e^{i\lambda x}-1-i\lambda x|d\tilde{\nu}^n_k~\leq~ \frac{1}{2}\lambda^2\int_{|x|\leq 2\varepsilon_n} x^2d\tilde{\nu}^n_k$$

$$\leq \frac{1}{2}\lambda^2 (2\varepsilon_n)^2 \rightarrow 0\quad (6.4.1.11)$$

e

$$\sum^k_{j=1}|\Delta G^n_k| \leq\frac{1}{2}\lambda^2\sum^k_{j=1}\int_{|x|\leq 2\varepsilon_n} x^2d\tilde{\nu}^n_j=\frac{1}{2}\lambda^2 \langle M^n\rangle_k\quad (6.1.1.12)$$

Da condição (C), obtemos que

$$\langle M^n\rangle_{k_n}\overset{P}{\rightarrow}\sigma^2(t)\quad (6.4.1.13)$$

Primeiramente, supomos que $ \langle M^n\rangle_{k}\leq a $ (P-q.c.), $ k\leq k_n, $ em que $ a\geq \sigma^2(t)+1. $ Então, de (6.4.1.11) e (6.4.1.12) obtemos

$$\prod^{k_n}_{k=1}(1+\Delta G^n_k)\exp(-\Delta G^n_k)\overset{P}{\rightarrow}1,\quad n\rightarrow \infty$$

Assim, para provar (6.4.1.9), basta que

$$G^n_{k_n}\rightarrow -\frac{1}{2}\lambda^2\sigma^2(t),\quad (6.4.1.14)$$

De (6.4.1.10), (6.4.1.11) e (6.4.1.13) temos que

Screenshot_126

$$=\frac{1}{3}\varepsilon_n|\lambda|^3\langle M^n\rangle_{k_n}\leq \frac{1}{3}\varepsilon_n|\lambda|^3 a\overset{n\rightarrow \infty}{\longrightarrow}0$$

Portanto, se $ \langle M^n\rangle_{k_n}\leq a $ (P-q.c.), (6.4.1.14) é satisfeito e consequentemente (6.4.1.9) é satisfeito.

Agora, para verificar (6.4.1.8), desde que $ |e^{i\lambda x}-1-i\lambda x|\leq \frac{1}{2}(\lambda x)^2. $ De (6.4.1.11), temos que para n suficientemente grande

$$|\mathcal{E}^n_k(G^n)|=\left|\prod^k_{j=1}(1+\Delta G^n_i)\right|\geq \prod^k_{j=1}\left(1-\frac{1}{2}\lambda^2\Delta \langle M^n\rangle_j\right)=\exp\left(\sum^k_{j=1}\ln(1-\frac{1}{2}\lambda^2\Delta \langle M^n\rangle_j)\right)$$

Mas

$$\ln(1-\frac{1}{2}\lambda^2\Delta \langle M^n\rangle_j)\geq -\frac{\frac{1}{2}\lambda^2\Delta \langle M^n\rangle_j}{1-\frac{1}{2}\lambda^2\Delta \langle M^n\rangle_j}$$

e $ \Delta\langle M^n\rangle_j\leq (2\varepsilon_n)^2\downarrow 0, $ quando $ n\rightarrow \infty. $ Assim, existe um $ n_0=n_0(\lambda) $ tal que para todo $ n\geq n_0(\lambda), $

$$|\mathcal{E}^n_k(G^n)|\geq \exp(-\lambda^2\langle M^n\rangle_k)$$

e portanto

$$|\mathcal{E}^n_{k_n}(G^n)|\geq \exp(-\lambda^2\langle M^n\rangle_{k_n})\geq e^{-\lambda^2 a}$$

que é provado pela suposição $ \langle M^n\rangle_{k_n}\leq a $ (P-q.c.). Para removermos esta suposição, definimos

$$\tau^n=\min(k\leq k_n; \langle M^n\rangle_{k}\geq \sigma^2(t)+1)$$

tomando $ \tau^n=\infty $ se $ \langle M^n\rangle_{k}\leq \sigma^2(t)+1. $ Então para $ \overline{M}^n_k=M^n_{k \wedge \tau^n} $ obtemos que

$$\langle \overline{M}^n\rangle_{k_n}=\langle M^n\rangle_{k_n\wedge \tau^n}\leq 1+\sigma^2(t)+2\varepsilon^2_n\leq 1+\sigma^2(t)+2\varepsilon^2_1$$

como mostrado anteriormente,

$$\mathbb{E}[\exp(i\lambda\overline{M}^n_{k_n})]\rightarrow \exp\left(-\frac{1}{2}\lambda^2\sigma^2(t)\right)$$

Mas

$$\lim_n \left|\mathbb{E}\left[\exp(i\lambda{M}^n_{k_n})- \exp(i\lambda\overline{M}^n_{k_n})\right]\right|\leq 2\lim_n \mathbb{P}(\tau<\infty)=0$$

Consequentemente,

$$\lim_n \mathbb{E}[\exp(i\lambda\overline{M}^n_{k_n})]=\lim_n \mathbb{E}\left[\exp(i\lambda{M}^n_{k_n})- \exp(i\lambda\overline{M}^n_{k_n})\right]+\lim_n\mathbb{E}\left[\exp(i\lambda\overline{M}^n_{k_n})\right]=$$

$$=\exp\left(-\frac{1}{2}\lambda^2\sigma^2(t)\right)$$

Isto completa a demonstração do teorema

$ \Box $

Vale observar que muitos teoremas centrais do limite relacionados para variáveis aleatórias dependentes agora podem ser facilmente deduzidos à partir do teorema (6.4.1.1).

Nos casos em que $ X^n_1,\dots,X^n_n $ são independentes, as condições do teorema (6.4.1.1) com $ t=1, $ e $ \sigma^2=\sigma^2_1, $ obtemos

$$(a)\sum^{k_n}_{k=0}\mathbb{P}(|X^n_k|>\varepsilon)\rightarrow0$$

Screenshot_127

Notamos que este resultado não assume a independência e até mesmo não exige que $ X^n_k $ sejam integráveis. No caso de variáveis aleatórias independentes, esse resultado se transforma no teorema central do limite de Lindeberg. No caso em que $ \sigma^2(t)=0, $ a distribuição limitante é degenerada.

Lema 6.4.1.1

Se para um determinado $ \lambda $$ |\mathcal{E}^n(\lambda)|\geq c(\lambda)>0, n \geq 1, $ um condição suficiente para

$$\mathbb{E}[e^{i\lambda Y^n}]\rightarrow\mathbb{E}[e^{i\lambda Y}],\quad \text{i.e.}\quad \mathcal{E}^n(\lambda)\overset{P}{\rightarrow} \mathcal{E}(\lambda)\quad (6.4.1.15)$$

Demonstração

Primeiramente, seja $ \eta^n=(\eta^n_k,\mathcal{F}^n_{k}),1\leq k\leq n,\geq 1 $ a sequência estocática, denotamos

$$Y^n=\sum^n_{k=1}\eta^n_k,$$

e

$$\mathcal{E}^n(\lambda)=\prod^n_{k=1}\mathbb{E}[\exp(i\lambda \eta^n_k)|\mathcal{F}^n_{k-1}], \quad \lambda \in \mathbb{R}$$

em que $ Y $ é a v.a. com

$$\mathcal{E}(\lambda)=\mathbb{E}[e^{i\lambda Y}]$$

Agora, seja $ m^n(\lambda)=\frac{e^{i\lambda Y^n}}{\mathcal{E}^n(\lambda)}. $ Então $ |m^n(\lambda)|\leq c^{-1}(\lambda)<\infty. $ Note que $ \mathbb{E}[m^n(\lambda)]=1 $ e que da equação (6.4.1.15) e da hipótese $ \mathcal{E}^n(\lambda)\geq c(\lambda)>0, $ que $ \mathcal{E}^n(\lambda)\neq 0. $

Portanto, de (6.4.1.15) e do teorema da convergência dominada obtemos que

$$|\mathbb{E}[e^{i\lambda Y^n}]-\mathbb{E}[e^{i\lambda Y}]|=|\mathbb{E}(e^{i\lambda Y^n}-\mathcal{E}(\lambda))|=|\mathbb{E}\left(m^n(\lambda)[\mathcal{E}^n(\lambda)-\mathcal{E}(\lambda)]\right)|\leq$$

$$\leq c^{-1}(\lambda)\mathbb{E}\left|\mathcal{E}^n(\lambda)-\mathcal{E}(\lambda)\right|\overset{n\rightarrow \infty}{\longrightarrow} 0$$

$ \Box $

Corolário 6.4.1.1

Se $ X^n_1,\dots,X^n_n $ são variáveis aleatórias independentes, n≥1, então as condições (A), (B) e (C) implicam que $ X^n_1 \overset{\mathcal{D}}{\rightarrow}N(0,\sigma^2) $

Proposição 6.4.1.1

Seja $ 0< t_1< t_2<\dots< t_j<1 $ e $ \sigma^2(t_1)<\sigma^2(t_2)<\dots<\sigma^2(t_j), $ com $ \sigma^2(0)=0 $ e seja $ \varepsilon_1,\dots,\varepsilon_j $ são variáveis aleatórias normais com média zero e $ \mathbb{E}(\varepsilon^2_k)=\sigma^2(t_k)-\sigma^2(t_{k-1}). $ Resultam nos vetores (Normais) $ (W(t_1),\dots, W(t_j)) $ com $ W(t_k)=\varepsilon_1+\dots+\varepsilon_k. $

Demonstração

Suponhamos que condições (A), (B) e (C) são satisfeitas para $ t=t_1,\dots, t_j. $ Então a distribuição conjunta ($ P^n(t_1,\dots,t_j) $) para as variáveis aleatórias ($ (X^n(t_1),\dots, X^n(t_j)) $) converge fracamente para distribuição Normal $ P (t_1,\dots, t_j) $ das variáveis $ (W_{t_1},\dots, W_{t_j})$:

$$P^n(t_1,\dots,t_j) \overset{\mathcal{D}}{\rightarrow} P(t_1,\dots,t_j)$$

$ \Box $

Teorema 6.4.1.2

A condição (A) é equivalente a

$$(a) \max_{1\leq k\leq k_n}|X^n_k|\overset{P}{\rightarrow}0$$

Suponha (A) ou (a) válidos, a condição (C) é equivalente a

Screenshot_129

Demonstração

Para provar a primeira parte do teorema temos que dado $ \varepsilon>0, $ existe $ \delta \in (0,\varepsilon) $ e por simplicidade tomamos $ t=1. $ Desde que

2924767f5eaa8df813d12cc1074d4273e0e764e8

e

e3128e3e8152cb5bd6510c21ca69aaee4c6f086e

obtemos que

590a2a5ca104d269154df2eee0e703aaec05441c

Se (A) é satisfeita, isto é,

$$\mathbb{P}\left(\sum^n_{k=1} \int_{|x|>\varepsilon}d\nu^n_k>\delta \right)\rightarrow 0.$$

então, obtemos que

$$\mathbb{P}\left(\sum^n_{k=1} \int_{|x|>\varepsilon}d\mu^n_k>\delta \right)\rightarrow 0.$$

Logo, (A) $ \Rightarrow $ (a).

Por outro lado, seja

a63a8966df15d16e52ac13023e190e2f00829ae9

Suponhamos que $ \sigma_n=\infty $ se $ \displaystyle\max_{1\leq k \leq n}|X^n_k|\geq \frac{\varepsilon}{2}. $ Pela condição (c), $ \displaystyle \lim_n \mathbb{P}(\sigma<\infty)=0. $

Agora, observe que, para cada $ \delta\in (0,1), $ o conjunto

bf56e158d60d98ba5480319df58a34df4047d19d

coincidem. Da condição (a)

a17ed901213ffaa72d98f28cb58fc9e80df59608

que em conjunto com a propriedade $ \lim_n \mathbb{P}(\sigma_n<\infty)=0, $ provamos que (a) $ \Rightarrow $ (A).

Agora, vamos mostrar a parte (2). Novamente supomos $ t=1, $ escolhemos $ \varepsilon\in (0,1] $ e consideramos o martingale quadrado integrável $ \Delta^n(\delta)=(\Delta^n_k(\delta),\mathcal{F}^n_k) $ para $ 1\leq k \leq n, $ com $ \delta \in (0,\varepsilon]. $ Para dado $ \varepsilon\in (0,1], $ da condição (C) temos que

$$\langle \Delta^n(\varepsilon)\rangle_n \overset{P}{\rightarrow} \sigma^2_1$$

A partir da condição (A) que para cada $ \delta \in (0,\varepsilon] $

$$\langle \Delta^n(\delta)\rangle_n \overset{P}{\rightarrow} \sigma^2_1$$

Decorre das condições (c), (A) e (a) que para cada $ \delta \in (0,\varepsilon], $

$$[ \Delta^n(\delta)]_n \overset{P}{\rightarrow} \sigma^2_1\quad (6.4.1.16)$$

em que

Screenshot_130

De fato, da condição (A)

$$[ \Delta^n(\delta)]_n - [ \Delta^n(1)]_n\overset{P}{\rightarrow}0\quad (6.4.1.17)$$

Mas

Screenshot_131

Logo, a equação (6.4.1.16) é obtido à partir de (6.4.1.17) e (6.4.1.18).

Para mostrar a equivalência das condições (C) e (c), é suficiente mostrar que a condição (C) é satisfeita. Para dado $ \varepsilon \in(0,1], $ então a condição (c) é também satisfeita para cada $a\geq 0$:

$$\lim_{\delta\rightarrow 0}\lim\sup_n \mathbb{P}(\left|[\Delta^n(\sigma)]_n-\langle \Delta^n(\delta)\rangle_n\right| > a)=0\quad (6.4.1.19)$$

Seja $ m^n_k(\delta)=[\Delta^n(\sigma)]_n-\langle \Delta^n(\delta)\rangle_n,\quad 1\leq k \leq n. $ A sequência $ m^n(\delta)=(m^n_k(\delta),\mathcal{F}^n_k) $ é um martingale quadrado integrável e $ (m^n(\delta))^2 $ é dominado pelas sequências $ [m^n(\delta)] $ e $ \langle m^n(\delta)\rangle. $

Note que

Screenshot_132

$$\leq3\delta^2 ([\Delta^n(\delta)]_n + \langle \Delta^n(\delta)\rangle_n)\quad (6.4.1.20)$$

Desde que $ [\Delta^n(\delta)] $ e $ \langle \Delta^n(\delta)\rangle $ domina uns aos outros. Disto, segue de (6.4.1.20) que $ (m^n(\delta))^2 $ é dominada pela sequências $ 6\delta^2[\Delta^n(\delta)] $ e $ 6\delta^2\langle \Delta^n(\delta)\rangle. $ Assim, se a condição (C) é satisfeita, então para $ \delta $ suficientemente pequeno $ (\delta=\frac{1}{6}b(\sigma^2_1+1)) $

$$\lim \sup_n \mathbb{P}(6\delta^2\langle \Delta^n(\delta)\rangle_n > b)=0$$

logo, pelo corolário (Shiraev [3]), obtemos de (6.4.1.19). Se a condição (c) é satisfeita então para os mesmos valores de $ \delta, $

$$\lim\sup_n \mathbb{P}(6\delta^2[ \Delta^n(\delta)]_k > b)=0\quad (6.4.1.21)$$

Desde que $ |\Delta[ \Delta^n(\delta)]_k|\leq (2\delta)^2, $ a validade de (6.4.1.19) segue de (6.4.1.21) e recorrendo ao corolário (Shiraev [3]). Isto completa a demonstração.

$ \Box $

Teorema 6.4.1.3

Para cada $ n\geq 1 $ a sequência $ X^n=(X^n_k,\mathcal{F}^n_{k}), 1\leq k\leq n, $ é um martingale difference quadrado integrável tal que

$$\mathbb{E}((X^n_k)^2)<\infty,\quad \mathbb{E}(X^n_k|\mathcal{F}^n_{k-1})=0$$

Suponha que a condição de Lindeberg é satisfeita. Assim, para $ \varepsilon>0, $

0d283f744caf384c1f91fa310ca2d280bc9cf5eb

Então (C) é equivalente a

$$\langle X^n\rangle(t) \overset{P}{\rightarrow} \sigma^2(t),\quad (6.4.1.22)$$

em que a variação quadrática

Screenshot_133

Demonstração

Pela condição de Lindeberg, a equivalência da condição (C) e (6.4.1.22), da condição (c) e de (6.4.1.23) pode ser obtido calculado diretamente.

$ \Box $

Teorema 6.4.1.4

Seja o martingale difference quadrado integrável tal que $ X^n=(X^n_k,\mathcal{F}^n_{k}), $$ n\geq 1, $ para um dado $ t\in (0,1] $ satisfaz a condição de Lindeberg (L). Então

Screenshot_134

$$\sum^{k_n}_{k=0}(X^n_k)^2\overset{P}{\rightarrow} \sigma^2(t)\quad \Rightarrow \quad X^n(t)\overset{\mathcal{D}}{\rightarrow}N(0,\sigma^2(t))\quad (6.4.1.25)$$

Demonstração

A condição (A) resulta da condição Lindeberg. Quanto à condição (B), é suficiente observar que quando $ X^n $ é um martingale difference, as variáveis $ B^n(t) $ que aparece na decomposição canônica (6.4.1.2), podendo ser representada da forma

622698291b7a454b041f4cf36f97389fb7fcebe3

Portanto, $ B^n(t)\overset{P}{\rightarrow}0 $ pela condição de Lindeberg.

$ \Box $

O teorema fundamental desta seção (Teorema 6.4.1.1), provou que sob a hipótese dos termos que somados são uniformemente infinitesimais assintoticamente. É natural definir condições para o teorema central do limite sem tal hipótese. Para variáveis aleatórias independentes, exemplos de tais teoremas são dadas pelo Teorema 7.3.2.2 (assumindo segundos momentos finitos).

Citamos (sem prova) um análogo do primeiro destes teoremas, aplicável apenas a sequências $ X^n=(X^n_k,\mathcal{F}^n_k) $ que são martingale difference quadrados integráveis.

Seja $ F^n_k(x)=\mathbb{P}(X^n_k\leq x| \mathcal{F}^n_{k-1}) $ a função distribuição regular de $ X^n_k $ com respeito a $ \mathcal{F}^n_{k-1} $ e seja $ \Delta^n_k=\mathbb{E}[(X^n_k)^2|\mathcal{F}^n_{k-1}]. $ Assim, temos o seguinte resultado.

Teorema 6.4.1.5

Se um martingale difference quadrado integrável $ X^n=(X^n_k,\mathcal{F}^n_{k}),0\leq k \leq n, $$ n\geq 1, $ e $ X^n_{0}=0 $ satisfaz a condição

$$\sum^{k_n}_{k=0}\Delta^n_k\overset{P}{\rightarrow}\sigma^2(t), \quad 0\leq \sigma^2(t)<\infty$$

para todo $ \varepsilon>0 $

f739a622d67ce39ab7b8a3c8e0515bcf9d5442b1

Então

$$X^n(t)\overset{\mathcal{D}}{\rightarrow}N(0,\sigma^2(t))$$

6.4.2 - Generalizações e principio da invariância

O teorema central do limite para martingales foi estendido por McLeish (1974) [17]. Assim, seja as mesmas definições da seção anterior (para mais detalhes consulte TCL para soma de v.a.’s dependentes) com a modificação de que para cada n, definimos a função aleatória $ r_n(.) $ em $ [0,\infty), $ com as seguintes propriedades:

  • Cada $ r_n(t) $ é um tempo de parada com respeito a $F^n_k$, para k=0,1,…;
  • A trajetória da amostra $ r_n(.) $ são valores inteiros, não decrescentes e contínuas à direita com $r_n(0)$=0.

Definimos

$$X^n(t)=\sum^{r_n(t)}_{k=1}X^n_k$$

Seja $ W $ o movimento Browniano padrão de modo que $ W(0)=0, $$ ~\mathbb{E}(W(t))=0 $ e $ ~\mathbb{E}(W(t)^2)=t. $ A integral estocástica simples $ \displaystyle X=\int g~dW $ está bem definida sempre que $ \displaystyle \int^a_0 g^2(s)~ds< \infty $ para todo $ a> 0. $

Com isso, definimos o processo gaussiano contínuo com

$$X(0)=0,~\mathbb{E}(X(t))=0~ \text{e}~ \mathbb{E}(X(t)X(u))=\displaystyle \int^{t\wedge u}_0 g^2(s)~ds.$$

A seguir apresentamos a seguinte definição.

Definição 6.4.2.1

Dizemos que $ Z_n(t) $ converge em probabilidade uniformemente no compacto para $ Z(t) $, isto é, $ Z_n(t)\xrightarrow{Pu}Z(t) $, se para todo $ a> 0 $

$$\sup_{0\leq t\leq a}|Z_n(t)-Z(t)|\xrightarrow{P}0$$

Segundo Helland (1982) [16], quando $ Z_n(.) $ e $ Z(.) $ são não decrescentes e $ Z_n(.) $ é contínua quase certamente, a definição (6.4.2.1) é equivalente a condição fraca $ Z_n(t)\xrightarrow{P}Z(t), $ para todo $ t> 0. $

Teorema 6.4.2.1

Suponha que para todo $ \varepsilon,~t> 0 $ e uma função $ f $ mensurável e não negativa tal que $ \displaystyle\int^t_0 f^2(s)ds< \infty $

a5b7033e7d292b18799ef819eb058d35667c9d12

82efabbd5c35e11af0d8d11b2a6bc4581a81c542

ca8d5db0cb28507aa7ea4f87f1e5de2767d39bdc

Então

$$X^n\xrightarrow{\mathcal{D}}\int f~dW.$$

Demonstração

Screenshot_139

Logo, $ \eta^n_k $ satisfaz a condição de McLeish (1974) [17] trocando t por $ \displaystyle \int^t_0 f^2(s)~ds. $

$$\sum^{r_n(t)}_{k=1}\eta^n_k\xrightarrow{\mathcal{D}}\int f~dW $$

Com isso, da equação (6.4.2.2) obtemos que

Screenshot_137

Portanto da equação (6.4.2.1) e do teorema (6.4.1.2) obtemos que para todo t

$$\mathbb{P}\left[\max_{1\leq k\leq r_n(t)}|X^n_k-\xi^n_k|\neq 0\right]\rightarrow 0,$$

Screenshot_138

Portanto,

$$X^n\xrightarrow{\mathcal{D}}\int f~dW.$$

$ \Box $

Teorema 6.4.2.2

Considere $ (X^n_k) $ satisfazendo a condição de martingale difference e seja $ f $ função mensurável e não negativa tal que $ \displaystyle\int^t_0 f^2(s)ds< \infty $ para todo $ t> 0. $ Suponha que uma dos três conjunto de condições são satisfeitas para todo $ t> 0. $

Screenshot_140

273fedb6bedeec3c7c7f166d8462925e02df5d23

$$(b^\star)\quad\sum^{r_n(t)}_{k=1}(X^n_k)^2\xrightarrow{P}\int^t_0 f^2(s)~ds,\quad (6.4.2.6)$$

$$\mathbb{E}\left[\max_{1\leq k \leq r_n(t)}|X^n_k|\right]\rightarrow 0\quad (6.4.2.7)$$

$$(c^\star)\text{A equação (6.4.2.6) é satisfeita }\sum^{r_n(t)}_{k=1}(X^n_k)^2\xrightarrow{P}\int^t_0 f^2(s)~ds,\quad (6.4.2.8)$$

$$\mathbb{E}\left[\max_{1\leq k \leq r_n(t)}|X^n_k|\right]\rightarrow 0\quad (6.4.2.9)$$

Então

$$X^n\xrightarrow{\mathcal{D}}\int f~dW$$

Demonstração

Primeiramente, da equação (6.4.2.5) obtemos que

3c7139d2230c7a238a192f58b2447b2a85003d8d

para $ p=1 $ e $ p=2. $

Logo, a condição (a$ ^\star $) implica nas hipóteses do teorema (6.4.2.1). Para a condição (b$ ^\star $) obtemos que as hipóteses do teorema (6.4.2.1) também são satisfeitas. Similarmente, obtemos que as equações (6.4.2.6), (6.4.2.9) e

$$\max_{1\leq k \leq r_n(t)}|X^n_k|\xrightarrow{P}0,\quad \forall~t>0\quad (6.4.2.10)$$

implicam nas hipóteses do teorema (6.4.2.1). Porém, a equação (6.4.2.10) é uma consequência da hipótese (6.4.2.6) válido para todo t > 0. Esta última mostra que da condição (b$ ^\star $) a equação (6.4.2.7) pode ser obtido fracamente como

$$\max_{1\leq k \leq r_n(t)}|X^n_k|\quad \text{uniformemente integrável}\quad (6.4.2.11)$$

Portanto, sob condições (a$ ^\star $) até (c$ ^\star $) obtemos $ \displaystyle X^n\xrightarrow{\mathcal{D}}\int f~dW. $

$ \Box $