1.6 Modelos de Regressão para Dados Oriundos de Testes Acelerados

Até agora tratamos de uma análise estatística de resultados experimentais com uma característica comum: todos os elementos da amostra de componentes (ou produtos) foram submetidos à teste sob as mesmas condições. Entretanto, na situação ilustrada no Exemplo 5.3.1 o objetivo estava além da modelagem pura e simples dos dados obtidos sob as condições de teste. O objetivo principal era utilizar os resultados da modelagem do teste acelerado para obter as informações das figuras de mérito sob as condições de uso.

Como uma extrapolação dos resultados do teste acelerado para as condições de uso, foi feita uma aplicação da relação estresse-resposta de Arrhenius. O ponto principal discutido foi a dependência implícita de tais relações estresse-resposta em constantes que dependem do mecanismo de falha envolvido. Sendo assim, nos deparamos com duas situações: a utilização de alguns valores já tabelados ou a estimação de tais constantes através de dados experimentais. A primeira requer cuidados extras, pois a utilização de valores já tabelados pode acarretar vícios sérios nos resultados caso se utilize valores que não representam o mecanismo de falha do teste em estudo. Por outro lado, a segunda situação é talvez a mais correta e exige a condução de testes sob vários níveis de estresse.

Contudo, a ideia é utilizar mais de uma amostra de componentes (ou produtos) e alocar cada uma delas a um nível diferente de estresse. Veremos ainda que tais dados, quando adequadamente modelados e analisados, permitirão ao mesmo tempo a estimação das constantes inerentes às relações estresse-resposta, bem como a extrapolação para as condições de uso. A análise é feita por meio de modelos de regressão. Tais modelos nada mais são do que a utilização das relações estresse-resposta em conjunto com os modelos probabilísticos discutidos anteriormente. A principal diferença é que os testes serão conduzidos utilizando mais de um nível para a variável de estresse.

Nos tópicos seguintes apresentamos a ideia intuitiva dos modelos, bem como a formulação geral dos mesmos.

6.1 - A ideia intuitiva dos modelos

Como motivação consideremos o seguinte exemplo.

Exemplo 6.1.1

Considere o resultado de um experimento com componentes eletrônicos, em que um grupo foi submetido à teste sob estresse constante de 28 kilovolts, um outro grupo submetido ao estresse de 30 kilovolts e por fim, o último grupo de componentes foi submetido à teste sob estresse de 32 kilovats. Os resultados são apresentados na Tabela 1.6.1 e na Figura 1.6.1.

Obs.: Para esses dados não houve censuras.

28 kV 30 kV 32 kV
128 81 12
68,85 47,05 0,4
150 35,66 3,91
110,29 72 9,88
108,29 39,85 0,69
180 54 2,75
70 35,76 15,93
135 40,25 5,75
174 83 4,25
76,65 40 3,75
170,06 32,76 0,7

Tabela 1.6.1: Tempo de Falha (em minutos).

Um comportamento interessante podemos observar nesses dados, a tendência do tempo de falha dos componentes decresce com o aumento da voltagem. Assim, qualquer tentativa de explicar esse comportamento do tempo de falha em função da variável “voltagem” deve envolver um modelo estatístico que reflita essa tendência. Além da formulação de um modelo relacionando o tempo de falha e a voltagem, a estimação de percentis da distribuição do tempo de falha para qualquer nível de voltagem também deve ser considerada, em particular, para as condições de uso.

Figura 1.6.1

Figura 1.6.1: Tempo de Falha (minutos) versus voltagem.

Contudo, nesse tópico vamos estudar os modelos de regressão apropriados para as situações como apresentadas no Exemplo 6.1.1 discutido acima.

Em um modelo de regressão, a tendência apresentada pelos dados e ilustrada na Figura 1.6.1 é representada pela sua parte determinística. Porém, em alguns casos, o próprio fenômeno físico-químico envolvido sugere a forma dessa relação determinística (relação estresse-resposta). Já apresentamos duas relações muito utilizadas na prática, a relação de Arrhenius e a relação Potência Inversa, as quais assumem a mesma forma (log-linear).

O outro componente do modelo é a parte probabilística. No Exemplo 6.1.1, para cada nível da variável de estresse existe uma variabilidade nos resultados obtidos. O componente probabilístico do modelo se responsabiliza por explicar essa variabilidade inerente aos dados. Isso se dá ao assumirmos uma determinada distribuição de probabilidade para o tempo de falha, $T$, do componente. Em outras palavras, para cada nível da variável de estresse, supomos que o tempo de falha, $T$, segue uma mesma distribuição de probabilidade e o que difere um nível de estresse do outro são os parâmetros dessa distribuição.

Essa é a ideia geral que está por trás dos modelos apresentados nesse tópico. Basicamente, eles são resultados do uso das relações estresse-resposta em conjunto com as distribuições de probabilidade. Os modelos estudados nesse tópico partem do pressuposto de que a variabilidade para cada nível de estresse é a mesma. No entanto, isso nem sempre é verdade. Sendo assim, muitas vezes precisamos trabalhar em outra escala, por exemplo $\log(T)$ ao invés de $T$, para que essa suposição seja aproximadamente válida.

6.2 - Forma geral do modelo

Os modelos utilizados na análise de dados de confiabilidade são construídos utilizando-se o logaritmo do tempo de falha, ou seja, $Y = \log(T)$. Nesses modelos supomos que $Y$ tem distribuição com parâmetro de locação (escala) $\mu(x)$ e parâmetro de forma $\sigma~>~0.$ Utilizamos a notação $\mu(x)$ ao invés de $\mu$ para indicar que o parâmetro de locação da distribuição de $Y$ depende da variável de estresse $x$. Em outras palavras, $\mu(x)$ é a relação estresse-resposta. Esse é o procedimento geral, qualquer que seja a distribuição considerados para $Y$, isto é, sempre escrevemos o parâmetro de locação da distribuição de $Y = \log(T)$ em função da variável de estresse $x$.

Com isso, podemos considerar o modelo com a seguinte forma geral

$$Y=\log(T)=\mu(x)+\sigma\varepsilon. \tag{6.2.1}$$

em que $\varepsilon$ tem distribuição que independe da variável de estresse x.

Existem várias opções de escolha para a forma funcional da dependência de $\mu$ na variável de estresse x. A forma mais simples e mais utilizada é a forma linear

$$\mu(x)=\beta_0+\beta_{1}x.$$

Nesse caso, podemos reescrever o modelo (6.2.1) como

$$Y=\log(T)=\beta_0+\beta_{1}x+\sigma\varepsilon, \tag{6.2.2}$$

ainda, considerando a presença de n covariáveis temos

$$Y=\log(T)=\beta_0+\beta_{1}x_1+\ldots+\beta_{n}x_n+\sigma\varepsilon=\mathbf{x^{\prime}}\mathbf{\beta}+\sigma\varepsilon, \tag{6.2.3}$$

em que

  • $\mathbf{x^{\prime}}=(1,x_1,\ldots,x_n);$

  • $\mathbf{\beta}=(\beta_0,\beta_1,\ldots,\beta_n)^{\prime}.$

Note que o modelo (6.2.2) assume a forma de regressão linear simples quando supomos $Y = \log(T)$ com distribuição Normal (Gaussiana), com média (parâmetro de locação) $\mu(x)= \beta_0+\beta_{1}x$ e variância (parâmetro de escala) $\sigma^2.$ De maneira equivalente, dizemos que $\varepsilon$ tem distribuição normal padrão.

Nos casos onde não há censura, esse modelo pode ser ajustado com base na metodologia de Análise de Regressão. Entretanto, na presença de censuras essa metodologia não é adequada.

A seguir apresentamos os modelos baseados na distribuição de Weibull e na distribuição Log-Normal. Como já discutimos, ambos assumem a forma log-linear dada pela expressão (6.2.3). Entretanto, o que difere uns dos outros é a distribuição que supomos para $\log(T)$ e a forma como a variável de estresse $x$ é utilizada no modelo.

Modelo Weibull

Esse modelo parte dos seguintes pressupostos

  1. no estresse x, o tempo de falha T tem distribuição de Weibull $(\alpha(\mathbf{x});\delta)$ ou de maneira equivalente, $Y = \log(T)$ tem distribuição de Valor Extremo $(\log(\alpha(\mathbf{x}));\sigma);$

  2. o parâmetro de forma da distribuição do tempo de falha T (Weibull) é constante, isto é, independe da variável de estresse x. Isso equivale dizer que a distribuição de Y = log(T) (Valor Extremo) tem parâmetro de escala $\sigma=1/\delta,$ que é o mesmo para todos os níveis de estresse. Assim, o modelo é dado por: $$Y=\log(T)=\mathbf{x^{\prime}\beta}+\sigma\varepsilon. \tag{6.2.4}$$ em que $\varepsilon$ tem distribuição do Valor Extremo padrão, ou seja, quando $\mu=0$ e $\sigma=1$ na distribuição do Valor Extremo;

  3. de forma equivalente, $$T=\exp(\mathbf{x^{\prime}\beta})\exp(\sigma\varepsilon),$$ tal que T tem distribuição de Weibull com parâmetros $\alpha(\mathbf{x})$ e $\delta,$ dados por:

$$\alpha(\mathbf{x})=\exp(\mathbf{x^{\prime}\beta}) \qquad \hbox{e} \qquad \delta=\dfrac{1}{\exp(\log(\hbox{scale}))}=\dfrac{1}{\sigma}.$$

Modelo Log-Normal

De maneira equivalente, definimos os modelos baseados na distribuição Log-Normal através das seguintes suposições

  1. no estresse x, o tempo de falha, T, do produto tem distribuição Log-Normal com parâmetros $(\mu(\mathbf{x}), \sigma)$, ou de maneira equivalente Y = log(T) tem distribuição Normal com média $\mu(\mathbf{x})$ e variância $\sigma^{2}$ constante;

  2. o desvio padrão da distribuição de Y = log(T) é constante, isto é, independe da variável de estresse. Portanto, nesse caso o modelo assume a forma $$Y=\log(T)=\mathbf{x^{\prime}\beta}+\sigma\varepsilon,$$ em que $\varepsilon$ tem distribuição Normal padrão.

  3. a média e o desvio padrão da distribuição de Y = log(T) são dados por

$$\mu(\mathbf{x})=\mathbf{x^{\prime}\beta} \qquad \hbox{e} \qquad \sigma=\exp(\log(\hbox{scale})) = \hbox{escala}.$$

Logo, os parâmetros da distribuição de T são $\mu(\mathbf{x})$ e $\sigma$ dados acima.

Para esses modelos valem as mesmas observações feitas anteriormente, isto é, ao estimarmos os parâmetros $\beta_0, \beta_1, \ldots, \beta_n$ do modelo, estamos automaticamente estimando as constantes das relações estresse-resposta.

Ainda, vale ressaltar que nos modelos apresentados anteriormente, assumimos que o parâmetro de escala, $\sigma,$ da distribuição de $Y = \log(T)$ é constante. No entanto, em algumas aplicações práticas essa suposição pode não ser adequada.

6.3 - Estimando os parâmetros do modelo

Para a estimação dos parâmetros do modelo utilizamos o Método de Máxima Verossimilhança, introduzido anteriormente.

Suponha que um teste acelerado foi realizado, submetendo-se os itens a uma variável de estresse “x”, e que “m” níveis foram escolhidos para esta variável (i = 1, 2, 3, …, m). No caso do Exemplo 6.1.1, a variável “x” é a “voltagem” em 3 níveis (i = 1, 2, 3), isto é, 28, 30 e 32 Kilovolts. Suponha ainda que, em cada nível “i” da variável estresse, $n_{i}$ itens são submetidos a teste. No final do teste, $r_{i}$ tempos de falha são observados, enquanto que os $n_{i}$ - $r_{i}$ restantes são censurados.

Como trabalhamos com o logaritmo do tempo de falha, então $y_{ij}$ = $log(t_{ij})$ é a j-ésima observação (censurada ou não) no i-ésimo nível da variável de estresse “x” (i = 1, 2, …, m; j = 1, 2, …, $n_{i}$). Para simplificar a representação, supomos que no i-ésimo nível da variável de estresse, as $r_{i}$ primeiras observações são não censuradas, enquanto que as $n_{i}$ - $r_{i}$ restantes são censuradas.

Voltando ao Exemplo 6.1.1, temos

  • x = voltagem (kV);

  • i = 1, 2, 3 níveis (28 kV, 30 kV, 32 kV) e j = 1, 2, …, $n_{i}$, com $n_{1}$ = 11, $n_{2}$ = 11 e $n_{3}$ = 11 observações.

Considerando o modelo

$$y_{ij}=\log(t_{ij})=\mu (x_i)+\sigma\varepsilon_{ij}=\beta_0+\beta_{1}x_{i}+\sigma\varepsilon_{ij},\qquad i = 1, 2,\ldots,m \quad \hbox{e} \quad j = 1, 2,\ldots,n_{i},$$

o vetor de parâmetros a ser estimado é dado por

$$\theta=(\mu(x_{i}),\sigma)=(\beta_0,\beta_1,\sigma).$$

A seguir apresentamos os cálculos para a obtenção dos estimadores dos parâmetros do modelo para o caso em que a distribuição dos tempos de falha é Exponencial ou de Weilbul. Em todos os casos, assumimos que em cada nível as $r_{i}$ primeiras observações são não censuradas (falhas) enquanto as $n_{i}-r_{i}$ restantes são censuradas.

Distribuição Exponencial

No caso da distribuição exponencial, $y_{ij}$ = log $(t_{ij})$ tem distribuição valor extremo com parâmetros $\mu(x_i)=\beta_0+\beta_1x_i$ (locação) e $\sigma=1$ (escala), cujas funções densidade de probabilidade e confiabilidade são dadas, respectivamente, por

$$f(y_{ij})=\exp[(y_{ij}-\beta_0-\beta_1x_i)-\exp(y_{ij}-\beta_0 -\beta_{1}x_i)]\quad{e}\quad R(y_{ij})=\exp[-\exp(y_{ij}-\beta_0-\beta_1x_i)],$$

em que $\theta=(\beta_0,\beta_1).$

Dessa forma, o logaritmo da função de verossimilhança L(θ), é dado por

$$\log L(\theta)=\sum_{i=1}^{m}\sum_{j=1}^{r_{i}}(y_{ij}-\beta_0-\beta_{1}x_i)-\sum_{i=1}^{m}\sum_{j=1}^{n_{i}}\exp[y_{ij}-\beta_0-\beta_1x_i].$$

As equações de máxima verossimilhança

$$\partial \log L(\theta)/ \partial \beta_0 = 0 ~~ \hbox{e} ~~ \partial \log L (\theta)/ \partial \beta_1 = 0$$

podem ser resolvidas, por exemplo, utilizando o método de Newton-Raphson ou algum outro método numérico.

Ainda, as derivadas segundas do logaritmo da função de verossimilhançca são dadas por

$$\dfrac{\partial^{2} \log L(\theta)}{\partial \beta_{0}^{2}} = -\sum_{i=1}^{m}\sum_{j=1}^{n_i}\exp(z_{ij})$$

$$\dfrac{\partial^{2} \log L(\theta)}{\partial \beta_{0}\partial \beta_{1}}=\dfrac{\partial^{2} \log L(\theta)}{\partial \beta_{1}\partial \beta_{0}}=-\sum_{i=1}^{m}\sum_{j=1}^{n_i}x_{i} \exp(z_{ij})$$

$$\dfrac{\partial^{2} \log L(\theta)}{\partial \beta_{1}^{2}} = -\sum_{i=1}^{m}\sum_{j=1}^{n_i}x_{i}^2 \exp(z_{ij})$$

em que $z_{ij}=y_{ij}-\beta_0-\beta_{1}x_{i}.$

Distribuição Weilbul

Quando supomos que os tempos de falha $t_{ij}$ (censurados ou não) são oriundos de uma distribuição de Weibull com parâmetros de escala e forma, respectivamente, $\alpha(x_i)$ e $\delta,$ temos que $y_{ij}$ = log $(t_{ij})$ tem distribuição valor extremo com parâmetro de locação $\mu(x_i) = \log(\alpha(x_i))= \beta_0 + \beta_{1}x_{i}$ e parâmetro de escala $\sigma=1/ \delta$.

As funções densidade de probabilidade e de confiabilidade para $y_{ij}$ são dadas, respectivamente, por

$$f(y_{ij})=\dfrac{1}{\sigma}\exp\left[\dfrac{y_{ij}-\beta_0+\beta_{1}x_i}{\sigma}-\exp\left(\dfrac{y_{ij}-\beta_0+\beta_{1}x_{i}}{\sigma}\right)\right]$$

$$R(y_{ij})=\exp\left[-\exp\left(\dfrac{y_{ij}-\beta_0+\beta_{1}x_{i}}{\sigma}\right)\right].$$

A função de log-verossimilhança para dados provenientes de uma distribuição de Weilbull pode ser escrita como

$$\log L(\theta)=-r \log(\sigma)+\sum_{i=1}^{m}\sum_{j=1}^{r_i}\left(\dfrac{y_{ij}-\beta_0-\beta_{1}x_{i}}{\sigma}\right) -\sum_{i=1}^{m}\sum_{j=1}^{n_i}\exp\left(\dfrac{y_{ij}-\beta_0-\beta_{1}x_{i}}{\sigma}\right),$$

em que $r =\displaystyle \sum_{i=1}^{m}r_{i}~$ e $~\theta=(\beta_{0},\beta_{1},\sigma).$

As equações de máxima verossimilhança são

$$\partial \log L(\theta)/ \partial \beta_{0}=0, ~~ \partial \log L(\theta)/ \partial \beta_{1}=0 ~~{e}~~ \partial \log L(\theta) / \partial \sigma=0$$

e podem ser resolvidas através do método de Newton-Raphson ou algum outro método numérico.

Por fim, as derivadas segundas da função log-verossimilhança são dadas por

$$\dfrac{\partial^{2} \log L(\theta)}{\partial \beta_{0}^{2}}=-\dfrac{1}{\sigma^2}\sum_{i=1}^{m}\sum_{j=1}^{n_i}\exp(z_{ij})$$

$$\dfrac{\partial^{2} \log L(\theta)}{\partial \beta_{1}^{2}}=-\dfrac{1}{\sigma^2}\sum_{i=1}^{m}\sum_{j=1}^{n_i}x_{i}^{2} \exp(z_{ij})$$

$$\dfrac{\partial^{2} \log L(\theta)}{\partial \sigma^{2}}=\dfrac{1}{\sigma^2}\left(r+2\sum_{i=1}^{m}\sum_{j=1}^{n_i}z_{ij}-\sum_{i=1}^{m}\sum_{j=1}^{n_i}z_{ij}^{2} \exp(z_{ij})\right)$$

$$\dfrac{\partial^{2} \log L(\theta)}{\partial \beta_{0} \partial \beta_{1}}=\dfrac{\partial^{2} \log L(\theta)}{\partial \beta_{1} \partial \beta_{0}}=\dfrac{1}{\sigma^2}\sum_{i=1}^{m}\sum_{j=1}^{n_i}x_{i} \exp(z_{ij})$$

$$\dfrac{\partial^{2} \log L(\theta)}{\partial \beta_{0} \partial \sigma}=\dfrac{1}{\sigma^2} \sum_{i=1}^{m}~\sum_{j=1}^{n_i}x_i \exp(z_{ij})z_{ij}$$

$$\dfrac{\partial^{2} \log L(\theta)}{\partial \beta_{1} \partial \sigma}=\dfrac{1}{\sigma^2}\left(\sum_{i=1}^{m}\sum_{j=1}^{n_i}z_{ij}^2 \exp(z_{ij})\right).$$

Precisão das Estimativas e Intervalos de Confiança

Se $\widehat{\theta}$ é o estimador de máxima verossimilhança dos parâmetros do modelo, então temos que

$$Var(\widehat{\theta}) \approx [E(-F)]^{-1}$$

em que F é a matriz de derivadas segunda de $\log(L(θ))$.

A seguir, apresentamos o intervalo de 95% de confiança para os parâmetros do modelo no caso das distribuições exponencial e Weibull.

Distribuição Exponencial

No caso da distribuição exponencial, o modelo é dado por

$$y_{ij} - \beta_0 - \beta_1x_i + \varepsilon_{ij},$$

sendo o vetor de parâmetros dado por $\theta=(\beta_0,\beta_1)$.

Se $\widehat{\theta}=(\widehat{\beta_0},\widehat{\beta_1})$ o estimador de máxima verossimilhança de $\theta,$ então um intervalo de 95% de confiança para $\beta_1$ é dado por

$$\widehat{\beta_1} \pm 1,96 \times (f_{22})^{1/2},$$

em que $f_{22}$ é o elemento da matriz $(-F)^{-1}$ que corresponde a $\partial^{2} \log L(\theta)/\partial \beta_{1}^{2}.$

Analogamente, um intervalo 95% de confiança para $\beta_0$ é dado por

$$\widehat{\beta_0} \pm 1,96 \times (f_{11})^{1/2},$$

em que $f_{11}$ é o elemento da matriz $(-F)^{-1}$ que corresponde a $\partial^{2} \log L(\theta)/\partial \beta_{0}^{2}.$

Distribuição Weibull

No caso da distribuição Weibull, o modelo é dado por

$$y_{ij}-\beta_0-\beta_1x_i+\sigma~\varepsilon_{ij},$$

sendo o vetor de parâmetros dado por $\theta=(\beta_0,\beta_1,\sigma ).$

Se $\widehat{\theta}=(\widehat{\beta_0},\widehat{\beta_1},\widehat{\sigma})$ é o estimador de máxima verossimilhança de $\theta$, então um intervalo de 95% de confiança para $\beta_1$ é dado por

$$\widehat{\beta_1} \pm 1,96 \times (f_{22})^{1/2}$$

em que $f_{22}$ é o elemento da matriz $(-F)^{-1}$.

6.4 - Adequação do Modelo

A adequação do modelo é realizada essencialmente por meio dos resíduos do modelo ajustado. Uma análise dos resíduos ajuda a determinar se as suposições feitas sobre o modelo são adequadas.

A maior parte da análise de resíduos baseia-se no exame de gráficos. As técnicas gráficas são bastante utilizadas para examinar diferentes aspectos do modelo, um desses aspectos é avaliar a distribuição do erros. A análise dos resíduos não tem como objetivo mostrar que um particular modelo está correto, e sim rejeitar modelos inapropriados.

Nesta seção, tratamos em particular dos resíduos padronizados.

Resíduos Padronizados

Os resíduos padronizados são úteis para verificar se a distribuição proposta para o modelo está adequada. Esses resíduos são baseados na representação dos modelos log-lineares apresentados na seção Forma Geral do Modelo.

Dessa forma, os resíduos padronizados são calculados por:

$$\widehat{\varepsilon_{i}}=\dfrac{(\log(t_i)-\mathbf{x^{\prime}}_i\hat{\mathbf{\beta}})}{\hat{\sigma}}$$

em que $\widehat{\varepsilon_{i}}$ tem distribuição Valor Extremo padrão, ou seja, quando $\mu = 0$ e $\sigma = 1$ na distribuição Valor Extremo.

Exemplo 6.4.1

Voltamos agora ao Exemplo 6.1.1, para o qual faremos a modelagem e análise estatística dos resultados.

Para fazer o ajuste do modelo Weibull aos dados, consideramos para o tempo de vida dos componentes eletrônicos o seguinte modelo

$$Y = \log(T) = \beta_0 + \beta_1 X + \sigma \epsilon,$$

em que $\epsilon$ tem distribuição Valor Extremo padrão. Ou equivalentemente,

$$T = \exp(\beta_0 + \beta_1 X + \sigma \epsilon),$$

em que $T$ tem distribuição de Weibull com parâmetros $\alpha(x)$ e $\delta.$

Os parâmetros a serem estimados pelo modelo são $\beta_0$, $\beta_1$ e $\sigma$. Note que temos apenas uma variável de estresse nesse caso.

Usando o software estatístico Action, obtemos as seguinte estimativas para os parâmetros do modelo:

Estimativa Desvio-padrão z p-valor
$ \beta_0 $ 25,818 2,450 10,539 5,69034E-26
$ \beta_1 $ -0,739 0,082 -9,042 1,53658E-19
$ \log(\sigma) $ -0,495 0,142 -3,497 0,00047

Tabela 1.6.2: Estimativas dos parâmetros.

Com isso calculamos os tempos médios até a falha dos componentes eletrônicos para as voltagens 28, 30 e 32 Kilovolts.

Considerando a voltagem x = 28:

$$\hat{\alpha}(x) = \exp(\hat{\beta_0} + \hat{\beta_1}x) = \exp(25,818 - 0,739\times28) = 168,342$$

$$\hat{\delta} = \dfrac{1}{\exp(\log(\hbox{scale}))} = \dfrac{1}{\hat{\sigma}} = \dfrac{1}{0,610} = 1,639$$

Assim, temos que

$$\hbox{MTTF}=\hat{\alpha}\Gamma\left(1+\dfrac{1}{\hat{\delta}}\right)=168,342\times\Gamma(1,610) = 150,092$$

Os resultados para todas as voltagens são apresentados na Tabela 6.4.2.

Voltagem Tempo Médio
28 150,092
30 34,227
32 7,805

Tabela 1.6.3: Tempo médio até a falha do componente.

Os valores dos quantis 0,1; 0,5 e 0,9 para as voltagens de 28, 30 e 32 kilovolts são dados na Tabela 1.6.4.

Considerando, por exemplo, a voltagem x = 28, o valor do quantil 0,1 é dado por:

$$t_p = \hat{\alpha}[-\log(1 - p)]^{1/\widehat{\delta}},$$

então,

$$t_{0,1} = 168,342\times[-\log(1 - 0,1)]^{1/1,639} = 42,564$$

Voltagem Percentual de Falhas Tempo
28 0,1 42,564
28 0,5 134,184
28 0,9 278,926
30 0,1 9,706
30 0,5 30,600
30 0,9 63,606
32 0,1 2,213
32 0,5 6,978
32 0,9 14,505

Tabela 1.6.4: Quantis do tempo até a falha do componente.

Os percentuais de falha para as voltagens 28, 30 e 32 kilovolts são apresentados na Tabela 6.4.4 e calculados como segue.

Considerando o tempo de falha 128 minutos e a voltagem x= 28, temos:

$$\hat{R}(t) = \exp\left(-\left(\dfrac{t}{\hat{\alpha}}\right)^{\widehat{\delta}}\right)$$

assim,

$$\hat{R}(128) = \exp\left(-\left(\dfrac{128}{168,342}\right)^{1,639}\right) = 0,528$$

Logo, o percentual de falha para o tempo de 128 minutos na voltagem de 28 kV é dado por:

$$1 - \hat{R}(128) = 0,474.$$

Voltagem Tempo Percentual de Falhas
28 128 0,474
28 68,85 0,207
28 150 0,565
28 110,29 0,395
28 108,29 0,386
28 180 0,674
28 70 0,212
28 135 0,503
28 174 0,654
28 76,65 0,242
28 170,06 0,640
30 81 0,967
30 47,05 0,754
30 35,66 0,590
30 72 0,941
30 39,85 0,657
30 54 0,828
30 35,76 0,591
30 40,25 0,663
30 83 0,972
30 40 0,659
30 32,76 0,539
32 12 0,815
32 0,4 0,006
32 3,91 0,235
32 9,88 0,707
32 0,69 0,015
32 2,75 0,140
32 15,93 0,932
32 5,75 0,396
32 4,25 0,265
32 3,75 0,221
32 0,7 0,016

Tabela 1.6.5: Percentuais de falha do componente.

As curvas de sobrevivência e taxa de falha para as voltagens de 28, 30 e 32 KV estimadas pelo modelo Weibull são dadas pelas Figuras 6.4.1 e 6.4.2.

grafico-confiabilidade

Figura 6.4.1: Gráfico da confiabilidade.

Note que na Figura 6.4.1 o tempo de vida dos componentes eletrônicos submetidos à uma menor tensão é superior ao dos componentes submetidos à maior tensão durante o tempo de acompanhamento. Para os componentes submetidos à tensão de 28 kV, o tempo para que cerca de 50% (tempo mediano) deles falham é de 135 minutos, enquanto que, para os componentes submetidos à tensão de 30 kV é de 31 minutos e para os submetidos à tensão de 32 kV o tempos é de 7 minutos. Uma outra informação importante é o percentual de componentes que ainda funcionam até um determinado tempo de interesse. Por exemplo, para os componentes submetidos à 28 kV de tensão, cerca de 80% deles ainda funcionam após 70 minutos do início da contagem do tempo, já para aqueles submetidos à 30 kV de tensão, aproximadamente 6% ainda funcionam, e para os componentes submetidos à 32 kV de tensão, nenhum continuou funcionando.

grafico-taxa-falha

Figura 6.4.2: Gráfico da Taxa de Falha.

Podemos observar na Figura 6.4.2 que a função taxa de falha para o tempo de vida dos componentes eletrônicos é crescente, principalmente para valores maiores de tensão, ou seja, os componentes tendem a falhar mais com o aumento da tensão.

Por fim, para avaliar se a distribuição proposta com o modelo está adequada ao conjunto de dados devemos fazer uma análise dos resíduos.

Os resíduos padronizados com distribuição Valor Extremo padrão são calculados como segue e apresentados na Tabela 6.4.5.

Considerando o tempo de 128 minutos e a voltagem x = 28 kV, o resíduo padronizado é dado por:

$$\widehat{\varepsilon_{i}}=\dfrac{(\log(t_i)-\mathbf{x^{\prime}}_i\hat{\mathbf{\beta}})}{\hat{\sigma}} =\dfrac{(\log(t_i)-(\hat{\beta_0}+\hat{\beta_1}x))}{\hat{\sigma}}$$

logo,

$$\widehat{\varepsilon_{i}}=\dfrac{\log(128)-(25,818-0,739\times28)}{0,610}=-0,4439.$$

Tempo Voltagem Resíduos
128 28 -0,4439
68,85 28 -14,613
150 28 -0,1837
110,29 28 -0,6883
108,29 28 -0,7183
180 28 0,11543
70 28 -14,341
135 28 -0,3566
174 28 0,05981
76,65 28 -12,852
170,06 28 0,02223
81 30 123,064
47,05 30 0,33936
35,66 30 -0,1154
72 30 10,374
39,85 30 0,06686
54 30 0,5654
35,76 30 -0,1108
40,25 30 0,08325
83 30 127,066
40 30 0,07302
32,76 30 -0,2546
12 32 0,523
0,4 32 -50,573
3,91 32 -13,168
9,88 32 0,20406
0,69 32 -41,627
2,75 32 -18,942
15,93 32 0,9878
5,75 32 -0,6841
4,25 32 -1,18
3,75 32 -13,854
0,7 32 -41,391

Tabela 6.4.5: Resíduos padronizados com distribuição Valor Extremo padrão ajustados para os dados dos componentes eletrônicos.

Equivalentemente, os resíduos padronizados do modelo Weibull ajustado são apresentados na Tabela 6.4.6 e calculados por:

$$\exp(\widehat{\varepsilon_{i}})=\exp\left(\dfrac{(\log(t_i)-\mathbf{x^{\prime}}_i\hat{\mathbf{\beta}})}{\hat{\sigma}}\right)=\exp\left(\dfrac{\log(128)-(25,818-0,739\times28)}{0,610}\right)=0,6415.$$

Tempo Voltagem Resíduos
128 28 0,6415
68,85 28 0,2319
150 28 0,8322
110,29 28 0,5025
108,29 28 0,4876
180 28 11,224
70 28 0,2383
135 28 0,7001
174 28 10,616
76,65 28 0,2766
170,06 28 10,225
81 30 34,234
47,05 30 14,040
35,66 30 0,8910
72 30 28,219
39,85 30 10,691
54 30 17,602
35,76 30 0,8951
40,25 30 10,868
83 30 35,632
40 30 10,758
32,76 30 0,7752
12 32 16,871
0,4 32 0,0064
3,91 32 0,268
9,88 32 12,264
0,69 32 0,0156
2,75 32 0,1504
15,93 32 26,853
5,75 32 0,5046
4,25 32 0,3073
3,75 32 0,2502
0,7 32 0,0159

Tabela 6.4.6: Resíduos padronizados do modelo Weibull ajustado para os dados dos componentes eletrônicos.

A Figura 6.4.3 apresenta o gráfico dos resíduos padronizados com distribuição Valor Extremo padrão ajustados para os dados dos componentes eletrônicos.

residuos-padronizados

Figura 6.4.3: Análise dos resíduos padronizados com distribuição Valor Extremo padrão ajustados para os dados dos componentes eletrônicos.

A partir da Figura 6.4.3 é possível observar que as estimativas das curvas de sobrevivência dos resíduos obtidas por Kaplan-Meier e pelo modelo Weibull estão bem próximas, o que indica que a distribuição Weibull proposta pelo modelo é adequada ao conjunto de dados e, portanto as estimativas feitas através desse modelo são aceitáveis.

6.5 - Comparação entre curvas de sobrevivência

Muitas vezes é importante determinar se duas curvas de sobrevivência apresentam diferenças significativas entre si. Como exemplo, considere que o objetivo seja comparar um processo novo com um antigo, ou ainda comparar dois produtos diferentes com relação ao tempo de vida. Para este fim, consideramos nessa seção o teste logrank (Mantel, 1996), que é um dos mais conhecidos e usados na área de confiabilidade.

A estatística do teste é a diferença entre o número observado de falhas em cada grupo e uma quantidade que, para muitos propósitos, pode ser pensada como o correspondente número esperado de falhas sob a hipótese nula. Considere inicialmente, o teste de igualdade de duas funções de sobrevivência $S_{1}$(t) e $S_{2}$(t). Sejam $t_{1}$ $t_{2}$ … $t_{k}$ os tempos de falha distintos da amostra formada pela combinação das duas amostras individuais. Suponha que no tempo $t_{j }$ocorram $d_{j}$ falhas e que $n_{j}$ indivíduos estejam sob risco em um tempo imediatamente inferior a $t_{j}$ na amostra combinada e, respectivamente, $d_{ij}$ e $n_{ij}$ na amostra i = 1, 2 e j = 1, …, k. Em cada tempo de falha $t_{j}$, os dados podem ser dispostos em forma de tabela de contingência 2 x 2 com $d_{ij }$falhas e $n_{ij}$ - $d_{ij}$ sobreviventes na coluna i, como mostra a Tabela 6.5.1.

Screenshot_5

Tabela 6.5.1: Tabela de contingência gerada no tempo $t_{j}$.

Condicionado às ocorrências de falha e censura até o tempo anterior a $t_{j }$(fixando as marginais de coluna) e ao número de falhas no tempo $t_{j }$(fixando as marginais de linha), a distribuição de $d_{2j}$ é uma hipergeométrica:

$$\dfrac{\displaystyle\binom{n_{1j}}{d_{1j}}\binom{n_{2j}}{d_{2j}}}{\displaystyle\binom{n_j}{d_j}}.$$

A média de $d_{2j}$ é $w_{2j}$ = $n_2j×d_j×n_{j}$^-1, o que equivale a dizer que, se não houver diferença entre as duas populações no tempo $t_{j}$, o número total de falhas $d_{j}$ pode ser dividido entre as duas amostras de acordo com a razão entre o número de indivíduos sob risco em cada amostra e o número total de indivíduos sob risco. A variância de $d_{2j}$ obtida a partir da distribuição hipergeométrica é dada por

$$(V_{j})_2 = d_j \left( \frac{n_{1j} n_{2j}}{n_{j}^2} \right) \left( \frac{n_j - d_j }{n_j - 1} \right).$$

Então, a estatística $d_{2j}$ - $w_{2j}$ tem média zero e variância $(V_j)_{2}$. Se as k primeiras tabelas de contingência forem condicionalmente independentes, um teste aproximado para a igualdade das duas funções de sobrevivência pode ser baseado na estatística

$$T=\dfrac{\left[\sum_{j=1}^{k}(d_{2j}-w_{2j})\right]^2}{\sum_{j=1}^{k}\left(V_j\right)_2},$$

em que sob a hipótese nula $H_{0}$: $S_{1}$(t) = $S_{2}$(t), para todo t no período de acompanhamento, tem uma distribuição qui-quadrado com 1 grau de liberdade para grandes amostras.

Exemplo 6.5.1

Um produtor de requeijão realiza um teste de durabilidade de seu produto. O produto é vendido a temperatura ambiente e sem conservantes. O evento de interesse é o aparecimento de algum fungo no produto. Os dados são apresentados na tabela a seguir, em que o tempo é medido em horas. O símbolo + indica censura.

Existe diferença entre as duas embalagens com relação à durabilidade do produto?

Screenshot_6

Resolução:

Vamos comparar os tempos de durabilidade utilizando o teste Log-Rank disponível no Software Action.

teste-logran

O teste Log-Rank é utilizado para testar a hipótese nula de que não há diferença entre os grupos. De acordo com o p-valor obtido, 0,9362, podemos concluir que não há diferença significativa entre as duas embalagens com relação à durabilidade do produto.