4.5 Aplicações
Neste módulo, apresentamos algumas aplicações aos modelos de regressão linear.
5.1 - Seleção de Modelos
Dados
Utilizamos um conjunto de dados reais composto por 14 variáveis. São elas: Desgaste, C, Si, Mn, Cu, Cr, P, S, Ti, Graf_A, Graf_B, Graf_E, Hardness e UTS. O tamanho da amostra foi de 54 observações.
Objetivo
Ajustar um modelo de regressão linear múltipla que explique a variável Desgaste.
Análise
Em uma primeira etapa, verificamos se os dados apresentam problemas como multicolinearidade entre as variáveis, pontos influentes etc. Então, utilizando técnicas de seleção de variáveis, encontramos um modelo de regressão linear múltipla que melhor explique a variável desgaste.
5.1.1 - Ajuste do Modelo Completo
Considerando o modelo de regressão linear múltipla com todas as variáveis explicativas dadas no conjunto de dados, verificamos inicialmente se há problemas de colinearidade e de multicolinearidade entre as variáveis envolvidas.
Usando o Software Action obtemos os seguintes resultados:
| C | Si | Mn | Cu | Cr | P | S | Ti | GrafA | GrafB | GrafE | Hardness | UTS | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| C | 1 | 0.09442314 | -0.2906318 | -0.06067474 | -0.32624922 | -0.31634526 | 0.51593022 | -0.0468537 | -0.34982349 | 0.37139412 | -0.27368669 | -0.17449262 | 0.16928399 |
| Si | 0.09442314 | 1 | -0.04125796 | 0.0455992 | -0.07804987 | -0.11790694 | 0.08139562 | 0.2663076 | -0.11055589 | 0.04726417 | -0.18830239 | 0.11150915 | -0.04917829 |
| Mn | -0.2906318 | -0.04125796 | 1 | -0.56599183 | 0.96856284 | 0.9406473 | -0.69706876 | 0.24550646 | 0.19569972 | -0.12592053 | 0.26284708 | 0.19612177 | -0.53597992 |
| Cu | -0.06067474 | 0.0455992 | -0.56599183 | 1 | -0.56978242 | -0.58176385 | 0.31436393 | -0.44962775 | 0.21908984 | -0.05591689 | -0.30324746 | -0.00707596 | 0.38123804 |
| Cr | -0.32624922 | -0.07804987 | 0.96856284 | -0.56978242 | 1 | 0.94899567 | -0.75353426 | 0.33697794 | 0.21939899 | -0.15916407 | 0.28873426 | 0.24964814 | -0.53892493 |
| P | -0.31634526 | -0.11790694 | 0.9406473 | -0.58176385 | 0.94899567 | 1 | -0.74746068 | 0.35647319 | 0.22215561 | -0.19686495 | 0.31914567 | 0.24602465 | -0.50442569 |
| S | 0.51593022 | 0.08139562 | -0.69706876 | 0.31436393 | -0.75353426 | -0.74746068 | 1 | -0.36510527 | -0.34358299 | 0.30724003 | -0.28540281 | -0.26601647 | 0.46421278 |
| Ti | -0.0468537 | 0.2663076 | 0.24550646 | -0.44962775 | 0.33697794 | 0.35647319 | -0.36510527 | 1 | 0.03806445 | -0.16548338 | 0.00339136 | 0.12853031 | -0.21207247 |
| GrafA | -0.34982349 | -0.11055589 | 0.19569972 | 0.21908984 | 0.21939899 | 0.22215561 | -0.34358299 | 0.03806445 | 1 | -0.66570842 | -0.22261858 | -0.02181 | -0.00581586 |
| GrafB | 0.37139412 | 0.04726417 | -0.12592053 | -0.05591689 | -0.15916407 | -0.19686495 | 0.30724003 | -0.16548338 | -0.66570842 | 1 | -0.25681866 | -0.29740824 | 0.04338497 |
Tabela 4.4.19: Matriz de correlação para as covariáveis do modelo.
| C | Si | Mn | Cu | Cr | P | S | Ti | GrafA | GrafB | GrafE | Hardness | UTS | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| VIF | 1.65105887 | 1.49976786 | 27.90814433 | 2.7118774 | 28.09605187 | 14.05106142 | 3.52087768 | 2.40391041 | 4.65482723 | 3.76303727 | 2.50834051 | 1.72759085 | 1.71463326 |
Tabela 4.4.20: VIF das variáveis - diagnóstico de multicolinearidade.
Analisando a Tabela 4.4.19 observamos que os valores encontrados superiores a 0,9 são das covariáveis Cr:Mn, Cr:P e Mn:P. Na Tabela 4.4.20 verificamos que o valor do VIF da covariável Cr é o maior valor entre os VIFs calculados. Além disso, o valor encontrado é maior do que 10. Desta forma, temos indícios de que a covariável Cr tem problema de multicolinearidade. Logo, consideramos o modelo de regressão linear múltipla sem a covariável Cr e então recalculamos os valores do VIF das covariáveis, como mostrado na Tabela 4.4.21.
| C | Si | Mn | Cu | P | S | Ti | GrafA | GrafB | GrafE | Hardness | UTS | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| VIF | 1.64763292 | 1.42313536 | 12.1367566 | 2.70838057 | 13.77029324 | 3.4296649 | 2.13117201 | 4.45379464 | 3.57223273 | 2.46809758 | 1.59903502 | 1.67421186 |
Tabela 4.4.21: VIF das variáveis considerando o modelo sem a covariável Cr - diagnóstico de multicolinearidade.
Observamos na Tabela 4.4.21 que o valor do VIF da covariável P é o maior entre os VIFs calculados. Como o valor encontrado é maior do que 10, retiramos a covariável P do modelo e recalculamos os valores do VIF das covariáveis restantes, que pode ser observado na Tabela 4.4.22.
| C | Si | Mn | Cu | S | Ti | GrafA | GrafB | GrafE | Hardness | UTS | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| VIF | 1.64570028 | 1.27686526 | 3.50307189 | 2.69533771 | 3.32181921 | 1.86685237 | 4.40508812 | 3.5661504 | 2.41788835 | 1.567857 | 1.67418835 |
Tabela 4.4.22: VIF das variáveis considerando o modelo sem as covariáveis Cr e P - diagnóstico de multicolinearidade.
Analisando a Tabela 4.4.22 percebemos que nenhum dos valores de VIF calculados é superior a 10. Assim, não temos indícios de multicolinearidade entre as covariáveis do modelo em questão. Logo, consideramos o modelo sem as covariáveis explicativas Cr e P nas análises subsequentes.
Após avaliarmos a colinearidade e a multicolinearidade entre as covariáveis envolvidas, realizamos um diagnóstico de outlier a fim de detectar se alguma observação é outlier e ponto influente.
Para uma observação ser outlier em X, o hii precisa ser maior que 0,44 (2(p+1)/n). Verificamos , através da Figura 4.4.6, que uma observação apresenta valor maior que 0,44 e por isso é outlier em X. Pela Figura 4.4.7 observamos que a terceira observação é um outlier em Y pois os valores dos resíduos studentizados e padronizados são maiores que 3.
A fim de confirmar a análise gráfica, pelo teste de Bonferroni da Tabela 4.4.23 rejeitamos a hipótese de que a observação 3 não é um outlier.
Pela Figura 4.4.8 percebemos que além de outliers, a observação 3 é um ponto influente pois os seus valores de DFBetas para as variáveis “Hardness” e “UTS” são maiores que 1.
Figura 4.4.6: Boxplot (hii(Leverage)) dos dados sem as covariàveis Cr e P.
Figura 4.4.7: Resíduos padronizados e studentizados versus valores ajustados
| Observação | t-Valor | P-valor | P-valor Bonferroni |
|---|---|---|---|
| 3 | 4.5022 | 0.0001 | 0.003 |
Tabela 4.4.23: Teste de Bonferroni para outliers
Figura 4.4.8: Gráficos das medidas de influência das observações
Como vimos que a observação 3 é um outlier e um ponto influente no ajuste, vamos realizar a seleção de variáveis sem considerar essa observação para que ela não influencie na significância ou não na seleção das variáveis importantes para o modelo. Na Tabela 4.4.24 e 4.4.25 temos o ajuste do modelo com a estimativa e significância dos parâmetros sem considerar a observação 3.
Resultados obtidos pelo software Action:
| G.L. | Soma de Quadrados | Quadrado Médio | Estat. F | P-valor | |
|---|---|---|---|---|---|
| C | 1 | 0.00447605 | 0.00447605 | 8.09763516 | 0.0068894 |
| Si | 1 | 0.00000303 | 0.00000303 | 0.00548284 | 0.94133371 |
| Mn | 1 | 0.06679093 | 0.06679093 | 120.83167009 | 0 |
| Cu | 1 | 0.00064387 | 0.00064387 | 1.16483415 | 0.28677374 |
| S | 1 | 0.00061229 | 0.00061229 | 1.10768794 | 0.29874863 |
| Ti | 1 | 0.00002009 | 0.00002009 | 0.03635106 | 0.8497333 |
| GrafA | 1 | 0.00063064 | 0.00063064 | 1.14088953 | 0.29171329 |
| GrafB | 1 | 0.00000777 | 0.00000777 | 0.01405586 | 0.90620498 |
| GrafE | 1 | 0.00047844 | 0.00047844 | 0.86555506 | 0.35763462 |
| Hardness | 1 | 0.00000134 | 0.00000134 | 0.00242705 | 0.96094722 |
| UTS | 1 | 0.00010105 | 0.00010105 | 0.18281548 | 0.67120214 |
| Resíduos | 41 | 0.02266317 | 0.00055276 |
Tabela 4.4.24: Tabela da ANOVA do modelo sem as variáveis Cr e P e sem a observação 3.
| Estimativa | Desvio Padrão | Estat.t | P-valor | |
|---|---|---|---|---|
| Intercepto | -0.63863285 | 0.38016145 | -1.67989902 | 0.10058241 |
| C | 0.10094215 | 0.08525051 | 1.18406504 | 0.24320662 |
| Si | 0.01589209 | 0.07180176 | 0.22133285 | 0.82593193 |
| Mn | 0.45760048 | 0.07797282 | 5.86871776 | 6.7e-7 |
| Cu | 0.01174926 | 0.04297257 | 0.2734129 | 0.78590846 |
| S | -0.17395844 | 0.19752835 | -0.88067583 | 0.38362672 |
| Ti | -0.67971907 | 1.24182616 | -0.54735444 | 0.5871026 |
| GrafA | 0.00014646 | 0.00115258 | 0.12707244 | 0.89950424 |
| GrafB | -0.00062374 | 0.0012045 | -0.51783936 | 0.60735348 |
| GrafE | -0.00190851 | 0.00230969 | -0.82630398 | 0.41341453 |
| Hardness | 0.00002041 | 0.00050686 | 0.04027472 | 0.96806959 |
| UTS | -0.00010552 | 0.00024679 | -0.42756927 | 0.67120214 |
Tabela 4.4.25: Coeficientes do modelo sem as variáveis Cr e P e sem a observação 3.
Observamos que apesar de duas covariáveis e o outlier (observação 3) serem retiradas do modelo, há covariáveis no modelo que apresentam p-valor maior que o nível de significância 0,05. Será apresentado a seguir meios para selecionar variàveis.
5.1.2 - Seleção de Variáveis
Para selecionar as variáveis que explicam a variável Desgaste, vamos considerar os métodos automáticos de seleção pela estatística F (Stepwise, Forward e Backward) e avaliar os critérios de seleção de todos os modelos possíveis: $R^2$, $R^2_{a}$, Cp de Mallows, QME, Press, AIC e BIC.
5.1.2.1 Seleção Automática
Dos dados originais, estamos considerando na seleção de variáveis os dados sem as variáveis Cr e P por problema de multicolinearidade e sem a observação 3 por ser esse um outlier influente.
Considerando $\alpha_{entrar}=0,15$ e $\alpha_{sair}=0,2$, nas tabelas a seguir temos a seleção Stepwise, Forward e Backward, respectivamente. Percebemos que a variável selecionada pelos métodos Stepwise e Forward foi Mn (os resultados obtidos são idênticos). O método Backward selecionou as variáveis: Mn e Graf_E. Além disso, pelas 3 tabelas ANOVA obtidas, apenas as variáveis Mn e C apresentaram p-valor menor que 0.05.
Seleção Stepwise:
| Modelo(Steps) | Variável Entrou | Variável Saiu | Estatística F | P-Valor |
|---|---|---|---|---|
| Modelo 1 | Mn | 142.5168 | 2.194207e-16 | |
| Modelo Selecionado | C+Si+Mn+Cu+S+Ti+GrafA+GrafB+GrafE+Hardness+UTS |
Tabela 4.4.26: Tabela da seleção de modelos por Stepwise (Critério de seleção por teste F)
| G.L. | Soma de Quadrados | Quadrado Médio | Estat. F | P-valor | |
|---|---|---|---|---|---|
| C | 1 | 0.00447605 | 0.00447605 | 8.09763516 | 0.0068894 |
| Si | 1 | 0.00000303 | 0.00000303 | 0.00548284 | 0.94133371 |
| Mn | 1 | 0.06679093 | 0.06679093 | 120.83167009 | 0 |
| Cu | 1 | 0.00064387 | 0.00064387 | 1.16483415 | 0.28677374 |
| S | 1 | 0.00061229 | 0.00061229 | 1.10768794 | 0.29874863 |
| Ti | 1 | 0.00002009 | 0.00002009 | 0.03635106 | 0.8497333 |
| GrafA | 1 | 0.00063064 | 0.00063064 | 1.14088953 | 0.29171329 |
| GrafB | 1 | 0.00000777 | 0.00000777 | 0.01405586 | 0.90620498 |
| GrafE | 1 | 0.00047844 | 0.00047844 | 0.86555506 | 0.35763462 |
| Hardness | 1 | 0.00000134 | 0.00000134 | 0.00242705 | 0.96094722 |
| UTS | 1 | 0.00010105 | 0.00010105 | 0.18281548 | 0.67120214 |
| Resíduos | 41 | 0.02266317 | 0.00055276 |
Tabela 4.4.27: Tabela da ANOVA do modelo obtido por Stepwise (Critério de seleção por teste F)
Seleção Forward:
| Modelo(Steps) | Variável Entrou | Variável Saiu | Estatística F | P-Valor |
|---|---|---|---|---|
| Modelo 1 | Mn | 142.5168 | 2.194207e-16 | |
| Modelo Selecionado | C+Si+Mn+Cu+S+Ti+GrafA+GrafB+GrafE+Hardness+UTS |
Tabela 4.4.28: Tabela da seleção de modelos por Forward (Critério de seleção por teste F)
| G.L. | Soma de Quadrados | Quadrado Médio | Estat. F | P-valor | |
|---|---|---|---|---|---|
| C | 1 | 0.00447605 | 0.00447605 | 8.09763516 | 0.0068894 |
| Si | 1 | 0.00000303 | 0.00000303 | 0.00548284 | 0.94133371 |
| Mn | 1 | 0.06679093 | 0.06679093 | 120.83167009 | 0 |
| Cu | 1 | 0.00064387 | 0.00064387 | 1.16483415 | 0.28677374 |
| S | 1 | 0.00061229 | 0.00061229 | 1.10768794 | 0.29874863 |
| Ti | 1 | 0.00002009 | 0.00002009 | 0.03635106 | 0.8497333 |
| GrafA | 1 | 0.00063064 | 0.00063064 | 1.14088953 | 0.29171329 |
| GrafB | 1 | 0.00000777 | 0.00000777 | 0.01405586 | 0.90620498 |
| GrafE | 1 | 0.00047844 | 0.00047844 | 0.86555506 | 0.35763462 |
| Hardness | 1 | 0.00000134 | 0.00000134 | 0.00242705 | 0.96094722 |
| UTS | 1 | 0.00010105 | 0.00010105 | 0.18281548 | 0.67120214 |
| Resíduos | 41 | 0.02266317 | 0.00055276 |
Tabela 4.4.29: Tabela da ANOVA do modelo obtido por Forward (Critério de seleção por teste F)
Seleção Backward:
| Modelo(Steps) | Variável Saiu | Estatística F | P-Valor |
|---|---|---|---|
| Modelo 1 | Hardness | 0.001622053 | 0.9680696 |
| Modelo 2 | GrafA | 0.014902578 | 0.9034210 |
| Modelo 3 | Si | 0.045222073 | 0.8326011 |
| Modelo 4 | Cu | 0.146893906 | 0.7033671 |
| Modelo 5 | UTS | 0.173863012 | 0.6786837 |
| Modelo 6 | Ti | 0.690751167 | 0.4102024 |
| Modelo 7 | S | 0.904061181 | 0.3465592 |
| Modelo 8 | C | 0.592679530 | 0.4451572 |
| Modelo 9 | GrafB | 1.078111705 | 0.3042171 |
| Modelo Selecionado | C+Si+Mn+Cu+S+Ti+GrafA+GrafB+GrafE+Hardness+UTS |
Tabela 4.4.30: Tabela da seleção de modelos por Backward (Critério de seleção por teste F)
| G.L. | Soma de Quadrados | Quadrado Médio | Estat. F | P-valor | |
|---|---|---|---|---|---|
| C | 1 | 0.00447605 | 0.00447605 | 8.09763516 | 0.0068894 |
| Si | 1 | 0.00000303 | 0.00000303 | 0.00548284 | 0.94133371 |
| Mn | 1 | 0.06679093 | 0.06679093 | 120.83167009 | 0 |
| Cu | 1 | 0.00064387 | 0.00064387 | 1.16483415 | 0.28677374 |
| S | 1 | 0.00061229 | 0.00061229 | 1.10768794 | 0.29874863 |
| Ti | 1 | 0.00002009 | 0.00002009 | 0.03635106 | 0.8497333 |
| GrafA | 1 | 0.00063064 | 0.00063064 | 1.14088953 | 0.29171329 |
| GrafB | 1 | 0.00000777 | 0.00000777 | 0.01405586 | 0.90620498 |
| GrafE | 1 | 0.00047844 | 0.00047844 | 0.86555506 | 0.35763462 |
| Hardness | 1 | 0.00000134 | 0.00000134 | 0.00242705 | 0.96094722 |
| UTS | 1 | 0.00010105 | 0.00010105 | 0.18281548 | 0.67120214 |
| Resíduos | 41 | 0.02266317 | 0.00055276 |
Tabela 4.4.31: Tabela da ANOVA do modelo obtido por Backward (Critério de seleção por teste F)
5.1.2.2 Seleção de Todos os Modelos Possíveis
Vamos avaliar então os critérios de todos os modelos possíveis e verificar aqueles que apresentam melhores resultados nesses critérios.
Observamos pela Tabela 4.4.32 que os modelos “Mn+S”, “Mn+Graf_B” e “Mn+Graf_A” tem os menores valores de AIC. Além disso, é válido notar que os modelos “Mn+Graf_E” e “Mn” escolhidos pelos métodos acima, está dentre os melhores 10 modelos com diferença pequena. Assim, verificaremos o desempenho desses modelos em relação aos outros critérios de seleção.
Na Tabela 4.4.33 temos os 10 modelos dentre todos os possíveis com menores BIC. Verificamos que o modelo “Mn” tem o primeiro menor BIC e o modelo “Mn+Graf_E” é o segundo.
O modelo “C+Mn” apresenta o menor PRESS, como observamos na Tabela 4.4.34. Já os quatro modelos candidatos: “Mn+Graf_E”, “Mn+Graf_B”,“Mn” e “Mn+Graf_A” estão entre os dez com menor PRESS.
Pela Tabela 4.4.35 observamos que pelo critério Cp de Mallows, nenhum dos cinco modelos estão entre os dez com melhores valores de Cp. Observamos que os modelos “Mn+Graf_B”, “Mn+Graf_A”, “Mn+Graf_E” e “Mn” ocupam a posição 88º, 90º, 91º e 92º, respectivamente, de melhor Cp de Mallows.
Em relação ao critério QME, observamos que os valores desse critério não se diferem muito de um modelo para outro. Podemos perceber através da Tabela 4.4.36 que os modelos “Mn+Graf_E” e “Mn+Graf_A” estão entre os dez modelos com menores QME. E os modelos “Mn” e “Mn+Graf_B” se encontram na posição 30º e 41º, respectivamente.
Através da Tabela 4.4.37 temos os dez modelos com maiores $R^2$. Observamos que os modelos com maiores $R^2$ são aqueles com maior número de variáveis, cujo motivo descrevemos na “Seleção de Variáveis do Capítulo de Regressão Múltipla”. Já em relação ao $R^2_a$, observamos pela Tabela 4.4.38 que os modelos “Mn+Graf_E” e “Mn+Graf_A” estão entre os de maior valor do critério e o 37º modelo com maior $R^2_a$ não diferem muito.
Após comparar os modelos e verificar o ajuste de cada um, percebemos que o modelo indicado pelos métodos Stepwise e Forward obtém bons valores dos critérios de seleção, em que quando não está entre os dez melhores modelos em determinado critério, não se diferencia muito dos melhores.
Assim, o modelo escolhido e que vamos ajustar é “Mn”.
| AIC | CP | $R^2$ | $R^2$ Ajustado | BIC | PRESS | QME | |
|---|---|---|---|---|---|---|---|
| Mn + GrafE | -248.668 | -2.735 | 0.746 | 0.736 | -240.787 | 0.029 | 0.000489361 |
| Mn | -248.66 | -3.025 | 0.736 | 0.731 | -242.749 | 0.028 | 0.000498296 |
| Mn + GrafA | -248.427 | -2.533 | 0.745 | 0.735 | -240.546 | 0.028 | 0.000491594 |
| C + Mn + GrafA | -247.824 | -1.689 | 0.752 | 0.737 | -237.972 | 0.03 | 0.000488583 |
| Mn + GrafB + GrafE | -247.822 | -1.688 | 0.752 | 0.737 | -237.971 | 0.029 | 0.000488598 |
| Mn + GrafA + GrafE | -247.609 | -1.514 | 0.751 | 0.735 | -237.758 | 0.03 | 0.000490561 |
| Mn + Cu | -247.556 | -1.796 | 0.741 | 0.731 | -239.675 | 0.029 | 0.000499739 |
| Mn + S + GrafE | -247.447 | -1.381 | 0.75 | 0.735 | -237.596 | 0.03 | 0.000492063 |
| Mn + GrafB | -247.18 | -1.474 | 0.739 | 0.729 | -239.299 | 0.029 | 0.000503295 |
| Mn + S | -247.147 | -1.445 | 0.739 | 0.728 | -239.265 | 0.029 | 0.000503617 |
Tabela 4.4.32: Seleção de todos modelos possíveis pelo critério AIC
| BIC | CP | $R^2$ | $R^2$ Ajustado | AIC | PRESS | QME | |
|---|---|---|---|---|---|---|---|
| Mn | -242.749 | -3.025 | 0.736 | 0.731 | -248.66 | 0.028 | 0.000498296 |
| Mn + GrafE | -240.787 | -2.735 | 0.746 | 0.736 | -248.668 | 0.029 | 0.000489361 |
| Mn + GrafA | -240.546 | -2.533 | 0.745 | 0.735 | -248.427 | 0.028 | 0.000491594 |
| Mn + Cu | -239.675 | -1.796 | 0.741 | 0.731 | -247.556 | 0.029 | 0.000499739 |
| Mn + GrafB | -239.299 | -1.474 | 0.739 | 0.729 | -247.18 | 0.029 | 0.000503295 |
| Mn + S | -239.265 | -1.445 | 0.739 | 0.728 | -247.147 | 0.029 | 0.000503617 |
| C + Mn | -239.243 | -1.426 | 0.739 | 0.728 | -247.124 | 0.03 | 0.000503832 |
| Mn + UTS | -239.096 | -1.3 | 0.738 | 0.728 | -246.978 | 0.03 | 0.000505225 |
| Si + Mn | -238.88 | -1.113 | 0.737 | 0.726 | -246.761 | 0.029 | 0.00050729 |
| Mn + Ti | -238.81 | -1.052 | 0.737 | 0.726 | -246.691 | 0.03 | 0.000507962 |
Tabela 4.4.33: Seleção de todos modelos possíveis pelo critério BIC
| PRESS | CP | R^2 | R^2 Ajustado | AIC | BIC | QME | |
|---|---|---|---|---|---|---|---|
| Mn | 0.028 | -3.025 | 0.736 | 0.731 | -248.66 | -242.749 | 0.000498296 |
| Mn + GrafA | 0.028 | -2.533 | 0.745 | 0.735 | -248.427 | -240.546 | 0.000491594 |
| Mn + GrafE | 0.029 | -2.735 | 0.746 | 0.736 | -248.668 | -240.787 | 0.000489361 |
| Mn + Cu | 0.029 | -1.796 | 0.741 | 0.731 | -247.556 | -239.675 | 0.000499739 |
| Mn + GrafB | 0.029 | -1.474 | 0.739 | 0.729 | -247.18 | -239.299 | 0.000503295 |
| Mn + S | 0.029 | -1.445 | 0.739 | 0.728 | -247.147 | -239.265 | 0.000503617 |
| Si + Mn | 0.029 | -1.113 | 0.737 | 0.726 | -246.761 | -238.88 | 0.00050729 |
| Mn + Hardness | 0.029 | -1.041 | 0.737 | 0.726 | -246.679 | -238.797 | 0.000508084 |
| Mn + GrafB + GrafE | 0.029 | -1.688 | 0.752 | 0.737 | -247.822 | -237.971 | 0.000488598 |
| C + Mn | 0.03 | -1.426 | 0.739 | 0.728 | -247.124 | -239.243 | 0.000503832 |
Tabela 4.4.34: Seleção de todos modelos possíveis pelo critério PRESS
| CP | R^2 | R^2 Ajustado | AIC | BIC | PRESS | QME | |
|---|---|---|---|---|---|---|---|
| C + Si + Mn + Cu + S + Ti + GrafA + GrafB + GrafE + Hardness + UTS | 12 | 0.765 | 0.702 | -234.73 | -209.116 | 0.042 | 0.00055276 |
| C + Si + Mn + Cu + Ti + GrafA + GrafB + GrafE + Hardness + UTS | 10.776 | 0.761 | 0.704 | -235.737 | -212.093 | 0.041 | 0.000549807 |
| C + Si + Mn + Cu + S + Ti + GrafA + GrafB + Hardness + UTS | 10.683 | 0.761 | 0.704 | -235.854 | -212.211 | 0.04 | 0.000548585 |
| Si + Mn + Cu + S + Ti + GrafA + GrafB + GrafE + Hardness + UTS | 11.402 | 0.757 | 0.699 | -234.948 | -211.304 | 0.04 | 0.000558051 |
| C + Si + Mn + Cu + S + GrafA + GrafB + GrafE + Hardness + UTS | 10.3 | 0.763 | 0.707 | -236.344 | -212.7 | 0.038 | 0.000543542 |
| C + Si + Mn + Cu + S + Ti + GrafA + GrafE + Hardness + UTS | 10.268 | 0.763 | 0.707 | -236.384 | -212.741 | 0.04 | 0.000543128 |
| C + Si + Mn + Cu + S + Ti + GrafA + GrafB + GrafE + Hardness | 10.183 | 0.764 | 0.708 | -236.494 | -212.85 | 0.039 | 0.000542005 |
| C + Si + Mn + S + Ti + GrafA + GrafB + GrafE + Hardness + UTS | 10.075 | 0.765 | 0.708 | -236.633 | -212.99 | 0.04 | 0.000540583 |
| C + Mn + Cu + S + Ti + GrafA + GrafB + GrafE + Hardness + UTS | 10.049 | 0.765 | 0.709 | -236.666 | -213.023 | 0.04 | 0.000540244 |
| C + Si + Mn + Cu + S + Ti + GrafB + GrafE + Hardness + UTS | 10.016 | 0.765 | 0.709 | -236.709 | -213.065 | 0.04 | 0.000539812 |
| $\ldots$ | |||||||
| Mn + GrafB | -1.474 | 0.739 | 0.729 | -247.18 | -239.299 | 0.029 | 0.000503295 |
| Mn + GrafA | -2.533 | 0.745 | 0.735 | -248.427 | -240.546 | 0.028 | 0.000491594 |
| Mn + GrafE | -2.735 | 0.746 | 0.736 | -248.668 | -240.787 | 0.029 | 0.000489361 |
| Mn | -3.025 | 0.736 | 0.731 | -248.66 | -242.749 | 0.028 | 0.000498296 |
Tabela 4.4.36: Seleção de todos modelos possíveis pelo critério Cp
| QME | CP | R^2 | R^2 Ajustado | AIC | BIC | PRESS | |
|---|---|---|---|---|---|---|---|
| C + Mn + GrafA | 0.000488583 | -1.689 | 0.752 | 0.737 | -247.824 | -237.972 | 0.03 |
| Mn + GrafB + GrafE | 0.000488598 | -1.688 | 0.752 | 0.737 | -247.822 | -237.971 | 0.029 |
| Mn + GrafE | 0.000489361 | -2.735 | 0.746 | 0.736 | -248.668 | -240.787 | 0.029 |
| Mn + GrafA + GrafE | 0.000490561 | -1.514 | 0.751 | 0.735 | -247.609 | -237.758 | 0.03 |
| Mn + GrafA | 0.000491594 | -2.533 | 0.745 | 0.735 | -248.427 | -240.546 | 0.028 |
| C + Mn + GrafA + UTS | 0.000491737 | -0.299 | 0.755 | 0.735 | -246.575 | -234.754 | 0.031 |
| Mn + S + GrafE | 0.000492063 | -1.381 | 0.75 | 0.735 | -247.447 | -237.596 | 0.03 |
| C + Mn + S + GrafA | 0.000492127 | -0.265 | 0.755 | 0.735 | -246.533 | -234.712 | 0.03 |
| C + Mn + GrafB + GrafE | 0.000492693 | -0.216 | 0.755 | 0.734 | -246.472 | -234.651 | 0.031 |
| C + Mn + GrafA + GrafE | 0.00049335 | -0.159 | 0.754 | 0.734 | -246.402 | -234.58 | 0.031 |
| $\ldots$ | |||||||
| Mn | 0.0004983 | -3.025 | 0.736 | 0.731 | -248.66 | -242.749 | 0.028 |
| Mn + GrafB | 0.0005033 | -1.474 | 0.739 | 0.729 | -247.18 | -239.299 | 0.029 |
Tabela 4.4.37: Seleção de todos modelos possíveis pelo critério QME
| R^2 | CP | R^2 Ajustado | AIC | BIC | PRESS | QME | |
|---|---|---|---|---|---|---|---|
| C + Mn + Cu + S + Ti + GrafB + GrafE + UTS | 0.765 | 6.059 | 0.722 | -240.653 | -220.95 | 0.037 | 0.000515817 |
| C + Si + Mn + Cu + S + Ti + GrafB + GrafE + UTS | 0.765 | 8.016 | 0.716 | -238.709 | -217.036 | 0.039 | 0.000527258 |
| C + Mn + Cu + S + Ti + GrafA + GrafB + GrafE + UTS | 0.765 | 8.054 | 0.715 | -238.66 | -216.987 | 0.039 | 0.000527742 |
| C + Mn + Cu + S + Ti + GrafB + GrafE + Hardness + UTS | 0.765 | 8.057 | 0.715 | -238.656 | -216.982 | 0.038 | 0.000527789 |
| C + Si + Mn + Cu + S + Ti + GrafA + GrafB + GrafE + UTS | 0.765 | 10.002 | 0.709 | -236.728 | -213.084 | 0.04 | 0.000539621 |
| C + Si + Mn + Cu + S + Ti + GrafB + GrafE + Hardness + UTS | 0.765 | 10.016 | 0.709 | -236.709 | -213.065 | 0.04 | 0.000539812 |
| C + Mn + Cu + S + Ti + GrafA + GrafB + GrafE + Hardness + UTS | 0.765 | 10.049 | 0.709 | -236.666 | -213.023 | 0.04 | 0.000540244 |
| C + Si + Mn + S + Ti + GrafA + GrafB + GrafE + Hardness + UTS | 0.765 | 10.075 | 0.708 | -236.633 | -212.99 | 0.04 | 0.000540583 |
| C + Si + Mn + Cu + S + Ti + GrafA + GrafB + GrafE + Hardness + UTS | 0.765 | 12 | 0.702 | -234.73 | -209.116 | 0.042 | 0.00055276 |
| C + Mn + S + Ti + GrafB + GrafE + UTS | 0.764 | 4.196 | 0.727 | -242.476 | -224.744 | 0.036 | 0.000506038 |
| $\ldots$ | |||||||
| Mn + GrafE | 0.746 | -2.735 | 0.736 | -248.668 | -240.787 | 0.029 | 0.000489361 |
| Mn + GrafA | 0.745 | -2.533 | 0.735 | -248.427 | -240.546 | 0.028 | 0.000491594 |
| Mn + GrafB | 0.739 | -1.474 | 0.729 | -247.18 | -239.299 | 0.029 | 0.000503295 |
| Mn | 0.736 | -3.025 | 0.731 | -248.66 | -242.749 | 0.028 | 0.000498296 |
Tabela 4.4.38: Seleção de todos modelos possíveis pelo critério $R^2$
| R^2 Ajustado | CP | R^2 | AIC | BIC | PRESS | QME | |
|---|---|---|---|---|---|---|---|
| C + Mn + GrafA | 0.737 | -1.689 | 0.752 | -247.824 | -237.972 | 0.03 | 0.000488583 |
| Mn + GrafB + GrafE | 0.737 | -1.688 | 0.752 | -247.822 | -237.971 | 0.029 | 0.000488598 |
| Mn + GrafE | 0.736 | -2.735 | 0.746 | -248.668 | -240.787 | 0.029 | 0.000489361 |
| Mn + GrafA | 0.735 | -2.533 | 0.745 | -248.427 | -240.546 | 0.028 | 0.000491594 |
| Mn + GrafA + GrafE | 0.735 | -1.514 | 0.751 | -247.609 | -237.758 | 0.03 | 0.000490561 |
| Mn + S + GrafE | 0.735 | -1.381 | 0.75 | -247.447 | -237.596 | 0.03 | 0.000492063 |
| C + Mn + GrafA + UTS | 0.735 | -0.299 | 0.755 | -246.575 | -234.754 | 0.031 | 0.000491737 |
| C + Mn + S + GrafA | 0.735 | -0.265 | 0.755 | -246.533 | -234.712 | 0.03 | 0.000492127 |
| C + Mn + GrafB + GrafE | 0.734 | -0.216 | 0.755 | -246.472 | -234.651 | 0.031 | 0.000492693 |
| C + Mn + GrafA + GrafE | 0.734 | -0.159 | 0.754 | -246.402 | -234.58 | 0.031 | 0.00049335 |
| $\ldots$ | |||||||
| Mn | 0.731 | -3.025 | 0.736 | -248.66 | -242.749 | 0.028 | 0.000498296098958118 |
| Mn + GrafB | 0.729 | -1.474 | 0.739 | -247.18 | -239.299 | 0.029 | 0.000503294946831611 |
Tabela 4.4.39: Seleção de todos modelos possíveis pelo critério $R^2_a$
5.1.3 Modelo Final
No ajuste do modelo com a variável Mn como explicativa da variável desgaste, observamos que o modelo é significativo e a um nível de significância de pelo menos 5%, as três variáveis são importantes para o modelo, como podemos ver na Tabela 5.3.1 e pelo teste individual dos parâmetros da Tabela 5.3.2.
Na Tabela 5.3.3 temos o intervalo de confiança para os parâmetros. Para a variável Mn, por exemplo, temos 95% de confiança que o real valor do parâmetro está entre 0,017 e 0,46.
Já na Tabela 5.3.4 temos os valores ajustados através do modelo em consideração e também o intervalo de confiança para os valores preditos.

Tabela 5.3.1: Anova do modelo ajustado

Tabela 5.3.2: Estimativa e significância dos parâmetros

Tabela 5.3.3: Intervalo de Confiança para os parâmetros

Tabela 5.3.4: Valor ajustado e Intervalo de Confiança
5.1.4 Diagnóstico do Modelo
Para que o modelo ajustado seja confiável, as suposições descritas no Diagnóstico do Modelo não podem ser violadas. Para isso, vamos verificar se as variáveis Mn, P e Graf_E são correlacionadas e também verificar as suposições dos resíduos.
Na Tabela 5.4.1 temos que nenhuma correlação entre as variáveis é maior, em módulo, que 0,95 e também, a partir da Tabela 5.4.2, que nenhum VIF é maior que 10. Assim, não temos problema de alta correlação entre as variáveis.
Para verificar se existem outliers, analisamos se cada observação é outlier em X ou em Y. Pela Figura 5.4.1 verificamos que nenhum resíduo é maior, em módulo, que 3 e por isso nenhuma observação é outlier em Y. Já em relação a X, pela Figura 5.4.2 temos que dois pontos apresentam valores de hii maiores que 0,19 (2(p+1)/n). Mas pelo teste de Bonferroni da Tabela 5.4.4 temos que eles não são outliers pois não rejeitamos a hipótese de que as observações não são outliers.
Na análise dos resíduos, temos na Tabela 5.4.3 medidas descritivas dos resíduos em que percebemos valores próximos de 0. Além disso, verificamos na Tabela 5.4.5 que os resíduos são normalmente distribuídos pelo teste de Anderson Darling com um nível de significância de até 2% mas pelo o teste de Kolmogorov o nível de significância pode ser até 16%.
Pela Tabela 5.4.6 temos que os resíduos são homocedásticos a um nível de significância de até 1% no teste Goldfeld Quandt e de até 60% no teste de Breusch Pagan. Em relação ao teste de independência, temos que a estatística de Durbin Watson, Tabela 5.4.7, está perto de 2 e também não rejeitamos a hipótese de independência dos resíduos observando o p-valor do teste.
Por fim, pela Tabela 5.4.8 temos que a um nível de significância de até 4,7%, não rejeitamos a hipótese de que o modelo ajustado é adequado.

Tabela 5.4.1: Matriz de Correlação

Tabela 5.4.2: VIF das variáveis

Tabela 5.4.3: Medidas descritivas dos resíduos

Figura 5.4.1: Resíduos studentizados e padronizados versus valores ajustados

Figura 5.4.2: Boxplot do hii

Tabela 5.4.4: Teste de Bonferroni de Outliers

Tabela 5.4.5: Testes de Normalidade

Tabela 5.4.6: Testes de Homocedasticidade

Tabela 5.4.7: Teste Durbin-Watson de Independência

Tabela 5.4.8: Teste Falta de Ajuste
5.2 - Modelo linear para períodos de carência em tecidos
Segundo EMEA (Agência Europeia de Avaliação dos Medicamentos, unidade de avaliação de medicamentos veterinários), o modelo para determinação estatística do período de segurança é baseado na aceitação dos princípios farmacocinéticos. De acordo com o modelo de compartimento de farmacocinética, a relação entre a concentração e tempo de drogas através de todas as fases de absorção, distribuição e eliminação é geralmente descrita por termos matemáticos multiexponencial. No entanto, o terminal de eliminação de drogas a partir de tecidos, a depleção de resíduos, na maior parte dos casos segue um modelo simples (univariado) e é suficientemente descrita por um termo exponencial. A equação é descrita como a seguir:
$$C_t=C_0 e^{-k t}$$
em que
-
$C_t$ é a concentração no tempo t;
-
$C_0$ concentração fictícia no tempo t=0;
-
$k$ é a taxa de eliminação constante.
A linearidade do $\ln C$ versus tempo indica que o modelo para a depleção de resíduos é aplicável uma análise de regressão linear dos dados log transformados e a consideramos para o cálculo dos períodos de segurança.
A regressão linear simples, necessitam algumas suposições (para mais detalhes consulte modelo estatístico). Normalmente, os dados de depleção de resíduos atendem a estas suposições porque são originários de animais individuais.
No artigo da EMEA cita que a FDA (Food and Drug Administration) recomenda excluirmos do cálculo os dados observados abaixo do limite de detecção. As concentrações baixas são devido às observações empíricas reais que não devem ser ignoradas. Segundo EMEA, os dados que se encontram abaixo do limite de detecção ou quantificação, é recomendado substituir por metade do respectivo limite. Alternativamente, procedimentos especiais podem ser aplicadas a fim de estimar os valores esperados para a falta de dados.
Neste artigo, também cota a necessidade de pelo menos 3 animais para cada tempo de abate na fase log linear da eliminação terminal dos resíduos.
Os dados foram construídos à partir de um estudo de depleção de resíduos empírica sobre bovinos tratados por via subcutânea com uma droga veterinária e estes foram utilizados para demonstrar a aplicabilidade do modelo estatístico para a estimativa de períodos de segurança. Os dados de resíduos para o resíduo marcador no tecidos do fígado e gordura alvos estão listados na tabela 5.3.1. Um ADI de 35 μg/kg por dia para uma pessoa 60 kg, que foi assumida para o resíduo total. O LMR para resíduo marcador foram então fixados em 30 μg/kg e 20 μg/kg para fígado e gordura, respectivamente.
| N | Pos_Dose | Fígado | Gordura |
|---|---|---|---|
| 1 | 7 | 85,5 | 96,8 |
| 2 | 7 | 141,8 | 225 |
| 3 | 7 | 198 | 213,8 |
| 4 | 7 | 31,5 | 48,3 |
| 5 | 7 | 119,3 | 119,3 |
| 6 | 7 | 108 | 204,8 |
| 7 | 7 | 171 | 157,5 |
| 8 | 7 | 34,5 | 450 |
| 9 | 7 | 189 | 65,3 |
| 10 | 7 | 67,5 | 195,8 |
| 11 | 7 | 135 | 148,5 |
| 12 | 7 | 150,8 | 202,5 |
| 13 | 14 | 1 | 1 |
| 14 | 14 | 22,5 | 11,3 |
| 15 | 14 | 60,8 | 78,8 |
| 16 | 14 | 60,8 | 51,8 |
| 17 | 14 | 47,3 | 33,8 |
| 18 | 14 | 22,5 | 24,8 |
| 19 | 14 | 11,3 | 2,3 |
| 20 | 14 | 22,5 | 15,8 |
| 21 | 14 | 49,5 | 51,8 |
| 22 | 14 | 22,5 | 13,5 |
| 23 | 14 | 40,5 | 22,5 |
| 24 | 14 | 29,3 | 42,8 |
| 25 | 21 | 36 | 27 |
| 26 | 21 | 9 | 9 |
| 27 | 21 | 9 | 6,8 |
| 28 | 21 | 6,8 | 6,8 |
| 29 | 21 | 18 | 6,8 |
| 30 | 21 | 6,8 | 11,3 |
| 31 | 21 | 108 | 40,5 |
| 32 | 21 | 11,3 | 9 |
| 33 | 21 | 2,3 | 4,5 |
| 34 | 21 | 2,3 | 9 |
| 35 | 21 | 24,8 | 9 |
| 36 | 21 | 2,3 | 1 |
| 37 | 28 | 4,5 | 4,5 |
| 38 | 28 | 2,3 | 4,5 |
| 39 | 28 | 11,3 | 9 |
| 40 | 28 | 9 | 6,8 |
| 41 | 28 | 1 | 1 |
| 42 | 28 | 4,5 | 4,5 |
| 43 | 28 | 1 | 1 |
| 44 | 28 | 1 | 1 |
| 45 | 28 | 2,3 | 4,5 |
| 46 | 28 | 6,8 | 9 |
| 47 | 28 | 13,5 | 13,5 |
| 48 | 28 | 1 | 1 |
| 49 | 35 | NA | 2 |
| 50 | 35 | NA | 4,5 |
| 51 | 35 | NA | 2 |
| 52 | 35 | NA | 2 |
| 53 | 35 | NA | 4,5 |
| 54 | 35 | NA | 2 |
| 55 | 35 | NA | 2 |
| 56 | 35 | NA | 2 |
| 57 | 35 | NA | 2 |
| 58 | 35 | NA | 2 |
| 59 | 35 | NA | 2 |
| 60 | 35 | NA | 2 |
Tabela 5.3.1: Resíduo marcador nos tecidos do fígado e em gorduras alvo.
No artigo EMEA, cita alguns passos fundamentais para análise deste tipo de conjunto de dados e são elas:
Passo 1: Inspeção dos dados.
Passo 2: Cálculo dos parâmetros regressão linear de dados log transformados.
Passo 3: Inspeção visual da linha de regressão.
Passo 4: Homogeneidade das variâncias.
Passo 5: Teste de Falta de Ajuste (Lack of Fit).
Passo 6: Cálculo dos resíduos e gráficos da análise de diagnóstico de acordo com a recomendação da FDA 1983.
Passo 7: Cálculo das tolerâncias limite superior unilateral de 95% (União Europeia) ou 99% (EUA) (ambos com um nível de confiança de 95%).
Passo 8: Determinação do período de segurança (período de carência para depleção de resíduos)
5.2.1 - Análise para tecidos de fígado
A avaliação da segurança alimentar humana é parte do processo de aprovação de medicamentos de origem animal destinados ao uso em animais produtores de alimentos. A abordagem de avaliação de risco é usado para avaliar a segurança alimentar humana de origem animal para os resíduos de drogas.
O perigo das drogas de origem animal é identificado e caracterizado à partir da segurança microbiana alimentar e informações toxicológicas, bem como a exposição do perigo para os seres humanos é investigado por informações de estudos de resíduos químicos.
Para os estudos destes resíduos químicos, consideramos duas variáveis Pos_Dose (dias após aplicada a dose) e log_fig (logaritmo da concentração de resíduos no tecido de fígado), neste caso, podemos estabelecer uma regressão linear simples cujo modelo estatístico é
$$Y_{i}=\beta_0+\beta_1~x_{i}+\varepsilon_{ij}\quad i=1,\cdots, n;\quad (5.3.1.1)$$
em que,
-
$Y_{ij}$: representa a j-ésima medição do logaritmo da concentração de resíduos no tecido de fígado referente ao i-ésimo dia após aplicada a dose;
-
$X_{i}$: representa o i-ésimo dia após aplicada a dose;
-
$\beta_0$: representa o coeficiente linear ou intercepto (concentração fictícia no tempo t=0);
-
$\beta_1$: representa o coeficiente angular;
-
$\varepsilon_{ij}$: representa o j-ésimo erro cometido na medição do i-ésimo logaritmo da concentração de resíduos no tecido de fígado. Consideramos que os $\varepsilon_{ij}$ são independentes e identicamente distribuídos com distribuição $N(0,\sigma^2)$.
Para os dados da tabela 5.3.1, vamos seguir o passo 1 e inspecionar os dados.
Passo 1: Inspeção dos dados.
Neste passo é fundamental verificar os dados abaixo do limite de detecção e segundo EMEA, para estes dados definimos estes valores como metade do limite de detecção.
Especificamente para este conjunto de dados, para a variável gordura, o dia 35 foi excluído do cálculo por causa de muitos valores abaixo do limite de detecção (10 de 12 observações). Já os dados de fígado no dia 35 não estavam disponíveis.
Com isso, temos o seguinte conjunto de dados:
| N | Pos_Dose | log_fig |
|---|---|---|
| 1 | 7 | 4,448516 |
| 2 | 7 | 4,954418 |
| 3 | 7 | 5,288267 |
| 4 | 7 | 3,449988 |
| 5 | 7 | 4,781641 |
| 6 | 7 | 4,682131 |
| 7 | 7 | 5,141664 |
| 8 | 7 | 3,540959 |
| 9 | 7 | 5,241747 |
| 10 | 7 | 4,212128 |
| 11 | 7 | 4,905275 |
| 12 | 7 | 5,015954 |
| 13 | 14 | 0 |
| 14 | 14 | 3,113515 |
| 15 | 14 | 4,10759 |
| 16 | 14 | 4,10759 |
| 17 | 14 | 3,85651 |
| 18 | 14 | 3,113515 |
| 19 | 14 | 2,424803 |
| 20 | 14 | 3,113515 |
| 21 | 14 | 3,901973 |
| 22 | 14 | 3,113515 |
| 23 | 14 | 3,701302 |
| 24 | 14 | 3,377588 |
| 25 | 21 | 3,583519 |
| 26 | 21 | 2,197225 |
| 27 | 21 | 2,197225 |
| 28 | 21 | 1,916923 |
| 29 | 21 | 2,890372 |
| 30 | 21 | 1,916923 |
| 31 | 21 | 4,682131 |
| 32 | 21 | 2,424803 |
| 33 | 21 | 0,832909 |
| 34 | 21 | 0,832909 |
| 35 | 21 | 3,210844 |
| 36 | 21 | 0,832909 |
| 37 | 28 | 1,504077 |
| 38 | 28 | 0,832909 |
| 39 | 28 | 2,424803 |
| 40 | 28 | 2,197225 |
| 41 | 28 | 0 |
| 42 | 28 | 1,504077 |
| 43 | 28 | 0 |
| 44 | 28 | 0 |
| 45 | 28 | 0,832909 |
| 46 | 28 | 1,916923 |
| 47 | 28 | 2,60269 |
| 48 | 28 | 0 |
Tabela 5.3.1.1: Resíduo marcador nos tecidos de fígado.
Agora, vamos para o passo 2.
Passo 2: Cálculo dos parâmetros regressão linear de dados log transformados.
Solução:
| N | Pos_Dose | log_fig | Pos_Dose^2 | log_fig^2 | Pos_Dose x log_fig |
|---|---|---|---|---|---|
| 1 | 7 | 4,448516 | 49 | 19,7893 | 31,13961463 |
| 2 | 7 | 4,954418 | 49 | 24,54625 | 34,6809233 |
| 3 | 7 | 5,288267 | 49 | 27,96577 | 37,01786921 |
| 4 | 7 | 3,449988 | 49 | 11,90241 | 24,14991282 |
| 5 | 7 | 4,781641 | 49 | 22,86409 | 33,4714893 |
| 6 | 7 | 4,682131 | 49 | 21,92235 | 32,77491859 |
| 7 | 7 | 5,141664 | 49 | 26,4367 | 35,9916449 |
| 8 | 7 | 3,540959 | 49 | 12,53839 | 24,78671527 |
| 9 | 7 | 5,241747 | 49 | 27,47591 | 36,69222911 |
| 10 | 7 | 4,212128 | 49 | 17,74202 | 29,48489319 |
| 11 | 7 | 4,905275 | 49 | 24,06172 | 34,33692345 |
| 12 | 7 | 5,015954 | 49 | 25,1598 | 35,11168119 |
| 13 | 14 | 0 | 196 | 0 | 0 |
| 14 | 14 | 3,113515 | 196 | 9,693978 | 43,58921433 |
| 15 | 14 | 4,10759 | 196 | 16,87229 | 57,50625705 |
| 16 | 14 | 4,10759 | 196 | 16,87229 | 57,50625705 |
| 17 | 14 | 3,85651 | 196 | 14,87267 | 53,99114414 |
| 18 | 14 | 3,113515 | 196 | 9,693978 | 43,58921433 |
| 19 | 14 | 2,424803 | 196 | 5,879668 | 33,94723816 |
| 20 | 14 | 3,113515 | 196 | 9,693978 | 43,58921433 |
| 21 | 14 | 3,901973 | 196 | 15,22539 | 54,62761737 |
| 22 | 14 | 3,113515 | 196 | 9,693978 | 43,58921433 |
| 23 | 14 | 3,701302 | 196 | 13,69964 | 51,81822764 |
| 24 | 14 | 3,377588 | 196 | 11,4081 | 47,28622522 |
| 25 | 21 | 3,583519 | 441 | 12,84161 | 75,25389771 |
| 26 | 21 | 2,197225 | 441 | 4,827796 | 46,14171612 |
| 27 | 21 | 2,197225 | 441 | 4,827796 | 46,14171612 |
| 28 | 21 | 1,916923 | 441 | 3,674592 | 40,25537486 |
| 29 | 21 | 2,890372 | 441 | 8,354249 | 60,69780692 |
| 30 | 21 | 1,916923 | 441 | 3,674592 | 40,25537486 |
| 31 | 21 | 4,682131 | 441 | 21,92235 | 98,32475577 |
| 32 | 21 | 2,424803 | 441 | 5,879668 | 50,92085724 |
| 33 | 21 | 0,832909 | 441 | 0,693738 | 17,49109158 |
| 34 | 21 | 0,832909 | 441 | 0,693738 | 17,49109158 |
| 35 | 21 | 3,210844 | 441 | 10,30952 | 67,42771672 |
| 36 | 21 | 0,832909 | 441 | 0,693738 | 17,49109158 |
| 37 | 28 | 1,504077 | 784 | 2,262249 | 42,11416711 |
| 38 | 28 | 0,832909 | 784 | 0,693738 | 23,32145544 |
| 39 | 28 | 2,424803 | 784 | 5,879668 | 67,89447632 |
| 40 | 28 | 2,197225 | 784 | 4,827796 | 61,52228817 |
| 41 | 28 | 0 | 784 | 0 | 0 |
| 42 | 28 | 1,504077 | 784 | 2,262249 | 42,11416711 |
| 43 | 28 | 0 | 784 | 0 | 0 |
| 44 | 28 | 0 | 784 | 0 | 0 |
| 45 | 28 | 0,832909 | 784 | 0,693738 | 23,32145544 |
| 46 | 28 | 1,916923 | 784 | 3,674592 | 53,67383314 |
| 47 | 28 | 2,60269 | 784 | 6,773994 | 72,87531119 |
| 48 | 28 | 0 | 784 | 0 | 0 |
| Soma | 840 | 134,9284 | 17640 | 501,4721 | 1885,408284 |
| Média | 17,5 | 2,811008 |
As médias amostrais das variáveis Dias após aplicada a dose (X) e Logaritmo da concentração de resíduos no tecido de fígado (Y) são, respectivamente,
$$\overline{x}=\dfrac{1}{48}\sum_{i=1}^{48}x_i=17,5\quad\text{e}\quad\overline{y}=\dfrac{1}{48}\sum_{i=1}^{48} y_i=2,811008.$$
Além disso, na Tabela, apresentamos os valores de x^2, y^2 e xy para cada observação i=1,…,48.
Da tabela calculamos as somas de quadrados da seguinte forma:
$$S_{xx}=\sum^n_{i=1}x_i^2-n\overline{x}^2=17640-48\times 17,5^2=2940$$
$$S_{yy}=\sum^n_{i=1}y_i^2-n\overline{y}^2= 501,4721 - 48 \times 2,811008^2=122,1872$$
$$S_{xy}=\sum^n_{i=1}x_i y_i-n\overline{x}\overline{y}=1885,408284 - 48 \times 17,5 \times 2,811008=-475,839.$$
Logo, as estimativas dos parâmetros $\beta_{1}$ e $\beta_{0}$ são, respectivamente
$$\widehat\beta_1=\dfrac{S_{xy}}{S_{xx}}=\dfrac{-475,839}{2940}=-0,16185\quad\text{e }\quad\widehat\beta_0=\overline{y}-\widehat{\beta_1}\overline{x}=2,811008-(-0,16185)\times 17,5=5,643382.$$
Portanto, o modelo ajustado é dado por
$$\log(\text{fígado})~=~5,64~-0,16~\times{Pos}_{\text{dose}}.$$
Com isso, temos os seguintes resultados obtidos pelo software Action.
Tabela da ANOVA
| G.L. | Soma de Quadrados | Quadrado Médio | Estat. F | P-valor | |
|---|---|---|---|---|---|
| Pos.Dose | 1 | 77.01448437 | 77.01448437 | 78.42490411 | 0 |
| Resíduos | 46 | 45.17272059 | 0.98201567 |
Tabela 4.4. : Tabela da ANOVA
| Mínimo | 1Q | Mediana | Média | 3Q | Máximo |
|---|---|---|---|---|---|
| -3.37748331 | -0.32761073 | 0.0859014 | 0 | 0.64218648 | 2.43759727 |
Tabela 4.4: Análise Exploratória (resíduos)
| Estimativa | Desvio Padrão | Estat.t | P-valor | |
|---|---|---|---|---|
| Intercepto | 5.64338246 | 0.35035976 | 16.10739354 | 0 |
| Pos.Dose | -0.16184994 | 0.01827618 | -8.85578365 | 0 |
Tabela 4.4: Coeficientes
| Desvio Padrão dos Resíduos | Graus de Liberdade | $R^2$ | $R^2$ Ajustado |
|---|---|---|---|
| 0.99096704 | 46 | 0.63029909 | 0.62226212 |
Tablea 4.4: Medida Descritiva da Qualidade do Ajuste
Passo 3: Inspeção visual da linha de regressão.
Tanto a linha de regressão para o fígado e para a linha de regressão de gordura passada através todos os grupos de abate. Não há pontos de tempo devem ser excluídos no final ou no início da linha.
Passo 4: Homogeneidade das variâncias.
A seguir, apresentamos alguns testes obtidos pelo software Action. A EMEA cita algumas estatísticas como por exemplo o teste de Cochran, já o MAPA cita o teste de Brown-Forsythe.
Com isso, testamos a seguinte hipótese:
$$\begin{cases} H_0:\sigma^2_1=\sigma^2_2 = … =\sigma^2_k \cr H_1:\hbox{pelo menos um dos}~\sigma_i^2\hbox{’s diferente,} \quad i=1,\ldots,k. \cr \end{cases} $$
| Estatística | Número de Réplicas | P-valor |
|---|---|---|
| 0.34456467 | 12 | 0.60736705 |
Tabela 4.4: Teste de Homocedasticidade - Cochran
| Variável | Estatística | G.L.Num. | G.L.Den. | P-valor |
|---|---|---|---|---|
| grupo | 1.12131663 | 3 | 44 | 0.35074134 |
Tabela 4.4: Teste de Homocedasticidade (Brown-Forsythe)
| Estatística | GL | P-valor |
|---|---|---|
| 0.57191868 | 1 | 0.44949749 |
Tabela 4.4: Teste de Homocedasticidade - Breusch Pagan
| Variável | Estatística | GL1 | GL2 | P-valor |
|---|---|---|---|---|
| Pos.Dose | 1.38532765330621 | 18 | 17 | 0.506222830943138 |
Tabela 4.4: Teste de Homocedasticidade - Goldfeld Quandt
| Estatística | P-valor |
|---|---|
| 2.18707221 | 0.61413684 |
Tabela 4.4: Teste de Independência - Durbin-Watson
Todos os testes obtidos pelo software Action, p-valores acima do nível de significância $\alpha=0,05.$ Logo, não rejeitamos a hipótese nula de homocedasticidade, isto é, as variâncias são homogêneas.
Passo 5: Teste de Falta de Ajuste (Lack of Fit).
Agora, vamos testar a falta de ajuste do modelo linear, para isto, considere as seguintes hipóteses:
$$\begin{cases} H_0:E(Y_i)=\beta_0+\beta_1~x_i \hbox{ modelo linear adequado} \cr H_1: E(Y_i) \neq\beta_0+\beta_1~x_i \hbox{ modelo linear inadequado} \cr \end{cases} $$
| GL | Soma de Quadrados | Quadrado Médio | Estat. F | P-valor | |
|---|---|---|---|---|---|
| Pos.Dose | 1 | 77.01448437 | 77.01448437 | 76.37963345 | 0 |
| Resíduos | 46 | 45.17272059 | 0.98201567 | ||
| Falta de Ajuste | 2 | 0.80700215 | 0.40350108 | 0.40017491 | 0.6726172 |
| Erro Puro | 44 | 44.36571844 | 1.00831178 |
Tabela 4.4: ANOVA para o teste de linearidade da regressão.
De acordo com os resultados obtidos, temos que não rejeitamos a hipótese nula de que o modelo linear é adequado. No passo seguinte, vamos avaliar os resíduos do modelo.
Passo 6: Cálculo dos resíduos e gráficos da análise de diagnóstico de acordo com a recomendação da FDA 1983.
Primeiramente, vamos analisar a normalidade dos resíduos, porém observe os principais critérios para análise de resíduos.
| Diagnóstico | Fórmula | Valor |
|---|---|---|
| hii (Leverage) | (2*(p+1))/n | 0.083 |
| DFFITS | 2* raíz ((p+1)/n) | 0.41 |
| DCOOK | 4/n | 0.08333333 |
| DFBETA | 2/raíz(n) | 0.29 |
| Resíduos Padronizados | (-3,3) | 3 |
| Resíduos Studentizados | (-3,3) | 3 |
Tabela 4.4: Critérios para análise de resíduos
Para isto considere as hipóteses:
$$\begin{cases} H_0: \hbox{Os dados seguem uma distribuição normal} \cr H_1: \hbox{Os dados não seguem uma distribuição normal.} \end{cases}$$
Figura 4.4: Análise dos Resíduos
| Estatística | P-valor | |
|---|---|---|
| Anderson-Darling | 0.66579179 | 0.07715901 |
| Shapiro-Wilk | 0.95184523 | 0.04737652 |
| Kolmogorov-Smirnov | 0.13995855 | 0.01956653 |
| Ryan-Joiner | 0.96951842 | 0.0207 |
Tabela 4.4.: Teste de normalidade dos resíduos
Dos resultados obtidos, pelo teste de Ryan-Joiner e Shapiro-Wilk, rejeitamos a hipótese de normalidade dos resíduos. Agora, vamos analisar os pontos influentes.
Dos resultados obtidos, temos que o ponto 13 é um ponto influente.
Com isso, retiramos a observação 13 dos dados. Assim, ajustando o modelo novamente, notamos uma melhora do modelo, como vemos a seguir.
| Estatística | P-valor | |
|---|---|---|
| Anderson-Darling | 0.511840634 | 0.185711873 |
| Shapiro-Wilk | 0.965715914 | 0.180932444 |
| Kolmogorov-Smirnov | 0.101217382 | 0.265421986 |
| Ryan-Joiner | 0.983316278 | 0.1738 |
Tabela 4.4.: Teste de normalidade dos resíduos (modelo sem o ponto 13)
| GL | Soma de Quadrados | Quadrado Médio | Estat. F | P-valor | |
|---|---|---|---|---|---|
| Pos.Dose | 1 | 80.64448349 | 80.64448349 | 103.619671797 | 0 |
| Resíduos | 45 | 33.472829826 | 0.743840663 | ||
| Falta de Ajuste | 2 | 0.007053204 | 0.003526602 | 0.004531312 | 0.995479414 |
| Erro Puro | 43 | 33.465776623 | 0.778273875 |
Tabela 4.4: ANOVA para o teste de linearidade da regressão (modelo sem o ponto 13).
Por fim, vamos avaliar outra suposição do modelo, que é a independência dos resíduos, para isto considere as hipóteses.
$$\begin{cases} H_0: \hbox{Os resíduos são independentes} \cr H_1: \hbox{Os resíduos não são independentes.} \end{cases} $$
| Estatística | P-valor |
|---|---|
| 2.233332264 | 0.511375728 |
Tabela 4.4: Teste de Independência - Durbin-Watson
Dos resultados obtidos, temos que os resíduos são independentes (p-valor=0,51) ao nível de significância 5%.
Passo 7: O cálculo dos limites de tolerância superior unilateral de 95% (com um nível de confiança de 95%).
Neste passo, vamos primeiramente definir limites de tolerância, que é limites para uma percentagem de uma população. Em seguida definimos período de carência (Withdrawal time - WT) que é o tempo em que o limite superior de tolerância unilateral de 95% para resíduo está abaixo do LMR (Limite Máximo Residual), com 95% de confiança.
O intervalo de tolerância é um intervalo estatístico no qual uma determinada proporção de uma população encontra-se abaixo de 100p% (EMEA define como 95%) com confiança de 100(1-$\alpha$)% (EMEA define com 95%).
Afim de calcular um período de carência, você temos que especificar duas porcentagens diferentes. A primeira expressa a fração (percentual) dos valores (animais) que o intervalo conterá. O segundo expressa com que confiança queremos ter. Se você definir o valor da segunda como 50%, então um intervalo de tolerância é o mesmo que um intervalo de predição.
Agora, para definirmos a tolerância limite, devemos ter dois conceitos em mente:
-
Sem nível de confiança: Quando muitas amostras de mesmo tamanho são tomadas à partir da mesma população estável e os limites de tolerância calculados de cada vez, consequentemente, estes limites irão conter em média, 95% da população;
-
Com nível de confiança: Quando muitas amostras do mesmo tamanho são tomadas à partir da mesma população estável e os limites de tolerância calculadas de cada vez, consequentemente, estes limites irão conter pelo menos 95% da população de uma média de 95% dos casos.
Para entendermos melhor o que é um intervalo de tolerância, devemos entender o que é um intervalo de confiança. Um intervalo de confiança é um intervalo de valores que vão desde o limite inferior de confiança ao limite superior de confiança. Com isso, esperamos que essa faixa deva incluir o parâmetro populacional de interesse, tais como, a média da população com um nível de confiança especificado.
Já o intervalo de tolerância estima o intervalo que deve conter uma determinada porcentagem de cada medição individual da população. Isto porque intervalos de tolerância são baseadas em apenas uma amostra de toda a população, isto é, não podemos ter 100% de confiança que esse intervalo conterá a proporção especificada. Assim, existem duas proporções diferentes associados ao intervalo de tolerância, que é o grau de confiança e uma porcentagem de cobertura. Por exemplo, podemos ter 95% de confiança de que 95% da população está entre o intervalo especificado pelo intervalo de tolerância.
Resumindo, a bioequivalência está relacionada a um intervalo de confiança para um parâmetro (por exemplo, a média para 2 formulações). Já o período de carência está relacionada a um limite de tolerância (quantil 95% para União Europeia ou de 99% para os EUA) e é definido como o tempo em que o limite de tolerância superior unilateral de 95% para resíduo está abaixo do LMR, com 95% de confiança.
Depois de definidos os termos, vamos calcular a tolerância limite para esta aplicação específica, que é para modelo de regressão log-transformados. No cálculo da tolerância limite, usamos os valores ajustados do modelo de regressão linear $\widehat{Y}_{ij}.$ Assim, temos que a tolerância limite unilateral segundo Wallis [14] para regressão linear com [100x(1-$\alpha$)%]/[100xP%] para cada observação i (P é o nível de cobertura) é obtido por
$$TL_{\text{sup}}=\exp(\widehat{Y}_{i}+\widehat{\sigma}k_{1,i}), \quad i=p_0,\dots,p_f$$
em que $\widehat{\sigma}=\sqrt{QME}$ é estimado pelo quadrado médio do erro, que é o desvio padrão dos resíduos, $[p_0,p_f]$ é o intervalo do tempo de depleção escolhido para previsão.
Já $k_{1,i}$ é dado por:
$$k_{1,i}=\dfrac{t^\star_{\left(n-p;1-\alpha\right)}(\sqrt{n^\star_i}Z^\star_P)}{\sqrt{n^\star_i}}$$
em que $t^\star_{\left(n-p;1-\alpha\right)}(\gamma)$ é o quantil da distribuição t-Student não central com d graus de liberdade e $\gamma$ é o parâmetro de não centralidade, com nível de confiança de (1-$\alpha$). Já $Z^\star_P$ é o quantil da distribuição normal padrão com nível de cobertura P. O parâmetro $n^\star_i$ é dado por:
$$n^\star_i=\dfrac{\widehat{\sigma}^2}{se(\widehat{y}_i)^2}$$
Vamos tomar como exemplo Pos Dose igual a 26. Com isso temos que:
$$se(\widehat{y_i})=\dfrac{1}{n}+\dfrac{(x_0-\overline{x})}{\displaystyle\sum^n_{i=1}(x_i-\overline{x})^2}=\dfrac{1}{48}+\dfrac{72,25}{2940}=0,213092$$
$$n^\star_i=\dfrac{QME}{se(\widehat{y_i})^2}=\dfrac{1,052279924}{0,21309^2}=23,17381$$
$$Z_P=Z_{0,95}=1,64485$$
assim, temos que o parâmetro de não centralidade é $\delta=\sqrt{n^\star_i}Z_{0,95}=\sqrt{23,17381}1,6485=7,91819,$ consequentemente
$$k_{1,i}=\dfrac{t^\star_{\left(n-p;1-\alpha\right)}(\sqrt{n^\star_i}Z^\star_P)}{\sqrt{n^\star_i}}=\dfrac{t^\star_{\left(46;0,95\right)}(7,91819)}{\sqrt{23,17381}}=\dfrac{10,37652}{4,813918}=2,155526$$
Portanto, a tolerância limite para o tempo de 26 (em dias) é dada por:
$$\log(TL_{\text{sup}})=\widehat{Y}_{i}+\widehat{\sigma}k_{1,i}=1,435+0,991\times 2,155526=3,575$$
A concentração em μg/kg é
$$TL_{\text{sup}}=\exp(\log(TL_{\text{sup}}))=e^{3,575}=35,7$$
Os demais pontos são calculados na tabela 5.3.1.2.
| Pos_Dose | $\widehat{y}$ | $\sqrt{QME}$ | $a=(x_0-\overline{x})^2$ | $b=\displaystyle\sum^{48}_{i=1}(x_i-\overline{x})^2$ | $\frac{a}{b}$ | $\frac{1}{n}+\frac{a}{b}$ | se | n$^\star_i$ | $\delta$ | $t^\star(\delta)$ | K | log(LS) | LS |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 26 | 1,435 | 0,991 | 72,25 | 2940 | 0,0246 | 0,0454 | 0,2131 | 21,626 | 7,649 | 10,069 | 2,165 | 3,581 | 35,903 |
| 27 | 1,273 | 0,991 | 90,25 | 2940 | 0,0307 | 0,0515 | 0,2270 | 19,057 | 7,180 | 9,533 | 2,184 | 3,438 | 31,110 |
| 28 | 1,112 | 0,991 | 110,25 | 2940 | 0,0375 | 0,0583 | 0,2415 | 16,835 | 6,749 | 9,042 | 2,204 | 3,295 | 26,990 * |
| 29 | 0,950 | 0,991 | 132,25 | 2940 | 0,0450 | 0,0658 | 0,2565 | 14,921 | 6,354 | 8,594 | 2,225 | 3,155 | 23,441 |
| 30 | 0,788 | 0,991 | 156,25 | 2940 | 0,0531 | 0,0740 | 0,2720 | 13,274 | 5,993 | 8,186 | 2,247 | 3,015 | 20,379 |
| 31 | 0,626 | 0,991 | 182,25 | 2940 | 0,0620 | 0,0828 | 0,2878 | 11,857 | 5,664 | 7,816 | 2,270 | 2,875 | 17,732 |
| 32 | 0,464 | 0,991 | 210,25 | 2940 | 0,0715 | 0,0923 | 0,3039 | 10,634 | 5,364 | 7,479 | 2,294 | 2,737 | 15,441 |
| 33 | 0,302 | 0,991 | 240,25 | 2940 | 0,0817 | 0,1026 | 0,3202 | 9,576 | 5,090 | 7,173 | 2,318 | 2,599 | 13,454 |
Tabela 5.3.1.2: Resultados do cálculo da Tolerância limite para depleção nos tecidos de fígado (LMR abaixo de 30μg/kg).
Passo 8: Determinação do período de segurança (período de carência para depleção de resíduos)
Do gráfico, notamos que o dia que intercepta o limite de tolerância para o LMR = log(30)μg/kg é 28. Portanto, o tempo de carência ou intervalo de segurança para depleção de resíduos é de 28 dias.
5.2.2 - Análise para dados de gordura
Nesta seção consideramos duas variáveis Pos_Dose (dias após aplicada a dose) e log_fig (logaritmo da concentração de resíduos de gordura), neste caso, podemos estabelecer uma regressão linear simples cujo modelo estatístico é
$$Y_{ij}=\beta_0+\beta_1~x_{i}+\varepsilon_{ij}\quad i=1,\cdots, n;$$
em que,
-
$Y_{ij}$: representa a j-ésima medição do logaritmo da concentração de resíduos de gordura referente ao i-ésimo dia após aplicada a dose;
-
$X_{i}$: representa o i-ésimo dia após aplicada a dose;
-
$\beta_0$: representa o coeficiente linear ou intercepto (concentração fictícia no tempo t=0);
-
$\beta_1$: representa o coeficiente angular;
-
$\varepsilon_{ij}$: representa o j-ésimo erro cometido na medição do i-ésimo logaritmo da concentração de resíduos de gordura. Consideramos que os $\varepsilon_{ij}$ são independentes e identicamente distribuídos com distribuição $N(0,\sigma^2)$.
Para os dados da tabela 5.3.1, vamos seguir o passo 1 e inspecionar os dados.
Passo 1: Inspeção dos dados.
Neste passo é fundamental verificar os dados abaixo do limite de detecção e segundo EMEA, para estes dados definimos estes valores como metade do limite de detecção.
Especificamente para este conjunto de dados, para a variável gordura, o dia 35 foi excluído do cálculo por causa de muitos valores abaixo do limite de detecção (10 de 12 observações) como visto na aplicação para dados de tecido de fígado.
Com isso, temos o seguinte conjunto de dados:
| N | Pos_Dose | log_fat |
|---|---|---|
| 1 | 7 | 4,572647 |
| 2 | 7 | 5,4161 |
| 3 | 7 | 5,365041 |
| 4 | 7 | 3,877432 |
| 5 | 7 | 4,781641 |
| 6 | 7 | 5,322034 |
| 7 | 7 | 5,059425 |
| 8 | 7 | 6,109248 |
| 9 | 7 | 4,178992 |
| 10 | 7 | 5,277094 |
| 11 | 7 | 5,000585 |
| 12 | 7 | 5,31074 |
| 13 | 14 | 0 |
| 14 | 14 | 2,424803 |
| 15 | 14 | 4,366913 |
| 16 | 14 | 3,94739 |
| 17 | 14 | 3,520461 |
| 18 | 14 | 3,210844 |
| 19 | 14 | 0,832909 |
| 20 | 14 | 2,76001 |
| 21 | 14 | 3,94739 |
| 22 | 14 | 2,60269 |
| 23 | 14 | 3,113515 |
| 24 | 14 | 3,756538 |
| 25 | 21 | 3,295837 |
| 26 | 21 | 2,197225 |
| 27 | 21 | 1,916923 |
| 28 | 21 | 1,916923 |
| 29 | 21 | 1,916923 |
| 30 | 21 | 2,424803 |
| 31 | 21 | 3,701302 |
| 32 | 21 | 2,197225 |
| 33 | 21 | 1,504077 |
| 34 | 21 | 2,197225 |
| 35 | 21 | 2,197225 |
| 36 | 21 | 0 |
| 37 | 28 | 1,504077 |
| 38 | 28 | 1,504077 |
| 39 | 28 | 2,197225 |
| 40 | 28 | 1,916923 |
| 41 | 28 | 0 |
| 42 | 28 | 1,504077 |
| 43 | 28 | 0 |
| 44 | 28 | 0 |
| 45 | 28 | 1,504077 |
| 46 | 28 | 2,197225 |
| 47 | 28 | 2,60269 |
| 48 | 28 | 0 |
Tabela 5.3.2.1: Resíduo marcador de gordura.
Agora, vamos para o passo 2.
Passo 2: Cálculo dos parâmetros regressão linear de dados log transformados.
Solução:
| N | Pos_Dose | log_fat | Pos_Dose2 | log_fat2 | Pos_Dose x log_fat |
|---|---|---|---|---|---|
| 1 | 7 | 4,573 | 49 | 20,909 | 32,009 |
| 2 | 7 | 5,416 | 49 | 29,334 | 37,913 |
| 3 | 7 | 5,365 | 49 | 28,784 | 37,555 |
| 4 | 7 | 3,877 | 49 | 15,034 | 27,142 |
| 5 | 7 | 4,782 | 49 | 22,864 | 33,471 |
| 6 | 7 | 5,322 | 49 | 28,324 | 37,254 |
| 7 | 7 | 5,059 | 49 | 25,598 | 35,416 |
| 8 | 7 | 6,109 | 49 | 37,323 | 42,765 |
| 9 | 7 | 4,179 | 49 | 17,464 | 29,253 |
| 10 | 7 | 5,277 | 49 | 27,848 | 36,940 |
| 11 | 7 | 5,001 | 49 | 25,006 | 35,004 |
| 12 | 7 | 5,311 | 49 | 28,204 | 37,175 |
| 13 | 14 | 0 | 196 | 0 | 0 |
| 14 | 14 | 2,425 | 196 | 5,880 | 33,947 |
| 15 | 14 | 4,367 | 196 | 19,070 | 61,137 |
| 16 | 14 | 3,947 | 196 | 15,582 | 55,263 |
| 17 | 14 | 3,520 | 196 | 12,394 | 49,286 |
| 18 | 14 | 3,211 | 196 | 10,310 | 44,952 |
| 19 | 14 | 0,833 | 196 | 0,694 | 11,661 |
| 20 | 14 | 2,760 | 196 | 7,618 | 38,640 |
| 21 | 14 | 3,947 | 196 | 15,582 | 55,263 |
| 22 | 14 | 2,603 | 196 | 6,774 | 36,438 |
| 23 | 14 | 3,114 | 196 | 9,694 | 43,589 |
| 24 | 14 | 3,757 | 196 | 14,112 | 52,592 |
| 25 | 21 | 3,296 | 441 | 10,863 | 69,213 |
| 26 | 21 | 2,197 | 441 | 4,828 | 46,142 |
| 27 | 21 | 1,917 | 441 | 3,675 | 40,255 |
| 28 | 21 | 1,917 | 441 | 3,675 | 40,255 |
| 29 | 21 | 1,917 | 441 | 3,675 | 40,255 |
| 30 | 21 | 2,425 | 441 | 5,880 | 50,921 |
| 31 | 21 | 3,701 | 441 | 13,700 | 77,727 |
| 32 | 21 | 2,197 | 441 | 4,828 | 46,142 |
| 33 | 21 | 1,504 | 441 | 2,262 | 31,586 |
| 34 | 21 | 2,197 | 441 | 4,828 | 46,142 |
| 35 | 21 | 2,197 | 441 | 4,828 | 46,142 |
| 36 | 21 | 0 | 441 | 0 | 0 |
| 37 | 28 | 1,504 | 784 | 2,262 | 42,114 |
| 38 | 28 | 1,504 | 784 | 2,262 | 42,114 |
| 39 | 28 | 2,197 | 784 | 4,828 | 61,522 |
| 40 | 28 | 1,917 | 784 | 3,675 | 53,674 |
| 41 | 28 | 0 | 784 | 0 | 0 |
| 42 | 28 | 1,504 | 784 | 2,262 | 42,114 |
| 43 | 28 | 0 | 784 | 0 | 0 |
| 44 | 28 | 0 | 784 | 0 | 0 |
| 45 | 28 | 1,504 | 784 | 2,262 | 42,114 |
| 46 | 28 | 2,197 | 784 | 4,828 | 61,522 |
| 47 | 28 | 2,603 | 784 | 6,774 | 72,875 |
| 48 | 28 | 0 | 784 | 0 | 0 |
| Soma | 840 | 135,150 | 17640 | 516,591 | 1857,495 |
| Média | 17,5 | 2,816 |
As médias amostrais das variáveis Dias após aplicada a dose (X) e Logaritmo da concentração de resíduos no tecido de fígado (Y) são, respectivamente,
$$\overline{x}=\dfrac{1}{48}\sum_{i=1}^{48}x_i=17,5\quad\text{e}\quad\overline{y}=\dfrac{1}{48}\sum_{i=1}^{48} y_i=2,811008.$$
Além disso, na Tabela, apresentamos os valores de $x^2$, $y^2$ e $xy$ para cada observação $i=1,…,48$.
Da tabela calculamos as somas de quadrados da seguinte forma:
$$S_{xx}=\sum^n_{i=1}x_i^2-n\overline{x}^2=17640-48\times 17,5^2=2940$$
$$S_{yy}=\sum^n_{i=1}y_i^2-n\overline{y}^2= 516,591 - 48 \times 2,816^2=136,057$$
$$S_{xy}=\sum^n_{i=1}x_i y_i-n\overline{x}\overline{y}=1857,495 - 48 \times 17,5 \times 2,816=-507,6386.$$
Logo, as estimativas dos parâmetros $\beta_{1}$ e $\beta_{0}$ são, respectivamente
$$\widehat\beta_1=\dfrac{S_{xy}}{S_{xx}}=\dfrac{-507,6386}{2940}=-0,17267\quad\text{e }\quad\widehat\beta_0=\overline{y}-\widehat{\beta_1}\overline{x}=2,816-(-0,17267)\times 17,5=5,8372.$$
Portanto, o modelo ajustado é dado por
$$\log(\text{fat})~=~5,84~-0,17~\times \hbox{Pos}_{\hbox{dose}}.$$
Com isso, temos os seguintes resultados obtidos pelo software Action.
| Estimativa | Desvio Padrão | Estat.t | P-valor | |
|---|---|---|---|---|
| Intercepto | 5.83729375 | 0.3626775364 | 16.0949966945 | 0 |
| Pos.Dose | -0.1726661893 | 0.0189187303 | -9.1267324418 | 0 |
Tabela 4.4.: Coeficientes obtidos pelo Action Stat.
Passo 3: Inspeção visual da linha de regressão.
Tanto a linha de regressão para o fígado e para a linha de regressão de gordura passada através todos os grupos de abate. Não há pontos de tempo devem ser excluídos no final ou no início da linha.
Passo 4: Homogeneidade das variâncias.
A seguir, apresentamos alguns testes obtidos pelo software Action. A EMEA cita algumas estatísticas como por exemplo o teste de Cochran, já o MAPA cita o teste de Brown-Forsythe.
Com isso, testamos a seguinte hipótese:
$$\begin{cases} H_0:\sigma^2_1=\sigma^2_2 = … =\sigma^2_k \cr H_1: \hbox{pelo menos um dos}~\sigma_i^2\hbox{’s diferente,} \quad i=1,\ldots,k. \cr \end{cases} $$
| Variável | Estatística | G.L.Num. | G.L.Den. | P-valor |
|---|---|---|---|---|
| grupo | 1.0815782751 | 3 | 44 | 0.3667760816 |
Tabela 4.4.: Teste de Homocedasticidade (Brown-Forsythe)
Todos os testes obtidos pelo software Action, p-valores acima do nível de significância $\alpha=0,05.$ Logo não rejeitamos a hipótese nula de homocedasticidade, isto é, as variâncias são homogêneas.
Passo 5: Teste de Falta de Ajuste (Lack of Fit).
Agora, vamos testar a falta de ajuste do modelo linear, para isto, considere as seguintes hipóteses:
$$\begin{cases} H_0:E(Y_i)=\beta_0+\beta_1~x_i \hbox{ modelo linear adequado} \cr H_1: E(Y_i) \neq\beta_0+\beta_1~x_i \hbox{ modelo linear inadequado} \cr \end{cases} $$
| GL | Soma de Quadrados | Quadrado Médio | Estat. F | P-valor | |
|---|---|---|---|---|---|
| Pos.Dose | 1 | 87.652021992 | 87.652021992 | 91.466610972 | 0 |
| Resíduos | 46 | 48.4048783187 | 1.0522799635 | ||
| Falta de Ajuste | 2 | 6.2398857967 | 3.1199428983 | 3.2557218516 | 0.0480157468 |
| Erro Puro | 44 | 42.164992522 | 0.9582952846 |
Tabela 4.4: ANOVA para o teste de linearidade da regressão.
De acordo com os resultados obtidos, temos que rejeitamos a hipótese nula de que o modelo linear é adequado. No passo seguinte, vamos avaliar os resíduos para obtermos o valor que causa esta falta de ajusto no modelo.
Passo 6: Cálculo dos resíduos e gráficos da análise de diagnóstico de acordo com a recomendação da FDA 1983.
Primeiramente, vamos analisar a normalidade dos resíduos, porém observe os principais critérios para análise de resíduos.
| Diagnóstico | Fórmula | Valor |
|---|---|---|
| hii (Leverage) | (2*(p+1))/n | 0.083 |
| DFFITS | 2* raíz ((p+1)/n) | 0.41 |
| DCOOK | 4/n | 0.08333333 |
| DFBETA | 2/raíz(n) | 0.29 |
| Resíduos Padronizados | (-3,3) | 3 |
| Resíduos Studentizados | (-3,3) | 3 |
Para isto considere as hipóteses:
$$\begin{cases} H_0: \hbox{Os dados seguem uma distribuição normal} \cr H_1: \hbox{Os dados não seguem uma distribuição normal.} \end{cases} $$
| Estatística | P-valor | |
|---|---|---|
| Anderson-Darling | 0.8881200212 | 0.0213737942 |
| Shapiro-Wilk | 0.9218023098 | 0.0034431618 |
| Kolmogorov-Smirnov | 0.110503294 | 0.1506427777 |
| Ryan-Joiner | 0.957805771 | 0.0036 |
Dos resultados obtidos, pelo teste de Ryan-Joiner e Shapiro-Wilk, rejeitamos a hipótese de normalidade dos resíduos. Agora, vamos analisar os pontos influentes.
Figura 4.4: Gráficos de DFFITS e D-COOK
Dos resultados obtidos, temos que o ponto 13 é um ponto influente. Com isso, retiramos a observação 13 dos dados. Assim, ajustando o modelo novamente, notamos uma melhora do modelo, como vemos a seguir.
| Estatística | P-valor | |
|---|---|---|
| Anderson-Darling | 0.4878319949 | 0.2133488263 |
| Shapiro-Wilk | 0.9569515769 | 0.0814287951 |
| Kolmogorov-Smirnov | 0.0936971576 | 0.3798474306 |
| Ryan-Joiner | 0.9770474947 | 0.0645 |
Tabela 4.4.: Teste de normalidade dos resíduos (modelo sem o ponto 13)
Figura 4.4: Papel de probabilidade dos resíduos do odelo sem o ponto 13
Com o p-valor maior que o nível de significância $\alpha = 5\char37$, pelo teste de Ryan-Joiner e Shapiro-Wilk, não rejeitamos a hipótese de normalidade dos resíduos.
| GL | Soma de Quadrados | Quadrado Médio | Estat. F | P-valor | |
|---|---|---|---|---|---|
| Pos.Dose | 1 | 91.5516193046 | 91.5516193046 | 118.7311393861 | 0 |
| Resíduos | 45 | 36.4088014314 | 0.8090844763 | ||
| Falta de Ajuste | 2 | 3.2522120948 | 1.6261060474 | 2.1088586443 | 0.1337563973 |
| Erro Puro | 43 | 33.1565893366 | 0.7710834729 |
Tabela 4.4: ANOVA para o teste de linearidade da regressão (modelo sem o ponto 13).
Aqui, não rejeitamos a hipótese nula de que o modelo é adequado.
Por fim, vamos avaliar outra suposição do modelo, que é a independência dos resíduos, para isto considere as hipóteses.
$$\begin{cases} H_0: \hbox{Os resíduos são independentes} \cr H_1: \hbox{Os resíduos não são independentes.} \end{cases} $$
| Estatística | P-valor |
|---|---|
| 1.8759298855 | 0.5615197799 |
Tabela 4.4: Teste de Independência - Durbin-Watson
Dos resultados obtidos, temos que os resíduos são independentes (p-valor=0,56) ao nível de significância 5%.
Passo 7: O cálculo dos limites de tolerância superior unilateral de 95% (ambos com um nível de confiança de 95%).
$$TL_{\text{sup}}=\exp(\widehat{Y}_{i}+\widehat{\sigma}k_{1,i}), \quad i=p_0,\dots,p_f$$
em que $\widehat{\sigma}=\sqrt{QME}$ é estimado pelo quadrado médio do erro, que é o desvio padrão dos resíduos, $[p_0,p_f]$ é o intervalo do tempo de depleção escolhido para previsão.
Já $k_{1,i}$ é dado por:
$$k_{1,i}=\dfrac{t^\star_{\left(n-p;1-\alpha\right)}(\sqrt{n^\star_i}Z^\star_P)}{\sqrt{n^\star_i}}$$
em que $t^\star_{\left(n-p;1-\alpha\right)}(\gamma)$ é o quantil da distribuição t-Student não central com d graus de liberdade e $\gamma$ é o parâmetro de não centralidade, com nível de confiança de (1-$\alpha$). Já $Z^\star_P$ é o quantil da distribuição normal padrão com nível de cobertura P. O parâmetro $n^\star_i$ é dado por:
$$n^\star_i=\dfrac{\widehat{\sigma}^2}{se(\widehat{y}_i)^2}$$
Vamos tomar como exemplo Pos Dose igual a 26. Com isso temos que:
$$se(\widehat{y_i})=\dfrac{1}{n}+\dfrac{(x_0-\overline{x})}{\displaystyle\sum^n_{i=1}(x_i-\overline{x})^2}=\dfrac{1}{48}+\dfrac{72,25}{2940}=0,213092$$
$$n^\star_i=\dfrac{QME}{se(\widehat{y}_i)^2}=\dfrac{1,05228}{0,21309^2}=23,17381$$
$$Z_P=Z_{0,95}=1,64485$$
Assim, temos que o parâmetro de não centralidade é $\delta=\sqrt{n^\star_i}Z_{0,95}=\sqrt{23,17381}1,6485=7,91819,$ consequentemente
$$k_{1,i}=\dfrac{t^\star_{\left(n-p;1-\alpha\right)}(\sqrt{n^\star_i}Z^\star_P)}{\sqrt{n^\star_i}}=\dfrac{t^\star_{\left(46;0,95\right)}(7,91819)}{\sqrt{23,17381}}=\dfrac{10,37652}{4,813918}=2,155526$$
Portanto, a tolerância limite para o tempo de 26 (em dias) é dada por:
$$\log(TL_{\text{sup}})=\widehat{Y}_{i}+\widehat{\sigma}k_{1,i}=1,435+1,0258\times 2,155526=3,559$$
A concentração em μg/kg é
$$TL_{\text{sup}}=\exp(\log(TL_{\text{sup}}))=e^{3,559}=35,1$$
Os demais pontos é calculado na tabela 5.3.2.2.
| Pos_Dose | $\widehat{y}$ | $\sqrt{QME}$ | $a=(x_0-\overline{x})^2$ | $b=\displaystyle\sum^{48}_{i=1}(x_i-\overline{x})^2$ | $\frac{a}{b}$ | $\frac{1}{n}+\frac{a}{b}$ | se | n$^\star_i$ | $\delta$ | $t^\star(\delta)$ | K | log(LS) | LS |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 26 | 1,348 | 1,0258 | 72,25 | 2940 | 0,0246 | 0,045 | 0,213 | 23,174 | 7,918 | 10,377 | 2,156 | 3,559 | 35,132 |
| 27 | 1,175 | 1,0258 | 90,25 | 2940 | 0,0307 | 0,052 | 0,227 | 20,420 | 7,433 | 9,818 | 2,173 | 3,404 | 30,085 |
| 28 | 1,003 | 1,0258 | 110,25 | 2940 | 0,0375 | 0,058 | 0,242 | 18,039 | 6,986 | 9,328 | 2,196 | 3,255 | 25,932 |
| 29 | 0,830 | 1,0258 | 132,25 | 2940 | 0,0450 | 0,066 | 0,257 | 15,988 | 6,577 | 8,873 | 2,219 | 3,106 | 22,340 |
| 30 | 0,657 | 1,0258 | 156,25 | 2940 | 0,0531 | 0,074 | 0,272 | 14,224 | 6,204 | 8,420 | 2,233 | 2,948 | 19,059 * |
| 31 | 0,485 | 1,0258 | 182,25 | 2940 | 0,0620 | 0,083 | 0,288 | 12,705 | 5,863 | 8,037 | 2,255 | 2,798 | 16,404 |
| 32 | 0,312 | 1,0258 | 210,25 | 2940 | 0,0715 | 0,092 | 0,304 | 11,395 | 5,552 | 7,688 | 2,278 | 2,648 | 14,129 |
| 33 | 0,139 | 1,0258 | 240,25 | 2940 | 0,0817 | 0,103 | 0,320 | 10,261 | 5,269 | 7,374 | 2,302 | 2,501 | 12,192 |
| 34 | -0,033 | 1,0258 | 272,25 | 2940 | 0,0926 | 0,113 | 0,337 | 9,276 | 5,010 | 7,072 | 2,322 | 2,349 | 10,471 |
| 35 | -0,206 | 1,0258 | 306,25 | 2940 | 0,1042 | 0,125 | 0,354 | 8,418 | 4,772 | 6,816 | 2,349 | 2,204 | 9,059 |
| 36 | -0,379 | 1,0258 | 342,25 | 2940 | 0,1164 | 0,137 | 0,370 | 7,667 | 4,555 | 6,571 | 2,373 | 2,056 | 7,812 |
Tabela 5.3.2.2: Resultados do cálculo da Tolerância limite para depleção nos tecidos de gordura (LMR abaixo de 20μg/kg).
Passo 8: Determinação do período de segurança (período de carência para depleção de resíduos)
(imagem em falta)
Do gráfico, notamos que o dia que intercepta o limite de tolerância para o LMR = log(20)μg/kg é 30. Portanto, o tempo de carência ou intervalo de segurança para depleção de resíduos é de 30 dias.