23.2 Linearidade
Na RDC 166, o parâmetro “linearidade” é discutido entre os artigos 23 e 27. A resolução fixa que a linearidade de um método analítico deve ser demonstrada por meio da sua capacidade de obter respostas analíticas diretamente proporcionais à concentração de um analito em uma amostra. Além disso, uma relação linear deve ser avaliada em toda a faixa estabelecida para o procedimento analítico. Dentro da faixa estabelecida, o procedimento experimental deve ser conduzido via a seguinte estratégia:
- Devemos utilizar, no mínimo, 5 (cinco) concentrações diferentes da SQR para as soluções preparadas em, no mínimo, triplicata;
- As soluções utilizadas para avaliação da linearidade devem ser preparadas de maneira independente, podendo ser utilizadas soluções diluídas de uma mesma solução mãe da SQR;
Por preparo independente, entendemos que, para cada réplica, deve ser feita uma pesagem. Além disso, a resolução define que os cálculos realizados para a avaliação da linearidade devem ser realizados a partir dos dados de concentrações reais e respostas analíticas individuais. A partir dos dados obtidos via o experimento descrito, devem ser conduzidas algumas análises. Aqui, discutimos as análises e critérios apontados pela RDC 166. De maneira geral, podemos representar o estudo de linearidade de acordo com o seguinte fluxograma:
Figura 23.2.1: Fluxograma do estudo de linearidade
Etapa 1: Nesta etapa realizamos o levantamento dos dados conforme procedimento descrito anteriormente. A modelagem dos dados da curva de calibração será realizada conforme princípio químico, em geral linear,
$$Y_{ij} = \beta_0 + \beta_1 x_{ij} + \varepsilon_{ij}, \quad j=1, \cdots , n_i \quad \text{e} \quad i=1, \cdots k,$$
em que:
- $ Y_{ij} $ representa o sinal analítico;
- $ x_{ij} $ representa a concentração;
- $ \beta_{0} $ representa o coeficiente linear ou intercepto;
- $ \beta_{1} $ representa o coeficiente angular;
- $ \varepsilon $ representa o erro experimental;
- $ n_i $ representa o número de réplicas do ponto $ i $ de concentração;
- $ k $ representa o número de pontos ou níveis.
Neste ponto é interessante discutirmos o processo de amostragem. Em geral, os laboratórios preparam diversas soluções estoques, com pesagens independentes. A partir desta soluções, eles preparam as diluições apropriadas. Neste caso, as três ou mais diluições de cada ponto são o que os estatísticos denominam de “quase-réplicas” , pois foram preparadas (pesadas) de forma independentes. Como temos pesagens independentes, temos valores diferentes para cada diluição, mas as diluições foram obtidas da mesma solução estoque, o que nos leva ao fenômeno de quase-réplica.
Um ponto fudamental na nossa análise é o erro experimental $ \varepsilon $. Ele representa o ruído relacionado com os fenômenos que não temos total controle, como o processo de pesagem, interferência do analista, condições ambientais, vidraria, equipamento entre outros. Para realizarmos a análise estatística dos dados da curva de calibração, vamos assumir que os erros experimentais são independentes e com distribuição normal com média zero e variância constante $ \sigma^2 $. Note que admitimos três hipóteses fundamentais para nossa análise estatística: Independência, Distribuição normal e Homocedasticidade. Obviamente que estas hipóteses devem ser checadas e tratadas de forma apropriada.
Etapa 2: Aqui, estamos interessados em estimar e avaliar a significância dos coeficientes da equação da reta de regressão linear simples de y (sinal analítico) em x (concentração). A resolução indica a estimação via o método dos mínimos quadrados. É importante ressaltarmos que as estimativas de mínimos quadrados são obtidas somente com as hipóteses de erros não correlacionados (que é mais fraca que independência) e homocedasticidade da variância dos erros. A hipótese de normalidade dos erros experimentais não é utilizada para obtermos as estimativas de mínimos quadrados. Através do método de mínimos quadrados, inicialmente proposto por Gauss em 1806, obtemos que
$$\hat{\beta_1} = \frac{S_{xy}}{S_{xx}} \quad \text{e} \quad \hat{\beta_0}=\bar{y} - \hat{\beta_1} \bar{x}$$
nos quais $ S_{xy} = \sum xy - n \bar{y} \bar{x} $, $ S_{xx} = \sum x^2 - n (\bar{x})^2 $ e $ n $ o total de dados.
Uma vez estimados, avaliamos a significância dos parâmetros via testes de hipóteses. Podemos avaliar a significância do coeficiente angular utilizando a tabela ANOVA. Outra estratégia é realizarmos um teste t para cada parâmetro. No cenário imposto para o estudo de linearidade, ambas as técnicas são equivalentes no que se diz respeito ao coeficiente angular. Através do modelo de regressão, também é possível avaliar a associação linear entre as variáveis por meio do coeficientes de correlação (r) e de determinação (r²), que são medidas descritivas da qualidade do ajuste do modelo. Nesta etapa, os critérios definidos pela RDC são:
- O coeficiente angular deve ser significativo a um nível de significância de 5%;
- O coeficiente linear (ou intercepto) não deve ser significativo a um nível de significância de 5%;
- O coeficiente de correlação ($ r=\sqrt{r^2} $) deve estar acima de 0,990.
Um ponto crítico para a etapa 2 é a avaliação do coeficiente linear ou intercepto. Na rotina farmacêutica, as amostras são quantificadas através de um padrão único, conforme ilustrado na Figura “Problema de Gestão”.
(imagem em falta) Figura 23.2.2
Se a curva que representa a linearidade passa pelo zero (curva azul), podemos quantificar com padrão único na rotina, pois o segundo ponto para traçar a reta é representado pela origem $ (0,0) $. Em geral, a linearidade do método precisará ser reavaliada quando o valor do coeficiente linear for estatisticamente diferente de zero e tiver magnitude significativa para o sinal analítico na concentração de trabalho. Além disso, caso seja encontrado intercepto estatisticamente diferente de zero e com magnitude significativa frente às respostas analíticas, é recomendável que se utilize uma curva de calibração ao invés de um ponto único para padronização na rotina de análise.
Note que o fato do coeficiente linear (ou intercepto) ser significativamente diferente de zero tem como consequência uma curva de calibração que não passa pela origem. Por outro lado, ao utilizarmos padrão único na rotina, assumimos que a curva passa pela origem. Na rotina utilizamos a curva azul no gráfico “Problema de Gestão”, enquanto que a curva correta seria uma das curvas vermelhas pontilhadas. Esta incoerência tem como consequência um erro de exatidão no método analítico. Na prática, podemos avaliar este erro de exatidão através da magnitude do intercepto perante o sinal analítico, conforme preconizado na guia da ANVISA. Também podemos realizar um estudo de exatidão em vários pontos de concentração para avaliarmos o impacto de quantificarmos com padrão único.
Caso o impacto do coeficiente linear seja alto, o Guia da ANVISA sugere o uso da curva de calibração na rotina. Na nossa opinião, poderíamos substituir a origem $ (0,0) $ por qualquer outro ponto. A partir de dois pontos, derivamos a curva de calibração linear. Por exemplo, podemos utilizar os pontos de $ 90 \char37 $ e $ 110 \char37 $ para obtermos a curva de calibração.
Etapa 3: Para os testes propostos na Etapa 2, supomos que os erros experimentais são independentes e seguem distribuição normal com média zero e variância constante. Nesta etapa, avaliaremos a suposição de que os erros experimentais seguem a distribuição normal. As demais suposições serão checadas nas etapas seguintes. Note que a suposição de normalidade está relacionada aos erros experimentais. Infelizmente, na prática, não temos acesso a eles. O mais próximo que chegamos dos erros experimentais são os resíduos dados por
$$e_{ij} = Y_{ij} - \hat{\beta_0} - \hat{\beta_1} x_{ij}, \quad j=1, \cdots , n_i \quad \text{e} \quad i=1, \cdots k.$$
Uma vez que os erros experimentais não podem ser observados, avaliamos as suposições feitas sobre eles utilizando os resíduos do modelo. A forma mais usual avaliarmos a normalidade dos resíduos é o gráfico “papel de probabilidade” ou o gráfico “QQPlot”. Os dois gráficos são similares no caso da distribuição normal. Nestes gráficos, comparamos os resíduos com a distribuição normal, quanto mais próximos os pontos estiverem da reta que representa a distribuição normal, melhor a aderência dos resíduos à distribuição normal. Na nossa opinião, a forma gráfica é a melhor maneira de avaliarmos a normalidade dos resíduos. Conforme descrito na guia 10 da ANVISA, a análise gráfica basta para realizarmos a análise da normalidade dos resíduos.
Também podemos utilizar testes de hipóteses para checarmos a normalidade dos resíduos. Existem inúmeras estatísticas associadas à hipótese de normalidade. Por exemplo: Kolmogorov-Smirnov, Anderson-Darling, Shapiro-Wilk e Ryan-Joiner. Sabemos que os resíduos são dados por $ e = (I-H)Y $, no qual $ H $ é a matriz chapéu e $ Y $ o vetor com os sinais analíticos. Como a matriz chapéu $ H=X(X^\prime X)^{-1} X^\prime $ é determinística obtemos que $ Var(e)=(I-H) \sigma^2 $. Desde que a matriz de projeção $ (I-H) $ não necessariamente é diagonal, temos que, em geral, os resíduos são correlacionados. Por outro lado, os testes usuais para normalidade de dados assumem a hipótese de independência, fato que não é válido para os resíduos.
Os testes de aderência à distribuição normal são utilizados para testar a hipótese nula de que os resíduos seguem uma distribuição normal versus a hipótese alternativa de que os resíduos não seguem a distribuição normal. Em geral, os testes de normalidade não “funcionam bem” para amostras pequenas (abaixo de 30 observações) e para amostras grandes (acima de 1000 observações). Com amostras pequenas, em geral, os testes não rejeitam a hipótese de normalidade, mesmo que o gráfico de QQ Plot mostre descios com respeito a distribuição normal. Por outro lado, para amostras grandes (acima de 1000 observações) os testes de normalidade, em geral, rejeitam a hipótese de normalidade dos dados, mesmo que o QQ Plot mostre uma boa aderência dos dados com respeito a distribuição normal.
Etapa 4: Conforme mencionado na Etapa 3, supomos que os erros experimentais tenham variâncias iguais. Nesta etapa, estamos interessados em avaliar se essa suposição é razoável. Esta avaliação pode ser feita de duas formas: análise visual e teste de hipótese. Na análise visual, utilizamos o gráfico de resíduos versus valores ajustados. Por outro lado, existem diversos testes para avaliar a homocedasticidade. No Action Stat, trabalhamos com os testes de Cochran, Brown-Forsythe, Breusch Pagan e Goldfeld Quandt.
O teste de Cochran compara as variâncias de cada ponto da curva de calibração. Como, em geral, temos poucas réplicas de cada ponto para calcularmos as variâncias, não consideramos o teste de Cochran apropriado para avaliarmos a homocedasticidade no contexto da linearidade. Nós propomos o teste de Breuch-Pagan para avaliar a homocedasticidade em um estudo de linearidade. Neste teste, tomamos os resíduos ao quadrado
$$u_i=\frac{e_i^2}{SQE} n,$$
no qual $ SQE $ é a soma de quadrados do erro experimental. A partir dos resíduos ao quadrado, ajustamos o modelo de regressão linear entre $ u $ e os valores ajustados $ \widehat{Y} $. Se o modelo for homocedástico, então os resíduos ao quadrado $ (u) $ se comportam de forma “constante” ao longo da reta ajustada $ (\widehat{Y}) $. Neste caso o coeficiente angular deve ser igual a zero. A estatística de Breuch-Pagan $ SQR /2 $ tem distribuição assintótica qui-quadrado com 1 grau de liberdade, no qual $ SQR $ é a soma de quadrados da regressão.
O teste de Brown-Forsythe é um teste para a homocedasticidade que não utiliza a normalidade dos resíduos. Aqui, tomamos a variável $ z_{ij}= \mid e_{i,j} - me_i \mid $, nos quais $ j=1, \cdots ,n_i $ e $ me_i $ é a mediana dos resíduos do ponto de concentração $ i=1, \cdots k $. A partir das observações $ z_{ij} $ realizamos o teste $ F $ da ANOVA para avaliar a homocedasticidade do modelo de regressão linear simples. Este teste é bem simples e pode ser aplicado com segurança no contexto de linearidade.
Caso a suposição de homocedasticidade não seja válida, devemos incluir essa característica no modelo. Neste caso, o ajuste do modelo (contemplado na Etapa 2) deve ser realizado via os Estimadores de Mínimo Quadrados Ponderados. Depois do realizar o ajuste, podemos prosseguir com as análises.
Caso a suposição de homocedasticidade seja válida, podemos prosseguir com as análises sem reajustar o modelo.
Etapa 5: Nesta etapa avaliaremos a presença de “outliers” ou “valores extremos” e de observações que causam grande impacto no modelo, denominadas por “pontos influentes”.
Para avaliar se uma observação é um “outlier” (ou “valor extremo”), em geral, avaliamos algum critério relacionado com o resíduo da regressão associado a essa observação. Visando deixar todos os resíduos na mesma escala, utilizamos em seu lugar alguma padronização. As padronizações mais utilizadas são os “resíduos padronizados” e os “resíduos studentizados”. Em geral, comparamos essas padronizaações com os quantis da distribuição normal padrão. Por exemplo, podemos considerar que uma observação é um “outlier” se o resíduo padronizado, relacionado a essa observação, for menor que -3 ou maior que 3, o que corresponde a um intervalo com $ 99,73\char37 $ da distribuição normal padrão.
Por outro lado, avaliamos se uma observação é um ponto de alavanca analisando alguma medida relacionada com a covariável x. Em geral, nos atentamos à diagonal da matriz chapéu (matriz hat; hat matrix; H). Os elementos da diagonal da matiz são demoninamos “leverage” de modo que o i-ésimo elemento está associado à “influência” da i-ésima observação do estudo. Nesta análise, utilizamos as seguintes medidas:
- DFFITS: mede a influência que a observação i tem sobre seu próprio valor ajustado;
- DFBETA:mede a influência da observação i sobre o coeficiente de Xj;
- Distância de Cook: a distância de Cook combina as medidas DFFITS e DFBETA.
Novamente, associamos essas estatísticas com pontos de corte para arbitrar se uma observação é ou não um ponto influente.
Etapa 6: Aqui estamos interessados em avaliar a última suposição sob os erros experimentais: independência. Utilizamos métodos gráficos e testes de hipóteses. Um gráfico apropriado para essa análise é o de “resíduos padronizados” por “ordem de coleta”. Caso os pontos não apresentem nenhum padrão (por exemplo um formato de cone), temos indícios de que a suposição é satisfeita. Caso apresente, devemos investigar a(s) causa(s) desse fenômeno. Também podemos utilizar o teste de Durbin-Watson, no qual H0 é a hipótese de que as observações são independentes.
Exemplo Linearidade HPLC
Considere o experimento para linearidade de uma metodologia analítca com o HPLC. Os dados foram obtidos a partir de três soluções estoques pesadas de forma independentes. Neste experimento, temos 5 pontos de concentração e três réplicas obtidas de diluições das soluções estoques.
| Concentração | Área |
|---|---|
| 31800 | 88269 |
| 31680 | 86954 |
| 31600 | 88492 |
| 36080 | 99580 |
| 36600 | 101235 |
| 36150 | 100228 |
| 39641 | 108238 |
| 40108 | 109725 |
| 40190 | 110970 |
| 43564 | 118102 |
| 43800 | 119044 |
| 43800 | 119044 |
| 43776 | 118292 |
| 47680 | 129714 |
| 47800 | 129481 |
| 47341 | 130213 |
Tabela 23.2.1: Conjunto de dados para o estudo de linearidade (Analito 1)
Neste exemplo, utilizamos a seguinte notação:
- X: Concentração
- Y: Área
Estimamos o parâmetros do modelo linear através do método dos mínimos quadrados ordinários. Para isto, utilizamos as seguintes quantidades:
- $ \bar{X} $ = 39854
- $ \bar{Y} $ = 109235,8
- $ S_{xx} $ = 463741158
- $ S_{yy} $ = 3135113424
- $ S_{xy} $ = 1204279553
| Estimativa | Desvio Padrão | Estat.t | P-Valor | Limite inferior | Limite superior | |
|---|---|---|---|---|---|---|
| Intercepto | 5739,7948 | 1442,3545 | 3,9795 | 0,0016 | 2623,7772 | 8855,8123 |
| Concentração | 2,5969 | 0,03358 | 72,4499 | 0 | 2,5194 | 2,6743 |
Tabela 23.2.2: Estimativas
Assim, o modelo ajustado é dado por:
Área = 5739,7948 + 2,5969 * Concentração
Com a tabela acima, além das estimativas dos parâmetros, podemos avaliar a significância dos parâmetros por meio do teste T. Em relação ao parâmetro intercepto, temos que as hipóteses são dadas por:
$\begin{cases} H_0: \ \hbox{Intercepto é igual a zero.} \cr H_1: \ \hbox{Intercepto é diferente de zero.} \end{cases}$
A estatística de teste é dada por:
$$ T = \frac{\hat{\beta_{0}}}{\sqrt{\hat{Var(\beta_{0})}}} = \frac{5739,7948}{1442,3545} = 3,9795 ,$$
no qual $ \sqrt{\hat{Var(\beta_{0})}} $ é o desvio padrão do intercepto dado na tabela acima.
O quantil da distribuição T para a obtenção da região crítica é dado por $ t_{(0,95, 13)} = 1,770933 $. Como o p-valor associado ao teste, $ \text{P-valor} = 2 P( t_{(0,95, 13)} > | \text{t} | ) = 0,0016 $, é menor que 0,05, rejeitamos $ H_0 $ e concluímos que o intercepto é diferente de zero ao nível de significância de 5%.
Em relação ao coeficiente angular, temos que as hipóteses são:
$\begin{cases} H_0: \ \hbox{Coeficiente angular é igual a zero.} \cr H_1: \ \hbox{Coeficiente angular é diferente de zero.} \end{cases}$
A estatística de teste é dada por:
$$ T = \frac{\hat{\beta_{1}}}{\sqrt{\hat{Var(\beta_{1})}}} = \frac{2,5969}{0,03358} = 72,4499 ,$$
no qual $ \sqrt{\hat{Var(\beta_{1})}} $ é o desvio padrão do coeficiente angular dado na tabela acima.
O quantil da distribuição T para a obtenção da região crítica é dado por $ t_{(0,95, 13)} = 1,770933 $. Como o p-valor associado ao teste, $ \text{P-valor} = 2 P( t_{(0,95, 13)} > | \text{t} | ) = \ 0 \ $, é menor que 0,05, rejeitamos $ H_0 $ e concluímos que o coeficiente angular é diferente de zero ao nível de significância de 5%.
Avaliamos também a significância dos parâmetros por meio do teste F da ANOVA. Vale ressaltar que temos um modelo de regressão simples, desta forma o teste F da ANOVA é equivalente ao teste T. A seguir, apresentamos a Tabela da ANOVA.
| Fatores | Graus de liberdade | Soma dos quadrados | Quadrado médio | Estat. F | P-Valor |
|---|---|---|---|---|---|
| Concentração | 1 | 3127367965,4155 | 3127367965,4155 | 5248,9831 | 0 |
| Resíduos | 13 | 7745758,9845 | 595804,5373 | ||
| Total | 14 | 31355113424 |
Tabela 23.2.3: Tabela da ANOVA
Para testarmos a significância do coeficiente angular do modelo com o teste F da ANOVA, apresentamos as seguintes hipóteses:
$\begin{cases} H_0: \ \hbox{Coeficiente angular é igual a zero.} \cr H_1: \ \hbox{Coeficiente angular é diferente de zero.} \end{cases}$
A estatística de teste é dada por:
$$ F_{OBS} = \frac{QMR}{QME} = \frac{ \frac{SQR}{1} }{ \frac{SQE}{13} } = \frac{\frac{3127367965,4155}{1}}{\frac{7745458,9845}{13} } = \frac{3127367965,4155}{595804,5373} = 5248,9831 $$
A região crítica para o teste F é dada por $ F_{(0,95, 1, 13)} = 4,667193 $. Como a estatística observada $ F_{OBS} > \ \text{4,667193} $ é maior que o quantil da distribuição para a determinação da região crítica (a estatística observada pertence a região crítica) e o p-valor associado ao teste $ \text{P-valor} = 2 P( F_{(0,95, 1, 13)} > F_{OBS} ) = 0 $, rejeitamos a hipótese nula ao nível de significância de 5%.
A tabela a seguir, apresenta a análise exploratória dos resíduos.
| Mínimo | 1Q | Mediana | Média | 3Q | Máximo |
|---|---|---|---|---|---|
| -1129 | -444,7 | -51,54 | 0 | 611 | 1534 |
Tabela 23.2.4: Análise exploratória dos resíduos
Observando a tabela acima, notamos que os valores de mínimo e máximo, em módulo, não apresentam uma diferença notável, assim como a mediana e a média, o que nos dá indícios de que a distribuição dos resíduos é simétrica.
Além do teste de hipótese para o coeficiente linear, avaliamos também o impacto do intercepto na resposta analítica, que é dado na tabela a seguir.
| Concentração | Resposta | Impacto do coeficiente linear (%) |
|---|---|---|
| 31800 | 88269 | 6,5026 |
| 31680 | 86954 | 6,601 |
| 31600 | 88492 | 6,4862 |
| 36080 | 99580 | 6,4862 |
| 36600 | 101235 | 5,6698 |
| 36150 | 100228 | 5,7267 |
| 39641 | 108238 | 5,3029 |
| 40108 | 109725 | 5,2311 |
| 40190 | 110970 | 5,1724 |
| 43564 | 118102 | 4,86 |
| 43800 | 119044 | 4,8216 |
| 43776 | 118292 | 4,8522 |
| 47680 | 129714 | 4,425 |
| 47800 | 129481 | 4,4329 |
| 47241 | 130213 | 4,408 |
Tabela 23.2.5: Impacto do intercepto na resposta analítica
A partir da tabela acima, observamos que para todos os pontos de concentração, temos um impacto do coeficiente linear superior a 2%, valor definido como o máximo aceitável de impacto na quantificação. Além disso o resultado do impacto está em conformidade com o resultado do teste do intercepto. Desta forma o ideal seria quantificar os resultados da rotina com uma curva de calibração, mas caso seja utilizado ponto único será necessário investigar o impacto.
Vamos analisar o coeficiente de correlação de Pearson, como dito anteriormente, ele mede o grau de proporcionalidade entre a variável explicativa (concentração) e a varíavel resposta (área).
| Desvio padrão dos resíduos | Graus de liberdade | $ R^2 $ | Coeficiente de correlação |
|---|---|---|---|
| 771,8838 | 13 | 0,9975 | 0,9988 |
Tabela 23.2.6: Coeficiente de correlação de Pearson
Temos que o coeficiente de determinação $ R^2 $ e o coeficiente de correlação $ r $ são dados por:
$$ R^2 = \frac{SQR}{SQT} = \frac{\hat{\beta_{1}}S_{xy}}{S_{yy}} = \frac{2,5969*1204279553}{3135113424} = 0,9975\ \text{e} \ r = \sqrt{R^{2}} = 0,9988 $$
Logo o critério da RDC em relação ao coeficiente é satisfeto, visto que $ r = 0,9988 $ está acima do valor especificado, 0,990, pela agência reguladora. Note que o coeficiente de determinação representa a relação sinal/ruído, em que $ SQR $ está relacionada ao sinal analítico e o ruído está relacionada ao $ SQT $.
Figura 23.2.3: Ajuste da Linearidade
Observando o gráfico de valores ajustados, notamos que a diferença entre a variável resposta e a reta ajustada é baixa, mas vale ressaltar que a magnitude da resposta (eixo y) é alta.
A seguir, analisamos as principais suposições impostas sobre os erros experimentais por meio do gráfico 4 em 1.
Figura 23.2.4: Análise dos Resíduos
Observando o gráfico de resíduo padronizado vs valores ajustados, notamos que não temos possíveis outliers, isto é, nenhum dos pontos possui um valor alto de resíduo.
Observando o QQPlot, notamos que os pontos se aproximam da reta pontilhada - em azul -, e que todos os resultados estão contidos na banda de confiança, o que nos dá indícios de que a suposição de normalidade para os erros experimentais é satisfeita.
Observando o gráfico de resíduos X valores ajustados, notmaos que os pontos parecem se distribuir aleatoriamente, isto é, não observamos nenhum comportamento claro, como smile e cone. O que nos dá indícios de que a variância dos erros experimentais é homoscedástica. É interessante ressaltar que o comportamento mais comum é o de cone, este comportamento indica que conforme os valores ajustados aumentam os resíduos também aumentam.
Observando o gráfico de resíduos X ordem de coleta, desejamos verificar se encontramos um comportamento nos pontos. Um comportamento pode significar sujeira na vidraria, sujeira na agulha, cansaço do analista, etc. Notamos que os pontos parecem se distribuir aleatoriamente, o que nos dá indícios da independência dos erros experimentais e que não tivemos nenhum comportamento como os exemplificados.
Para validar nossas suspeitas a partir da análise gráfica, vamos verificar cada hipótese levantada por meio dos testes estatísticos.
A seguir, analisamos a normalidade dos erros experimentais, no qual as hipóteses são:
$\begin{cases} H_0: \ \hbox{A distribuição dos erros experimentais é normal.} \cr H_1: \ \hbox{A distribuição dos erros experimentais não é normal.} \end{cases}$
| Teste | Estatística | P-Valor |
|---|---|---|
| Anderson-darling | 0,1538 | 0,9446 |
| Kolmogorov-Smirnov | 0,0998 | 0,9542 |
| Ryan-Joiner | 0,9899 | 0,9241 |
| Shapiro-Wilk | 0,9759 | 0,9340 |
Tabela 23.2.7: Testes de Normalidade dos resíduos
Aqui adotamos o teste de Shapiro-Wilk para avaliar a normalidade. Como o p-valor do teste de Shapiro-Wilk, p-valor 0,9340, é maior que 0,05, não rejeitamos a hipótese de normalidade dos erros experimentais ao nível de significância de 5%. Note que o resultado do teste de Shapiro-Wilk está em conformidade com a análise gráfica do QQPlot.
A seguir, analisamos a homoscedasticidade por meio do teste de Breusch-Pagan, no qual as hipóteses são:
A distribuição dos erros experimentais não é normal.
$\begin{cases} H_0: \ \hbox{As variâncias são iguais.} \cr H_1: \ \hbox{Pelo menos uma variância difere.} \end{cases}$
| Estatística | P-Valor |
|---|---|
| 0,5829 | 0,4452 |
Tabela 23.2.8: Teste de Breusch-Pagan
Como o p-valor do teste é maior que 0,05, não rejeitamos a hipótese de igualdade das variâncias ao nível de significância de 5%. Note que o resultado do teste está em conformidade com a análise gráfica dos resíduos X valores ajustados. Logo, temos um modelo homocedástico.
O teste de Breusch-Pagan é o que melhor se adequa ao nosso objetivo, visto que assumimos a suposição de normalidade para os erros experimentais. Os teste de Cochran e de Brown-Forsythe não se adequam ao nosso objetivo pois necessitam de grupos e, como os dados do exemplo foram coletados de forma independente, os testes em questão não poderiam ser realizados. Já o teste de Goldfeld-Quandt tem como limitação a exigência de amostras relativamente grandes.
A seguir, analismos os valores extremos. Para isto, avaliamos os resíduos padronizados e os resíduos studentizado.
| Número obs. | Concentração | Resíduos | Resíduos Studentizados | Resíduos Padronizados |
|---|---|---|---|---|
| 1 | 31800 | -51,5386 | -0,072 | -0,075 |
| 2 | 31680 | -1054,9132 | -1,6342 | -1,5384 |
| 3 | 31600 | 690,8371 | 1,01 | 1,0092 |
| 4 | 36080 | 144,8204 | 0,19 | 0,1975 |
| 5 | 36600 | 449,4434 | 0,5949 | 0,6102 |
| 6 | 36150 | 611,0388 | 0,8223 | 0,8327 |
| 7 | 39641 | -444,6648 | -0,5809 | -05963 |
| 8 | 40108 | -170,4072 | -0,22 | -0,2285 |
| 9 | 40190 | 861,6487 | 1,1721 | 1,1556 |
| 10 | 43564 | -768,2201 | -1,0512 | -1,047 |
| 11 | 43800 | -439,0835 | -0,5843 | -0,5997 |
| 12 | 43776 | -1128,7584 | -1,638 | -1,5413 |
| 13 | 47680 | 155,027 | 0,216 | 0,2244 |
| 14 | 47800 | -389,5984 | -0,5499 | -,05653 |
| 15 | 47341 | 1534,3689 | 2,6783 | 2,2054 |
Tabela 23.2.9: Tabela dos Resíduos
Como critério para a análise serão considerados valores extremos na resposta as observações com resíduos studentizados e/ou padronizados mariores que 3, em módulo.
Figura 23.2.5: Resíduos Padronizados
Figura 23.2.6: Resíduos Studentizados
Observando a tabela acima e os gráficos de resíduos padronizado vs valores ajustados e resíduos studentizado vs valores ajustados, notamos que não existem resíduos studentizados e padronizados com valores maiores que três, em módulo, logo não temos outliers.
A seguir, analisamos os pontos influentes por meio das medidas DFFITS, DFBETA e a distância de Cook. Os critérios para análise dos pontos influentes são dados por:
| Diagnóstico | Fórmula | Valor |
|---|---|---|
| DFFITS | $ 2 \sqrt{(p+1)/n} $ | 0,73 |
| DCOOK | $ 4/n $ | 0,2667 |
| DFBETA | $ 2/\sqrt{n} $ | 0,52 |
Tabela 23.2.10: Critérios para pontos influentes
Figura 23.2.7: Análise dos pontos de alavanca
Figura 23.2.8: Pontos influentes (DFFITS)
| Observações | DFFITS | Critério |
|---|---|---|
| 2 | -0,84 | $ \pm $ 0,73 |
| 15 | 1,29 | $ \pm $ 0,73 |
Tabela 23.2.11: Pontos influentes (DFFITS)
Figura 23.2.9: Pontos influentes (Dcook)
| Observações | DCOOK | Critério |
|---|---|---|
| 2 | 0,3159 | 0,2667 |
| 15 | 0,5613 | 0,2667 |
Tabela 23.2.12: Pontos influentes (Dcook)
Figura 23.2.10: Pontos influentes - Concentração
| Observações | DFBETA | Critério |
|---|---|---|
| 2 | 0,6982 | 0,5164 |
| 15 | 1,033 | 0,5164 |
Tabela 23.2.13: Pontos influentes - Concentração
A partir dos critérios estabelecidos pelas medidas e pela observação dos gráficos das medidas, temos que as observações 2 e 15 são pontos influentes para todas as três medidas citadas.
Por fim, vamos analisar a independência das observações.
Figura 23.2.11: Gráfico de resíduos X Ordem de coleta
Observando o gráfico de resíduos X ordem de coleta, notamos que não existe uma tendência dos pontos, isto é, não temos sequências de pontos decrescentes ou crescentes, logo temos indícios de que não há dependência das observações. Para confirmarmos isto, vamos aplicar o teste de Durbin-Watson. As hipóteses do teste são:
$ \begin{cases} H_0: \ \hbox{As observações são independentes.} \cr H_1: \ \hbox{As observações não são independentes.} \end{cases}$
| Estatística | P-Valor | |
|---|---|---|
| Durbin-Watson | 2,0158 | 0,3943 |
Tabela 23.2.14: Testde de independência
Aplicando o teste de Durbin-Watson, obtemos um p-valor de 0,3943, valor maior que 0,05. Logo não rejeitamos a hipótese de independência das observações ao nível de significância de 5%.
Logo, os critérios da RDC 166 que foram atendidos são:
- Coeficiente angular significativo ao nível de significância de 5%;
- R = 0,9988: Coeficiente de correlação superior a 0,990;
- Homoscedasticidade;
- Normalidade dos erros experimentais;
- Independência das observações.
Contudo não foi atendido o critério em relação ao coeficiente linear, visto que ele foi significativo a um nível de singificância de 5%, desta forma precisamos analisar o impacto do coeficiente linear. o impacto do coeficiente para cada observação mostrou-se superior a 3%, valor definido como máximo aceitável.
Exemplo Linearidade: pesagens independentes
A seguir, apresentamos os dados coletados.
| Concentração | Área |
|---|---|
| 12,1442 | 3,0575 |
| 12,1385 | 3,0408 |
| 12,1442 | 3,0358 |
| 13,6644 | 3,4189 |
| 13,6606 | 3,4071 |
| 13,6526 | 3,408 |
| 15,1759 | 3,7866 |
| 15,1683 | 3,7858 |
| 15,1835 | 3,7958 |
| 16,6912 | 4,1651 |
| 16,684 | 4,145 |
| 16,6859 | 4,1415 |
| 18,2019 | 4,5253 |
| 18,1996 | 4,524 |
| 18,1909 | 4,5363 |
Tabela 23.2.15: Conjunto de dados para o estudo de linearidade (Analito 2)
Antes de iniciar o estudo do parâmetro Linearidade, é interessante ressaltar que os dados são provenientes de soluções mães diferentes, isto é, para cada concentração ocorreu uma pesagem, assim os experimentos foram realizados de maneira independente. Dito isto, inciamos o estudo de linearidade. Neste exemplo, utilizamos a seguinte notação:
- X: Concentração
- Y: Área
Por meio do método de mínimos quadrados ordinários, estimamos os parâmetros do modelo, mas para estimar os parâmetros precisamos das seguintes quantidades:
- $ \bar{X} $ = 15,17237
- $ \bar{Y} $ = 3,7849
- $ S_{xx} $ = 68,74924
- $ S_{yy} $ = 4,123262
- $ S_{xy} $ = 16,83467
| Estimativa | Desvio Padrão | Estat.t | P-Valor | Limite inferior | Limite superior | |
|---|---|---|---|---|---|---|
| Intercepto | 0,0696 | 0,0157 | 4,4228 | 0,0007 | 0,0356 | 0,1036 |
| Concentração | 0,2449 | 0,001 | 238,3242 | 0 | 0,2427 | 0,2471 |
Tabela 23.2.16: Coeficientes
Portanto, o modelo ajustado é:
Área = 0,0696 + 0,2449 * Concentração
Por meio da tabela acima, além das estimativas calculadas, podemos avaliar a significância dos parâmetros por meio do teste T, como visto no exemplo 1.2.1.1, logo as estatísticas de teste serão similares às do exemplo anterior.
Em relação ao parâmetro intercepto, temos que as hipóteses são:
$\begin{cases} H_1: \ \hbox{Intercepto é igual a zero.} \cr H_1: \ \hbox{Intercepto é diferente de zero.}$
O quantil da distribuição T para a obtenção da região crítica é dado por $ t_{(0,95, 13)} = 1,770933 $. Como o p-valor associado ao teste, $ \text{P-valor} = 2 P( t_{(0,95, 13)} > | \text{t} | ) = 0,0007 $, é menor que 0,05, rejeitamos $ H_0 $ e concluímos que o intercepto é diferente de zero ao nível de significância de 5%.
Em relação ao coeficiente angular, temos que as hipóteses são:
$\begin{cases} H_1: \ \hbox{Coeficiente angular é igual a zero.} \cr H_1: \ \hbox{Coeficiente angular é diferente de zero.}$
O quantil da distribuição T para a obtenção da região crítica é dado por $ t_{(0,95, 13)} = 1,770933 $. Como o p-valor associado ao teste, $ \text{P-valor} = 2 P( t_{(0,95, 13)} > | \text{t} | ) = \ 0 \ $, é menor que 0,05, rejeitamos $ H_0 $ e concluímos que o coeficiente angular é diferente de zero ao nível de significância de 5%.
Avaliamos também a significância dos parâmetros por meio do teste F da ANOVA. Vale ressaltar que temos um modelo de regressão simples, desta forma o teste F da ANOVA é equivalente ao teste T.
A seguir, testamos a significância dos parâmetros do modelo.
| Fatores | Graus de liberdade | Soma dos quadrados | Quadrado médio | Estat. F | P-Valor |
|---|---|---|---|---|---|
| Concentração | 1 | 4,1223 | 4,1223 | 56798,4007 | 0 |
| Resíduos | 13 | 0,0009 | 0,0001 | ||
| Total | 14 | 4,1232 |
Tabela 23.2.17: Tabela ANOVA
Para testarmos o coeficiente angular do modelo utilizamos o teste F da ANOVA, neste caso testamos as hipóteses:
$\begin{cases} H_1: \ \hbox{Coeficiente angular é igual a zero.} \cr H_1: \ \hbox{Coeficiente angular é diferente de zero.}$
A região crítica para o teste F é dada por $ F_{(0,95, 1, 13)} = 4,667193 $. Como a estatística observada $ \ | \text{F} | > \ \text{4,667193} $ é maior que o quantil da distribuição para a determinação da região crítica, isto é, a estatística observada pertence a região crítica, e o p-valor associado ao teste $ \text{P-valor} = 2 P( F_{(0,95, 1, 13)} > | \text{F} | ) = 0 $, rejeitamos a hipótese nula ao nível de significância de 5%.
A tabela a seguir, apresenta a análise exploratória dos resíduos.
| Mínimo | 1Q | Mediana | Média | 3Q | Máximo |
|---|---|---|---|---|---|
| -0,014 | -0,0076 | -0,0012 | 0 | 0,0082 | 0,0141 |
Tabela 23.2.18: Análise exploratória dos resíduos
Observando a tabela acima, notamos que os valores da mediana e da média, em módulo, estão extremamente próximos, assim como os valores de mínimo e máximo, isto dá indícios de que a distribuição dos resíduos é simétrica.
Além do teste de hipótese para o coeficiente linear, avaliamos também o impacto do intercepto na resposta analítica. O impacto é dado na tabela a seguir.
| Concentração | Resposta | Impacto do coeficiente linear (%) |
|---|---|---|
| 12,1442 | 3,0575 | 2,2776 |
| 12,1385 | 3,0408 | 2,2901 |
| 12,1442 | 3,0358 | 2,2939 |
| 13,6644 | 3,4189 | 2,0369 |
| 13,6606 | 3,4071 | 2,0439 |
| 13,6526 | 3,408 | 2,0434 |
| 15,1759 | 3,7866 | 1,8391 |
| 15,1683 | 3,7858 | 1,8395 |
| 15,1835 | 3,7958 | 1,8346 |
| 16,6912 | 4,1651 | 1,6720 |
| 16,684 | 4,145 | 1,6801 |
| 16,6859 | 4,1415 | 1,6815 |
| 18,2019 | 4,5253 | 1,5389 |
| 18,1996 | 4,524 | 1,5393 |
| 18,1909 | 4,5363 | 1,5351 |
Tabela 23.2.19: Impacto do coeficiente linear (Intercepto)
A partir da tabela acima observamos que, para os pontos de concentração mais baixos, isto é, para os pontos 12,1442 à 13,6526, temos $ ICL_{i} > 2\char37 $, valor definido como o máximo aceitável de impacto na quantificação. Logo é recomendável que se utilize uma curva de calibração com no mínimo 2 pontos ao invés de um único ponto para padronização na rotina de análise. Caso se utilize ponto único, deve-se investigar o impacto.
A seguir, analisamos o coeficiente de correlação de Pearson.
| Desvio padrão dos resíduos | Graus de liberdade | $ R^2 $ | Coeficiente de correlação |
|---|---|---|---|
| 0,0085 | 13 | 0,9998 | 0,9999 |
Tabela 23.2.20: Medida descritiva da qualidade do ajuste
Como o coefiente de correlação, $ r = 0,9999 $, é maior que 0,9900 conforme especificado pela agência reguladora, concluímos que existe uma relação linear adequada. Como dito no exemplo anterior, o coeficiente de determinação representa a relação sinal/ruído.
Figura 23.2.12: Diagrama de Dispersão
Observando o gráfico acima, notamos que a diferença entre a resposta e a reta ajustada é extremamente baixa.
A seguir, analisamos as principais suposições impostas sobre os erros experimentais por meio do gráfico 4 em 1.
Figura 23.2.13: Gráfico da análise de resíduos
Observando o gráfico de resíduo padronizado vs valores ajustados, notamos que não temos possíveis valores extremos, isto é, nenhum dos pontos possui um valor alto de resíduo.
Observando o QQPlot notamos que os pontos se aproximam da reta pontilhada - em azul -, e que todos os resultados estão contidos na banda de confiança, o que dá indícios de que a suposição de normalidade para os erros experimentais é satisfeita.
Observando o gráfico de resíduos X valores ajustados, notamos que os pontos não possuem um comportamento claro, como smile ou smirk. Logo temos indícios de que a variância dos erros experimentais é homoscedástica.
Observando o gráfico de resíduos X ordem de coleta, notamos que os pontos parecem se distribuir aleatoriamente, isto é, não temos nenhum comportamento aparente, como uma sequência de pontos crescente ou decrescente. Logo temos indícios da independência dos erros experimentais.
Para validar nossas suspeitas a partir da análise gráfica, verificaremos as hipóteses levantadas por meio de testes estatísticos.
A seguir, analisamos a normalidade dos erros experimentais, no qual as hipóteses são:
$\begin{cases} H_1: \ \hbox{A distribuição dos erros experimentais é normal.} \cr H_1: \ \hbox{A distribuição dos erros experimentais não é normal.}$
| Teste | Estatística | P-Valor |
|---|---|---|
| Anderson-darling | 0,1727 | 0,911 |
| Kolmogorov-Smirnov | 0,1073 | 0,913 |
| Ryan-Joiner | 0,9917 | 0,9585 |
| Shapiro-Wilk | 0,9748 | 0,9221 |
Tabela 23.2.21: Testes de Normalidade
Aqui adotamos o teste de Shapiro-Wilk para avaliar a normalidade. Como o p-valor do teste de Shapiro-Wilk, p-valor 0,9221, é maior que 0,05, não rejeitamos a hipótese de normalidade dos erros experimentais ao nível de significância de 5%.
A seguir, analisamos a homoscedasticidade por meio do teste de Breusch-Pagan, no qual as hipóteses são:
$\begin{cases} H_1: \ \hbox{As variâncias são iguais.} \cr H_1: \ \hbox{Pelo menos uma variância difere.}$
| Estatística | P-Valor | |
|---|---|---|
| Breusch- Pagan | 0,0216 | 0,8832 |
Tabela 23.2.22: Teste de homocedasticidade
Como o p-valor do teste é maior que 0,05, não rejeitamos a hipótese de igualdade das variâncias ao nível de significância de 5%. Logo, temos um modelo homocedástico. Observe que o resultado do teste de Breusch-Pagan está em conformidade com a análise gráfica.
A seguir, analisamos os valores extremos. Para isto, avaliamos os resíduos padronizados e os resíduos studentizados.
| Número obs. | Concentração | Resíduos | Resíduos Studentizados | Resíduos padronizados |
|---|---|---|---|---|
| 1 | 12,1442 | 0,0141 | 2,0742 | 1,8523 |
| 2 | 12,1385 | -0,0012 | -0,1509 | -0,157 |
| 3 | 12,1442 | -0,0076 | -0,9953 | -0,9957 |
| 4 | 13,6644 | 0,0033 | 0,3898 | 0,4031 |
| 5 | 13,6606 | -0,0076 | -0,9376 | -0,9419 |
| 6 | 13,6526 | -0,0048 | -0,5742 | -0,5896 |
| 7 | 15,1759 | 0,0008 | 0,098 | 0,1019 |
| 8 | 15,1683 | 0,0019 | 0,2217 | 0,2303 |
| 9 | 15,1835 | 0,0082 | 0,9941 | 0,9945 |
| 10 | 16,6912 | 0,0083 | 1,0286 | 1,0263 |
| 11 | 16,684 | -0,01 | -1,2717 | -1,2426 |
| 12 | 16,6859 | -0,014 | -1,8991 | -1,7332 |
| 13 | 18,2019 | -0,0014 | -0,1818 | -0,189 |
| 14 | 18,1996 | -0,0022 | -0,2762 | -0,2866 |
| 15 | 18,1909 | 0,0122 | 1,7243 | 1,6067 |
Tabela 23.2.23: Resumo da análise de resíduos
Como critério para a análise serão considerados valores extremos na resposta as observações com resíduos studentizados e/ou padronizados mariores que 3, em módulo.
Figura 23.2.14: Resíduos Padronizados
Figura 23.2.15: Resíduos Studentizados
Observando a tabela acima e os gráficos de resíduos padronizado vs valores ajustados e resíduos studentizado vs valores ajustados, notamos que não existem resíduos studentizados e padronizados com valores maiores que três, em módulo, logo não temos valores extremos.
A seguir, analisamos os pontos influentes por meio das medidas DFFITS, DFBETA e a distância de Cook. Os critérios para análise dos pontos influentes são dados por:
| Diagnóstico | Fórmula | Valor |
|---|---|---|
| DFFITS | $ 2 \sqrt{(p+1)/n} $ | 0,73 |
| DCOOK | $ 4/n $ | 0,2667 |
| DFBETA | $ 2/\sqrt{n} $ | 0,52 |
Tabela 23.2.24: critérios para pontos influentes
Figura 23.2.16: Análise dos pontos de alavanca
Figura 23.2.17: Pontos influentes (DFFITS)
| Observações | DFFITS | Critério |
|---|---|---|
| 1 | 1,04 | $ \pm $ 0,73 |
| 15 | 0,86 | $ \pm $ 0,73 |
Tabela 23.2.25: Pontos influentes (DFFITS)
Figura 23.2.18: Pontos influentes (Dcook)
| Observações | DCOOK | Critério |
|---|---|---|
| 1 | 0,429 | 0,2667 |
| 15 | 0,3211 | 0,2667 |
Tabela 23.2.26: Pontos influentes (Dcook)
Figura 23.2.19: Pontos influentes - Concentração
| Observações | DFBETA | Critério |
|---|---|---|
| 1 | -0,847 | 0,5164 |
| 15 | 0,7015 | 0,5164 |
Tabela 23.2.27: Pontos influentes - Concentração
A partir dos critérios estabelecido pelas medidas e pela observação dos gráficos DFFITS, D-COOK e DFBETA, temos que as obervações 1 e 15 são pontos influentes.
A seguir, analisamos a independência das observações.
Figura 23.2.20: Gráfico de resíduos vs. Ordem de coleta
Obervando o gráfico acima, notamos que não existe nenhuma tendência aparente dos pontos, isto é, não temos sequências de pontos decrescentes ou crescentes. Logo temos indícios de que não há dependência das observações. Para validar esta suspeita iremos aplicar o teste de Durbin-Watson. as hipóteses do teste são:
$\begin{cases} H_1: \ \hbox{As observações são independentes.} \cr H_1: \ \hbox{As observações não são independentes.}$
| Estatística | P-Valor | |
|---|---|---|
| Durbin-Watson | 1,3885 | 0,0577 |
Tabela 23.2.28: Teste de independência
Aplicando o teste, obtemos um p-valor de 0,0577. Como o p-valor é maior que 0,05 não rejeitamos a hipótese de indenpendência das observações a um nível de significância de 5%.
Logo, os critérios da RDC 166 que foram atendidos são:
- Coeficiente angular significativo ao nível de significância de 5%;
- R = 0,9999: Coeficiente de correlção superior a 0,990;
- Modelo homocedástico;
- Normalidade dos erros experimentais;
- Independência das observações.
Contudo o critério em relação ao intercepto não foi atendido, visto que este se mostrou significativo ao nível de significância de 5%. É interessante ressaltar que o impacto mostrou-se, para os pontos de concentração mais baixos, superior a 2%, valor definido como o máximo aceitável. Desta forma deve-se investigar o impacto caso seja utilizado ponto único.
Exemplo Linearidade Cromatógrafo: Heteroscedástico
A seguir, apresentamos os dados coletados.
| Concentração | Área |
|---|---|
| 1,998 | 91287,2967 |
| 1,998 | 92634,5279 |
| 1,998 | 87717,324 |
| 3,9959 | 181620,124 |
| 3,9959 | 183739,1996 |
| 3,9959 | 175633,4481 |
| 5,9939 | 288422,6727 |
| 5,9939 | 276836,9997 |
| 5,9939 | 271491,458 |
| 7,9918 | 371431,3043 |
| 7,9918 | 378810,2832 |
| 7,9918 | 361987,7019 |
| 8,9908 | 445930,366 |
| 8,9908 | 425366,3293 |
| 8,9908 | 440825,634 |
| 9,9898 | 470969,3284 |
| 9,9898 | 453986,2756 |
| 9,9898 | 592596,0537 |
| 10,9887 | 543081,3348 |
| 10,9887 | 480101,757 |
| 10,9887 | 529028,7698 |
| 11,9877 | 602909,3744 |
| 11,9877 | 523645,5587 |
| 11,9877 | 586988,7449 |
Antes de iniciar o estudo do parâmetro Linearidade, é interessante ressaltar que os dados são provenientes de soluções diluídas de uma mesma solução mãe, logo temos “quase-réplicas”, ou seja, para cada ponto de concentração ocorreu uma pesagem, assim os experimentos foram realizados de modo independente. Dito isto, iniciamos o estudo de linearidade. Neste exemplo utilizamos a seguinte notação:
- X: Concentração
- Y: Área
Por meio do método de mínimos quadrados ordinários, estimamos os parâmetros do modelo, mas para estimar os parâmetros precisamos das seguintes quantidades:
- $ \bar{X} $ = 7,742075
- $ \bar{Y} $ = 331960,1
- $ S_{xx} $ = 2559726
- $ S_{yy} $ = 785903657767
- $ S_{xy} $ = 11190952
Na tabela abaixo apresentamos as estimativas, desvio padrão e o teste de hipótese para o intercepto e para o coeficiente angular.
| Estimativa | Desvio Padrão | Estat.t | P-Valor | Limite inferior | Limite superior | |
|---|---|---|---|---|---|---|
| Intercepto | -9442,9682 | 10136,1715 | -0,9316 | 0,3616 | -30464,1012 | 11578,1649 |
| Concentração | 48402,5767 | 1206,3004 | 40,1248 | 0 | 45900,8629 | 50904,2906 |
Portanto, o modelo ajustado é:
Área = -9442,9682 + 48402,5767 * Concentração
Por meio da tabela acima, além das estimativas calculadas, podemos avaliar a significância dos parâmetros por meio do teste T, como visto no exemplo 1.1.2.1.
Em relação ao parâmetro intercepto, temos que as hipóteses são:
$ H_{0} $ : Intercepto é igual a zero.
$ H_{1} $ : Intercepto é diferente de zero.
O quantil da distribuição T para a obtenção da região crítica é dado por $ t_{(0,95, 22)} = \ 1,717144 $. Como o p-valor associado ao teste, $ \text{P-valor} = 2 P( t_{(0,95, 22)} > | \text{t} | ) = \ 0,3616 \ $, é maior que 0,05, não rejeitamos $ H_0 $ e concluímos que o intercepto é igual a zero ao nível de significância de 5%.
Em relação ao coeficiente angular, temos que as hipóteses são:
$ H_{0} $ : Coeficiente angular é igual a zero.
$ H_{1} $ : Coeficiente angular é diferente de zero.
O quantil da distribuição T para a obtenção da região crítica é dado por $ t_{(0,95, 22)} = \ 1,717144 $. Como o p-valor associado ao teste, $ \text{P-valor} = 2 P( t_{(0,95, 22)} > | \text{t} | ) = \ 0 \ $, é menor que 0,05, rejeitamos $ H_0 $ e concluímos que o coeficiente angular é diferente de zero ao nível de significância de 5%.
Avaliamos também a significância dos parâmetros por meio do teste F da ANOVA. Note que temos um modelo de regressão simples, logo, como dito anteriormente, o teste F da ANOVA é equivalente ao teste T.
A seguir, testamos a significância dos parâmetros do modelo.
Tabela ANOVA
| Fatores | Graus de liberdade | Soma dos quadrados | Quadrado médio | Estat. F | P-Valor |
|---|---|---|---|---|---|
| Concentração | 1 | 599694955424,175 | 599694955424,175 | 1610,0007 | 0 |
| Resíduos | 22 | 8194586069,4757 | 372481184,9762 | ||
| Total | 23 | 607889541494 |
Para testarmos o coeficiente angular do modelo utilizamos o teste F da ANOVA, neste caso testamos as hipóteses:
$ H_{0} $ : Coeficiente angular é igual a zero.
$ H_{1} $ : Coeficiente angular é diferente de zero.
A região crítica para o teste F é dada por $ F_{(0,95, 1, 22)} = 4,30095 $. Como a estatística observada $ \ | \text{F} | > \ \text{4,30095} $ é maior que o quantil da distribuição para a determinação da região crítica, isto é, a estatística observada pertence a região crítica, e o p-valor associado ao teste $ \text{P-valor} = 2 P( F_{(0,95, 1, 22)} > | \text{F} | ) = 0 $, rejeitamos a hipótese nula ao nível de significância de 5%.
A tabela a seguir, apresenta a análise exploratória dos resíduos.
| Mínimo | 1Q | Mediana | Média | 3Q | Máximo |
|---|---|---|---|---|---|
| -47150 | -7739 | 111,1 | 0 | 13250 | 32120 |
Observando a tabela acima, notamos que os valores de mínimo e máximo, em módulo, apresentam uma diferença notável, assim como os valores da mediana e da média, o que dá indícios de que a distribuição dos resíduos é assimétrica.
Além do teste de hipótese para o coeficiente linear, avaliamos também o impacto deste na resposta analítica. O impacto é dado na tabela a seguir.
| Concentração | Área | Impacto do coeficiente linear (%) |
|---|---|---|
| 1,998 | 91287,2967 | 10,3442 |
| 1,998 | 92634,5279 | 10,1938 |
| 1,998 | 87717,324 | 10,7652 |
| 3,9959 | 181620,124 | 5,1993 |
| 3,9959 | 183739,1996 | 5,1393 |
| 3,9959 | 175633,4481 | 5,3765 |
| 5,9939 | 288422,6727 | 3,274 |
| 5,9939 | 276836,9997 | 3,411 |
| 5,9939 | 271491,458 | 3,4782 |
| 7,9918 | 371431,3043 | 2,5423 |
| 7,9918 | 378810,2832 | 2,4928 |
| 7,9918 | 361987,7019 | 2,6086 |
| 8,9908 | 445930,366 | 2,1176 |
| 8,9908 | 425366,3293 | 2,22 |
| 8,9908 | 440825,634 | 2,1421 |
| 9,9898 | 470969,3284 | 2,005 |
| 9,9898 | 453986,2756 | 2,08 |
| 9,9898 | 592596,0537 | 1,8788 |
| 10,9887 | 543081,3348 | 1,7388 |
| 10,9887 | 480101,757 | 1,9669 |
| 10,9887 | 529028,7698 | 1,785 |
| 11,9877 | 602909,3744 | 1,5662 |
| 11,9877 | 523645,5587 | 1,8033 |
| 11,9877 | 586988,7449 | 1,6087 |
Observe que temos impactos superiores a 2% nos níveis de concentração de 1,998 à 9,9898. Desta forma o ideal seria quantificar os resultados da rotina com uma curva de calibração, mas caso seja utilizado ponto único será necessário investigar o impacto. Alem disso, o resultado do impacto não está em conformidade com o resultado do teste do intercepto.
A seguir, analisamos o coeficiente de correlação de Pearson.
| Desvio padrão dos resíduos | Graus de liberdade | $ R^2 $ | Coeficiente de correlação |
|---|---|---|---|
| 19299,7716 | 22 | 0,9865 | 0,9932 |
Como o coeficiente de correlação, $ r = 0,9932 $, está acima do valor especificado 0,9900 pela agência reguladora, concluímos que existe uma relação linear adequada. Como dito no exemplo anterior, temos que o coeficiente de determinação representa a relação sinal/ruído.
(imagem em falta)
Observando o gráfico acima, notamos que os pontos seguem a reta ajustada. Porém observamos uma baixa diferença entre a variável resposta e a reta ajustada. Temos que a magnitude da escala da área (eixo y) é extremamente baixa em comparação a escala da concentração (eixo x).
A seguir, analisamos as suposições feitas sobre os erros experimentais, por meio do gráfico 4 em 1, dado a seguir.
(imagem em falta)
Observando o gráfico de resíduos padronizado vs valores ajustados, notamos que não há pontos com um valor alto de resíduo, logo não temos possíveis outliers. Contudo observamos a disposição destes se apresenta em forma de funil.
Observando o QQPlot notamos que alguns pontos estão distantes da reta pontilhada - em azul -, e que os pontos 28 e 20 estão fora da banda de confiança. Logo temos indícios de que a suposição de normalidade dos erros experimentais não é satisfeita.
Observando o gráfico de resíduos X valores ajustados, notamos que os pontos parecem se distribuir em forma de funil, o que dá indícios que a variância dos erros experimentais é heterocedástica.
Observando o gráfico de resíduos X ordem de coleta, notamos que os pontos apresentam uma tendência, conforme a ordem de coleta cresce, os resíduos também crescem. Logo temos indícios de que os erros experimentais são dependentes.
Para validar nossas suspeitas a partir da análise gráfica, verificaremos as hipóteses levantadas por meio de testes estatísticos.
A seguir, analisamos a normalidade dos erros experimentais, no qual as hipóteses são:
$ H_{0} $ : A distribuição dos erros experimentais é normal.
$ H_{1} $ : A distribuição dos erros experimentais não é normal.
| Teste | Estatística | P-Valor |
|---|---|---|
| Anderson-darling | 0,5552 | 0,1357 |
| Kolmogorov-Smirnov | 0,1466 | 0,2010 |
| Ryan-Joiner | 0,9652 | 0,0976 |
| Shapiro-Wilk | 0,9363 | 0,1246 |
Aqui adotamos o teste de Shapiro-Wilk para avaliar a normalidade. Como o p-valor do teste de Shapiro-Wilk, p-valor 0,1246, é maior que 0,05, não rejeitamos a hipótese de normalidade dos erros experimentais ao nível de significância de 5%.
A seguir, analisamos a homoscedasticidade por meio do teste de Breusch-Pagan. Como dito anteriomente o teste de Breusch-Pagan é o que melhor se adequa ao objetivo do teste. As hipóteses são:
$ H_{0} $ : As variâncias são iguais.
$ H_{1} $ : Pelo menos uma variância difere.
| Estatística | P-Valor |
|---|---|
| 7.5689 | 0,0059 |
Como o p-valor do teste é menor que 0,05, rejeitamos a hipótese de igualdade das variâncias ao nível de significância de 5%. Logo, temos um modelo heterocedástico. Observe que o resultado do teste de Breusch-Pagan está em conformidade com a análise gráfica.
A RDC 166 define como critério que o modelo seja homocedástico. O exemplo não passa por este critério, visto que temos um modelo heterocedástico, assim devemos buscar maneiras de lidar com este critério. Logo iremos aplicar o método de mínimos quadrados ponderados
O método de mínimos quadrados ponderados tem como ideia, transformar as observações, para que possamos aplicar o modelo de regressão. Devemos buscar uma transformação que melhor se adeque aos dados, isto é, a melhor ponderação é aquela que resulta em menores valores de resíduos, em módulo.
A seguir apresentamos os fatores de ponderação que serão aplicados:
- $ w_{1} = \frac{1}{x} $
- $ w_{2} = \frac{1}{x^2} $
- $ w_{3} = \frac{1}{y} $
- $ w_{4} = \frac{1}{y^2} $
- $ w_{5} = \frac{1}{s_{i}^{2}} $
- $ w_{6} =\frac{\frac{1}{s_{i}^{2}}}{\sum_{i = 1}^{k} \frac{1}{s_{i}^{2}}} \times k $
Em que $ x_i $ representa a concentração no i-ésimo ponto, $ y_i $ representa a área no i-ésimo ponto e $ s_i $ representa a variância no i-ésimo ponto.
A seguir, apresentamos os resíduos, considerando o método de mínimos quadrados ordinários, MMQO, e o método de mínimos quadrados ponderados para cada fator de ponderação, $ w_i, i $ = 1 à 6.
| MMQO | $ w_1 $ | $ w_2 $ | $ w_3 $ | $ w_4 $ | $ w_5 $ | $ w_6 $ |
|---|---|---|---|---|---|---|
| 021,916568 | 1978,418146 | 896,8962031 | 8,861215302 | 0,019320913 | 0,784587699 | 4431,821069 |
| 5369,147768 | 2931,531139 | 1571,186093 | 13,22299396 | 0,033583429 | 1,3147949 | 7426,748781 |
| 451,9438684 | -547,1968823 | -889,87692 | -3,014014208 | -0,020591358 | -0,620386615 | -3504,315037 |
| -2348,764198 | -1574,783806 | -899,7617689 | -6,988747808 | -0,017289498 | -0,728224927 | -4113,450386 |
| -229,688598 | -514,7025747 | -369,4492986 | -2,004704865 | -0,005557035 | -0,22414483 | -1266,104197 |
| -8335,440098 | -4569,657022 | -2397,966404 | -21,39192179 | -0,051965026 | -2,152319551 | -12157,58945 |
| 7745,436178 | 3011,337557 | 1248,30505 | 14,58119628 | 0,029196592 | 0,964589247 | 5448,577581 |
| -3840,236822 | -1720,899804 | -684,6055754 | -7,136406717 | -0,011431687 | -0,373999535 | -2112,573292 |
| -9185,778522 | -3904,318252 | -1576,435886 | -17,46552385 | -0,03134631 | -0,991614252 | -5601,23099 |
| -5949,440289 | -2085,678417 | -654,3377868 | -8,448680105 | -0,010249839 | -0,477977394 | -2699,90249 |
| 1429,538611 | 524,5226631 | 268,9809774 | 3,623079017 | 0,009429173 | 0,397099261 | 2243,054372 |
| -15393,04269 | -5426,208526 | -1835,99929 | -24,25424084 | -0,036605425 | -1,597898741 | -9025,88877 |
| 20195,44725 | 6824,103277 | 2381,015869 | 31,97659334 | 0,051737262 | 2,126723572 | 12013,00803 |
| -368,5894507 | -34,0818136 | 93,78484366 | 1,210207154 | 0,005894165 | 0,206231567 | 1164,919365 |
| 15090,71525 | 5121,655582 | 1813,243034 | 24,47274091 | 0,040756441 | 1,649988526 | 9320,123061 |
| -3119,764513 | -835,345526 | -141,7733719 | -2,337800231 | 0,001039227 | 0,004661142 | 26,3289223 |
| -20102,81731 | -6208,599432 | -1841,812692 | -27,5865725 | -0,036330633 | -0,683754478 | -3862,254662 |
| 28506,96079 | 9171,007704 | 3024,128378 | 42,34823039 | 0,06390056 | 1,286664558 | 7267,851767 |
| 20642,90798 | 6436,209706 | 2078,318846 | 30,55304825 | 0,04600689 | 0,74215206 | 4192,119173 |
| -42336,66982 | -12562,60847 | -3652,984929 | -58,39827259 | -0,079137587 | -1,162860295 | -6568,531168 |
| 6590,342983 | 2197,023979 | 799,4992407 | 11,63578521 | 0,020666018 | 0,317088716 | 1791,106914 |
| 32116,77342 | 9537,667475 | 2903,273722 | 44,23486888 | 0,061688854 | 0,874494623 | 4939,6692 |
| -47147,04228 | -13355,56098 | -3708,82165 | -62,07100182 | -0,080342565 | -1,015905069 | -5738,440063 |
| 16196,14392 | 4939,420406 | 1575,193315 | 24,050746 | 0,036239466 | 0,494796108 | 2794,904659 |
A seguir, apresentamos o gráfico dos resíduos do método de mínimos quadrados ordinários e os gráficos para cada fator de ponderação do método de mínimos quadrados ordinários.
(imagem em falta)
(imagem em falta)
Observando a tabela e os gráficos dados acima, temos que o peso $ w_4 $ apresenta os menores valores de resíduos. Logo aplicaremos o método de mínimos quadrados ponderados considerando este fator de ponderação.
A seguir, apresentamos as estimativas para os parâmetros do modelo:
| Estimativa | Desvio Padrão | Estat.t | P-Valor | Limite inferior | Limite superior | |
|---|---|---|---|---|---|---|
| Intercepto | -5717,9259 | 2964,786 | -1,9286 | 0,0668 | -11866,5157 | 430,6638 |
| Concentração | 47668,4028 | 673,6381 | 70,7626 | 0 | 46271,3629 | 49065,4427 |
Portanto, o modelo ajustado é:
Área = -5717,9259 + 47668,4028 * Concentração
A seguir, avaliamos a significância dos parâmetros por meio do teste T. Em relação ao parâmetro intercepto, temos que as hipóteses são:
$ H_{0} $ : Intercepto é igual a zero.
$ H_{1} $ : Intercepto é diferente de zero.
O quantil da distribuição T para a obtenção da região crítica é dado por $ t_{(0,95, 22)} = \ 1,717144 $. Como o p-valor associado ao teste, $ \text{P-valor} = 2 P( t_{(0,95, 22)} > | \text{t} | ) = 0,0668 $, é maior que 0,05, não rejeitamos $ H_0 $ e concluímos que o intercepto é igual a zero ao nível de significância de 5%.
Em relação ao coeficiente angular, temos que as hipóteses são:
$ H_{0} $ : Coeficiente angular é igual a zero.
$ H_{1} $ : Coeficiente angular é diferente de zero.
O quantil da distribuição T para a obtenção da região crítica é dado por $ t_{(0,95, 22)} = \ 1,717144 $. Como o p-valor associado ao teste, $ \text{P-valor} = 2 P( t_{(0,95, 22)} > | \text{t} | ) = \ 0 \ $, é menor que 0,05, rejeitamos $ H_0 $ e concluímos que o coeficiente angular é diferente de zero ao nível de significância de 5%.
Avaliamos também a significância dos parâmetros por meio do teste F da ANOVA.
Tabela ANOVA
| Fatores | Graus de liberdade | Soma dos quadrados | Quadrado médio | Estat. F | P-Valor |
|---|---|---|---|---|---|
| Concentração | 1 | 8,7884 | 8,7884 | 5007,3499 | 0 |
| Resíduos | 22 | 0,0386 | 0,0018 | ||
| Total | 23 | 8,8270 |
Para testarmos o coeficiente angular do modelo utilizamos o teste F da ANOVA, neste caso testamos as hipóteses:
$ H_{0} $ : Coeficiente angular é igual a zero.
$ H_{1} $ : Coeficiente angular é diferente de zero.
A região crítica para o teste F é dada por $ F_{(0,95, 1, 22)} = 4,30095 $. Como a estatística observada $ \ | \text{F} | > \ \text{4,30095} $ é maior que o quantil da distribuição para a determinação da região crítica, isto é, a estatística observada pertence a região crítica, e o p-valor associado ao teste $ \text{P-valor} = 2 P( F_{(0,95, 1, 22)} > | \text{F} | ) = 0 $, rejeitamos a hipótese nula ao nível de significância de 5%.
A tabela a seguir, apresenta a análise exploratória dos resíduos.
| Mínimo | 1Q | Mediana | Média | 3Q | Máximo |
|---|---|---|---|---|---|
| -0,0803 | -0,0287 | 0,0035 | 0,0016 | 0,0356 | 0,0639 |
Observando a tabela acima, notamos que os valores de mínimo e máximo, em módulo, apresentam uma proximidade, assim como os valores da mediana e da média, o que dá indícios de que a distribuição dos resíduos é simétrica.
Além do teste de hipótese para o coeficiente linear, avaliamos também o impacto deste na resposta analítica. O impacto é dado na tabela a seguir.
| Concentração | Área | Impacto do coeficiente linear (%) |
|---|---|---|
| 1,998 | 91287,2967 | 6,2637 |
| 1,998 | 92634,5279 | 6,1726 |
| 1,998 | 87717,324 | 6,5186 |
| 3,9959 | 181620,124 | 3,1483 |
| 3,9959 | 183739,1996 | 3,112 |
| 3,9959 | 175633,4481 | 3,2556 |
| 5,9939 | 288422,6727 | 1,9825 |
| 5,9939 | 276836,9997 | 2,0654 |
| 5,9939 | 271491,458 | 2,1061 |
| 7,9918 | 371431,3043 | 1,5394 |
| 7,9918 | 378810,2832 | 1,5094 |
| 7,9918 | 361987,7019 | 1,5796 |
| 8,9908 | 445930,366 | 1,2822 |
| 8,9908 | 425366,3293 | 1,3442 |
| 8,9908 | 440825,634 | 1,2971 |
| 9,9898 | 470969,3284 | 1,2141 |
| 9,9898 | 453986,2756 | 1,2595 |
| 9,9898 | 592596,0537 | 1,1377 |
| 10,9887 | 543081,3348 | 1,0529 |
| 10,9887 | 480101,757 | 1,191 |
| 10,9887 | 529028,7698 | 1,0808 |
| 11,9877 | 602909,3744 | 0,9484 |
| 11,9877 | 523645,5587 | 1,0919 |
| 11,9877 | 586988,7449 | 0,9741 |
Em comparação ao impacto do modelo do método de mínimos quadrados ordinários, temos que os níveis 1,998, 3,9959 e 5,9939 mantiveram um impacto supeiror ao máximo aceitável, 2%. Contudo, como dito anteriomente, o ideal seria quantificar os resultados da rotina em uma curva de calibração, mas caso seja utilizado ponto único será necessário investigar o impacto. Note que temos três níveis que não estão em conformidade com o resultado do teste do intercepto.
A seguir, analisamos o coeficiente de correlação de Pearson.
| Desvio padrão dos resíduos | Graus de liberdade | $ R^2 $ | Coeficiente de correlação |
|---|---|---|---|
| 0,419 | 22 | 0,9956 | 0,9978 |
Como o coeficiente de correlação, $ r = 0,9978 $, está acima do valor especificado pela agência reguladora, concluímos que existe uma relação linear adequada.
(imagem em falta)
Observando o gráfico acima, notamos que os pontos seguem a reta ajustada. Porém observamos uma diferença entre a variável resposta e a reta ajustada. Vale ressaltar que a magnitude da escala da área (eixo y) é extremamente baixa em comparação a escala da concentração (eixo x).
A seguir, analisamos as suposições feitas sobre os erros experimentais, por meio do gráfico 4 em 1, dado a seguir.
(imagem em falta)
Observando o gráfico de resíduos padronizado vs valores ajustados, notamos que não há pontos com um valor alto de resíduo, logo não temos possíveis outliers. Contudo observamos a disposição destes se apresenta em forma de funil.
Observando o QQPlot notamos que os pontos se aproximam da reta pontilhada - em azul -, e que estes estão contidos na banda de confiança. Logo temos indícios de que a suposição de normalidade dos erros experimentais é satisfeita.
Observando o gráfico de resíduos X valores ajustados, notamos que os pontos parecem se distribuir aleatoriamente, o que dá indícios que a variância dos erros experimentais é homocedástica.
Observando o gráfico de resíduos X ordem de coleta, notamos que os pontos não apresentam uma tendência, isto é, eles parecem se distribuir aleatoriamente. Logo temos indícios de que os erros experimentais são independentes.
Para validar nossas suspeitas a partir da análise gráfica, verificaremos as hipóteses levantadas por meio de testes estatísticos.
A seguir, analisamos a normalidade dos erros experimentais, no qual as hipóteses são:
$ H_{0} $ : A distribuição dos erros experimentais é normal.
$ H_{1} $ : A distribuição dos erros experimentais não é normal.
| Teste | Estatística | P-Valor |
|---|---|---|
| Anderson-darling | 0,2098 | 0,8429 |
| Kolmogorov-Smirnov | 0,0840 | 0,9321 |
| Ryan-Joiner | 0,9876 | 0,7059 |
| Shapiro-Wilk | 0,9650 | 0,5476 |
Aqui adotamos o teste de Shapiro-Wilk para avaliar a normalidade. Como o p-valor do teste de Shapiro-Wilk, p-valor 0,5476, é maior que 0,05, não rejeitamos a hipótese de normalidade dos erros experimentais ao nível de significância de 5%.
A seguir, analisamos a homoscedasticidade por meio do teste de Breusch-Pagan. As hipóteses são:
$ H_{0} $ : As variâncias são iguais.
$ H_{1} $ : Pelo menos uma variância difere.
| Estatística | P-Valor |
|---|---|
| 3,6845 | 0,0549 |
Como o p-valor do teste é maior que 0,05, não rejeitamos a hipótese de igualdade das variâncias ao nível de significância de 5%. Logo temos um modelo homocedástico.
A seguir, analismos os valores extremos. Para isto, avaliamos os resíduos padronizados e os resíduos studentizados.
| Número obs. | Concentração | Pesos | Resíduos | Resíduos Studentizados | Resíduos Padronizados |
|---|---|---|---|---|---|
| 1 | 1,998 | 1,1999E-10 | 0,0193 | 0,5366 | 0,5455 |
| 2 | 1,998 | 1,16534E-10 | 0,9403 | 0,9403 | 0,9428 |
| 3 | 1,998 | 1,29966E-10 | -0,0206 | -0,5823 | -0,5913 |
| 4 | 3,9959 | 3,0316E-11 | -0,0173 | -0,4165 | -0,4245 |
| 5 | 3,9959 | 2,96208E-11 | -0,0056 | -0,1333 | -0,1364 |
| 6 | 3,9959 | 3,24179E-11 | -0,052 | -1,2982 | -1,2785 |
| 7 | 5,9939 | 1,2021E-11 | 0,0292 | 0,703 | 0,7112 |
| 8 | 5,9939 | 1,30482E-11 | -0,0114 | -0,273 | -0,279 |
| 9 | 5,9939 | 1,35671E-11 | -0,0313 | -0,7582 | -0,7656 |
| 10 | 7,9918 | 7,24841E-12 | -0,0102 | -0,2456 | -0,251 |
| 11 | 7,9918 | 6,96878E-12 | 0,0094 | 0,2256 | 0,2307 |
| 12 | 7,9918 | 7,63154E-12 | -0,0366 | -0,8935 | -0,8976 |
| 13 | 8,9908 | 5,02882E-12 | 0,0517 | 1,2838 | 1,2653 |
| 14 | 8,9908 | 5,5268E-12 | 0,0059 | 0,1413 | 0,1445 |
| 15 | 8,9908 | 5,14596E-12 | 0,0408 | 0,9972 | 0,9973 |
| 16 | 9,9898 | 4,50832E-12 | 0,001 | 0,0249 | 0,0255 |
| 17 | 9,9898 | 4,85193E-12 | -0,0363 | -0,8905 | -0,8948 |
| 18 | 9,9898 | 3,95878E-12 | 0,0639 | 1,6214 | 1,5645 |
| 19 | 10,9887 | 3,39055E-12 | 0,046 | 1,1369 | 1,1294 |
| 20 | 10,9887 | 4,33844E-12 | -0,0791 | -2,1059 | -1,9586 |
| 21 | 10,9887 | 3,57307E-12 | 0,0207 | 0,4994 | 0,5081 |
| 22 | 11,9877 | 2,75103E-12 | 0,0617 | 1,5642 | 1,5152 |
| 23 | 11,9877 | 3,64691E-12 | -0,0803 | -2,1504 | -1,9925 |
| 24 | 11,9877 | 2,90229E-12 | 0,0362 | 0,8872 | 0,8915 |
Como critério para a análise serão considerados valores extremos na resposta as observações com resíduos studentizados e/ou padronizados mariores que 3, em módulo.
(imagem em falta)
(imagem em falta)
Observando a tabela acima e os gráficos de resíduos padronizado vs valores ajustados e resíduos studentizado vs valores ajustados, notamos que não existem resíduos studentizados e padronizados com valores maiores que três, em módulo, logo não temos outliers.
A seguir, analisamos os pontos influentes por meio das medidas DFFITS, DFBETA e a distância de Cook. Os critérios para análise dos pontos influentes são dados por:
| Diagnóstico | Fórmula | Valor |
|---|---|---|
| DFFITS | $ 2 \sqrt{(p+1)/n} $ | 0,58 |
| DCOOK | $ 4/n $ | 0,1667 |
| DFBETA | $ 2/\sqrt{n} $ | 0,4082 |
(imagem em falta)
(imagem em falta)
(imagem em falta)
| Observações | DFFITS | Critério |
|---|---|---|
| 2 | 0,58 | $ \pm $ 0,58 |
| 23 | -0,61 | $ \pm $ 0,58 |
Pelo critério da medida DFFITS temos que as observações 2 e 23 são pontos influentes.
| Observações | DCOOK | Critério |
|---|---|---|
| 2 | 0,1703 | 0,1667 |
Pelo critério da medida DCOOK temos que a observação 2 é um ponto influente.
| Observações | DFBETA | Critério |
|---|---|---|
| 20 | -0,5443 | 0,4082 |
| 23 | 1,033 | 0,4082 |
Pelo critério da medida DFBETA temos que as observações 20 e 23 são pontos influetes. Logo a partir dos critérios estabelecidos pelas medidas e pela observação dos gráficos das medidas, temos que as observações 2, 20 e 23 são pontos influentes.
A seguir, analisamos a independência das observações.
(imagem em falta)
Obervando o gráfico acima, notamos que não existe nenhuma tendência aparente dos pontos, isto é, não temos sequências de pontos decrescentes ou crescentes. Logo temos indícios de que não há dependência das observações. Para validar esta suspeita iremos aplicar o teste de Durbin-Watson. as hipóteses do teste são:
$ H_{0} $ : As observações são independentes.
$ H_{1} $ : As observações não são independentes.
| Estatística | P-Valor |
|---|---|
| 11,7043 | 0,0006 |
Aplicando o teste, obtemos um p-valor de 0,0006. Como o p-valor é menor que 0,05 rejeitamos a hipótese de indenpendência das observações a um nível de significância de 5%. A rejeição da hipótese de independência ocorre, pois, as soluções foram diluídas de uma mesma solução mãe.
Por fim, avaliamos o ajuste do modelo, para isto testamos a falta de ajuste. No qual as hipóteses são:
$ H_{0} $ : O modelo está bem ajustado.
$ H_{1} $ : O modelo não está bem ajustado.
| Graus de liberdade | Soma dos Quadrados | Quadrado Médio | Estat. F | P-Valor | |
|---|---|---|---|---|---|
| Concentração | 1 | 8,7884 | 8,7884 | 4351,9734 | 0 |
| Resíduos | 22 | 0,0386 | 0,0018 | ||
| Falta de ajuste | 6 | 0,0063 | 0,0011 | 0,5201 | 0,7848 |
| Erro puro | 16 | 0,0323 | 0,002 |
A partir da tabela acima, temos que o p-valor para a falta de ajuste foi de 0,7848, valor maior que 0,05. Logo não rejeitamos $ H_0 $ e portanto o modelo é adequado e a linearidade do modelo está validada ao nível de 5% de significância.
Logo, os critérios da RDC que foram satisfeitos são:
- Coeficiente angular significativo ao nível de significância de 5%;
- Coeficiente linear não significativo ao nível de significância de 5%;
- Coeficiente de correlação superior a 0,9900;
- Homoscedasticiade do modelo;
- Normalidade dos erros experimentais.
Contudo temos observações dependentes, desta forma devemos analisar a causa da dependência das observações. Note que as concentrações são provenientes de uma mesma solução mãe, isto é, as soluções são diluídas de uma única solução mãe, assim devemos analisar se isto influenciou a dependência das observações.