Modelos Lineares Generalizados

Última atualização: 22 de maio de 2022.

Introdução

Devido originalmente a Nelder and Wedderburn (1972), os modelos lineares generalizados são uma síntese e extensão notáveis de modelos de regressão familiares, como os modelos lineares. O presente texto começa com uma consideração da estrutura geral e do alcance de aplicação dos modelos lineares generalizados; passa a examinar em mais detalhes modelos lineares generalizados para dados de contagem, incluindo tabelas de contingência; esboça brevemente a teoria estatística subjacente aos modelos lineares generalizados e conclui com a extensão dos diagnósticos de regressão para modelos lineares generalizados.

Modelos lineares generalizados tornaram-se tão centrais para a análise de dados estatísticos eficazes, entretanto, que vale a pena o esforço adicional necessário para adquirir um conhecimento básico do assunto.

Como suporte computacional utilizamos a linguagem de programação e ambiente de desenvolvimento integrado para cálculos estatísticos e gráficos R, versão 4.0.2 (2020-06-22) "Taking Off Again", especialmente a função glm e o pacote gamlss. Estas notas estão baseadas no livro de John Fox (2016).

I. A Estrutura dos modelos lineares generalizados

I.1. Estimando e testando modelos lineares generalizados

II. Modelos lineares generalizados para contagens

II.1. Modelos para dados de contagem com superdispersão
II.2. Modelos loglinear para tabelas de contingência

III. Teoria Estatística para modelos lineares generalizados

III.1. Família exponencial
III.2. Estimação por máxima verossimilhança para modelos lineares generalizados
III.3. Testes de hipóteses
III.4. Mostrando efeitos

IV. Diagnóstico para modelos lineares generalizados

IV.1. Diagnóstico de outliers, alavancagem e influência
IV.2. Diagnóstico de não linearidade

V. Exemplos

V.1. Exemplos de regressão contínua
V.2. Exemplos de regressão discreta

VI. Exercícios

VII. Referências

I. A Estrutura dos modelos lineares generalizados

Um modelo linear generalizado (ou GLM) consiste em três componentes:

1- Um componente aleatório

Neste componente especificamos a distribuição condicional da variável de resposta $Y_i$, para o $i$-ésimo de $n$ observações amostradas independentemente, dados os valores das variáveis explicativas no modelo. Na formulação original de Nelder e Wedderburn, a distribuição de $Y_i$ é membro de uma família exponencial, como a Gaussiana (normal), binomial, Poisson, gama ou famílias de distribuições gaussianas inversas. O trabalho subsequente, no entanto, estendeu os GLMs para famílias exponenciais multivariadas, como a distribuição multinomial, a certas famílias não exponenciais, como a distribuição binomial negativa de dois parâmetros e para algumas situações em que a distribuição de $Y_i$ não é especificada completamente. A maioria dessas ideias é desenvolvida posteriormente neste texto.

2- Um preditor linear

Uma função linear de regressores \begin{equation} \eta_i \, = \, \alpha+\beta_1 X_{i1}+\beta_2 X_{i2}+\cdots +\beta_k X_{ik}\cdot \end{equation} Como no modelo linear, os regressores $X_{ij}$ são funções pré-especificadas das variáveis explicativas e, portanto, podem incluir variáveis explicativas quantitativas, transformações de variáveis explicativas quantitativas, regressores polinomiais, regressores dummy, interações e outras. Na verdade, uma das vantagens dos GLMs é que a estrutura do preditor linear é a estrutura familiar de um modelo linear.

3- Função de ligação

Uma função de ligação linearizante suave e invertível $g(\cdot)$, que transforma a esperança da variável resposta, $\mu_i = \mbox{E}(Y_i)$, no preditor linear: \begin{equation} g(\mu_i) \, = \, \eta_i \, = \, \alpha+\beta_1 X_{i1}+\beta_2 X_{i2}+\cdots +\beta_k X_{ik}\cdot \end{equation} Como a função de ligação é invertível, também podemos escrever \begin{equation} \mu_i \, = \, g^{-1}(\eta_i) \, = \, g^{-1}(\alpha+\beta_1 X_{i1}+\beta_2 X_{i2}+\cdots +\beta_k X_{ik}) \end{equation} e, assim, o GLM pode ser pensado como um modelo linear para uma transformação da resposta esperada ou como um modelo de regressão não linear para a resposta. A ligação inversa $g^{-1}(\cdot)$ também é chamada de função média.

Tabela 1. Algumas funções de ligação comuns e seus inversos.
Ligação	$\eta_i=g(\mu_i)$	$\mu_i=g^{-1}(\eta_i)$
Identidade	$\mu_i$	$\eta_i$
Log	$\log_e\big(\mu_i\big)$	$e^{\eta_i}$
Inversa	$\mu_i^{-1}$	$\eta_i^{-1}$
Inversa quadrada	$\mu_i^{-2}$	$\eta_i^{-1/2}$
Raiz quadrada	$\sqrt{\mu_i}$	$\eta_i^2$
Logit	$\log_e\Big(\dfrac{\mu_i}{1-\mu_i}\Big)$	$\dfrac{1}{1+\exp\big(-\eta_i\big)}$
Probit	$\Phi^{-1}\big(\mu_i\big)$	$\Phi\big(\eta_i\big)$
Log-log	$-\log_e\big(-\log_e\big(\mu_i\big)\big)$	$\exp\big(-\exp\big(-\eta_i\big)\big)$
Complementar log-log	$\log_e\big(-\log_e\big(1-\mu_i\big)\big)$	$1-\exp\big(-\exp\big(\eta_i\big)\big)$

NOTA: $\mu_i$ é o valor esperado da resposta; $\eta_i$ é o preditor linear e $\Phi(\cdot)$ é a função de distribuição normal padrão.

As funções de ligação comumente empregadas e seus inversos são mostrados na Tabela 1. Observe que a ligação identidade simplesmente retorna seu argumento inalterado, \begin{equation} \eta_i \, = \, g(\mu_i) \, = \, \mu_i \qquad \mbox{ e, portanto, } \qquad \mu_i \, = \, g^{−1}(\eta_i) \, = \, \eta_i\cdot \end{equation}

As últimas quatro funções de ligação na Tabela 1 são para dados binomiais, onde $Y_i$ representa a proporção observada de sucessos em $n_i$ tentativas binárias independentes; assim, $Y_i$ pode assumir qualquer um dos valores $0,1/n_i,2/n_i,\cdots,(n_i-1)/n_i,1$. Recordemos que os dados binomiais também abrangem dados bin´rios, onde todas as observações representam $n_i = 1$ tentativas e, consequentemente, $Y_i$ é 0 ou 1. A esperança da resposta $\mu_i = \mbox{E}(Y_i)$ é então a probabilidade de sucesso. As ligações logit, probit, log-log e complementar log-log estão representados graficamente na Figura 1. Em contraste com as ligações logit e probit que, como observamos anteriormente, são quase indistinguíveis uma vez que as variâncias das distribuições normal e logística subjacentes são equacionadas, as ligações log-log e complementar log-log se aproximam das assíntotas de 0 e 1 assimetricamente.

Além do desejo geral de selecionar uma função de ligação que torne a regressão de $Y$ nos $X$s linear, uma ligação promissora removerá as restrições no intervalo da resposta esperada. Esta é uma ideia familiar dos modelos logit e probit, onde o objetivo é modelar a probabilidade de sucesso, representada por $\mu_i$ em nosso atual geral notação. Como probabilidade, $\mu_i$ está confinada ao intervalo unitário [0,1]. As ligações logit e probit mapeiam este intervalo para toda a linha real, de $-\infty,\infty$. Da mesma forma, se a resposta $Y$ for uma contagem, assumindo apenas valores inteiros não negativos, $0, 1, 2,\cdots$ e, conseqüentemente, $\mu_i$ é uma contagem esperada que, embora não necessariamente um número inteiro também não é negativa, a ligação logaritmo mapeia $μ_i$ para toda a linha real. Isso não quer dizer que a escolha da função de ligação seja inteiramente determinada pelo intervalo da variável resposta.

Código R utilizado para gerar a Figura 1:

> par(mfrow=c(1,1), mar=c(3,3,1,0)+.5, mgp=c(1.6,0.6,0), las = 1) > eta = seq(-4,4,by=0.01) > plot(eta, 1/(1+exp(-eta)), type = "l", lwd = 3, ylab = expression(paste(mu, " = ", g^{-1}, "(", eta, ")")), xlab = expression(eta)) > lines(eta, pnorm(eta), lwd = 3, lty = 2, col = "red") > lines(eta, exp(-exp(-eta)), lwd = 3, lty = 3, col = "blue") > lines(eta, 1-exp(-exp(eta)), lwd = 3, lty = 4, col = "green") > grid() > legend(-4,1, legend = c("Logit","Probit","Log-log","Complementar log-log"), col = c("black","red","blue","green"), lwd = 3, lty = c(1,2,3,4))

Uma propriedade conveniente das distribuições na famílias exponencial é que a variância condicional de $Y_i$ é uma função de sua média $\mu_i$, digamos, $V(\mu_i)$ e, possivelmente, um parâmetro de dispersão $\phi$. As funções de variância para as famílias exponenciais comumente usadas aparecem na Tabela 2. A variância condicional da resposta na família Gaussiana é uma constante $\phi$, que é simplesmente uma notação alternativa para o que anteriormente denominamos variância do erro $\sigma_\epsilon^2$. Nas famílias binomial e Poisson, o parâmetro de dispersão é definido com o valor fixo $\phi=1$.

A Tabela 2 também mostra a faixa de variação da variável resposta em cada família e a função de elo chamada canônica ou natural associada a cada componente na família. A ligação canônica simplifica o GLM, mas outras funções de ligação também podem ser usadas. Na verdade, um dos pontos fortes do GLM - em contraste com as transformações da variável resposta na regressão linear - é que a escolha da transformação linearizante é parcialmente separada da distribuição da resposta, e a mesma transformação não precisa normalizar a distribuição de $Y$ e fazer sua regressão linear nos $X$.

Tabela 2.Ligação canônica, intervalo de resposta e função de variância condicional para famílias exponenciais.
Família	Ligação canônica	Intervalo da resposta	$\mbox{Var}(Y_i \, \| \, \eta_i)$
Gaussiana	Identidade	$-\infty.+\infty)$	$\phi$
Binomial	Logit	$0,1/n_i,\cdots,n_i/n_i$	$\mu_i(1-\mu_i)/n_i$
Poisson	Log	$0,1,2,\cdots$	$\mu_i$
Gama	Inversa	$(0,+\infty)$	$\phi\mu_i^2$
Normal inversa	Inversa quadrada	$(0,+\infty)$	$\phi\mu_i^3$

NOTA: $\phi$ é o parâmetro de dispersão, $\eta_i$ é o preditor linear e $\mu_i$ é a esperança de $Y_i$ (a resposta). Na família binomial, $n_i$ é o número de tentativas independentes.

Há também esta diferença mais sutil: quando transformamos $Y$ e regredimos a resposta transformada nos $X$, nós estamos modelando a esperança da resposta transformada, \begin{equation} \mbox{E}\big( g(Y)\big) \, = \, \alpha+\beta_1 X_{i1}+\beta_2 X_{i2}+\cdots +\beta_k X_{ik}\cdot \end{equation} Em um modelo linear generalizado, em contraste, modelamos a esperança transformada da resposta, \begin{equation} g\big( \mbox{E}(Y)\big) \, = \, \alpha+\beta_1 X_{i1}+\beta_2 X_{i2}+\cdots +\beta_k X_{ik}\cdot \end{equation} Embora semelhante em espírito, isso não é exatamente a mesma coisa quando a função de ligação $g(\cdot)$ é não linear.

As funções de ligação específicas que podem ser usadas variam de uma família para outra. Por exemplo, não seria promissor usar as ligações identidade, log, inversa, inversa quadrado ou raiz quadrada com dados binomiais, nem seria sensato usar o logit, probit, log-log ou complementar log-log com dados não binomiais.

Presumimos que o leitor esteja geralmente familiarizado com as famílias gaussiana e binomial e simplesmente apresentamos suas distribuições aqui para referência. As distribuições Poisson, gama e Gaussiana inversa são talvez menos familiares, então fornecemos mais alguns detalhes:

(a) A distribuição Gaussiana com esperança $\mu$ e variância $\sigma^2$ tem função de densidade \begin{equation} p(y) \, = \, \dfrac{1}{\sigma\sqrt{2\pi}}\exp\left(-\dfrac{(y-\mu)^2}{2\sigma^2} \right) \end{equation}

(b) A distribuição binomial para a proporção $Y$ de sucessos em $n$ tentativas binárias independentes com probabilidade de sucesso $\mu$ tem função de probabilidade \begin{equation} p(y) \, = \, {n \choose ny}\mu^{ny}(1-\mu)^{n(1-y)} \qquad \mbox{ para } \qquad y=0,1,2,\cdots,n \cdot \end{equation} Aqui, $ny$ é o número observado de sucessos nas $n$ tentativas e $n(1-y)$ é o número de falhas; e \begin{equation} {n \choose ny} \, = \, \dfrac{n!}{(ny)!\big( n(1-y)\big)!} \end{equation} é o coeficiente binomial.

(c) A distribuição Poisson é uma família discreta com função de probabilidade indexada pelo parâmetro de taxa $\mu> 0$: \begin{equation} p(y) \, = \, \mu^{y}\dfrac{e^{-\mu}}{y!} \qquad \mbox{ para } \qquad y=0,1,2,\cdots\cdot \end{equation} A esperança e a variância de uma variável aleatória Poisson são ambas iguais a $\mu$. As distribuições Poisson para vários valores do parâmetro $\mu$ são representadas graficamente na Figura 2. Esta distribuição é útil para modelar dados de contagem. À medida que $\mu$ aumenta, a distribuição Poisson fica mais simétrica e é eventualmente bem aproximada por uma distribuição normal.

Figura 2: Distribuições Poisson para vários valores do parâmetro de taxa $\mu$.

Código R utilizado para gerar a Figura 2:
> par(mfrow=c(3,2), mar=c(3,3,1,0)+.5, mgp=c(1.6,0.6,0), las = 1, cex.lab = 1, cex.axis = 0.8) > y = seq(0,30, by = 1) > plot(y, dpois(y, lambda = 0.5), main = expression(paste("(a) ",mu,"= 0.5")), type = "h", lwd = 3, ylab = "p(y)", xlab = "y") > points(y, dpois(y, lambda = 0.5), pch = 19) > grid() > plot(y, dpois(y, lambda = 1.0), main = expression(paste("(b) ",mu,"= 1.0")), type = "h", lwd = 3, ylab = "p(y)", xlab = "y") > points(y, dpois(y, lambda = 1.0), pch = 19) > grid() > plot(y, dpois(y, lambda = 2.0), main = expression(paste("(c) ",mu,"= 2.0")), type = "h", lwd = 3, ylab = "p(y)", xlab = "y") > points(y, dpois(y, lambda = 2.0), pch = 19) > grid() > plot(y, dpois(y, lambda = 4.0), main = expression(paste("(d) ",mu,"= 4.0")), type = "h", lwd = 3, ylab = "p(y)", xlab = "y") > points(y, dpois(y, lambda = 4.0), pch = 19) > grid() > plot(y, dpois(y, lambda = 8.0), main = expression(paste("(e) ",mu,"= 8.0")), type = "h", lwd = 3, ylab = "p(y)", xlab = "y") > points(y, dpois(y, lambda = 8.0), pch = 19) > grid() > plot(y, dpois(y, lambda = 16.0), main = expression(paste("(f) ",mu,"= 16.0")), type = "h", lwd = 3, ylab = "p(y)", xlab = "y") > points(y, dpois(y, lambda = 16.0), pch = 19) > grid()

(d) A distribuição gama constitui uma família contínua com função de densidade indexada pelo parâmetro de escala $\omega> 0$ e parâmetro de forma $\psi> 0$: \begin{equation} p(y) \, = \, \left(\dfrac{y}{\omega} \right)^{\psi-1}\dfrac{\exp(-y/\omega)}{\omega\Gamma(\psi)} \qquad \mbox{ para } \qquad y\geq 0, \end{equation} onde $\Gamma(\cdot)$ é a função gama. Lembremos que a função gama é definida como \begin{equation} \Gamma(x) \, = \, \int_0^\infty e^{-z}z^{x-1} \mbox{d}z \end{equation} e pode ser pensada como uma generalização contínua da função fatorial em que quando $x$ é um número inteiro não negativo, $x!=\Gamma(x+1)$.
A esperança e a variância da distribuição gama são, respectivamente, $\mbox{E}(Y) = \omega\psi$ e $\mbox{Var}(Y) = \omega^2\psi$. No contexto de modelos lineares generalizados, onde, para a família gama, $V(Y) = \phi\mu^2$, consulte a Tabela 2, o parâmetro de dispersão é simplesmente o inverso do parâmetro de forma, $\phi = 1/\psi$. Como os nomes dos parâmetros sugerem, o parâmetro de escala na família gama influencia a propagação e, aliás, a localização, mas não a forma da distribuição, enquanto o parâmetro de forma controla a assimetria da distribuição. A Figura 3 mostra as distribuições gama para a escala $\omega = 1$ e vários valores do parâmetro de forma $\psi$. Alterar o parâmetro de escala mudaria apenas o rótulo do eixo horizontal no gráfico. À medida que o parâmetro de forma fica maior, a distribuição fica mais simétrica. A distribuição gama é útil para modelar uma variável de resposta contínua positiva, onde a variância condicional da resposta cresce com sua média, mas onde o coeficiente de variação da resposta, $SD(Y)/\mu$, é constante.

Figura 3: Várias distribuições gama para a escala $\omega = 1$ e vários valores do parâmetro de forma $\psi$.

Código R utilizado para gerar a Figura 3:
> par(mfrow=c(1,1), mar=c(3,3,1,0)+.5, mgp=c(1.6,0.6,0), las = 1, cex.lab = 1, cex.axis = 0.8) > y = seq(0,10, by = 0.01) > plot(y, dgamma(y, scale = 1, shape = 0.5), main = "", type = "l", lwd = 3, ylab = "p(y)", ylim = c(0,1.6), xlab = "y") > lines(y, dgamma(y, scale = 1, shape = 1), type = "l", lwd = 3, col = "red") > lines(y, dgamma(y, scale = 1, shape = 2), type = "l", lwd = 3, col = "blue") > lines(y, dgamma(y, scale = 1, shape = 5), type = "l", lwd = 3, col = "green") > text(1,1.5, expression(paste(psi, " = 0.5"))) > text(1.5,0.6, expression(paste(psi, " = 1.0")), col = "red") > text(2,0.45, expression(paste(psi, " = 2.0")), col = "blue") > text(4,0.3, expression(paste(psi, " = 5.0")), col = "green") > grid()

(e) A distribuição gaussiana inversa é outra família contínua indexada por dois parâmetros, $\mu$ e $\lambda$, com função de densidade \begin{equation} p(y) \, = \, \sqrt{\dfrac{\lambda}{2\pi y^3}}\exp\left( -\dfrac{\lambda(y-\mu)^2}{2y \mu^2}\right) \qquad \mbox{ para } \qquad y>0\cdot \end{equation} A esperança e a variância de $Y$ são $\mbox{E}(Y) = \mu$ e $\mbox{Var}(Y) = \mu^3/\lambda$. No contexto de modelos linereas generalizados, onde, para a família gaussiana inversa, $V(Y) = \phi\mu^3$, conforme registrado na Tabela 2, $\lambda$ é o inverso do parâmetro de dispersão $\phi$. Assim como a distribuição gama, portanto, a variância da distribuição gaussiana inversa aumenta com sua média, mas a uma taxa mais rápida. A assimetria também aumenta com o valor de $\mu$ e diminui com $\lambda$. A Figura 4 mostra várias distribuições gaussianas inversas.

Figura 4: Distribuições gaussianas inversas para várias combinações de valores da média $\mu$ e dispersão $1/\lambda$.

Código R utilizado para gerar a Figura 4:
> par(mfrow=c(1,1), mar=c(3,3,1,0)+.5, mgp=c(1.6,0.6,0), las = 1, cex.lab = 1, cex.axis = 0.8) > library(gamlss) > plot(function(y) dIG(y, mu=1, sigma=1), 0.01, 5, type = "l", main = "", xlab = "y", ylab = "p(y)", lwd = 3) > plot(function(y) dIG(y, mu=1, sigma=1/2), 0.01, 5, type = "l", lty = 2, lwd = 3, add = TRUE, col = "red") > plot(function(y) dIG(y, mu=5, sigma=1), 0.01, 5, type = "l", lty = 3, lwd = 3, add = TRUE, col = "blue") > plot(function(y) dIG(y, mu=5, sigma=1/2), 0.01, 5, type = "l", lty = 4, lwd = 3, add = TRUE, col = "green") > legend(2,1, legend = c(expression(paste(mu, " = 1, ",lambda, " = 1")), expression(paste(mu, " = 1, ",lambda, " = 2")), expression(paste(mu, " = 5, ",lambda, " = 1")), expression(paste(mu, " = 5, ",lambda, " = 2"))), lty = c(1,2,3,4), col = c("black","red","blue","green"), bty = "n") > grid()

I.1 Estimando e testando modelos lineares generalizados

Os modelos lineares generalizados são ajustados aos dados pelo método de máxima verossimilhança, fornecendo não apenas estimativas dos coeficientes de regressão, mas também erros padrão assintóticos estimados, ou seja, em amostras grandes dos coeficientes. Para testar a hipótese nula $H_0 \, : \, \beta_j\,= \, \beta_j^{(0)}$ podemos calcular a estatística de Wald \begin{equation} Z_0 \, = \, \dfrac{\widehat{\beta}_j - \beta_j^{(0)}}{SE(\widehat{\beta}_j)}, \end{equation} onde $SE(\widehat{\beta}_j)$ é o erro padrão assintótico do coeficiente estimado $\widehat{\beta}_j$. Sob a hipótese nula, $Z_0$ segue uma distribuição normal padrão.

Conforme explicado, algumas das famílias exponenciais nas quais os modelos lineares generalizados são baseados incluem um parâmetro de dispersão desconhecido $\phi$. Embora este parâmetro possa, em princípio, ser estimado por máxima verossimilhança é mais comum usar um estimador pelo método dos momentos, que denotaremos $\widetilde{\phi}$.

A ANOVA para modelos lineares tem um análogo próximo na análise de desvio para modelos lineares generalizados. No contexto mais geral atual, o desvio residual para um modelo linear generalizado é \begin{equation} D_m \, = \, 2\big(\log_e(L_s)-\log_2(L_m) \big), \end{equation} onde $L_m$ é a verossimilhança maximizada sob o modelo em questão e $L_s$ é a verossimilhança maximizada sob um modelo saturado, que dedica um parâmetro a cada observação e conseqüentemente ajusta os dados o mais próximo possível. O desvio residual é análogo e, de fato, é uma generalização da soma residual dos quadrados para um modelo linear.

Em modelos lineares generallizados para os quais o parâetro de dispersão é fixado em 1, ou seja, binomial e Poisson, a estatística de teste da razão de verossimilhanças é simplesmente a diferença nos desvios residuais para modelos aninhados. Suponha que o Modelo 0, com $k_0+1$ coeficientes, esteja aninhado no Modelo 1, com $k_1+1$ coeficientes onde, então, $k_0 < k_1$; mais comumente, o Modelo 0 simplesmente omitiria alguns dos regressores no modelo 1.

Testamos a hipótese nula de que as restrições no Modelo 1 representado pelo Modelo 0 estão corretas calculando a estatística de teste de razão de verossimilhança \begin{equation} G_0^2 \, = \, D_0 \, - \, D_1\cdot \end{equation} Sob a hipótese, $G_0^2$ é assintoticamente distribuído como qui-quadrado com $k_1 - k_0$ graus de liberdade.

Os testes de razão de verossimilhanças podem ser invertidos para fornecer intervalos de confiança para coeficientes; os testes e intervalos baseados na estatística da razão de verossimilhanças tendem a ser mais confiáveis do que aqueles baseados na estatística Wald. Por exemplo, o intervalo de confiança de 95% para $\beta_j$ inclui todos os valores $β_j'$ para os quais a hipótese $H_0 \, : \, β_j = β_j'$ é aceitável no nível 0.05, ou seja, todos os valores de $β_j$ para os quais $2\big(\log_e(L_1)-\log_2(L_0) \big) \leq \chi^2_{0.05,1} = 3.84$, onde $\log_e(L_1)$ é o logaritmo da verossimilhança maximizado para o modelo completo e $log_e(L_0)$ é o logaritmo da verossimilhança maximizado para um modelo no qual $\beta_j$ é restrito ao valor $\beta_j'$. Este procedimento é computacionalmente intensivo porque exige a verossimilhança perfilada - reajustar o modelo para vários valores fixos $\beta_j'$ de $\beta_j$.

Para um modelo linear generalizado em que há um parâmetro de dispersão para estimar, gaussiano, gamma e gaussiana inversa, podemos, em vez disso, comparar modelos aninhados por um teste $F$, \begin{equation} F_0 \, = \, \dfrac{\frac{D_0-D_1}{k_1-k_0}}{\widetilde{\phi}}, \end{equation} onde a dispersão estimada $\widetilde{\phi}$, análoga à variância do erro estimado para um modelo linear é retirada do maior modelo ajustado aos dados, que não é necessariamente o Modelo 1. Se o maior modelo tem $k+1$ coeficientes, então, sob a hipótese de que as restrições no Modelo 1 representadas pelo Modelo 0 está correto, $F_0$ segue uma distribuição $F$ com $k_1−k_0$ e $n-k-1$ graus de liberdade. Aplicado a um modelo linear generalizado gaussiano, este é simplesmente o familiar teste $F$ incremental. O desvio residual dividido pela dispersão estimada, $D^* ≡ D/\widetilde{\phi}$, é chamado de desvio escalonado. O uso não é totalmente uniforme aqui, e tanto o desvio residual quanto o desvio escalonado costumam ser simplesmente denominados de desvio.

Podemos basear um análogo nos modelos lineares generalizados da correlação múltipla ao quadrado no desvio residual: Seja $D_0$ o desvio residual para o modelo incluindo apenas a constante de regressão $\alpha$ - denominado desvio nulo - e $D_1$ o desvio residual para o modelo em questão. Então, \begin{equation} R^2 \, = \, 1-\dfrac{D_1}{D_0}, \end{equation} representa a proporção do desvio nulo contabilizado pelo modelo.

II. Modelos lineares generalizados para contagens

O modelo linear generalizado básico para dados de contagem é o modelo de Poisson com ligação de logaritmo (log). Considere, a título de exemplo, os dados de Michael Ornstein sobre diretorias interligadas entre 248 empresas canadenses dominantes, exemplo a seguir. O número de interligamento para cada empresa é o número de laços que uma empresa manteve em virtude de seus membros do conselho e os principais executivos também atuarem como membros do conselho ou executivos de outras empresas no conjunto de dados. Ornstein estava interessado na regressão do número de bloqueios em outras características das empresas - especificamente, em seus ativos (medidos em bilhões de dólares), nação de controle (Canadá, Estados Unidos, Reino Unido ou outro país) e o principal setor de operação da empresa (10 categorias, incluindo bancos, outras instituições financeiras, manufatura pesada, etc.).

A descrição deste exemplo está disponível em:

https://socialsciences.mcmaster.ca/jfox/Books/Applied-Regression-2E/datasets/Ornstein.pdf.

O nome do arquivo de dados é Ornstein.txt e foi publicado no artigo Ornstein, M. (1976) The boards and executives of the largest Canadian corporations. Canadian Journal of Sociology 1, 411–437. Personal communication from M. Ornstein, Department of Sociology, York University.

Contêm as variáveis:

assets: ativos em milhões de dólares.
sector: Setor industrial: AGR, agricultura, alimentação, indústria leve; BNK, bancário; CON, construção; FIN, outro financeiro; HLD, empresas holding; MAN, manufatura pesada; MER, merchandising; MIN, mineração, metais, etc .; TRN, transporte; WOD, madeira e papel.
nation: Nação de controle: CAN, Canadá; OTH, outro estrangeiro; Reino Unido, Grã-Bretanha; EUA, Estados Unidos.
interlocks: Número de cargos de diretor e executivo interligados compartilhados com outras empresas importantes.

> dados = read.table("https://socialsciences.mcmaster.ca/jfox/Books/Applied-Regression-2E/datasets/Ornstein.txt", header = T) > attach(dados) > head(dados) assets sector nation interlocks 1 147670 BNK CAN 87 2 133000 BNK CAN 107 3 113230 BNK CAN 94 4 85418 BNK CAN 48 5 75477 BNK CAN 66 6 40742 FIN CAN 69 > levels(factor(dados$sector)) [1] "AGR" "BNK" "CON" "FIN" "HLD" "MAN" "MER" "MIN" "TRN" "WOD" > levels(factor(dados$nation)) [1] "CAN" "OTH" "UK" "US" > nation = relevel(factor(dados$nation), ref = "US") > levels(nation) [1] "US" "CAN" "OTH" "UK" > sector = relevel(factor(dados$sector), ref = "CON") > levels(sector) [1] "CON" "AGR" "BNK" "FIN" "HLD" "MAN" "MER" "MIN" "TRN" "WOD" > par(mfrow=c(1,1), mar=c(3,2,1,0)+.5, mgp=c(1.6,.6,0)) > plot(table(dados$interlocks), type = "h", ylab = "Frequência", xlab = "Número de cargos executivos e de diretoria interligados") > points(table(dados$interlocks), type = "p", pch = 19) > grid()

O exame da distribuição do número de intertravamentos, na Figura 5, revela que a variável resposta é altamente enviesada positivamente e que há muitas contagens zero. Embora a distribuição condicional de intertravamentos dadas as variáveis explicativas possa diferir de sua distribuição marginal, a extensão em que a distribuição marginal de intertravamentos se afasta da simetria é um mau presságio para a regressão de mínimos quadrados. Além disso, nenhuma transformação espalhará os zeros.

> assets = assets/1000 > ajuste = glm(interlocks ~ nation + sector + assets, family = poisson) > summary(ajuste) Call: glm(formula = interlocks ~ nation + sector + assets, family = poisson) Deviance Residuals: Min 1Q Median 3Q Max -5.9908 -2.4767 -0.8582 1.3472 7.3610 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.879075 0.210058 4.185 2.85e-05 *** nationCAN 0.825933 0.048968 16.867 < 2e-16 *** nationOTH 0.662727 0.075534 8.774 < 2e-16 *** nationUK 0.248847 0.091932 2.707 0.006792 ** sectorAGR 0.619571 0.211968 2.923 0.003467 ** sectorBNK 0.210389 0.253688 0.829 0.406922 sectorFIN 1.296546 0.211464 6.131 8.72e-10 *** sectorHLD 0.828031 0.232934 3.555 0.000378 *** sectorMAN 0.672169 0.213298 3.151 0.001625 ** sectorMER 0.797261 0.218188 3.654 0.000258 *** sectorMIN 1.240637 0.208526 5.950 2.69e-09 *** sectorTRN 1.297399 0.213786 6.069 1.29e-09 *** sectorWOD 1.331123 0.213065 6.247 4.17e-10 *** assets 0.020851 0.001202 17.340 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 3737.0 on 247 degrees of freedom Residual deviance: 1887.4 on 234 degrees of freedom AIC: 2813.4 Number of Fisher Scoring iterations: 5 > anova(ajuste, test="Chisq") Analysis of Deviance Table Model: poisson, link: log Response: interlocks Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev Pr(>Chi) NULL 247 3737.0 nation 3 672.50 244 3064.5 < 2.2e-16 *** sector 9 786.22 235 2278.3 < 2.2e-16 *** assets 1 390.90 234 1887.4 < 2.2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Os resultados da regressão Poisson do número de intertravamentos nos ativos, na nação de controle e no setor estão resumidos na saída da ANOVA acima. Todos os termos do modelo são, portanto, altamente significativos do ponto de vista estatístico.

Como o modelo usa a ligação logaritmo, podemos interpretar os coeficientes exponenciados, ou seja, o $e^{\beta_j}$ como efeitos multiplicativos no número esperado de intertravamentos. Assim, por exemplo, mantendo a nação de controle e o setor constantes, aumentando os ativos em 1 bilhão de dólares, a unidade da variável de ativos, multiplica o número estimado estimado de intertravamentos por $e^{0.020851} = 1.02107$ - ou seja, um aumento de pouco mais de 2%. Da mesma forma, o número estimado esperado de intertravamentos é $e^{0.8259} = 2.283$ vezes mais alto em uma empresa controlada pelo Canadá do que em uma empresa comparável controlada pelos EUA.

Conforme mencionado, o desvio residual para o ajuste do modelo completo aos dados de Ornstein é $D_1 = 1887.402$; o desvio para um modelo que se ajusta apenas à constante, ou seja, o desvio nulo é $D_0 = 3737.010$. Consequentemente, $R^2 = 1 - 1887.402/3737.010 = 0.495$, revelando que o modelo é responsável por quase metade do desvio no número de intertravamentos.

Figura 6: Número de intertravamentos preditos ou estimados segundo o número de intertravamentos observados. Esquerda: de acordo com a nação de controle e direita: de acordo com o setor industrial.

> library(lattice) > xyplot(fitted(ajuste) ~ interlocks | nation, pch = 19, xlab="Intertravamentos observados", ylab="Intertravamentos preditos") > xyplot(fitted(ajuste) ~ interlocks | sector, pch = 19, xlab="Intertravamentos observados", ylab="Intertravamentos preditos")

O modelo de regressão de Poisson é um modelo não linear para a resposta esperada e, portanto, geralmente é mais simples interpretar o modelo graficamente usando exibições de efeito do que examinar os coeficientes estimados diretamente. Os princípios de construção de telas de efeito para modelos lineares generalizados são essencialmente o mesmo que para modelos lineares e para modelos logit e probit. Normalmente construímos uma exibição para cada termo de ordem superior no modelo, permitindo que as variáveis explicativas nesse termo variem sobre seus valores, enquanto mantemos outras variáveis explicativas no modelo com valores típicos. Em um GLM, é vantajoso plotar os efeitos na escala do preditor linear estimado $\eta$, um procedimento que preserva a estrutura linear do modelo. Em um modelo de Poisson com a ligação logaritmo, o preditor linear est&aaute; na escala logarítmica. Podemos, no entanto, tornar a exibição mais fácil de interpretar, rotulando novamente o eixo vertical na escala da resposta esperada $\mu$, mais informativamente, fornecendo um segundo eixo vertical no lado direito do gráfico. Para um modelo de Poisson, a resposta esperada é uma contagem.

II.1. Modelos para dados de contagem com superdispersão

O desvio residual para o ajuste do modelo de regressão de Poisson aos dados da diretoria de intertravamento, $D = 1887.4$, é muito maior do que os 234 graus de liberdade residuais do modelo. Se o modelo de Poisson se ajusta aos dados razoavelmente, esperaríamos que o desvio residual fosse aproximadamente igual aos graus de liberdade residuais. Ou seja, a razão entre o desvio residual e os graus de liberdade pode ser tomada como uma estimativa do parâmetro de dispersão $\phi$ que, em um modelo de Poisson, é fixado em 1. Deve-se notar, entretanto, que este estimador baseado em desvio da dispersão pode ter um desempenho fraco. Um estimador pelo método de momentos geralmente preferível é fornecido na Seção III.

O fato de o desvio residual ser tão grande sugere que a variação condicional do número esperado de intertravamentos excede a variação de uma variável com distribuição Poisson, para a qual a variância é igual à média. Essa ocorrência comum na análise de dados de contagem é chamada de superdispersão.

Embora seja muito menos comum, também é possível que os dados de contagem sejam subdispersos, ou seja, que a variação condicional da resposta seja menor do que a média. A solução para dados de contagem subdispsidos é a mesma que para dados superdispersos; por exemplo, podemos ajustar um modelo quase-Poisson com um parâmetro de dispersão, conforme descrito imediatamente abaixo.

Na verdade, a superdispersão é tão comum em modelos de regressão para dados de contagem e suas consequências são potencialmente tão graves, que modelos como os GLMs de quase Poisson e binomial negativo discutidos em esta seção devem ser empregados como uma coisa natural.

Modelo Quase-Poisson

Um remédio simples para dados de contagem superdispersos é introduzir um parâmetro de dispersão no modelo Poisson, de forma que a variância condicional da resposta seja agora $\mbox{Var}(Y_i \, | \, \eta_i) = \phi \mu_i$. Se $\phi> 1$, portanto, a variância condicional de $Y$ aumenta mais rapidamente do que sua média. Não há família exponencial correspondente a esta especificação e o GLM resultante não implica uma distribuição de probabilidade específica para a variável de resposta. Em vez disso, o modelo especifica a méia condicional e variância de $Y_i$ diretamente. Como o modelo não fornece uma distribuição de probabilidade para $Y_i$, ele não pode ser estimado por máxima verossimilhança. No entanto, o procedimento usual para estimação por máxima verossimilhança de um GLM produz os chamados estimadores de quase verossimilhança dos coeficientes de regressão, que compartilham muitas das propriedades dos estimadores de máxima verossimilhança.

Acontece que as estimativas de quase verossimilhança dos coeficientes de regressão são idênticas às estimativas de máxima verossimilhança para o modelo Poisson. Os erros padrão dos coeficientes estimados diferem, entretanto: Se $\widetilde{\phi}$ for a dispersão estimada para o modelo, então os erros padrão dos coeficientes para o modelo de quase-Poisson é $\widetilde{\phi}^{1/2}$ vezes aquela para o modelo Poisson. No caso de sobredispersão, portanto, onde $\phi> 1$, o efeito de introduzir um parâmetro de dispersão e obter estimativas de quase-verossimilhança é realisticamente inflar os erros padrão do coeficiente. Da mesma forma, os testes $F$ para termos no modelo refletirão o parâmetro de dispersão estimado, produzindo estatísticas de teste menores e $p$-valores maiores.

Conforme explicado na seção seguinte, usamos o estimador obtido pelo método dos momentos para o par&acir;metro de dispersão. No modelo quase-Poisson, o estimador de dispersão assume a forma \begin{equation} \widetilde{\phi} \, = \, \dfrac{1}{n-k-1}\sum_{i=1}^n \dfrac{\big(Y_i-\widehat{\mu}_i \big)^2}{\widehat{\mu}_i}, \end{equation} onde onde $\widehat{\mu}_i = g^{−1}(\widehat{\eta}_i)$ é a esperança ajustada de $Y_i$. Aplicado à regressão de direção interligada de Ornstein, por exemplo, obtemos $\widetilde{\phi} = 7.943873$ e, portanto, os erros padrão dos coeficientes de regressão para o modelo Poisson na Tabela 3 são cada um multiplicados por $\sqrt{7.943873} = 2.818488$.

> ajuste1 = glm(interlocks ~ nation + sector + assets, data = dados, family = quasipoisson) > summary(ajuste1) Call: glm(formula = interlocks ~ nation + sector + assets, family = quasipoisson, data = dados) Deviance Residuals: Min 1Q Median 3Q Max -5.9908 -2.4767 -0.8582 1.3472 7.3610 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.325e+00 1.464e-01 15.881 < 2e-16 *** nationOTH -1.632e-01 2.075e-01 -0.787 0.432335 nationUK -5.771e-01 2.509e-01 -2.300 0.022339 * nationUS -8.259e-01 1.380e-01 -5.984 8.10e-09 *** sectorBNK -4.092e-01 4.397e-01 -0.931 0.353003 sectorCON -6.196e-01 5.974e-01 -1.037 0.300779 sectorFIN 6.770e-01 1.939e-01 3.491 0.000574 *** sectorHLD 2.085e-01 3.350e-01 0.622 0.534410 sectorMAN 5.260e-02 2.129e-01 0.247 0.805075 sectorMER 1.777e-01 2.439e-01 0.728 0.467056 sectorMIN 6.211e-01 1.886e-01 3.294 0.001142 ** sectorTRN 6.778e-01 2.109e-01 3.214 0.001493 ** sectorWOD 7.116e-01 2.123e-01 3.352 0.000936 *** assets 2.085e-05 3.389e-06 6.152 3.28e-09 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for quasipoisson family taken to be 7.943873) Null deviance: 3737.0 on 247 degrees of freedom Residual deviance: 1887.4 on 234 degrees of freedom AIC: NA Number of Fisher Scoring iterations: 5 > sqrt(7.943873) [1] 2.818488 > anova(ajuste1) Analysis of Deviance Table Model: quasipoisson, link: log Response: interlocks Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev NULL 247 3737.0 nation 3 672.50 244 3064.5 sector 9 786.22 235 2278.3 assets 1 390.90 234 1887.4

Observe que não houve mudança na tabela ANOVA.

Observo de passagem que existe um modelo quase-binomial semelhante para proporções superdispersas, substituindo o parâmetro de dispersão fixo de 1 na distribuição binomial por um parâmetro de dispersão $\phi$ a ser estimado a partir dos dados. Dados binomiais superdispersos podem surgir, por exemplo, quando diferentes indivíduos que compartilham os mesmos valores das variáveis explicativas diferem em sua probabilidade $\mu$ de sucesso, uma situação que é denominada heterogeneidade não modelada. Da mesma forma, a superdispersão pode ocorrer quando as observações binomiais não são independentes, conforme exigido pela distribuição binomial - por exemplo, quando cada observação binomial é para indivíduos relacionados, como membros de uma família.

Modelo Binomial-Negativa

Existem várias rotas para modelos de contagens com base na distribuição binomial negativa ver, por exemplo, Long (1997) e McCullagh and Nelder (1989). Uma abordagem, seguindo McCullagh and Nelder (1989) é adotar um modelo Poisson para a contagem $Y_i$, mas supor que a contagem esperada $\mu_i^*$ é em si uma variável aleatória não observável que é distribuída segundo a distribuição gama com média $\mu_i$ e parâmetro de escala constante $\omega$, implicando que o parâmetro de forma gama é $\psi_i = \mu_i/\omega$. Então, a contagem observada $Y_i$ segue uma distribuição binomial negativa \begin{equation} P(Y_i=y_i) \, = \, \dfrac{\Gamma(y_i+\omega)}{y_i!\Gamma(\omega)}\dfrac{\mu_i^{y_i}\omega^\omega}{(\mu_i+\omega)^{\mu_i+\omega}}, \end{equation} com valor esperado $\mbox{E}(Y_i)=\mu_i$ e variância $\mbox{Var}(Y_i)=\mu_i+\mu_i^2/\omega$. A menos que o parâmetro $\omega$ seja grande, portanto, a variância de $Y$ aumenta mais rapidamente com a média do que a variância de uma variável Poisson. Tornar o valor esperado de $Y_i$ uma variável aleatória incorpora variação adicional entre as contagens observadas para observações que compartilham os mesmos valores das variáveis explicativas e, conseqüentemente, têm o mesmo preditor linear $\eta_i$.

> ajuste2 = gamlss( interlocks ~ nation + sector + assets, data = dados, trace = FALSE, family = NBF(mu.link = "log", sigma.link = "log", nu.link = "log")) Warning message: In RS() : Algorithm RS has not yet converged > summary(ajuste2) ****************************************************************** Family: c("NBF", "NB Family") Call: gamlss(formula = interlocks ~ nation + sector + assets, family = NBF(mu.link = "log", sigma.link = "log", nu.link = "log"), data = dados, trace = FALSE) Fitting method: RS() ------------------------------------------------------------------ Mu link function: log Mu Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.275e+00 1.488e-01 15.283 < 2e-16 *** nationOTH -1.700e-01 2.178e-01 -0.781 0.435885 nationUK -4.472e-01 2.392e-01 -1.870 0.062767 . nationUS -8.125e-01 1.368e-01 -5.939 1.04e-08 *** sectorBNK -6.409e-01 5.177e-01 -1.238 0.217000 sectorCON -4.938e-01 4.912e-01 -1.005 0.315852 sectorFIN 7.657e-01 2.044e-01 3.746 0.000226 *** sectorHLD 4.263e-02 3.547e-01 0.120 0.904443 sectorMAN -6.075e-02 2.119e-01 -0.287 0.774632 sectorMER 2.695e-01 2.386e-01 1.130 0.259756 sectorMIN 6.269e-01 1.885e-01 3.326 0.001023 ** sectorTRN 7.418e-01 2.196e-01 3.377 0.000859 *** sectorWOD 6.773e-01 2.232e-01 3.034 0.002686 ** assets 2.382e-05 4.279e-06 5.567 7.13e-08 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 ------------------------------------------------------------------ Sigma link function: log Sigma Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.2953 0.4627 2.8 0.00555 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 ------------------------------------------------------------------ Nu link function: log Nu Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.2737 0.1437 1.904 0.0581 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 ------------------------------------------------------------------ No. of observations in the fit: 248 Degrees of Freedom for the fit: 16 Residual Deg. of Freedom: 232 at cycle: 20 Global Deviance: 1660.993 AIC: 1692.993 SBC: 1749.208 ******************************************************************

Com o parâmetro da escala gama $\omega$ fixado em um valor conhecido, a distribuição binomial negativa é um elemento da família exponencial e um GLM baseado nesta distribuição pode ser ajustado por mínimos quadrados ponderados iterados, conforme desenvolvido na próxima seção. Se em vez disso - e normalmente é o caso - o valor de $\omega$ é desconhecido e deve, portanto, ser estimado a partir dos dados, os métodos padrão para GLMs baseados em famílias exponenciais não se aplicam. Podemos, entretanto, obter estimativas tanto dos coeficientes de regressão quanto de $\omega$ pelo método da máxima verossimilhança. Aplicado à regressão de direção interligada de Ornstein e usando a ligação logaritmo, o GLM binomial negativo produz resultados muito semelhantes aos do modelo quase Poisson. O parâmetro de escala estimado para o modelo binomial negativo é $\widehat{\omega} = 1.2953$, com erro padrão $SE(\widehat{\omega}) = 0.4627$; temos, portanto, fortes evidências de que a variâcia condicional do número de intertravamentos aumenta mais rapidamente do que seu valor esperado.

Modificando o número de iterações do algoritmo obtemos a seguinte resultado melhorado:

> ajuste2 = gamlss( interlocks ~ nation + sector + assets, data = dados, trace = FALSE, n.cyc = 200, + family = NBF(mu.link = "log", sigma.link = "log", nu.link = "log")) > summary(ajuste2) ****************************************************************** Family: c("NBF", "NB Family") Call: gamlss(formula = interlocks ~ nation + sector + assets, family = NBF(mu.link = "log", sigma.link = "log", nu.link = "log"), data = dados, trace = FALSE, n.cyc = 200) Fitting method: RS() ------------------------------------------------------------------ Mu link function: log Mu Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.310e+00 1.364e-01 16.928 < 2e-16 *** nationOTH -1.946e-01 2.027e-01 -0.960 0.337958 nationUK -3.811e-01 2.200e-01 -1.732 0.084645 . nationUS -7.256e-01 1.387e-01 -5.233 3.74e-07 *** sectorBNK -4.304e-01 4.686e-01 -0.919 0.359244 sectorCON -3.460e-01 4.244e-01 -0.815 0.415691 sectorFIN 7.626e-01 1.779e-01 4.287 2.65e-05 *** sectorHLD -5.412e-02 3.509e-01 -0.154 0.877554 sectorMAN -1.015e-01 1.945e-01 -0.522 0.602039 sectorMER 2.715e-01 2.123e-01 1.279 0.202157 sectorMIN 5.847e-01 1.761e-01 3.319 0.001048 ** sectorTRN 7.198e-01 1.925e-01 3.739 0.000233 *** sectorWOD 6.150e-01 2.087e-01 2.947 0.003531 ** assets 2.083e-05 3.598e-06 5.789 2.28e-08 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 ------------------------------------------------------------------ Sigma link function: log Sigma Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.3410 0.5678 4.123 5.21e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 ------------------------------------------------------------------ Nu link function: log Nu Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.09411 0.24019 -0.392 0.696 ------------------------------------------------------------------ No. of observations in the fit: 248 Degrees of Freedom for the fit: 16 Residual Deg. of Freedom: 232 at cycle: 93 Global Deviance: 1656.339 AIC: 1688.339 SBC: 1744.554 ******************************************************************

Regressão Poisson inflacionada de zeros

Um tipo particular de superdispersão é obtido quando há mais zeros nos dados do que é consistente com uma distribuição Poisson ou binomial negativa, uma situação que pode surgir quando apenas certos membros da população estão em risco de uma contagem diferente de zero. Imagine, por exemplo, que estamos interessados em modelar o número de filhos nascidos de uma mulher. Podemos esperar que esse número seja uma função parcial de variáveis explicativas como estado civil, idade, etnia, religião e uso de anticoncepcionais. Também é provável, no entanto, que algumas mulheres ou seus parceiros sejam inférteis e sejam diferentes das mulheres férteis que, embora em risco de ter filhos, acontecem não ter nenhum. Se soubéssemos quais mulheres são inférteis, poderíamos simplesmente excluí-las da análise, mas suponhamos que não seja esse o caso. Para reiterar, existem duas fontes de zeros nos dados que não podem ser perfeitamente distinguidas: as mulheres que não podem ter filhos e as que não querem ter filhos.

Vários modelos estatísticos têm sido propostos para dados de contagem com excesso de zeros, incluindo o modelo de regressão de Poisson inflado por zeros ou ZIP, devido a Lambert (1992). O modelo ZIP consiste em dois componentes:

(a) Um modelo de regressão logística binária para associação na classe latente de indivíduos para os quais a variável de resposta é necessariamente 0 (zero), por exemplo, indivíduos inférteis;

(b) um modelo de regressão de Poisson para a classe latente de indivíduos para os quais a resposta pode ser 0 (zero) ou uma contagem positiva, por exemplo, mulheres férteis.

Seja $\pi_i$ representam a probabilidade de que a resposta $Y_i$ para o $i$-ésimo indivíduo seja necessariamente 0. Então \begin{equation} \log_e\left( \dfrac{\pi_i}{1-\pi_i}\right) \, = \, \gamma_0+\gamma_1 Z_{i1}+\gamma_2 Z_{i2}+\cdots+\gamma_p Z_{ip} \end{equation} onde os $Z_{ij}$ são regressores para prever a adesão &\grave; primeira classe latente; e \begin{equation} \log_e \big( \mu_i\big) \, = \, \alpha+\beta_1 X_{i1}+\beta_2 X_{i2}+\cdots+\beta_p X_{ik} \end{equation} e \begin{equation} p(y_i \, | \, x_1,\cdots,x_k) \, = \, \dfrac{\mu_i^{y_i}e^{-\mu_i}}{y_i!}, \qquad \mbox{para} \qquad y_1=0,1,2,\cdots, \end{equation} onde $\mu_i = \mbox{E}(Y_i)$ é a contagem esperada para um indivíduo na segunda classe latente e o $X_{ij}$ são regressores para o submodelo de Poisson. Nas aplicações, os dois conjuntos de regressores - os $X$s e os $Z$s - costumam ser iguais, mas não é necessariamente o caso. De fato, um caso especial particularmente simples surge quando o submodelo logístico é \begin{equation} \log_e\left( \dfrac{\pi_i}{1 - \pi_i}\right) = \gamma_0, \end{equation} uma constante, implicando que a probabilidade de pertencer à primeira classe latente é idêntica para todas as observações.

A probabilidade de observar uma contagem 0 (zero) é \begin{equation} p(0) \, = \, P(Y_i=0) \, = ,\ \pi_1+(1-\pi_i)e^{-\mu_i} \end{equation} e a probabilidade de observar qualquer contagem diferente de zero $y_i$ é \begin{equation} p(y_i) \, = \, (1-\pi_i)\times \dfrac{\mu_i^{y_i}e^{-\mu_i}}{y_i!}\cdot \end{equation}

A esperança condicional e a variância de $Y_i$ são \begin{array}{rcl} \mbox{E}(Y_i) & = & (1-\pi_i)\mu_i \\[0.4em] \mbox{Var}(Y_i) & = & (1-\pi_i)\mu_i(1+\pi_i\mu_i), \end{array} com $\mbox{Var}(Y_i) > \mbox{E}(Y_i)$ para $\pi_> 0$, ao contrário de uma distribuição de Poisson pura, para a qual $\mbox{Var}(Y_i) = \mbox{E}(Y_i) = \mu_i$. Embora esta forma do modelo de contagem inflacionada de zero seja a mais comum, Lambert (1992) também sugeriu o uso de outros GLMs binários para associação na classe latente zero, ou seja, probit, log-log e modelos complementar log-log e o uso alternativo da distribuição binomial negativa para o submodelo de contagem.

A estimação do modelo ZIP seria simples se soubéssemos a qual classe latente cada observação pertence, mas, como indicado, isso não é verdade. Em vez disso, devemos maximizar a log-verossimilhança combinada um pouco mais complexa para os dois componentes do modelo ZIP \begin{array}{rcl} \log_e\Big(L(\beta,\gamma;y) \Big) & = & \displaystyle \sum_{y_i=0} \log_e\left( \exp(Z_i^\top \gamma)+\exp\big( -\exp(X_i^\top \beta)\big)\right) + \displaystyle \sum_{y_i>0} \left( y_iX_i^\top \beta-\exp(X_i^\top \beta)\right) \\[0.4em] & & -\displaystyle \sum_{i=1}^n \log_e\big(1+\exp(Z_i^\top \gamma) \big)-\sum_{y_i>0} \log_e(y_i!), \end{array} onde $Z_i^\top =(1,Z_{i1},\cdots,Z_{ip})$ , $X_i^\top=(1,X_{i1},\cdots,X_{ik})$, $\gamma=(\gamma_0,\gamma_1,\cdots,\gamma_p)^\top$ e $\beta=(\alpha,\beta_1,\cdots,\beta_p)^\top$.

Exemplo:

Fonte: Institute for Digital research & Education. UCLA: Statistical Consulting Group.
https://stats.idre.ucla.edu/ (acessado 12 de maio de 2021)

Os biólogos estaduais da vida selvagem querem modelar quantos peixes estão sendo capturados pelos pescadores em um parque estadual. Os visitantes são questionados sobre quanto tempo permaneceram, quantas pessoas estavam no grupo, se havia crianças no grupo e quantos peixes foram pescados. Alguns visitantes não pescam, mas não há dados sobre se uma pessoa pescou ou não. Alguns visitantes que pescaram não apanharam nenhum peixe, por isso existem zeros em excesso nos dados por causa das pessoas que não pescaram.

Como dizemos a regressão Poisson inflacionada com zeros é usada para modelar dados de contagem que têm um excesso de contagens zero. Além disso, a teoria sugere que os zeros em excesso são gerados por um processo separado dos valores de contagem e que os zeros em excesso podem ser modelados independentemente. Assim, o modelo ZIP tem duas partes, um modelo de contagem de poisson e o modelo logit para prever zeros em excesso.

> zinb <- read.csv("https://stats.idre.ucla.edu/stat/data/fish.csv") > head(zinb) nofish livebait camper persons child xb zg count 1 1 0 0 1 0 -0.8963146 3.0504048 0 2 0 1 1 1 0 -0.5583450 1.7461489 0 3 0 1 0 1 0 -0.4017310 0.2799389 0 4 0 1 1 2 1 -0.9562981 -0.6015257 0 5 0 1 0 1 0 0.4368910 0.5277091 1 6 0 1 1 4 2 1.3944855 -0.7075348 0 > zinb <- within(zinb, { nofish <- factor(nofish) livebait <- factor(livebait) camper <- factor(camper) }) > summary(zinb) nofish livebait camper persons child xb zg count 0:176 0: 34 0:103 Min. :1.000 Min. :0.000 Min. :-3.275050 Min. :-5.6259 Min. : 0.000 1: 74 1:216 1:147 1st Qu.:2.000 1st Qu.:0.000 1st Qu.: 0.008267 1st Qu.:-1.2527 1st Qu.: 0.000 Median :2.000 Median :0.000 Median : 0.954550 Median : 0.6051 Median : 0.000 Mean :2.528 Mean :0.684 Mean : 0.973796 Mean : 0.2523 Mean : 3.296 3rd Qu.:4.000 3rd Qu.:1.000 3rd Qu.: 1.963855 3rd Qu.: 1.9932 3rd Qu.: 2.000 Max. :4.000 Max. :3.000 Max. : 5.352674 Max. : 4.2632 Max. :149.000

Temos dados de 250 grupos que foram a um parque. Cada grupo foi questionado sobre quantos peixes pescaram count, quantas crianças estavam no grupo child, quantas pessoas estavam no grupo pearsons e se trouxeram ou não um trailer para o parque camper.

Além de prever o número de peixes capturados, há interesse em prever a existência de zeros em excesso, ou seja, a probabilidade de que um grupo tenha capturado zero peixe. Usaremos as variáveis child, pearsons e camper em nosso modelo.

> par(mfrow=c(1,1), mar=c(3,2,1,0)+.5, mgp=c(1.6,.6,0), pch=19) > plot(table(zinb$count), xlab = "Número de peixes capturados", ylab = "") > grid()

Regressão Poisson inflacionada de zeros

Embora possamos executar uma regress&aatilde;o de Poisson em R usando a função glm em um dos pacotes principais, precisamos de outro pacote para executar o modelo de poisson inflado de zeros. Usamos o pacote pscl.

> library(pscl) > summary(m1 <- zeroinfl(count ~ child + camper | persons, data = zinb)) Call: zeroinfl(formula = count ~ child + camper | persons, data = zinb) Pearson residuals: Min 1Q Median 3Q Max -1.2369 -0.7540 -0.6080 -0.1921 24.0847 Count model coefficients (poisson with log link): Estimate Std. Error z value Pr(>|z|) (Intercept) 1.59789 0.08554 18.680 <2e-16 *** child -1.04284 0.09999 -10.430 <2e-16 *** camper1 0.83402 0.09363 8.908 <2e-16 *** Zero-inflation model coefficients (binomial with logit link): Estimate Std. Error z value Pr(>|z|) (Intercept) 1.2974 0.3739 3.470 0.000520 *** persons -0.5643 0.1630 -3.463 0.000534 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Number of iterations in BFGS optimization: 10 Log-likelihood: -1032 on 5 Df

A saída se parece muito com a saída de duas regressões OLS em R. Abaixo da chamada do modelo, você encontrará um bloco de saída contendo os coeficientes da regressão de Poisson para cada uma das variáveis, juntamente com erros padrão, escores $z$ e os $p$-valores para os coeficientes. Segue-se um segundo bloco que corresponde ao modelo de inflação. Isso inclui coeficientes logit para prever zeros em excesso junto com seus erros padrão, escores $z$ e $p$-valores.

Todos os preditores nas partes de contagem e inflação do modelo são estatisticamente significativos. Este modelo se ajusta aos dados significativamente melhor do que o modelo nulo, ou seja, o modelo somente de intercepto. Para mostrar que esse é o caso, podemos comparar com o modelo atual a um modelo nulo sem preditores usando o teste qui-quadrado da diferença de log-verossimilhanças.

> mnull <- update(m1, . ~ 1) > pchisq(2*(logLik(m1) - logLik(mnull)), df = 3, lower.tail = FALSE) 'log Lik.' 4.041242e-41 (df=5)

Como temos três variáveis preditoras no modelo completo, os graus de liberdade para o teste qui-quadrado são 3. Isso resulta em um $p$-valor significativo alto; portanto, nosso modelo geral é estatisticamente significativo.

Observe que a saída do modelo acima não indica de forma alguma se nosso modelo inflado de zero é uma melhoria em relação a uma regressão de Poisson padrão. Podemos determinar isso executando o modelo de Poisson padrão correspondente e, em seguida, executando um teste de Vuong dos dois modelos.

> summary(p1 <- glm(count ~ child + camper, family = poisson, data = zinb)) Call: glm(formula = count ~ child + camper, family = poisson, data = zinb) Deviance Residuals: Min 1Q Median 3Q Max -3.7736 -2.2293 -1.2024 -0.3498 24.9492 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.91026 0.08119 11.21 <2e-16 *** child -1.23476 0.08029 -15.38 <2e-16 *** camper1 1.05267 0.08871 11.87 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 2958.4 on 249 degrees of freedom Residual deviance: 2380.1 on 247 degrees of freedom AIC: 2723.2 Number of Fisher Scoring iterations: 6 > vuong(p1, m1) Vuong Non-Nested Hypothesis Test-Statistic: (test-statistic is asymptotically distributed N(0,1) under the null that the models are indistinguishible) ------------------------------------------------------------- Vuong z-statistic H_A p-value Raw -3.574259 model2 > model1 0.00017561 AIC-corrected -3.552397 model2 > model1 0.00019087 BIC-corrected -3.513904 model2 > model1 0.00022079

O teste de Vuong compara o modelo inflado de zero com um modelo de regressão de Poisson comum. Neste exemplo, podemos ver que nossa estatística de teste é significativa, indicando que o modelo inflado de zero é superior ao modelo de Poisson padrão.

Existem algumas críticas e debates na literatura sobre o uso e mau uso do teste de Vuong para modelos não aninhados no teste de inflação zero em modelos de contagem. O objetivo aqui é mais focado em como implementar várias análises em R. Verifique as referências abaixo para maiores informações:

Desmarais Bruce A., Harden Jeffrey J., 2013. Testing for Zero Inflation in Count Models: Bias Correction for the Vuong Test. Stata Journal, 13, 4, 810-835.

Wilson P., 2015. The misuse of the Vuong test for non-nested models to test for zero-inflation. Economics Letters, 127, 51-53.

Podemos obter intervalos de confiança para os parâmetros e os parâmetros exponenciados de diversas maneiras, aqui usando bootstrapping. Para o modelo de Poisson, esses seriam os índices de risco incidente; para o modelo de inflação zero, os odds ratios.

Usamos o pacote boot. Primeiro, obtemos os coeficientes de nosso modelo original para usar como valores iniciais no modelo e acelerar o tempo que leva para estimar. Em seguida, escrevemos uma função curta que recebe dados e índices como entrada e retorna os parâmetros nos quais estamos interessados. Por fim, passamos isso para a função boot e fazemos 1200 replicações. Para resultados finais, pode-se desejar aumentar o número de replicações para ajudar a garantir resultados estáveis.

> coef(m1, "count") (Intercept) child camper1 1.5978889 -1.0428398 0.8340222 > coef(m1, "zero") (Intercept) persons 1.2974387 -0.5643472 > library(boot) > f <- function(data, i) { require(pscl) m <- zeroinfl(count ~ child + camper | persons, data = data[i, ], start = list(count = c(1.598, -1.0428, 0.834), zero = c(1.297, -0.564))) as.vector(t(do.call(rbind, coef(summary(m)))[, 1:2])) } > set.seed(10) > res <- boot(zinb, f, R = 1200) > res ORDINARY NONPARAMETRIC BOOTSTRAP Call: boot(data = zinb, statistic = f, R = 1200, parallel = "snow", ncpus = 4) Bootstrap Statistics : original bias std. error t1* 1.59788855 -0.0451465238 0.29947818 t2* 0.08553816 0.0036239301 0.01659791 t3* -1.04283849 0.0112733739 0.41120836 t4* 0.09998829 0.0042049209 0.01580662 t5* 0.83402218 0.0003032752 0.40949791 t6* 0.09362679 0.0041210988 0.01524233 t7* 1.29743916 0.0211989510 0.47396484 t8* 0.37385225 0.0069068078 0.03657407 t9* -0.56434716 -0.0265559366 0.26840571 t10* 0.16296381 0.0039579582 0.03019734

Os resultados são estimativas alternadas dos parâmetros e erros padrão. Ou seja, a primeira linha contém a primeira estimativa de parâmetro de nosso modelo. O segundo tem o erro padrão do primeiro parâmetro. A terceira coluna contém os erros padrão inicializados, que são consideravelmente maiores do que aqueles estimados por zeroinfl.

Agora podemos obter os intervalos de confiança para todos os parâmetros. Começamos na escala original com intervalos de confianças (ICs) ajustados por percentil e viés. Também comparamos esses resultados com os intervalos de confiança regulares com base nos erros padrão.

> ## estimativas dos parâmetros básicos com percentil e enviesamento ajustados CIs > parms <- t(sapply(c(1, 3, 5, 7, 9), function(i) { out <- boot.ci(res, index = c(i, i + 1), type = c("perc", "bca")) with(out, c(Est = t0, pLL = percent[4], pUL = percent[5], bcaLL = bca[4], bcaLL = bca[5])) })) > ## adicionando nomes das linhas > row.names(parms) <- names(coef(m1)) > ## mostrando os resultados > parms Est pLL pUL bcaLL bcaLL count_(Intercept) 1.5978885 0.85703554 2.06831921 1.07887039 2.26523867 count_child -1.0428385 -1.77954232 -0.08954861 -1.69252251 -0.01829475 count_camper1 0.8340222 0.04173151 1.71982072 -0.01931848 1.65759346 zero_(Intercept) 1.2974392 0.41515006 2.31018664 0.35487303 2.23671322 zero_persons -0.5643472 -1.12596067 -0.09205221 -1.03044697 -0.03649608 > ## compare com a aproximação normal > confint(m1) 2.5 % 97.5 % count_(Intercept) 1.4302372 1.7655406 count_child -1.2388133 -0.8468663 count_camper1 0.6505171 1.0175273 zero_(Intercept) 0.5647018 2.0301756 zero_persons -0.8837504 -0.2449440

Os intervalos de confiança bootstrapped são consideravelmente maiores do que a aproximação baseada na normal. Agora podemos estimar a razão de risco de incidente (TIR) para o modelo de Poisson e a razão de chances (OR) para o modelo logístico (inflação zero). Isso é feito usando um código quase idêntico ao anterior, mas passando uma função de transformação para o argumento $h$ de boot.ci, neste caso, $\exp$ para exponenciar.

> ## Estimativas exponenciadas de parâmetros com percentil e enviesamento ajustados CIs > expparms <- t(sapply(c(1, 3, 5, 7, 9), function(i) { + out <- boot.ci(res, index = c(i, i + 1), type = c("perc", "bca"), h = exp) + with(out, c(Est = t0, pLL = percent[4], pUL = percent[5], + bcaLL = bca[4], bcaLL = bca[5])) + })) > ## adicionando nomes das linhas > row.names(expparms) <- names(coef(m1)) > ## mostrando os resultados > expparms Est pLL pUL bcaLL bcaLL count_(Intercept) 4.9425854 2.3561668 7.9115146 2.9413551 9.6334235 count_child 0.3524528 0.1687154 0.9143446 0.1840547 0.9818716 count_camper1 2.3025614 1.0426145 5.5835282 0.9808669 5.2466693 zero_(Intercept) 3.6599122 1.5145995 10.0763506 1.4259996 9.3625082 zero_persons 0.5687313 0.3243408 0.9120576 0.3568474 0.9641619

Para entender melhor nosso modelo, podemos calcular o número esperado de peixes capturados para diferentes combinações de nossos preditores. Na verdade, como estamos trabalhando com preditores essencialmente categóricos, podemos calcular os valores esperados para todas as combinações usando a função expand.grid para criar todas as combinações e, em seguida, a função de previsão para fazer isso. Também removemos todas as linhas em que o número de filhos excede o número de pessoas, o que não faz sentido logicamente, usando a função subset. Finalmente criamos um gráfico.

> newdata1 <- expand.grid(0:3, factor(0:1), 1:4) > colnames(newdata1) <- c("child", "camper", "persons") > newdata1 <- subset(newdata1, subset=(child<=persons)) > newdata1$phat <- predict(m1, newdata1) > library(ggplot2) > ggplot(newdata1, aes(x = child, y = phat, colour = factor(persons))) + geom_point() + geom_line() + facet_wrap(~camper) + labs(x = "Número de crianças", y = "Previsão de peixes capturados")

Outras referências:

- Long, J. S. (1997). Regression Models for Categorical and Limited Dependent Variables. Thousand Oaks, CA: Sage Publications.
- Everitt, B. S. and Hothorn, T., (2005). A Handbook of Statistical Analyses Using R.

II.2. Modelos loglinear para tabelas de contingência

A distribuição conjunta de várias variáveis categóricas define uma tabela de contingência. Se uma das variáveis em uma tabela de contingência for tratada como a variável de resposta, podemos ajustar um modelo logit ou probit, ou seja, para uma resposta dicotómica, um GLM binomial à tabela. Os modelos loglineares, em contraste, que são modelos para as associações entre as variáveis em uma tabela de contingência, tratam as variáveis simetricamente - eles não distinguem uma variável como a resposta. Há, entretanto, uma relação entre os modelos loglinear e os modelos logit que desenvolveremos posteriormente nesta seção. Como veremos também, os modelos loglineares têm a estrutura formal de modelos ANOVA de dois fatores e fatores superiores e podem ser ajustados aos dados por regressão de Poisson.

Os modelos loglineares para tabelas de contingência têm muitas aplicações especializadas nas ciências sociais - por exemplo, para quadrar tabelas, como tabelas de mobilidade, em que as variáveis na tabela têm as mesmas categorias. O tratamento de modelos loglineares nesta seção apenas arranha a superfície. Relatos mais extensos estão disponíveis em muitas fontes, incluindo Agresti (1990), Fienberg (1980) e Powers and Xie (2008).

Tabelas de mão dupla (Two-Way)

Examinaremos as tabelas de contingência para duas variáveis com algum detalhe, pois este é o caso mais simples e os principais resultados que estabelecemos aqui se estendem diretamente a tabelas de dimensão superior. Considere a tabela bidirecional ilustrativa mostrada abaixo, construída a partir de dados relatados no American Voter (Campbell, Converse, Miller & Stokes, 1960). A tabela relaciona a intensidade da preferência partidária à participação na vota¸ão nas eleições presidenciais dos EUA em 1956. Para antecipar a análise, os dados indicam que o comparecimento às urnas está positivamente associado à intensidade da preferência partidária.

Comparecimento de eleitores por intensidade de preferência partidária
para a eleição presidencial dos Estados Unidos de 1956.
Intensidade de preferência	Votou	Não votou	Total
	Participação	eleitoral
Fraca	305	126	431
Média	405	125	530
Forte	265	49	314
Total	975	300	1275

De forma mais geral, duas variáveis categóricas com $r$ e $c$ categorias, respectivamente, definem uma tabela de contingência $r\times c$, onde $Y_{ij}$ é a contagem de frequência observada na célula $(i,j)$-ésima da tabela. Assim, $Y_{i+} = \sum_{j=1}^c Y_{ij}$ é a frequência marginal na $i$-ésima linha; $Y_{+j} = \sum_{i=1}^r Y_{ij}$ é a frequência marginal na $j$-ésima coluna e $n = Y_{++} = \sum_{i=1}^c \sum_{j=1}^r Y_{ij}$ é o número de observações na amostra.

Supomos que as $n$ observações na tabela são independentemente amostradas de uma população com proporção $\pi_{ij}$ na célula $(i,j)$ e, portanto, que a probabilidade de amostragem de uma observação individual nesta célula é $\pi_{ij}$. As distribuições de probabilidade marginais $\pi_{i+}$ e $\pi_{+j}$ podem ser definidas como acima; observe que $\pi_{++} = 1$. Se as variáveis de linha e coluna são estatisticamente independentes na população, então a probabilidade conjunta $\pi_{ij}$ é o produto das probabilidades marginais para todo $i$ e $j$: $\pi_{ij} = \pi_{i+}\times \pi_{+j}$.

Como as frequências observadas $Y_{ij}$ resultam do desenho de uma amostra aleatória, elas são variáveis aleatórias que geralmente assumem valores diferentes em amostras diferentes. Então, a frequência esperada na célula $(i,j)$ é $\mu_{ij}=\mbox{E}(Y_{ij}) = n\pi_{ij}$.

Se as variáveis são independentes, temos que $\mu_{ij} = n\pi_{i+}\times \pi_{+j}$. Além disso, como $\mu_{i+} = \sum_{j = 1}^c n\pi_{ij} = n\pi_{i+}$ e $\mu_{+j} = \sum_{i=1}^r n\pi_{ij} = n\pi_{+j}$, podemos escrever $\mu_{ij} = \mu_{i+}\times \mu_{+j}/n$.

Tomando o logaritmo de ambos os lados desta última equação produz \begin{equation*} \eta_{ij}=\log_e(\mu_{ij})=\log_e(\mu_{i+})+\log_e(\mu_{+j})-\log_e(n)\cdot \end{equation*}

Ou seja, sob independência, o logaritmo das frequências esperadas $\eta_{ij}$ depende aditivamente dos logaritmos das frequências marginais esperadas da linha, das frequências marginais esperadas das colunas e do tamanho da amostra. A expressão acima é uma reminiscência de um modelo ANOVA bidirecional de efeitos principais, onde − $\log_e(n)$ desempenha o papel da constante, $\log_e(\mu_{i+})$ e $\log_e(\mu_{+j})$ são análogos a parâmetros de “efeito principal” e $\eta_{ij}$ aparece no lugar da média da variável de resposta.

Se impormos restrições ao modelo ANOVA, podemos reparametrizar a equação acima da seguinte forma: \begin{equation*} \eta_{ij}=\mu+\alpha_i+\beta_j, \end{equation*} onde $\alpha_+=\sum \alpha_i = 0$ e $\beta_+ =\sum\beta_j = 0$. A equação acima é o modelo loglinear para independência na tabela bidirecional. Resolvendo para os parâmetros do modelo, obtemos \begin{array}{rcl} \mu & = & \dfrac{\eta_{++}}{r c}, \\ \alpha_i & = & \dfrac{\eta_{i+}}{c}-\mu, \\ \beta_j & = & \dfrac{\eta_{+j}}{r}-\mu\cdot \end{array}

É importante ressaltar que embora o modelo loglinear seja formalmente semelhante a um modelo ANOVA, o significado dos dois modelos difere muito: Na análise de variância, $\alpha_i$ e $\beta_j$ são parâmetros de efeito principal, especificando a relação parcial da variável de resposta (quantitativa) com cada variável explicativa. O modelo loglinear, em contraste, não distingue uma variável de resposta e, por ser um modelo para independência, especifica que as variáveis de linha e coluna na tabela de contingência não estão relacionadas; para este modelo, o $\alpha_i$ e o $\beta_j$ apenas expressam a relação das frequências logarítmicas esperadas das células com os marginais da linha e da coluna.

O modelo de independência descreve $rc$ frequências esperadas em termos de \begin{equation*} 1+(r-1)+(c-1)=r+c-1 \end{equation*} parâmetros independentes.

Por analogia ao modelo ANOVA bidirecional, podemos adicionar parâmetros para estender o modelo loglinear aos dados para os quais as classificações de linha e coluna não são independentes na população, mas sim relacionadas de maneira arbitrária: \begin{equation*} \eta_{ij} = \mu+\alpha_i+\beta_j+\gamma_{ij}, \end{equation*} onde $\alpha_+ = \beta_+ = \gamma_{i+} = \gamma_{+j} = 0$ para todos $i$ e $j$. Como antes, podemos escrever os parâmetros do modelo em termos do logaritmo de contagens esperadas $\eta_{ij}$. De fato, a solução para $\mu$, $\alpha_i$ e $\beta_j$ é a mesma que acima encontrada e \begin{equation*} \gamma_{ij}=\eta_{ij}-\mu-\alpha_i-\beta)j \end{equation*}

III. Teoria Estatística para modelos lineares generalizados

Nesta seção, revisitamos com maior rigor e mais detalhes muitos dos pontos levantados nas seções anteriores. A exposição aqui deve ao Capítulo 2 de McCullagh e Nelder (1989), que se tornou a fonte padrão sobre modelos lineares generalizados e ao tratamento mais breve e notavelmente lúcido e perspicaz do tópico por Firth (1991).

III.1. Famílias exponenciais

Como muito mais nas estatísticas modernas, a perspicácia de que muitas das distribuições mais importantes na estatística poderiam ser expressas na seguinte forma linear-exponencial comum foi devido a R.A. Fisher: \begin{equation} p(y;\theta,\phi) \, = \, \exp\left( \dfrac{y\theta-b(\theta)}{a(\phi)}+c(y,\phi)\right) \end{equation} onde

$p(y;\theta,\phi)$ é a função de probabilidade para a variável aleatória discreta $Y$ ou a função de densidade de probabilidade para $Y$ contínua.
$a(\cdot)$, $b(\cdot)$ e $c(\cdot)$ são funções conhecidas que variam de uma família exponencial para outra; veja exemplos abaixo.
$\theta = g_c(\mu)$, o parâmetro canônico para a família exponencial em questão, é uma função da esperança $\mu = \mbox{E}(Y)$ de $Y$; além disso, a função de ligação canônica $g_c(\cdot)$ não depende de $\phi$.
$\phi> 0$ é um parâmetro de dispersão que, em algumas famílias, assume um valor fixo conhecido, enquanto em outras famílias é um parâmetro desconhecido a ser estimado a partir dos dados junto com $\theta$.

Considere, por exemplo, a distribuição normal ou gaussiana com média $\mu$ e variância $\sigma^2$. Colocar a distribuição normal na forma da equação acima requer alguma manipulação algébrica, eventualmente produzindo \begin{equation} p(y;\theta,\phi) \, = \, \exp\left( \dfrac{y\theta-\theta^2/2}{\phi}-\dfrac{1}{2}\left(\dfrac{y^2}{\phi}+\log_e\big(2\pi\phi\big)\right)\right), \end{equation} onde $\theta=g_c(\mu)=\mu$, $\phi=\sigma^2$, $a(\phi)=\phi$, $b(\theta)=\theta^2/2$ e $c(y,\phi)=-\frac{1}{2}\Big( y^2/\phi+\log_e\big(2\pi\phi\big)\Big)$.

Agora considere a distribuição binomial, onde $Y$ é a proporção de sucessos em $n$ tentativas binárias independentes e $\mu$ é a probabilidade de sucesso em uma tentativa individual. Escrito depois da ginástica algébrica como uma família exponencial \begin{equation} p(y;\theta,\phi) \, = \, \exp\left( \dfrac{y\theta-\log_e\big(1+e^\theta\big)}{1/n}+\log_e{n \choose ny} \right), \end{equation} onde $\theta=g_c(\mu)=\log_e\big(\mu/(1-\mu)\big)$, $\phi=1$, $a(\phi)=1/n$, $b(\theta)=\log_e\big(1+e^\theta\big)$ e $c(y,\phi)=\log_e{n \choose ny}$.

Da mesma forma, as famílias Poisson, gama e Gaussiana inversa podem ser colocadas na forma linear-exponencial acima, usando os resultados dados na Tabela 9.

Tabela 9. Funções $a(\cdot)$, $b(\cdot)$ e $c(\cdot)$ para construir as famílias exponenciais.
Família	$a(\phi)$	$b(\theta)$	$c(y,\phi)$
Gaussiana	$\phi$	$\theta^2/2$	$-\frac{1}{2}\Big( y^2/\phi+\log_e\big(2\pi\phi\big)\Big)$
Binomial	$1/n$	$\log_e\big(1+e^\theta\big)$	$\log_e{n \choose ny}$
Poisson	$1$	$e^\theta$	$-\log_e(y!)$
Gama	$\phi$	$-\log_e(-\theta)$	$\phi^{-2}\log_e(y/\phi)-\log_e(y)-\log_e\big(\Gamma(\phi^{-1})\big)$
Gaussiana invera	$\phi$	$-\sqrt{-2\theta}$	$-\frac{1}{2}\Big( \log_e\big(\pi\phi y^3\big)+(\phi y)^{-1}\Big)$

NOTA: Nesta tabela, $n$ é o número de observações binomiais e $\Gamma(\cdot)$ é a função gama.

A vantagem de expressar diversas famílias de distribuições na forma exponencial comum é que as propriedades gerais das famílias exponenciais podem então ser aplicadas aos casos individuais. Por exemplo, é verdade em geral que \begin{equation} b'(\theta) \, = \, \dfrac{\mbox{d}b(\theta)}{\mbox{d}\theta} \, = \, \mu \end{equation} e que \begin{equation} V(Y) \, = \, a(\phi)b''(\theta) \, = \, a(\phi)\dfrac{\mbox{d}^2b(\theta)}{\mbox{d}\theta^2} \, = \, a(\phi)\nu(\mu) \end{equation} levando aos resultados na Tabela 2. Observe que $b(\cdot)$ é o inverso da função de ligação caônica. Por exemplo, para a distribuição normal, \begin{array}{rcl} b'(\theta) & = & \dfrac{\mbox{d}(\theta^2/2)}{\mbox{d}\theta} \, = \, \theta \, = \, \mu, \\ a(\phi)b''(\theta) & = & \phi\times 1 \, = \, \sigma^2, \\ \nu(\mu) & = & 1 \end{array} e para a distribuição binomial, \begin{array}{rcl} b'(\theta) & = & \dfrac{\mbox{d}\log_e\big(1+e^\theta\big)}{\mbox{d}\theta} \, = \, \dfrac{e^\theta}{1+e^\theta} \, = \, \dfrac{1}{1+e^{-\theta}} \, = \, \mu, \\ a(\phi)b''(\theta) & = & \dfrac{1}{n}\left(\dfrac{e^\theta}{1+e^\theta}-\Big(\dfrac{e^\theta}{1+e^\theta}\Big)^2\right) \, = \, \dfrac{\mu(1-\mu)}{n}, \\ \nu(\mu) & = & \mu(1-\mu)\cdot \end{array}

III.2. Estimatição por máxima verossimilhança para modelos lineares generalizados

O logaritmo da função de verossimilhança para uma observação individual $Y_i$ assume a forma \begin{equation} \log_e\big( L(\theta_i,\phi; y_i)\big) \, = \, \dfrac{y_i\theta_i-b(\theta_i)}{a_i(\phi)} + c(y_i,\phi)\cdot \end{equation} Para $n$ observações independentes, temos \begin{equation} \log_e\big( L(\theta,\phi; y)\big) \, = \, \sum_{i=1}^n \left(\dfrac{y_i\theta_i-b(\theta_i)}{a_i(\phi)} + c(y_i,\phi)\right), \end{equation} onde $\theta=(\theta_1,\theta_2\cdots,\theta_n)=\{\theta_i\}_{i=1}^n$ e $y=(y_1,y_2,\cdots,y_n)=\{y_i\}_{i=1}^n$.

Suponha que um modelo linear generalizado use a função de ligação $g(\cdot)$, é notacionalmente conveniente escrever $\beta_0$ para a constante de regressão $\alpha$; de modo que, \begin{equation} g(\mu_i) \, = \, \eta_i \, = \, \beta_0+\beta_1 X_{i1}+\beta_2 X_{i2}+\cdots+\beta_k X_{ik}\cdot \end{equation}

O modelo, portanto, expressa os valores esperados das $n$ observações em termos de um número muito menor de parâmetros de regressão. Para obter equações de estimação para os parâmetros de regressão, temos que diferenciar o logaritmo da verossimilhança em relação a cada coeficiente por sua vez. Consideremos que $\ell_i$ represente a $i$-ésima componente da log verossimilhança. Então, pela regra da cadeia, \begin{equation} \dfrac{\partial\ell_i}{\partial\beta_j} \, = \, \dfrac{\partial \ell_i}{\partial\theta_i}\times \dfrac{\mbox{d}\theta_i}{\mbox{d}\mu_i} \times \dfrac{\mbox{d}\mu_i}{\mbox{d}\eta_i}\times \dfrac{\partial\eta_i}{\partial\beta_j}, \qquad \mbox{para} \qquad j=0,1,\cdots,k\cdot \end{equation}

Depois de algum trabalho, podemos reescrever a equação acima como \begin{equation} \dfrac{\partial\ell_i}{\partial\beta_j} \, = \, \dfrac{y_1-\mu_i}{a_i(\phi)\nu(\mu_i)}\times \dfrac{\mbox{d}\mu_i}{\mbox{d}\eta_i}\times x_{ij}\cdot \end{equation} Somando as observações e definindo a soma sendo zero, produz as equações de estimação de máxima verossimilhança para os modelos lineares generalizados, \begin{equation} \sum_{i=1}^n \dfrac{y_i-\mu_i}{a_i\nu(\mu_i)}\times \dfrac{\mbox{d}\mu_i}{\mbox{d}\eta_i} \times x_{ij} \, = \, 0, \qquad \mbox{para} \qquad j=0,1,\cdots,k, \end{equation} onde $a_i=a_i(\phi)/\phi$ não depende do parâmetro de dispersão, que é constante nas observações. Por exemplo, em um modelo linear generalizado gaussiano, $a_i = 1$, enquanto em um modelo linear generalizado binomial, $a_i = 1/n_i$.

Simplificação adicional pode ser alcançada quando $g(\cdot)$ é a ligação canônica. Neste caso, as equações de estimação de máxima verossimilhança tornam-se \begin{equation} \sum_{i=1}^n \dfrac{y_i x_{ij}}{a_i} \, = \, \sum_{i=1}^n \dfrac{\mu_i x_{ij}}{a_i}, \end{equation} definindo a soma observada à esquerda da equação para a soma esperada à direita. Observamos esse padrão nas equações de estimação para modelos de regressão logística anteriormente. No entanto, mesmo aqui as equações de estimação são, exceto no caso da família Gaussiana, emparelhados com o ligação de identidade, funções não lineares dos parâmetros de regressão e geralmente requerem métodos iterativos para sua solução.

Mínimos quadrados ponderados iterados

Seja \begin{equation} Z_i \, = \, \eta_i +(y_i-\mu_i)\dfrac{\mbox{d}\eta_i}{\mbox{d}\mu_i} \, = \, \eta_i+(y_i-\mu_i)g'(\mu_i)\cdot \end{equation} Então \begin{equation} \mbox{E}(Z_i) \, = \, \eta_i \, = \, \beta_0+\beta_1 X_{i1}+\beta_2 X_{i2}+\cdots+\beta_k X_{ik}, \end{equation} e \begin{equation} \mbox{Var}(Z_i) \, = \, \big( g'(\mu_i)\big)^2 a_i \nu(\mu_i)\cdot \end{equation}

Se, portanto, pudéssemos calcular o $Z_i$, seríamos capazes de ajustar o modelo por regressão de mínimos quadrados ponderados de $Z$ nos $X$s, usando os inversos da $\mbox{Var}(Z_i)$ como pesos. Claro, este não é o caso porque não sabemos os valores de $\mu_i$ e $\eta_i$, que, de fato, dependem dos coeficientes de regressão que desejamos estimar - ou seja, o argumento é essencialmente circular. Esta observação sugeriu a Nelder and Wedderburn (1972) a possibilidade de estimar os modelos lineares generalizados por mínimos quadrados ponderados iterativos (IWLS), habilmente transformando a circularidade em um procedimento iterativo:

Comece com as estimativas iniciais de $\widehat{\mu}_i$ e $\widehat{\eta}_i = g(\widehat{\mu}_i)$, denotados $\widehat{\mu}_i^{(0)}$ e $\widehat{\eta}_i^{(0)}$. Uma escolha simples é definir $\widehat{\mu}_i^{(0)} = y_i$. Em certas configurações, começar com $\widehat{\mu}_i^{(0)} = y_i$ pode causar dificuldades computacionais. Por exemplo, em um modelo linear generalizados binomial, algumas das proporções observadas podem ser 0 ou 1 - na verdade, para dados binários, isso será verdadeiro para todas as observações - exigindo que dividamos por 0 ou obtivemos o logaritmo de 0. A solução é ajustar os valores iniciais, que em qualquer caso não são críticos, para proteger contra esta possibilidade. Para um modelo linear generalizado binomial, onde $y_i = 0$, podemos tomar $\widehat{\mu}_i^{(0)} = 0.5/n_i$, e onde $y_i = 1$, podemos tomar $\widehat{\mu}_i^{(0)} = (n_i - 0.5)/n_i$. Para dados binários, então, todos os $\widehat{\mu}_i^{(0)}$ são 0.5.

Em cada iteração $l$, calcule a variável resposta de trabalho $Z$ usando os valores de $\widehat{\mu}$ e $\widehat{\eta}$ da iteração anterior, \begin{equation} Z_i^{(l-1)} \, = \, \eta_i^{(l-1)}+(y_i-\mu_i^{(l-1)})g'\big(\mu_i^{(l-1)}\big) \end{equation} junto com os pesos \begin{equation} W_i^{(l-1)} \, = \, \dfrac{1}{\Big( g'\big(\mu_i^{(l-1)}\big)\Big)^2a_i \nu\big(\mu_i^{(l-1)}\big)}\cdot \end{equation}

Ajuste uma regressão de mínimos quadrados ponderados de $Z^{(l-1)}$ nos $X$s, usando $W^{(l-1)}$ como pesos. Ou seja, computar \begin{equation} \widehat{\beta}^{(l)} \, = \, \Big({\bf X}^\top {\bf W}^{(l-1)}{\bf X} \Big)^{-1}{\bf X}^\top {\bf W}^{(l-1)}{\bf z}^{(l-1)}, \end{equation} onde $\widehat{\beta}^{(l)}_{(k+1)\times 1}$ é o vetor de coeficientes de regressão na iteração atual; ${\bf X}_{n\times (k+1)}$ é, como de costume, a matriz do modelo; ${\bf W}^{(l-1)}_{n\times n}=\mbox{diag}\big(W_i^{(l-1)} \big)$ é a matriz de pesos diagonal e ${\bf z}^{(l-1)}_{n\times 1}=\big\{Z_i^{(l-1)}\big\}$ é o vetor de resposta de trabalho.

Repita as etapas 2 e 3 até que os coeficientes de regressão se estabilizem, ponto em que $\widehat{\beta}$ converge para as estimativas de máxima verossimilhança dos $\beta$s.

Aplicado à ligação canônica, o IWLS é equivalente ao método Newton-Raphson, como descobrimos para um modelo logit anteriormebe; mais geralmente, IWLS implementa o método de Escore de Fisher.

Estimando o parâmetro de dispersão

Observe que não exigimos uma estimativa do parâmetro de dispersão para estimar os coeficientes de regressão em um modelo linear generalizado. Embora seja, em princípio, possível estimar $\phi$ também por máxima verossimilhança, isso raramente é feito. Em vez disso, lembre-se de que $\mbox{Var}(Y_i) = \phi a_i \nu(\mu_i)$. Resolvendo para o parâmetro de dispersão, obtemos $\phi = \mbox{Var}(Y_i)/a_i\nu(\mu_i)$, sugerindo o método do estimador de momentos \begin{equation} \widetilde{\phi} \, = \, \dfrac{1}{n-k-1}\sum_{i=1}^n \dfrac{\big(y_i-\widehat{\mu}_i \big)^2}{a_i \nu(\widehat{\mu}_i)}\cdot \end{equation}

A matriz de covariância assintótica estimada dos coeficientes é então obtida a partir da última iteração IWLS como \begin{equation} \widehat{\mbox{Var}}(\widehat{\beta}) \, = \, \widetilde{\phi}\big({\bf X}^\top {\bf W}{\bf X} \big)^{-1}\cdot \end{equation} Como o estimador de máxima verossimilhança $\widehat{\beta}$ é normalmente distribuído assintoticamente, $\widehat{\mbox{Var}}(\widehat{\beta})$ pode ser usada como base para os testes Wald dos parâmetros de regressão.

Estimação de quase-verossimilhança

O argumento que leva à estimativa de IWLS repousa apenas na linearidade da relação entre $\eta = g(\mu)$ e os $X$s e na suposição de que $\mbox{Var}(Y)$ depende de uma maneira particular do parâmetro de dispersão e $\mu$. Contanto que possamos expressar a média transformada de $Y$ como uma função linear dos $X$s, e podemos escrever uma função de variância para $Y$, expressando a variância condicional de $Y$ como uma função de sua média e um parâmetro de dispersão, podemos aplicar as equações de estimação de máxima verossimilhança e obter estimativas por IWLS - mesmo sem nos comprometermos com uma distribuição condicional particular para $Y$.

Este é o método de estimação de quase-verossimilhança, introduzido por Wedderburn (1974), e mostrou reter muitas das propriedades da estimação de máxima-verossimilhança: Embora o estimador de quase-verossimilhança possa não ser maximamente assintoticamente eficiente, é consistente e tem a mesma distribuição assintótica que o estimador de máxima verossimilhança de um modelo linear generalizado em uma família exponencial. Podemos pensar na estimativa de quase verossimilhança de modelos lineares generalizados como análoga à estimativa de mínimos quadrados de modelos de regressão lineares com erros potencialmente não normais: Lembre-se de que, enquanto a rela¸ão entre $Y$ e os $X$s for linear, a variância do erro é constante e as observações são amostradas de forma independente, a teoria subjacente à estimativa de OLS se aplica - embora o estimador de OLS possa não ser mais maximamente eficiente.

III.3. Testes de hipóteses

Análise de Desvios

Originalmente, escrevemos o logaritmo da verossimilhança para um modelo linear generalizado como uma função $\log_e\big(L(\theta,\phi; y)\big)$ do parâmetro canônico $\theta$ para as observações. Como $\mu_i = g_c^{−1}(\theta_i)$, para o elo canônico $g_c(\cdot)$, podemos igualmente pensar na probabilidade logarítmica como uma função da resposta esperada e, portanto, podemos escrever a verossimilhança maximizada como $\log_e\big(L(\widehat{\mu},\phi; y)\big)$. Se, então, dedicarmos um parâmetro a cada observação, de modo que $\widehat{\mu}_i = y_i$, por exemplo, removendo a constante do modelo de regressão e definindo um regressor fictício para cada observação, o log-verossimilhança torna-se $\log_e\big(L(y,\phi;y)\big)$.

O desvio residual sob o modelo inicial é duas vezes a diferença nessas log-verossimilhanças: \begin{array}{rcl} D(y;\widehat{\mu}) & = & \displaystyle 2\left( \log_e\big(L(y,\phi;y)\big)-\log_e\big(L(\widehat{\mu},\phi; y)\big)\right) \\[0.6em] & = & \displaystyle 2\sum_{i=1}^n \left( \log_e\big(L(y_i,\phi;y_i)\big)-\log_e\big(L(\widehat{\mu},\phi; y_i)\big)\right) \\[0.6em] & = & \displaystyle 2\sum_{i=1}^n \dfrac{1}{a_i}\Big(y_i\big(g(y_i)-g(\widehat{\mu}_i)\big)-b\big(g(y_i)\big)+b\big(g(\widehat{\mu}_i)\big) \Big)\cdot \end{array} A divisão do desvio residual pelo parâmetro de dispersão estimado produz o desvio escalonado, \begin{equation} D^*(y;\widehat{\mu}) = \dfrac{1}{\widetilde{\phi}}D(y;\widehat{\mu})\cdot \end{equation} Conforme explicado na Seço I.1, os desvios são os blocos de construção do teste da razão de verossimilhanças e dos testes $F$ para GLMs.

Aplicando a equação acima à distribuição Gaussiana, onde $g_c(\cdot)$ é o elo de identidade, $a_i = 1$ e $b(\theta) = \theta^2/2$, produz, após alguma simplificação \begin{equation} D(y;\widehat{\mu}) \, = \, \sum_{i=1}^n \big(y_i-\widehat{\mu}_i \big)^2 , \end{equation} ou seja, a soma residual dos quadrados do modelo. Da mesma forma, aplicando a mesma equação à distribuição binomial, onde $g_c(\cdot)$ é a ligação logit, $a_i = n_i$ e $b(\theta) = \log_e\big( 1 + e^\theta\big)$, obtemos, após um pouco de simplificação \begin{equation} D(y;\widehat{\mu}) \, = \, \sum_{i=1}^n n_i\left(y_i\log_e\Big(\dfrac{y_i}{\widehat{\mu}_i}\Big)+(1-y_i)\log_e\Big(\dfrac{1-y_i}{1-\widehat{\mu}_i}\Big) \right)\cdot \end{equation} Deixamos como exercício para o leitor o desenvolvimento de fórmulas para o desvio nos modelos de Poisson, gama e Gaussiano inverso.

Testando Hipóteses Lineares Gerais

Como no caso dos modelos lineares, podemos formular um teste para a hipótese linear geral \begin{equation} H_0 \, : \, {\bf L}_{q\times (k+1)}\beta_{(k+1)\times 1} \, = \, {\bf c}_{q\times 1}, \end{equation} onde a matriz de hipótese ${\bf L}$ e o vetor ${\bf c}$ do lado direito contêm constantes pré-especificadas; geralmente, ${\bf c = 0}$. Para um modelo linear generalizado, a estatística Wald \begin{equation} Z_0^2 \, = \, ({\bf L}\widehat{\beta}-{\bf c})^\top \big({\bf L}\widehat{\mbox{Var}}(\widehat{\beta}){\bf L}^\top\big)^{-1} ({\bf L}\widehat{\beta}-{\bf c}) \end{equation} segue uma distribuição assintótica qui-quadrado com $q$ graus de liberdade sob a hipótese. A aplicação mais simples desse resultado é a estatística Wald $Z_0 = \widehat{\beta}_j/SE(\widehat{\beta}_j)$, testando se um coeficiente de regressão individual é zero. Aqui, $Z_0$ segue uma distribuição normal padrão sob $H_0 \, : \, \beta_j = 0$ ou, equivalentemente, $Z_0^2$ segue uma distribuição qui-quadrado com um grau de liberdade.

Alternativamente, quando o parâmetro de dispersão é estimado a partir dos dados, podemos calcular a estatística de teste \begin{equation} F_0 \, = \, \dfrac{1}{q}Z_0^2, \end{equation} que é distribuída como $F_{q, n−k−1}$ sob $H_0$. Aplicado a um coeficiente individual, $t_0 = \pm \sqrt{F_0} = \widehat{\beta}_j/SE(\widehat{\beta}_j)$ produz um teste $t$ com $n-k-1$ graus de liberdade.

Testando Hipóteses Não Lineares

Ocasionalmente, é interessante testar uma hipótese ou construir um intervalo de confiança para uma função não linear dos parâmetros de um modelo linear ou linear generalizado. Se a função não linear em questão é uma função diferenciável dos coeficientes de regressão, um erro padrão assintótico aproximado pode ser obtido pelo método delta.

O método delta (Rao, 1973) emprega uma aproximação da série de Taylor de primeira ordem, isto é, linear para a função não linear. O método delta é apropriado aqui porque as estimativas de máxima verossimilhança ou quase verossimilhança dos coeficientes de um GLM são normalmente distribuídas assintoticamente.

Na verdade, o procedimento descrito nesta seção é aplicável sempre que os parâmetros de um modelo de regressão sejam normalmente distribuídos e podem, portanto, ser aplicados em uma ampla variedade de contextos. Em pequenas amostras, no entanto, a aproximação do método delta para o erro padrão pode não ser adequada e os procedimentos de bootstrapping geralmente fornecerão resultados mais confiáveis.

Suponha que estejamos interessados na função \begin{equation} \gamma \, = \, f(\beta) \, = \, f(\beta_0,\beta_1,\cdots,\beta_k), \end{equation} onde, por conveniência de notação, usamos $\beta_0$ para denotar a constante de regressão. A função $f(\beta)$ não precisa usar todos os coeficientes de regressão, veja o exemplo abaixo. O estimador de máxima verossimilhança de $\gamma$ é simplesmente $\widehat{\gamma} = f(\widehat{\beta})$ que, como um estimador de máxima verossimilhança, também é assintoticamente normal e a variância amostral aproximada de $\gamma$ é então \begin{equation} \widehat{\mbox{Var}}(\widehat{\gamma}) \approx \sum_{j=0}^k \sum_{l=0}^k \widehat{\sigma}_{jl} \dfrac{\partial \widehat{\gamma}}{\partial\widehat{\beta}_j} \dfrac{\partial \widehat{\gamma}}{\partial\widehat{\beta}_l}, \end{equation} onde $\widehat{\sigma}_{jl}$ é o $(j,l)$-ésimo elemento da matriz de covariância assintótica estimada dos coeficientes, $\widehat{\mbox{Var}}(\widehat{\beta})$.

Para ilustrar a aplicação desse resultado, imagine que estamos interessados em determinar o valor máximo ou mínimo de uma regressão parcial quadrática. Enfocando a relação parcial entre a variável resposta e um $X$ em particular, temos uma equação da forma \begin{equation} \mbox{E}(Y) \, = \, \cdots + \beta_1 X+\beta_2 X^2+\cdots\cdot \end{equation} A aplicação do método delta para encontrar o mínimo ou máximo de uma curva quadrática foi sugerida por Weisberg (2005).

Diferenciando esta equação em relação a $X$, obtemos \begin{equation} \dfrac{\mbox{d}\mbox{E}(Y)}{\mbox{d}X} \, = \, \beta_1+2\beta_2 X\cdot \end{equation} Definindo a derivada como 0 e resolvendo para $X$ produz o valor no qual a função atinge um mínimo, se $\beta_2$ for positivo ou um máximo se $\beta_2$ for negativo, \begin{equation} X \, = \, -\dfrac{\beta_1}{2\beta_2}, \end{equation} que é uma função não linear dos coeficientes de regressão $\beta_1$ e $\beta_2$.

Por exemplo, usando dados da Pesquisa Canadense de Dinâmica de Trabalho e Renda ou SLID ajustamos uma regressão de mínimos quadrados do logaritmo base 2 da taxa de salário segundo a idade quadrática, um regressor fictício para sexo e o quadrado dos anos de estudo, obtendo:

> SLID = read.table("https://socialsciences.mcmaster.ca/jfox/Books/Applied-Regression-2E/datasets/SLID-Ontario.txt", header = T) > head(SLID) age sex compositeHourlyWages yearsEducation 1 40 Male 10.56 15 2 19 Male 11.00 13 3 46 Male 17.76 14 4 50 Female 14.00 16 5 31 Male 8.20 15 6 30 Female 16.97 13 > ajuste = lm(I(log2(compositeHourlyWages)) ~ age+I(age^2)+factor(sex)+I(yearsEducation^2), data = SLID) > summary(ajuste) Call: lm(formula = I(log2(compositeHourlyWages)) ~ age + I(age^2) + factor(sex) + I(yearsEducation^2), data = SLID) Residuals: Min 1Q Median 3Q Max -3.04688 -0.34263 0.02977 0.36354 2.56370 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.725e-01 8.338e-02 6.866 7.62e-12 *** age 1.198e-01 4.598e-03 26.046 < 2e-16 *** I(age^2) -1.230e-03 5.918e-05 -20.778 < 2e-16 *** factor(sex)Male 3.195e-01 1.796e-02 17.794 < 2e-16 *** I(yearsEducation^2) 2.605e-03 1.135e-04 22.957 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.5675 on 3992 degrees of freedom Multiple R-squared: 0.3892, Adjusted R-squared: 0.3886 F-statistic: 635.8 on 4 and 3992 DF, p-value: < 2.2e-16

Imagine que estamos interessados na idade $\gamma = −\beta_1/(2\beta_2)$ em que os salários estão no máximo, mantendo o sexo e a educação constantes. As derivadas necessárias são \begin{array}{rcl} \left.\dfrac{\mbox{d}\widehat{\gamma}}{\mbox{d}\beta_1}\right|_{\beta=\widehat{\beta}} & = & -\dfrac{1}{2\widehat{\beta}_2} \, = \, -\dfrac{1}{2(-0.001230)} \, = \, 406.5 \\[0.6em] \left.\dfrac{\mbox{d}\widehat{\gamma}}{\mbox{d}\beta_2}\right|_{\beta=\widehat{\beta}} & = & -\dfrac{\widehat{\beta}_1}{2\widehat{\beta}_2^2} \, = \, -\dfrac{0.1198}{2(-0.001230)^2} \, = \, 39.593 \end{array} Nossa estimativa pontual de $\gamma$ é \begin{equation} \widehat{\gamma} \, = \, -\dfrac{\widehat{\beta}_1}{2\widehat{\beta}_2} \, = \, -\dfrac{0.1198}{2\times 0.001230} \, = \, 48.70 \; \mbox{anos}\cdot \end{equation}

A variância amostral estimada do coeficiente de idade é $\widehat{\mbox{Var}}(\widehat{\beta}_1) = 2.115\times 10^{−5}$, e do coeficiente de idade ao quadrado, $\widehat{\mbox{Var}}(\widehat{\beta}_2) = 3.502\times 10^{−9}$; a covariância amostral estimada para os dois coeficientes é \begin{equation} \widehat{\mbox{Cov}}(\widehat{\beta}_1, \widehat{\beta}_2) \, = \, −2.685\times 10^{−7}\cdot \end{equation} A variância estimada aproximada de $\gamma$ é então \begin{array}{cl} \widehat{\mbox{Var}}(\widehat{\gamma}) & \approx & \big(2.115\times 10^{-5}\big)\times 406.5^2-\big(2.685\times 10^{-7}\big)\times 406.5 \times 39.593 \\[0.4em] & & \qquad -\big(2.685\times 10^{-7}\big)\times 406.5\times 39.593+\big(3.502\times 10^{-9}\big)\times 39.593^2 \, = \, 0.3419\cdot \end{array} Consequentemente, o erro padrão aproximado de $\gamma$ é $SE(\gamma) \approx \sqrt{0.3419} = 0.5847$, e um intervalo de confiança de aproximadamente 95% para a idade em que a renda é mais alta em média é \begin{equation} \gamma \in 48.70 \pm 1.96 (0.5847) = (47.55, 49.85)\cdot \end{equation}

III.4. Mostrando efeitos

Vamos escrever o modelo linear generalizado em forma matricial, com preditor linear \begin{equation} \eta_{n\times 1} \, = \, {\bf X}_{n\times (k+1)}\beta_{(k+1)\times 1} \end{equation} e função de ligação $g(\mu) = \eta$, onde $\mu$ é a esperança do vetor de resposta $Y$.

Conforme descrito anteriormente, calculamos o estimador de máxima verossimilhança $\widehat{\beta}$ de $\beta$, juntamente com o estimador da matriz de covariância assintótica $\widehat{\mbox{Var}}(\widehat{\beta})$ de $\widehat{\beta}$.

Considere que as linhas de ${\bf X}^*$ incluam regressores correspondentes a todas as combinações de valores de variáveis explicativas que aparecem em um termo de ordem superior do modelo ou, para uma variável explicativa contínua, valores abrangendo o intervalo da variável, junto com valores típicos das restantes regressores. A estrutura de ${\bf X}^*$ com respeito às interações, por exemplo, é a mesma que a da matriz do modelo ${\bf X}$. Então os valores ajustados \begin{equation} \widehat{\eta}^* \, = \, {\bf X}^*\widehat{\beta}, \end{equation} representam o termo de ordem superior em questão e uma tabela ou gráfico destes valores - ou, alternativamente, dos valores ajustados transformados para a escala da variável resposta, $g^{−1}(\widehat{\eta}^*)$ - é uma exibição de efeito. Os erros padrão de $\widehat{\eta}^*$, disponíveis como entradas diagonais de raiz quadrada de ${\bf X}^*\widehat{\mbox{Var}}(\widehat{\beta}){{\bf X}^*}^\top$, podem ser usados para calcular intervalos de confiança pontuais para os efeitos, cujos pontos finais também podem ser transformados na escala da resposta.

IV. Diagnóstico para modelos lineares generalizados

Os diagnósticos de regressão são métodos para determinar se um modelo de regressão ajustado representa adequadamente os dados. A maioria dos diagnósticos para modelos lineares se estendem de forma relativamente diretamente aos GLMs. Essas extensões normalmente tiram vantagem do cálculo dos estimadores de máxima verossimilhança e máxima quase-verossimilhança para GLMs obtidos por mínimos quadrados ponderados iterados, conforme descrito na Seção III.2. O ajuste final por mínimos quadrados ponderados lineariza o modelo e fornece uma aproximação quadrática para o logaritmo da verossimilhança. Os diagnósticos aproximados são baseados diretamente na solução WLS ou são derivados de estatísticas facilmente calculadas a partir desta solução. O trabalho sobre a extensão de diagnósticos de mínimos quadrados lineares para GLMs foi feito por Pregibon (1981), Landwehr, Pregibon e Shoemaker (1984), Wang (1985, 1987) e Williams (1987).

Modelos lineares ajustados por mínimos quadrados fazem suposições fortes e às vezes irrealistas sobre a estrutura dos dados. Quando essas premissas são violadas, as estimativas de mínimos quadrados podem se comportar mal e podem até representar os dados de maneira completamente incorreta. Os diagnósticos de regressão podem revelar esses problemas e, muitas vezes, apontar o caminho para as soluções.

Todos os métodos discutidos estão disponíveis nas funções R padrão ou são implementados no pacote do car. Um dos objetivos do pacote car é fazer diagnósticos para modelos lineares e GLMs prontamente disponíveis em R. Nossa experiência mostra que os métodos de diagnóstico são muito mais prováveis de serem usados quando são convenientes. Por exemplo, gráficos de variáveis adicionadas são construídos regredindo um regressor específico e a resposta em todos os outros regressores, computando os resíduos dessas regressões auxiliares e plotando um conjunto de resíduos contra o outro. Isso não é difícil de fazer em R, embora as etapas sejam um pouco mais complicadas quando há fatores, interações ou termos polinomiais ou de spline de regressão no modelo. A função avPlots no pacote car constrói todos os gráficos de variáveis adicionadas para um modelo linear ou GLM e adiciona melhorias, como uma linha de mínimos quadrados e identificação de ponto.

IV.1. Diagnóstico de outliers, alavancagem e influência

Matriz chapéu

Os valores $h_i$, da matriz chapéu, para um modelo linear generalizado podem ser obtidos diretamente da iteração final do procedimento de mínimos quadrados ponderados interados para ajustar o modelo, e têm a interpretação usual - exceto que, ao contrário de um modelo linear, os valores $h_i$ em um modelos linear generalizado dependem da variável de resposta $Y$, bem como na configuração dos $X$.

A matriz chapéu $H$ é \begin{equation*} H \, = \, W^{1/2}X(X^\top WX)^{-1}X^\top W^{1/2}, \end{equation*} onde $W$ é a matriz de peso da iteração final do procedimento de estimação.

As observações que estão relativamente longe do centro do espaço do regressor, levando em consideração o padrão correlacional entre os regressores, têm uma influência potencialmente maior nos coeficientes de regressão de mínimos quadrados; tais pontos são considerados como tendo alta alavancagem. A medida mais comum de alavancagem é o $h_i$ ou hat-values.

O nome hat-values vem da relação entre o vetor de respostas observado e os valores ajustados. O vetor de valores ajustados é dado por $\widehat{y} = X\widehat{\beta} = Hy$, onde $H$, definida acima e chamada de matriz hat, projeta $y$, os valores observados da variável resposta $Y$, no subespaço estendido pelas colunas da matriz do modelo $X$. Como $H = H^\top H$, os valores hat $h_i$ são simplesmente as entradas diagonais da matriz chapéu.

Os $h_i$ são limitados entre 0 e 1; em modelos com um intercepto, eles são limitados entre 1/n e 1 e sua soma $\sum_i h_i$ é sempre igual ao número de coeficientes no modelo, incluindo o intercepto.

Situações nas quais há alguns $h_i$ muito grandes podem ser problemáticas: em particular, a normalidade de grandes amostras de algumas combinações lineares dos regressores tende a falhar e as observações de alta alavancagem podem exercer influência indevida sobre os resultados (veja abaixo).

A função hatvalues funciona para modelos lineares e GLMs. Uma maneira de examinar os valores de $h_i$ e outras estatísticas de diagnóstico de observação individual é construir gráficos de índice, representando graficamente as estatísticas em comparação com os índices de observação correspondentes.

Por exemplo, o comando a seguir usa a função influenciaIndexPlot, no pacote car, para produzir a figura acima, que inclui gráficos de índice de resíduos estudentizados, os p-valores Bonferroni correspondentes para o teste de outlier, os hat-values e as distâncias de Cook (discutida em Medidas de influência) para a regressão de intertravamentos:

> library(car) > influenceIndexPlot(ajuste)

Observe que as duas primeiras observações se destacam na distância de Cook e no hat-value, o assets, ou seja, os ativos em milhões de dólares na primeira observação é o máximo do conjunto de dados e o interlocks, ou seja, o número de cargos de diretor e executivo interligados compartilhados com outras empresas importantes assim como o assets da segunda observação correspondem a uns dos maiores valores em ambas variáveis.

Resíduos

Vários tipos de resíduos podem ser definidos para os modelos lineares generalizados:
- Mais diretamente, mas menos úteis, os resíduos ordinários são simplesmente as diferenças entre a resposta observada e seu valor esperado estimado: $e_i = y_i-\widehat{\mu}_i$, onde \begin{equation*} \widehat{\mu}_i \, = \, g^{-1}(\widehat{\eta}_i) \, = \, g^{-1}(\widehat{\alpha}+\widehat{\beta}_1X_{i1}+\widehat{\beta}_2 X_{i2}+\cdots+\widehat{\beta}_k X_{ik})\cdot \end{equation*} Na regressão por mínimos quadrados ponderados, a soma residual dos quadrados é igual a $\sum_i e^2_i$. Caso o modelo de regressão inclua o intercepto, então $\sum_i e_i = 0$. Os resíduos ordinários não estão correlacionados com os valores ajustados ou mesmo qualquer combinação linear dos regressores e, portanto, os padrões nos gráficos de resíduos ordinários versus combinações lineares dos regressores podem ocorrer apenas se uma ou mais suposições do modelo são inadequadas. Se o modelo de regressão estiver correto, então os resíduos ordinários são variáveis aleatórias com média 0 e com variância dada por \begin{equation*} \mbox{Var}(e_i) \, = \, \phi(1-h_i)\cdot \end{equation*} A quantidade $h_i$ é chamada de alavancagem ou hat-value. Em modelos lineares com preditores fixos, $h_i$ é um valor não aleatório restrito a estar entre 0 e 1, dependendo da localização dos preditores para uma observação específica em relação às outras observações. Em um modelo com intercepto, o hat-value mínimo é 1/n. Valores grandes de $h_i$ correspondem a observações com valores $X_i$ relativamente incomuns, enquanto um pequeno valor $h_i$ corresponde a observações próximas ao centro do espaço do regressor. Resíduos comuns para observações com grande $h_i$ têm variâncias menores.
- Para corrigir a variância não constante dos resíduos ordinários, podemos dividi-los por uma estimativa de seu desvio padrão. Considerando que $\widehat{\phi}$ represente a estimativa de $\phi$, os resíduos padronizados são \begin{equation} e_{i_{sd}} \, = \, \dfrac{e_i}{\widehat{\phi}\sqrt{1-h_i}}, \end{equation} Embora os $e_{i_{sd}}$ tenham variância constante, eles não são mais não correlacionados com os valores ajustados ou combinações lineares dos regressores, portanto, usar resíduos padronizados em gráficos não é uma melhoria óbvia.
- Resíduos estudentizados são dados por \begin{equation} e_{i_{T}} \, = \, \dfrac{e_i}{\widehat{\phi}_{(-i)}\sqrt{1-h_i}}, \end{equation} onde $\widehat{\phi}_{(−i)}$ é a estimativa de $\phi$ calculada a partir da regressão sem a observação $i$. Assim como os resíduos padronizados, os resíduos estudentizados possuem variância constante. Além disso, se os erros originais são normalmente distribuídos, então $e_{i_T}$ segue uma distribuição $t$ com $n - k - 2$ graus de liberdade e pode ser usado para testar outliers. Pode-se mostrar que \begin{equation} \widehat{\phi}_{(-i)} \, = \, \dfrac{\widehat{\phi}(n-k-1-e_{i_{sd}})}{n-k-2} \end{equation} e, portanto, o cálculo dos resíduos estudentizados realmente não requer reajustar a regressão sem a observação $i$.
- Resíduos de trabalho são os resíduos do ajuste de mínimos quadrados ponderados final. Estes podem ser usados para definir resíduos parciais para gráficos de componente mais residual.
- Resíduos de Pearson são componentes da estatística de qualidade de ajuste de Pearson para o modelo: \begin{equation*} \dfrac{\widetilde{\phi}^{1/2}(y_i-\widehat{\mu}_i)}{\sqrt{\widehat{\mbox{Var}}(Y_i|\eta_i)}}, \end{equation*} onde $\widetilde{\phi}$ é o parâmetro de dispersão estimado para o modelo e $\widehat{\mbox{Var}}(Y_i|\eta_i)$ é a variância condicional da resposta. A estatística de Pearson, uma alternativa ao desvio para medir o ajuste do modelo aos dados, é a soma dos resíduos de Pearson ao quadrado.
- Resíduos de Pearson padronizados corretos para a variância condicional da resposta e para a alavancagem diferencial das observações: \begin{equation*} R_{P_i} \, = \, \dfrac{y_i-\widehat{\mu}_i}{\sqrt{\widehat{\mbox{Var}}(Y_i|\eta_i)(1-h_i)}}\cdot \end{equation*}
- Resíduos deviance, $G_i$, são as raízes quadradas dos componentes do desvio residual, anexando o sinal do resíduo de resposta correspondente.
- Resíduos deviance padronizado são \begin{equation*} R_{G_i} \, = \, \dfrac{G_i}{\sqrt{\widetilde{\phi}(1-h_i)}}\cdot \end{equation*}
- Várias aproximações diferentes para resíduos estudentizados foram propostas. Para calcular resíduos estudantizados exatos exigiria literalmente reajustar o modelo, excluindo cada observação por sua vez e observando o declínio no desvio; este procedimento, claramente, é computacionalmente não atraente. Williams sugere a aproximação \begin{equation*} E_i^* \, = \, \sqrt{(1-h_i)R_{G_i}^2+h_i R_{P_i}^2}, \end{equation*} onde, mais uma vez, o sinal é retirado do resíduo de resposta. Um teste atípico de Bonferroni usando a distribuição normal padrão pode ser baseado no maior resíduo estudentizado absoluto.
Os resíduos no podem ser encontrados utilizando a função genérica R residuals e podem calcular-se vários tipos de resíduos. O padrão para um modelo linear é retornar os resíduos ordinários, mesmo se houver pesos. Definir o argumento type = "pearson", retorna os resíduos de Pearson, que produzem resíduos corretamente ponderados se houverem pesos e resíduos ordinários se não houverem pesos. Resíduos de Pearson são o padrão quando os resíduos são usados com um GLM. As funções rstandard e rstudent retornam os resíduos padronizados e estudentizados, respectivamente. A função hatvalues retorna os hat-values.

Figura 7. Gráficos de resíduos básicos para a regressão de intertravamentos.

> dados = read.table("https://socialsciences.mcmaster.ca/jfox/Books/Applied-Regression-2E/datasets/Ornstein.txt", header = T) > dados$nation = relevel(factor(dados$nation), ref = "US") > dados$sector = relevel(factor(dados$sector), ref = "CON") > ajuste = glm(interlocks ~ nation + sector + assets, family = poisson, data = dados) > library(car) > par(mfrow=c(1,1), mar=c(3,2,1,0)+.5, mgp=c(1.6,.6,0), pch=19) > residualPlots(ajuste) Test stat Pr(>|Test stat|) nation sector assets 155.83 < 2.2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Gráficos de resíduos em relação aos valores ajustados e em relação a cada um dos preditores, por sua vez, são os gráficos de diagnóstico mais básicos. Se um modelo linear for especificado corretamente, os resíduos de Pearson são independentes dos valores ajustados e dos preditores, e esses gráficos devem ser gráficos nulos, sem características sistemáticas - no sentido de que a distribuição condicional dos resíduos, no eixo vertical do gráfico, não deve ser alterada com os valores ajustados ou com um preditor, no eixo horizontal. A presença de características sistemáticas geralmente implica uma falha de uma ou mais suposições do modelo. De interesse nesses gráficos são as tendências não lineares, as tendências de variação no gráfico e os pontos isolados.

A plotagem de resíduos em relação aos valores ajustados e preditores é útil para revelar problemas, mas menos útil para determinar a natureza exata do problema. Consequentemente, vamos empregar outros gráficos de diagnóstico para sugerir melhorias para um modelo.
Gráfico do modelo marginal

Uma variação no gráfico de resíduos básico é o gráfico do modelo marginal, proposto por Cook and Weisberg (1997):
> library(car) > marginalModelPlots(ajuste)

Esses gráficos, mostrados acima, têm a variável de resposta, neste caso interlocks, no eixo vertical, enquanto o eixo horizontal é dado por sua vez por cada um dos preditores contínuos no modelo e os valores ajustados.

Os gráficos da resposta versus preditores individuais exibem a distribuição condicional da resposta dado cada preditor, ignorando os outros preditores; estes são gráficos marginais no sentido de que mostram a relação marginal entre a resposta e cada preditor contínuo. O gráfico em relação aos valores ajustados é um pouco diferente, pois exibe a distribuição condicional da resposta de acordo com o ajuste do modelo.
Podemos estimar uma função de regressão para cada um dos gráficos marginais ajustando uma suavização aos pontos do gráfico. A função marginalModelPlots usa uma suavização inferior, conforme mostrado pela linha sólida no gráfico.

Agora imagine um segundo gráfico que substitui o eixo vertical com os valores ajustados do modelo. Se o modelo for apropriado para os dados, então, sob condições bastante suaves, o ajuste suave para este segundo gráfico também deve estimar a esperança condicional da resposta dado o preditor no eixo horizontal. A segunda suavização também é desenhada no gráfico do modelo marginal, como uma linha tracejada. Se o modelo se ajusta bem aos dados, então as duas suavizações devem corresponder em cada um dos gráficos do modelo marginal; se algum par de alisamentos não corresponder, então temos evidências de que o modelo não se ajusta bem aos dados.

Uma característica interessante dos gráficos do modelo marginal é que, embora o modelo que ajustamos aos dados especifique relações parciais lineares entre interlocks e assets, ele é capaz de reproduzir relações marginais não lineares para esse preditor. Na verdade, o modelo, conforme representado pelas linhas tracejadas, faz um trabalho bastante bom em combinar as relações marginais representadas pelas linhas sólidas, embora as falhas sistemáticas descobertas nos gráficos de resíduos sejam discerníveis aqui.
Medidas de influência

Uma aproximação da medida de influência da distância de Cook é \begin{equation*} D_i \, = \, \dfrac{R_{P_i}^2}{\widetilde{\phi}(k+1)}\times \dfrac{h_i}{1-h_i}\cdot \end{equation*} Esta é essencialmente a definição de Williams, exceto que dividimos pela dispersão estimada $\widetilde{\phi}$ para escalar $D_i$ como uma estatística $F$ em vez de uma estatística qui-quadrado.

A função InfluencePlot no pacote car fornece uma alternativa para o gráficos de índice de estatísticas de diagnóstico:

> influencePlot(ajuste) StudRes Hat CookD 1 -7.5660929 0.52990558 4.259721796 2 -0.1926656 0.28740852 0.001065426 24 5.9815914 0.19570665 0.817197475 86 7.5530132 0.02914628 0.210738087

Este comando produz um gráfico de bolhas, mostrado na figura acima, que combina a exibição de resíduos estudentizados, valores de $h_i$ e distâncias de Cook, com as áreas dos círculos proporcionais à distância de Cook.

Gráfico da variável adicionada como diagnóstico de influência

Gráficos de variáveis adicionadas são um diagnóstico útil para encontrar pontos potencialmente influentes no conjunto, que corresponderão a conjuntos de pontos que estão fora de linha com o resto dos dados e estão no extremo esquerdo ou direito do eixo horizontal.

> avPlots(ajuste, terms = "nation") > avPlots(ajuste, terms = "sector")

Wang (1985) sugere uma extensão de gráficos de variáveis adicionadas para GLMs que funciona da seguinte maneira: suponha que o regressor focal seja $X_j$. Reajuste o modelo com $X_j$ removido, extraindo os resíduos de trabalho deste ajuste. Em seguida, regredir $X_j$ nos outros $X$s por mínimos quadrados ponderados, usando os pesos da última etapa de mínimos quadrados ponderados iterados, obtendo os resíduos. Finalmente, plote os resíduos de trabalho da primeira regressão contra os resíduos de $X_j$ da segunda regressão.
Influência separadamente para cada coeficiente

Em vez de resumir a influência observando todos os coeficientes simultaneamente, poderíamos criar $k + 1$ medidas de influência observando as diferenças individuais: \begin{equation} DFBETA_{ij} \, = \, \widehat{\beta}_{(-i)j}-\widehat{\beta}_j, \qquad \mbox{para} \quad j=0,\cdots,k, \end{equation} onde $\widehat{\beta}_j$ é o coeficiente calculado usando todos os dados e $\widehat{\beta}_{(-i)j}$ é o mesmo coeficiente calculado com a observação $i$ omitida. Tal como acontece com $D_i$, o cálculo de $DFBETA_{ij}$ pode ser realizado de forma eficiente, sem a necessidade de reajustar o modelo. Os $DFBETA_{ij}$ são expressos na métrica, unidades de medida, do coeficiente $\widehat{\beta}_j$.

Uma versão padronizada, $DFBETAS_{ij}$, divide $DFBETA_{ij}$ por uma estimativa do erro padrão de $\widehat{\beta}_j$ calculado com a observação $i$ removida.

A função dfbeta em R leva um modelo linear ou objeto GLM como seu argumento e retorna todos os valores de $DFBETA_{ij}$; da mesma forma, dfbetas calcula o $DFBETAS_{ij}$, como no exemplo a seguir para a regressão de intertravamentos:

> dfbs.ajuste <- dfbetas(ajuste) > head(dfbs.ajuste) # primeiras linhas (Intercept) nationCAN nationOTH nationUK sectorAGR sectorBNK sectorFIN 1 9.841257e-03 0.0784065595 -0.0357158162 -0.0224831488 -0.0034724545 0.5153892840 0.128312479 2 8.333564e-05 0.0006639458 -0.0003024411 -0.0001903870 -0.0000294047 0.0005769995 0.001086548 3 2.845862e-04 0.0022673347 -0.0010328181 -0.0006501602 -0.0001004153 0.1096039302 0.003710497 4 6.746553e-04 0.0053750653 -0.0024484539 -0.0015413046 -0.0002380499 0.0950570892 0.008796304 5 3.491080e-03 0.0278138855 -0.0126698025 -0.0079756558 -0.0012318160 0.4575069197 0.045517475 6 -5.275248e-03 0.0267952770 -0.0002374613 0.0130187213 -0.0022453740 -0.1427248149 0.052087126 sectorHLD sectorMAN sectorMER sectorMIN sectorTRN sectorWOD assets 1 9.141395e-03 -1.698834e-03 -5.043248e-03 0.0346289425 0.0882318464 3.858454e-03 -1.77862633 2 7.740922e-05 -1.438571e-05 -4.270616e-05 0.0002932375 0.0007471462 3.267334e-05 -0.01506139 3 2.643478e-04 -4.912632e-05 -1.458390e-04 0.0010013882 0.0025514591 1.115775e-04 -0.05143372 4 6.266771e-04 -1.164615e-04 -3.457337e-04 0.0023739446 0.0060486258 2.645116e-04 -0.12193154 5 3.242812e-03 -6.026432e-04 -1.789038e-03 0.0122842457 0.0312993007 1.368745e-03 -0.63094860 6 -5.262677e-03 -1.317988e-04 -2.459881e-03 -0.0033818944 -0.0157408671 -3.092303e-03 0.25367311

Poderíamos examinar cada coluna da matriz dfbetas separadamente, por exemplo, por meio de um gráfico de índices:

> par(mfrow=c(1,1), mar=c(3,2,1,0)+.5, mgp=c(1.6,.6,0), pch=19) > plot(dfbs.ajuste[ , c("(Intercept)","assets")]) > grid()

A falta de relação entre os valores $DFBETAS_{ij}$ para os dois regressores reflete a falta de correlção dos próprios regressores.

IV.2. Diagnóstico de não linearidade

Os gráficos de componente mais residual e CERES também se estendem diretamente aos GLMs. A suavização não paramétrica dos diagramas de dispersão resultantes pode ser importante para a interpretação, especialmente em modelos para variáveis de resposta binárias, onde a discrição da resposta torna os diagramas difíceis de examinar. Efeitos semelhantes, se normalmente menos extremos, podem ocorrer para dados binomiais e de contagem.

Componente mais residual e CERES traçam um modelo linearizado da última etapa do ajuste IWLS. Por exemplo, o resíduo parcial para $X_j$ adiciona o resíduo de trabalho $\widehat{\beta}_j X_{ij}$ o componente mais residual o gráfico então representa o resíduo parcial em relação a $X_j$. Ao suavizar um gráfico de componente mais residual para um GLM não gaussiano, geralmente é preferível usar um suavizador não robusto.

> crPlots(ajuste, "assets")

Um gráfico de componente mais residual para ativos na regressão quase Poisson para os dados da diretoria interligados é mostrado na figura acima. Os ativos são tão inclinados positivamente que o gráfico é diferente de examinar, mas é, no entanto, aparente que a relação parcial entre o número de intertravamentos e ativos é não linear, com uma inclinação muito mais acentuada à esquerda do que à direita. Como a protuberância aponta para a esquerda, podemos tentar endireitar essa relação transformando os ativos na escada de potências e de raízes. Tentativas e erro sugerem a transformação logaritmo de ativos, após a qual um gráfico de componente mais residual para o modelo modificado (Figura abaixo) não é digno de nota.

> ajuste1 = update(ajuste, . ~ . - assets + log(assets), family = quasipoisson) > summary(ajuste1) Call: glm(formula = interlocks ~ nation + sector + log(assets), family = quasipoisson, data = dados) Deviance Residuals: Min 1Q Median 3Q Max -6.7111 -2.3159 -0.4595 1.2824 6.2849 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -0.83938 0.34563 -2.429 0.01591 * nationOTH -0.10699 0.18815 -0.569 0.57013 nationUK -0.38722 0.22641 -1.710 0.08855 . nationUS -0.77239 0.12555 -6.152 3.29e-09 *** sectorBNK -0.16651 0.24221 -0.687 0.49247 sectorCON -0.48928 0.53930 -0.907 0.36520 sectorFIN -0.11161 0.19152 -0.583 0.56063 sectorHLD -0.01491 0.30163 -0.049 0.96062 sectorMAN 0.12187 0.19261 0.633 0.52754 sectorMER 0.06157 0.21932 0.281 0.77915 sectorMIN 0.24985 0.17424 1.434 0.15292 sectorTRN 0.15181 0.19967 0.760 0.44784 sectorWOD 0.49825 0.19124 2.605 0.00977 ** log(assets) 0.45145 0.04296 10.510 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for quasipoisson family taken to be 6.398663) Null deviance: 3737.0 on 247 degrees of freedom Residual deviance: 1547.1 on 234 degrees of freedom AIC: NA Number of Fisher Scoring iterations: 5 > crPlots(ajuste1, "log(assets)")

Finalmente, é importante notar a relação entre os problemas de influência e não linearidade neste exemplo: A observação 1 foi influente na regressão original porque é muito grande e os ativos deram-lhe alta alavancagem e, como a não linearidade não foi modelada, colocou a observação abaixo do ajuste erroneamente linear para os ativos, puxando a superfície de regressão em sua direção. Os ativos com a transformação logaritmo corrigem esses dois problemas.

V. Exemplos

V.1. Exemplos de regressão contínua

Exemplo 1. Regressão Beta

Vamos utilizar duas formas diferentes de implementação do modelo de regressão Beta.

> library(betareg) > library(gamlss)

O pacote R betareg é específico para este modelo de regressão enquanto o segundo, pacote gamlss, é muito mais geral no sentido de conter este modelo como uma situação a mais. Maiores informações acerca dos muitos modelos de regressão implementados neste pacote podem ser consultadas aqui.

Utilizando a pacote gamlss.

> dat1 = rBE(200, mu=.3, sigma=.5) > plot(density(dat1),ylim=c(0,2.2),type='n',main='Histograma e densidade estimada Beta(0.3,0.5)') > hist(dat1,freq=F,add=T,col="blue") > abline(h=0) > lines(density(dat1)) > grid()

Estimação numérica

> mod1 = gamlss(dat1~1,family=BE) GAMLSS-RS iteration 1: Global Deviance = -49.2606 GAMLSS-RS iteration 2: Global Deviance = -49.2606 > mod1 Family: c("BE", "Beta") Fitting method: RS() Call: gamlss(formula = dat1 ~ 1, family = BE) Mu Coefficients: (Intercept) -0.8064 Sigma Coefficients: (Intercept) 0.0007139 Degrees of Freedom for the fit: 2 Residual Deg. of Freedom 98 Global Deviance: -49.2606 AIC: -45.2606 SBC: -40.0503

Vamos entender estes resultados. Obtemos como estimativa do intercepto dos coeficientes do modelo de regressão -0.8064; lembrando que a função de ligação é logística significa que, para obtermos $\widehat{\mu}$, a estimativa de $\mu$, a estimativa da esperança da distribuição é

> exp(mod1$mu.coefficients[1])/(1+exp(mod1$mu.coefficients[1])) (Intercept) 0.308662

Significa que a estimativa obtiva com 200 observações independentes é bem próxima à teórica 0.3. Uma forma automática de obtermos estas estimativas é mostrada a seguir:

> fitted(mod1, what="mu")[1] [1] 0.308662 > fitted(mod1, what="sigma")[1] [1] 0.5001785

Nos dedicamos agora a entender diversas forma da densidade Beta.

> par(mfrow=c(2,2), mar=c(3,2,1,0)+.5, mgp=c(1.6,.6,0), lwd=2) > plot(function(y) dBE(y, mu=.1 ,sigma=.5), 0.001, .999, main='densidade',ylab='') > plot(function(y) pBE(y, mu=.1 ,sigma=.5), 0.001, 0.999, main='distribuição',ylab='') > plot(function(y) qBE(y, mu=.1 ,sigma=.5), 0.001, 0.999, main='quantis P[X <= x]',ylab='') > plot(function(y) qBE(y, mu=.1 ,sigma=.5, lower.tail=FALSE), 0.001, .999, main='quantis P[X > x]',ylab='')

Ainda temos a chamada densidade Beta inflacionada de zeros.

> par(mfrow=c(2,2), mar=c(3,2,1,0)+.5, mgp=c(1.6,.6,0), lwd=2) > plotBEINF( mu =.5 , sigma=.5, nu = 0.5, tau = 0.5, from = 0, to=1, n = 101, ylab='') > title(expression(paste('Beta( ',mu,'=0.5, ',sigma,'=0.5, ',nu,'=0.5, ',tau,'=0.5)'))) > plotBEINF( mu =.7 , sigma=.2, nu = 0.8, tau = 0.5, from = 0, to=1, n = 101, ylab='') > title(expression(paste('Beta( ',mu,'=0.7, ',sigma,'=0.2, ',nu,'=0.8, ',tau,'=0.5)'))) > plotBEINF( mu =.3 , sigma=.4, nu = 0.8, tau = 0.1, from = 0, to=1, n = 101, ylab='') > title(expression(paste('Beta( ',mu,'=0.3, ',sigma,'=0.4, ',nu,'=0.8, ',tau,'=0.1)'))) > plotBEINF( mu =.2 , sigma=.2, nu = 0.2, tau = 0.8, from = 0, to=1, n = 101, ylab='') > title(expression(paste('Beta( ',mu,'=0.2, ',sigma,'=0.2, ',nu,'=0.2, ',tau,'=0.8)')))

Vejamos o seguinte exemplo. Considere a proporção de óleo cru convertido em gasolina depois do proceso de destilação fracionada. Os resultados consistem em 32 observações e 5 variáveis:

yield = a proporção de óleo cru convertido em gasolina depois da destilação fracionada
gravity = a gravidade do óleo cru (em graus API). O Grau API é uma escala hidrométrica utilizada para medir a densidade relativa de líquidos
presure = a pressão do vapor do óleo cru (lbf/in²)
temp10 = temperatura (em graus F) à qual 10% da gasolina é vaporizada
temp = temperatura (em graus F) à qual toda a gasolina é vaporizada
batch = fator indicando valores originais de gravity, pressure e temp10

Fonte: Prater, N.H. (1956). Estimate gasoline yields from crudes. New York: Springer-Verlag.

> data(GasolineYield, package='betareg') > attach(GasolineYield)

A resposta neste estudo é a variável yield e fazemos com o comando abaixo o correlograma entre todas as variáveis disponíveis. Percebemos que conforme a temperatura à qual toda a gasolina é vaporizada (temp) aumenta, aumenta a proporção de óleo cru convertido em gasolina depois da destilação fracionada (yield). A influência das outras variáveis não está clara.

> pairs(GasolineYield, pch=19)

Modelos de regressão Beta. Primeiro vamos escolher dentre as diversas funções de ligação. A opção control = gamlss.control(trace = FALSE) permite ocultar as diferentes iterações do algoritmo de maximização.

> ajuste1 = gamlss(yield ~ gravity + pressure + temp10 + temp, family=BE(mu.link='logit'), control = gamlss.control(trace = FALSE)) > ajuste2 = gamlss(yield ~ gravity + pressure + temp10 + temp,family=BE(mu.link='probit'), control = gamlss.control(trace = FALSE)) > ajuste3 = gamlss(yield ~ gravity + pressure + temp10 + temp,family=BE(mu.link='cloglog'), control = gamlss.control(trace = FALSE)) > ajuste4 = gamlss(yield ~ gravity + pressure + temp10 + temp,family=BE(mu.link='cauchit'), control = gamlss.control(trace = FALSE)) > AIC(ajuste1,ajuste2,ajuste3,ajuste4) df AIC ajuste2 6 -145.7995 ajuste1 6 -139.3614 ajuste3 6 -133.3191 ajuste4 6 -106.0034 > summary(ajuste2, type='qr') ****************************************************************** Family: c("BE", "Beta") Call: gamlss(formula = yield ~ gravity + pressure + temp10 + temp, family = BE(mu.link = "probit"), control = gamlss.control(trace = FALSE)) Fitting method: RS() ------------------------------------------------------------------ Mu link function: probit Mu Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.6543037 0.3875177 -4.269 0.000217 *** gravity 0.0034740 0.0037124 0.936 0.357679 pressure 0.0199163 0.0142382 1.399 0.173258 temp10 -0.0061302 0.0011373 -5.390 1.07e-05 *** temp 0.0060064 0.0002558 23.479 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 ------------------------------------------------------------------ Sigma link function: logit Sigma Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.8034 0.1316 -21.3 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 ------------------------------------------------------------------ No. of observations in the fit: 32 Degrees of Freedom for the fit: 6 Residual Deg. of Freedom: 26 at cycle: 5 Global Deviance: -157.7995 AIC: -145.7995 SBC: -137.0051 ******************************************************************

Observamos que a funções de ligação escolhida para o modelo de regressão é probit.

> ajuste5 = step(ajuste2, trace=0) > summary(ajuste5, type='qr') ****************************************************************** Family: c("BE", "Beta") Call: gamlss(formula = yield ~ temp10 + temp, family = BE(mu.link = "probit"), control = gamlss.control(trace = FALSE)) Fitting method: RS() ------------------------------------------------------------------ Mu link function: probit Mu Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.0445529 0.1135149 -9.202 4.21e-10 *** temp10 -0.0078365 0.0004705 -16.656 < 2e-16 *** temp 0.0060717 0.0002625 23.134 < 2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 ------------------------------------------------------------------ Sigma link function: logit Sigma Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.7601 0.1319 -20.93 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 ------------------------------------------------------------------ No. of observations in the fit: 32 Degrees of Freedom for the fit: 4 Residual Deg. of Freedom: 28 at cycle: 5 Global Deviance: -155.1496 AIC: -147.1496 SBC: -141.2867 ******************************************************************

Permanecem as variáveis temp10 e temp.

> par(pch=19) > plot(ajuste5) ****************************************************************** Summary of the Quantile Residuals mean = -0.01643407 variance = 1.02531 coef. of skewness = 0.3603935 coef. of kurtosis = 2.460151 Filliben correlation coefficient = 0.9898574 ******************************************************************

Mostremos o resultado do ajuste através das estimativas do yield segunda cada uma das variáveis explicativas resultantes no modelo.

> par(mfrow=c(2,1),mar=c(5,4,1,1),pch=19,cex.axis=0.6) > plot(temp10,fitted(ajuste5), ylab='yield') > points(temp10,yield,col='red') > grid() > plot(temp,fitted(ajuste5), ylab='yield') > points(temp,yield,col='red') > grid() > legend(200,0.4,legend=c('Preditos','Observados'),col=c('black','red'),pch=19)

Exemplo 2. Regressão gaussiana

Informações de diversos países aparecem a continuação. O objetivo é tentar explicar o Produto Interno Bruto (GNP) per-capita segundo informações populacionais e de escolaridade.

Dispomos das seguintes variáveis:

Infd: mortalidade infantil para cada 1,000 nascidos vivos
Phys: número de habitantes por médico
Dens: densidade populacional, ou seja, população por quilômetro quadrado
Agds: população por 1000 hectares de terra agrícola
Lit: porcentagem da população letrada maior de 15 anos
Hied: número de estudantes no ensino superior por cada 100,000 habitantes
GNP: Produto Interno Bruto per-capita, calculado em dólares americanos de 1957

Estes dados foram publicados no livro de Loether, H.J., McTavish, D.G. and Voxland, P.M. (1974). Statistical Analysis: A Student Manual Boston: Allyn and Bacon.

Mostramos a continuação como realizar a leitura dos dados. Os dados podem ser observados completamente utilizando comando showData, o qual habilita uma janela especifica com a informação contida no argumento, como mostrado abaixo. De outra forma, o comando head mostra somente as primeiras linhas do argumento.

> dados = read.table('http://people.ufpr.br/~lucambio/CE225/1S2009/PIB.dat',h=T) > showData(dados) > attach(dados) > head(dados) Pais Infd Phys Dens Agds Lit Hied GNP 1 Alemanha_Ocidental 33.8 798 217 3631 98.5 528 927 2 Australia1 9.5 860 1 21 98.5 856 1316 3 Austria 37.5 695 84 1720 98.5 546 670 4 Barbados 60.4 3000 548 7121 91.1 24 200 5 Belgica 35.4 819 301 5257 96.7 536 1196 6 Bulgaria 45.1 740 72 1380 85.0 456 365

No estudo descritivo abaixo observamos que a relação do número de estudantes no ensino superior por cada 100,000 habitantes com a resposta é relativamente linear positiva, enquanto que as variáveis porcentagem da população letrada, habitantes por médico e mortalidade infantil mostram relação não linear inversa. As outras variáveis não ficam claras a forma de explicarem a resposta, caso isso aconteça.

> par(mfrow=c(2,3), mar=c(3,2,1,0)+.5, mgp=c(1.6,.6,0), pch=19) > plot(GNP~Infd,ylab='Produto Interno Bruto (GNP)',col='blue',xlab='mortalidade infantil') > plot(GNP~Phys,ylab='Produto Interno Bruto (GNP)',col='blue',xlab='habitantes por médico') > plot(GNP~Dens,ylab='Produto Interno Bruto (GNP)',col='blue',xlab='densidade populacional') > plot(GNP~Agds,ylab='Produto Interno Bruto (GNP)',col='blue',xlab='população por terra agrícola') > plot(GNP~Lit,ylab='Produto Interno Bruto (GNP)',col='blue',xlab='população letrada') > plot(GNP~Hied,ylab='Produto Interno Bruto (GNP)',col='blue',xlab='estudantes ensino superior')

Escolhemos primeiro a função de ligação.

> ajuste1 = glm(GNP~Infd+Phys+Dens+Agds+Lit+Hied, family=gaussian(link='identity')) > ajuste2 = update(ajuste1, family=gaussian(link='log')) > ajuste3 = update(ajuste1, family=gaussian(link='inverse')) > AIC(ajuste1,ajuste2,ajuste3) df AIC ajuste1 8 612.7740 ajuste2 8 595.8743 ajuste3 8 592.8279

Selecionamos então a ligação inversa. Verifiquemos se é possível identificar alguma transformação adequada para as variáveis esplicativas.

> library(car) > par(mfrow=c(2,3), mar=c(3,2,1,0)+.5, mgp=c(1.6,.6,0), pch=19) > crPlots(ajuste3, terms = ~ Infd) > crPlots(ajuste3, terms = ~ Phys) > crPlots(ajuste3, terms = ~ Dens) > crPlots(ajuste3, terms = ~ Agds) > crPlots(ajuste3, terms = ~ Lit) > crPlots(ajuste3, terms = ~ Hied)

Prefere-se manter todas as variáveis na forma original e utilzar o Critério AIC para escolher às influintes.

> ajuste4 = step(ajuste3, trace = 0) > summary(ajuste4) Call: glm(formula = GNP ~ Infd + Dens + Lit + Hied, family = gaussian(link = "inverse")) Deviance Residuals: Min 1Q Median 3Q Max -542.51 -178.76 -19.56 111.59 904.19 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.277e-03 2.356e-03 2.240 0.0314 * Infd 1.108e-05 6.284e-06 1.764 0.0863 . Dens 6.720e-07 5.779e-07 1.163 0.2526 Lit -4.472e-05 2.343e-05 -1.908 0.0644 . Hied -4.064e-07 6.267e-08 -6.485 1.57e-07 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for gaussian family taken to be 88203.35) Null deviance: 11665171 on 40 degrees of freedom Residual deviance: 3175261 on 36 degrees of freedom AIC: 589.9 Number of Fisher Scoring iterations: 9

Observamos na figura a seguir os seis diferentes gráficos de resíduos programados. Destaca-se, fundamentalmente, a observação 13.

A observção 13 corresponde aos Estados Unidos. Retiramos a observação identificada e ajustamos o modelo à nova base de dados.

> dados1 = dados[-c(13),] > attach(dados1) The following objects are masked from dados (pos = 3): Agds, Dens, GNP, Hied, Infd, Lit, Pais, Phys The following objects are masked from dados (pos = 6): Agds, Dens, GNP, Hied, Infd, Lit, Pais, Phys > ajuste5 = glm(GNP~Infd+Phys+Dens+Agds+Lit*Hied,family=gaussian(link='inverse')) > ajuste6 = step(ajuste5, trace = 0) > summary(ajuste6) Call: glm(formula = GNP ~ Infd + Lit, family = gaussian(link = "inverse")) Deviance Residuals: Min 1Q Median 3Q Max -498.50 -151.28 -11.22 98.72 1013.29 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.714e-03 2.043e-03 2.307 0.02672 * Infd 1.859e-05 6.695e-06 2.776 0.00858 ** Lit -4.257e-05 2.017e-05 -2.110 0.04166 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for gaussian family taken to be 79970.25) Null deviance: 8073739 on 39 degrees of freedom Residual deviance: 2958945 on 37 degrees of freedom AIC: 569.97 Number of Fisher Scoring iterations: 7 > par(mfrow=c(2,3), mar=c(3,2,1,1)+.5, mgp=c(1.6,.6,0), pch=19) > plot(ajuste6,which=1:6)

O modelo encontrado é \begin{equation} \widehat{\mu} \, = \, \dfrac{1}{\mbox{4.714e-03}+\mbox{1.859e-05}\times\mbox{Infd}-\mbox{4.257e-05}\times\mbox{Lit}}, \end{equation} e a resposta estimada ou a esperança estimada do Produto Interno Bruto (GNP) segundo as variáveis explicativas mostra-se a continuação.

> par(mfrow=c(2,1), mar=c(3,3,2,2)+.5, mgp=c(1.6,.6,0)) > plot(GNP~Infd,ylab='PIB',xlab='mortalidade infantil',pch=19,ylim=c(70,2600),col='royalblue') > title('Observados e preditos \n segundo mortalidade infantil') > points(Infd,fitted(ajuste6),pch=17,col='red') > grid() > legend(180,2300, legend = c("Observados","Preditos"), col = c("royalblue","red"), pch = c(19,17), bty="n") > plot(GNP~Lit,ylab='PIB',xlab='população letrada',pch=19,ylim=c(70,2600),col='royalblue') > title('Observados e preditos \n segundo população letrada') > points(Lit,fitted(ajuste6),pch=17,col='red') > grid()

V.2. Exemplos de regressão discreta

Exemplo 1. Doença coronária

Este conjunto de dados foi coletado pela Duke University Cardiovascular Disease Databank em 2002 e consiste em 3504 pacientes e seis variáveis. Os pacientes foram encaminhados para a Duke University Medical Center com dor no peito. O arquivo de dados acath com as informações deste estudio está disponível no pacote Hmisc.

Algumas análises interessantes incluem prever a probabilidade de doença coronária (>= 75% de estreitamento do diametro em pelo menos uma arteria coronária importante) e prever a probabilidade de doença coronária grave, uma vez que é uma doença significativa. A primeira análise usaria sigdz como variável de resposta e a segunda usaria tvdlm no subconjunto de pacientes com sigdz = 1. Doença coronária grave é definida como três vasos doentes ou doença principal na esquerda e é denotada por tvdlm = 1.

Observação: o sexo do paciente é codificado como:

sex = 0 para o sexo masculino
sex = 1 para o sexo feminino

Referencia: http://biostat.mc.vanderbilt.edu/wiki/Main/DataSets

> library(Hmisc); library(ggpubr) > getHdata(acath) > attach(acath) > head(acath) sex age cad.dur choleste sigdz tvdlm 1 0 73 132 268 1 1 2 0 68 85 120 1 1 3 0 54 45 NA 1 0 4 1 58 86 245 0 0 5 1 56 7 269 0 0 6 0 64 0 NA 1 0

Variáveis:

sex: fator com níveis 0 ou 1, segundo o sexo do paciente.
age: idade do paciente.
cad.dur: duração dos sintomas da doença arterial coronariana.
choleste: nível de colesterol.

Mostramos agora a forma de definir no R as duas primeiras variáveis:

> Sexo = factor(sex,labels=c('Masculino','Feminino')) > Idade = age > table(Sexo) Sexo Masculino Feminino 2405 1099 > table(Sexo)/sum(tabulate(Sexo)) Sexo Masculino Feminino 0.6863584 0.3136416

Primeira análise:

Prevendo a probabilidade de doença coronária. A variável resposta é sigdz e é construída como:

> Resposta=factor(sigdz,levels=c(0,1),labels=c('Não','Sim')) > Colesterol = choleste > Cad.dur = cad.dur > dados = data.frame(Resposta,Sexo,Idade,Colesterol,Cad.dur) > dados1 = na.exclude(dados)

Criamos uma base de dados com os novos nomes somente para melhor visualização e exluímos os dados faltantes.

Estudo descritivo:

> par(mfrow=c(1,1), mar=c(3,3,1,1), cex=1.0) > mosaicplot(table(Resposta,Sexo), xlab='Doença coronária', main='')

Observamos que temos mais homens (69%) do que mulheres (31%) do estudo, no gráfico abaixo fica claro que os homens sofrem mais de doenças coronárias e tanto homens quanto mulheres encaminhados com dores no peito sofriam mais de doenças coronárias.

A questão agora é saber se as outras variáveis disponíveis explicam a resposta:

> ggstripchart(dados1, y = "Colesterol", x = "Sexo", color = "Resposta", palette = c("#00AFBB", "#FC4E07")) > ggboxplot(dados1, y = "Colesterol", x = "Sexo", color = "Resposta", palette = c("#00AFBB", "#FC4E07"))

Na figura abaixo percebemos novamente que é maioritariamente masculino quem teve como resposta Sim para doença coronária e ainda, quem teve como resposta Sim, apresentou níveis ligeiramente mais altos de colesterol, tanto nas mulheres quanto nos homens.

Percebemos que a doença coronária se manifesta mais no sexo masculino e está clara a influência da idade mas não do colesterol e nem da duração dos sintomas.

> ggstripchart(dados1, x = "Idade", y = "Colesterol", font.tickslab = c(8, "bold", "black"), color = "Resposta", palette = c("#00AFBB", "#FC4E07"))

Percebemos que a doença coronária se manifesta principalmente em pessoas maiores de 35 anos e os níveis de colesterol apresentam-se legeiramente superiores em àqueles com resposta positiva à doença.

> ggstripchart(dados1, x = "Resposta", y = "Cad.dur", color = "Sexo", palette = c("#00AFBB", "#FC4E07"))

O gráfico acima mostra navamente que os homens tiveram, fundamentalmente, resposta positiva à doença coronária e que a não está clara a influência da duração dos sintomas da doença arterial coronariana, variável Cad.dur.

Modelos

> modelo00 = glm(Resposta ~ Idade + Sexo + Cad.dur + Colesterol, family=binomial(link='logit'), data = dados1)

Lembremos que a resposta é dicotômica, logo faz sentido pensarmos na distribuição Binomial e acima consideramos o modelo completo. Escolhemos, a seguir, a função de ligação.

> modelo01 = update(modelo00, family=binomial(link='probit')) > modelo02 = update(modelo00, family=binomial(link='cloglog')) > modelo03 = update(modelo00, family=binomial(link='cauchit'))

Escolhendo a função de ligação mais adequada segundo o menos AIC.

> AIC(modelo00,modelo01,modelo02,modelo03) df AIC modelo00 5 2354.626 modelo01 5 2355.864 modelo02 5 2353.651 modelo03 5 2360.281

Deste resultados, selecionamos a função de ligação complementar log-log (menor valor de AIC).

> modelo04 = step(modelo02) Start: AIC=2353.65 Resposta ~ Idade + Sexo + Cad.dur + Colesterol Df Deviance AIC - Cad.dur 1 2345.4 2353.4 2343.7 2353.7 - Colesterol 1 2425.2 2433.2 - Idade 1 2504.3 2512.3 - Sexo 1 2750.3 2758.3 Step: AIC=2353.43 Resposta ~ Idade + Sexo + Colesterol Df Deviance AIC 2345.4 2353.4 - Colesterol 1 2425.5 2431.5 - Idade 1 2509.8 2515.8 - Sexo 1 2751.5 2757.5

De maneira automática descartamos somente a variável Cad.dur, a duração dos sintomas da doença arterial coronariana.

> summary(modelo04) Call: glm(formula = Resposta ~ Idade + Sexo + Colesterol, family = binomial(link = "cloglog"), data = dados1) Deviance Residuals: Min 1Q Median 3Q Max -2.8908 -0.8981 0.5030 0.7978 2.0801 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.804673 0.228822 -12.257 <2e-16 *** Idade 0.040300 0.003337 12.078 <2e-16 *** SexoFeminino -1.323691 0.073485 -18.013 <2e-16 *** Colesterol 0.005414 0.000601 9.007 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2895.3 on 2257 degrees of freedom Residual deviance: 2345.4 on 2254 degrees of freedom AIC: 2353.4 Number of Fisher Scoring iterations: 5

A proporção do desvio nulo contabilizado pelo modelo é calculado abaixo e, como pode ser observado, é muito baixo.

> modelo0 = glm(Resposta ~ 1, family=binomial(link='logit'), data = dados1) > 1-deviance(modelo04)/deviance(modelo0) [1] 0.1899154

Utilizamos o pacote rms : Regression Modeling Strategies para calcular o $R^2$ de Nagelkerke, para isso devemos utilizar a função lrm da seguinte forma:

> library(rms) > R2=lrm(formula(modelo04), x=T, y=T)$stats[10] > R2 R2 0.2981746

o qual é também um valor baixissimo!

Resíduos:

> residuos = resid(modelo04, type='pearson') > par(mfrow=c(2,2),mar=c(5,4,1,1),cex=0.8) > plot(residuos, pch=19, cex=0.6) > grid() > hist(residuos) > grid() > box() > qqnorm(residuos, pch=19, cex=0.6) > grid() > plot(residuos~fitted(modelo04), pch=19, cex=0.8) > rid()

Fica claro no gráfico dos resíduos acima que os resíduos não seguem a distribuição normal padrão. Uma primeira tentativa de melhorar o ajuste &eacue; investirmos mais nas variáveis explicativas e, nesse sentido, fizemos diversas tentativas de transformações de cada varível e interações de duplas delas. Àquela que melhor apresentou-se como explicativa da resposta foi a transformação $\log\big( Colesterol\times Idade\big)$, vejamos isto aseguir:

> attach(dados1) > par(mfrow=c(1,1),mar=c(5,4,1,1),cex=1.0) > Transformada = I(log(Colesterol*Idade)) > plot(Resposta ~ Transformada)

Percebemos que conforme os valores da vari´vel Transformada aumentam a proporção de Resposta afirmativa à doença coronária aumenta. Propomos agora o seguinte modelo:

> modelo05 = glm(Resposta ~ Idade + Sexo + Colesterol + Transformada, family=binomial(link='logit')) > summary(modelo05) Call: glm(formula = Resposta ~ Idade + Sexo + Colesterol + Transformada, family = binomial(link = "logit")) Deviance Residuals: Min 1Q Median 3Q Max -2.5589 -0.8614 0.5185 0.7764 2.2876 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 10.935887 6.511739 1.679 0.0931 . Idade 0.113668 0.019830 5.732 9.93e-09 *** SexoFeminino -2.111252 0.113945 -18.529 < 2e-16 *** Colesterol 0.018387 0.004215 4.362 1.29e-05 *** Transformada -2.089079 0.900069 -2.321 0.0203 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2895.3 on 2257 degrees of freedom Residual deviance: 2341.7 on 2253 degrees of freedom (1246 observations deleted due to missingness) AIC: 2351.7 Number of Fisher Scoring iterations: 4 > R2=lrm(formula(modelo05), x=T, y=T)$stats[10] > R2 R2 0.300897 > residuos = resid(modelo05, type='pearson') > par(mfrow=c(2,2),mar=c(5,4,1,1),cex=0.8) > plot(residuos, pch=19, cex=0.6) > grid() > hist(residuos) > grid() > box() > qqnorm(residuos, pch=19, cex=0.6) > grid() > plot(residuos~fitted(modelo05), pch=19, cex=0.8) > grid()

Um pouco melhor, pouco mesmo, mas conseguimos perceber mais simetria e comportamento aleatório no gráfico a esquerda superior, assim como também o gráfico Q-Q Plot mais acertivo quanto à normalidade.

> par(mfrow=c(1,1),mar=c(5,4,1,1),cex=1.0) > plot(modelo05$y~fitted(modelo05), pch=19,cex=0.8, xlab='Valores preditos', ylab='Valores observados') > grid()

> library(ResourceSelection) > hoslem.test(modelo05$y,fitted(modelo05)) Hosmer and Lemeshow goodness of fit (GOF) test data: modelo05$y, fitted(modelo05) X-squared = 7.0596, df = 8, p-value = 0.5302

O teste Hosmer-Lemeshow de bondade de ajuste aceita o ajuste do modelo, porém no gráfico de valores estimados vs observados percebemos que há muito erro nas estimativas da resposta. Seria esperado nesse gráfico que para pequenos valores preditos obtenhamos muitos zeros como observados da resposta e para valores altos dos preditos teriamos muitos valores observados 1 da resposta ou vice-versa. Vamos tentar melhorar as estimativas no nosso modelo a seguir.

Para quais valores de $\widehat{P(Y=1)}$ assumir que o valor estimado da resposta é $Y=1$ e para quais $Y=0$?

> table(modelo05$y,modelo05$y) 0 1 0 768 0 1 0 1490 > 768+1490 [1] 2258 > mu.preditos=predict(modelo05,type='response') > Y.preditos1=ifelse(mu.preditos>0.5,1,0) > table(modelo05$y,Y.preditos1) Y.preditos1 0 1 0 369 399 1 166 1324 > Y.preditos2=ifelse(mu.preditos>0.7,1,0) > table(modelo05$y,Y.preditos2) Y.preditos2 0 1 0 571 197 1 451 1039 > Y.preditos3=ifelse(mu.preditos>0.4,1,0) > table(modelo05$y,Y.preditos3) Y.preditos3 0 1 0 293 475 1 110 1380 > Y.preditos4=ifelse(mu.preditos>0.9,1,0) > table(modelo05$y,Y.preditos4) Y.preditos4 0 1 0 751 17 1 1270 220

As tabelas acima mostram como mudam as estimativas segundo a forma como decidimos escoler quando o valor estimado é 0 ou 1. Assim, por exemplo, a primeira tabela mostra que utilizamos no modelo um total de 768+1490=2258 observções; delas 768 correspondem a resposta codificada como 0 e 1490 correspondem a resposta codificada como 1.

Caso decidirmos que, se $\widehat{P(Y=1)}>0.5$ então o valor $\widehat{Y}=1$, padrão no R, obtemos 166 observações estimadas erradamente como sendo $\widehat{Y}=0$ quando foram observadas sendo $Y=0$ e 1324 foram estimadas corretamente. Observe que se escolhemos $\widehat{P(Y=1)}>0.4$ como critério para decidir que $\widehat{Y}=1$, obtemos 110 observações estimadas erradamente como sendo $\widehat{Y}=0$ quando foram observadas sendo $Y=0$ e 1380 foram estimadas corretamente. Isto é conhecido como sensitividade do modelo ou o percentual de verdadeiros positivos; que nesta última situação foi de 1380/1490=0.9261745 (92%).

Um outro conceito importante é a especificidade ou percentual de verdadeiros negativos. Nos dados utilizados para modelar foram observados 768 verdadeiros negativos, enquanto se $\widehat{P(Y=1)}>0.5$ consideramos $\widehat{Y}=1$ estimamos 369 verdadeiros negativos; caso $\widehat{P(Y=1)}>0.4$ como critério para decidir que $\widehat{Y}=1$, estimamos 293 verdadeiros negativos. Pode-se observar que caso a sensitividade seja muito acurada a especificidade será comprometida.

Nesse sentido a Curva ROC permite-nos calibrar entre sensitividade a especificidade, dessa maneira podemos escolher qual será o critério para escolher se $\widehat{P(Y=1)}>\delta$ então $\widehat{Y}=1$.

> library(pROC) > plot.roc(modelo05$y,fitted(modelo05)) Setting levels: control = 0, case = 1 Setting direction: controls < cases > grid() > Y.preditos5=ifelse(mu.preditos>0.7,1,0) > table(modelo05$y,Y.preditos5) Y.preditos5 0 1 0 571 197 1 451 1039 > 571/768 [1] 0.7434896 > 1039/1490 [1] 0.6973154 > abline(h=0.7, lty=2, col="red") > abline(v=0.74, lty=2, col="red") > hoslem.test(modelo05$y,Y.preditos5) Hosmer and Lemeshow goodness of fit (GOF) test data: modelo05$y, Y.preditos5 X-squared = 115.32, df = 8, p-value < 2.2e-16 > # Melhorou consideravelmente a qualidade do ajuste

Observemos que a sensitividade (verdadeiros positivos) obtida com esta escolha é de 70% e a especificidade (verdadeiros negativos) é de 74%. Maiores informações acerca da Curva ROC podem ser encontradas aqui.

Segunda análise:

Prevendo a probabilidade de doença coronária grave. Resposta: tvdlm caso sigdz=1.

> dados=acath[sigdz==1,] > detach(acath) > attach(dados) > Resp2=factor(tvdlm,levels=c(0,1),labels=c('Nao','Sim')) > Sexo = factor(sex,labels=c('Masculino','Feminino')) > Idade = age > par(mfrow=c(2,2),mar=c(5,4,1,1),cex=0.8) > mosaicplot(table(Resp2,Sexo), xlab='Doença coronária grave', main='') > plot(choleste,tvdlm,pch=19, ylab='Doença coronária grave', xlab='Colesterol') > plot(Idade,tvdlm,pch=19, ylab='Doença coronária grave', xlab='Idade') > plot(cad.dur,tvdlm,pch=19, ylab='Doença coronária grave', xlab='Duração dos sintomas')

Percebemos que a doença coronária grave se manifesta na mesma proporção nos sexos e não está clara a influencia da idade, colesterol e da duração dos sintomas.

Modelos:

> modelo10 = glm(tvdlm ~ Idade+Sexo+cad.dur+choleste, family=binomial(link='logit')) > modelo11 = update(modelo10, family=binomial(link='probit')) > modelo12 = update(modelo10, family=binomial(link='cloglog')) > modelo13 = update(modelo10, family=binomial(link='cauchit'))

Escolhendo a função de ligação:

> AIC(modelo10,modelo11,modelo12,modelo13) df AIC modelo10 5 1969.467 modelo11 5 1969.615 modelo12 5 1970.358 modelo13 5 1969.106

Selecionamos a função de ligação cauchit (menor valor de AIC):

> modelo14 = step(modelo13) Start: AIC=1969.11 tvdlm ~ Idade + Sexo + cad.dur + choleste Df Deviance AIC 1959.1 1969.1 - choleste 1 1966.8 1974.8 - Sexo 1 1978.1 1986.1 - cad.dur 1 1987.3 1995.3 - Idade 1 1990.3 1998.3 > summary(modelo14) Call: glm(formula = tvdlm ~ Idade + Sexo + cad.dur + choleste, family = binomial(link = "cauchit")) Deviance Residuals: Min 1Q Median 3Q Max -1.9267 -1.0798 -0.7567 1.1469 1.8759 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.3718502 0.4050236 -5.856 4.74e-09 *** Idade 0.0305561 0.0058246 5.246 1.55e-07 *** SexoFeminino -0.5566452 0.1329436 -4.187 2.83e-05 *** cad.dur 0.0054531 0.0011065 4.928 8.30e-07 *** choleste 0.0025405 0.0009101 2.791 0.00525 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 2064.3 on 1489 degrees of freedom Residual deviance: 1959.1 on 1485 degrees of freedom (844 observations deleted due to missingness) AIC: 1969.1 Number of Fisher Scoring iterations: 5

> residuos1 = resid(modelo14, type='pearson') > par(mfrow=c(2,2),mar=c(5,4,1,1),cex=0.8) > plot(residuos1, pch=19, cex=0.6) > grid() > hist(residuos1) > box() > grid() > qqnorm(residuos1, pch=19, cex=0.6) > grid() > plot(residuos1~fitted(modelo14), pch=19, cex=0.8) > grid()

> mu.preditos1=predict(modelo14,type='response') > Y.preditos5=ifelse(mu.preditos1>0.4,1,0) > table(modelo14$y,Y.preditos5) Y.preditos5 0 1 0 284 483 1 139 584 > 584/(139+584) [1] 0.8077455

Este modelo acerta 80% aproximadamente a probabilidade do indivíduo apresentar doença coronária grave, porém estima muitos falsos positivos.

Exemplo 2. Anorexia

Dados da alteração do peso em pacientes jovens do sexo feminino com anorexia. Contên 72 linhas de observações e três variás;veis:

Treat: fator de três níveis: "Cont" (controle), "CBT" (tratamento cognitivo-comportamental) e "FT" (tratamento familiar).
Prewt: peso do paciente antes do período de estudo, em libras.
Postwt: peso do paciente após o período de estudo, em libras.

> data(anorexia, package='MASS') > attach(anorexia) > head(anorexia) Treat Prewt Postwt 1 Cont 80.7 80.2 2 Cont 89.4 80.1 3 Cont 91.8 86.4 4 Cont 74.0 86.3 5 Cont 78.1 76.1 6 Cont 88.3 78.1 > par(mfrow=c(2,2)) > plot(Prewt[Treat=='CBT'], Postwt[Treat=='CBT'], xlab='Peso das pacientes antes do estudo', pch=19, ylab='Peso das pacientes depois do estudo', xlim=c(70,95), ylim=c(70,105), cex.axis=0.7, col='green') > title(main='Estudo da mudança de peso\n em pacientes com anorexia', sub='Tratamento CBT: tratamento comportamental cognitivo') > plot(Prewt[Treat=='Cont'], Postwt[Treat=='Cont'],xlab='Peso das pacientes antes do estudo', pch=19, ylab='Peso das pacientes depois do estudo', xlim=c(70,95), ylim=c(70,105), cex.axis=0.7, col='red') > title(main='Estudo da mudança de peso\n em pacientes com anorexia', sub='Tratamento Cont: tratamento controle') > plot(Prewt[Treat=='FT'], Postwt[Treat=='FT'], xlab='Peso das pacientes antes do estudo', pch=19, ylab='Peso das pacientes depois do estudo', xlim=c(70,95), ylim=c(70,105), cex.axis=0.7, col='black') > title(main='Estudo da mudança de peso\n em pacientes com anorexia', sub='Tratamento FT: tratamento familiar') > plot(Prewt, Postwt, xlab='Peso das pacientes antes do estudo', ylab='Peso das pacientes depois do estudo', xlim=c(70,95), ylim=c(70,105), cex.axis=0.7, pch=19, col='white') > title(main='Estudo da mudança de peso\n em pacientes com anorexia') > points(Prewt[Treat=='CBT'], Postwt[Treat=='CBT'], col='green', pch=19) > points(Prewt[Treat=='Cont'], Postwt[Treat=='Cont'], col='red', pch=19) > points(Prewt[Treat=='FT'], Postwt[Treat=='FT'], col='black', pch=19)

Percebemos que existem relação entre o peso ante do estudo e depois em duas situações: tratamento CBT e FT.

Modelos:

> ajuste1=glm(Postwt~Prewt+Treat, family=gaussian(link='identity')) > ajuste2=glm(Postwt~Prewt+Treat, family=gaussian(link='log')) > ajuste3=glm(Postwt~Prewt+Treat, family=gaussian(link='inverse'))

Escolhendo a função de ligação masi adequada:

> AIC(ajuste1,ajuste2,ajuste3) df AIC ajuste1 5 489.9733 ajuste2 5 488.9648 ajuste3 5 487.8649

Assim, selecionamos a função de ligação inversa (menor valor de AIC).

> ajuste4 = step(ajuste3) Start: AIC=487.86 Postwt ~ Prewt + Treat Df Deviance AIC 3215.7 487.86 - Prewt 1 3665.1 495.28 - Treat 2 4036.7 500.24

De maneira automática não descartamos nenhuma variável explicativa.

> summary(ajuste4) Call: glm(formula = Postwt ~ Prewt + Treat, family = gaussian(link = "inverse")) Deviance Residuals: Min 1Q Median 3Q Max -13.7699 -4.3377 -0.6403 5.1132 14.6531 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.747e-02 1.830e-03 9.548 3.49e-14 *** Prewt -7.022e-05 2.188e-05 -3.209 0.00203 ** TreatCont 6.292e-04 2.694e-04 2.335 0.02249 * TreatFT -5.787e-04 2.668e-04 -2.169 0.03356 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for gaussian family taken to be 47.28998) Null deviance: 4584.0 on 71 degrees of freedom Residual deviance: 3215.7 on 68 degrees of freedom AIC: 487.86 Number of Fisher Scoring iterations: 5

Resultados:

> preditos1=1/(coef(ajuste4)[[1]]+coef(ajuste4)[[2]]*seq(70,95,by=0.1)) > preditos2=1/(coef(ajuste4)[[1]]+coef(ajuste4)[[2]]*seq(70,95,by=0.1)+coef(ajuste4)[[3]]) > preditos3=1/(coef(ajuste4)[[1]]+coef(ajuste4)[[2]]*seq(70,95,by=0.1)+coef(ajuste4)[[4]]) > par(mfrow=c(1,1)) > plot(Prewt,Postwt, xlab='Peso das pacientes antes do estudo', ylab='Peso das pacientes depois do estudo', xlim=c(70,95), ylim=c(70,105), cex.axis=0.7, pch=19, col='white') > title(main='Estudo da mudanca de peso\n em pacientes com anorexia') > lines(seq(70,95,by=0.1),preditos1,col='green',lwd=1.2) > lines(seq(70,95,by=0.1),preditos2,col='red',lwd=1.2) > lines(seq(70,95,by=0.1),preditos3,col='black',lwd=1.2) > points(Prewt[Treat=='CBT'],Postwt[Treat=='CBT'],col='green',pch=19) > points(Prewt[Treat=='Cont'],Postwt[Treat=='Cont'],col='red',pch=19) > points(Prewt[Treat=='FT'],Postwt[Treat=='FT'],col='black',pch=19) > lines(seq(70,95,by=0.1), preditos1,col='green', lwd=2) > lines(seq(70,95,by=0.1), preditos2,col='red', lwd=2) > lines(seq(70,95,by=0.1), preditos3,col='black', lwd=2) > legend(70,105, legend = c("CBT","Cont","FT"), lwd=2, col=c("green","red","black"), lty=c(2,2,2))

A figura acima resume o ajuste de mosso modelo, apresentamos as curvas dos pesos estimados depois do estudo para cada um dos tratamentos.

Exemplo 3. Olhos.

No arquivo olhos.txt são apresentados dados referentes a 78 famílias com pelo menos seis filhos cada uma. Este archivo contêm as seguintes informações:

cor.pais: na primeira coluna tem-se a classificação dos olhos dos pais segundo a cor com os seguinte códigos:
1. ambos claros,
2. ambos castanhos,
3. ambos escuros,
4. claro e castanho,
5. claro e escuro,
6. castanho e escuro;
cor.avos: na segunda coluna tem-se a classificação dos olhos dos avôs segundo a cor com os seguinte códigos:
1. todos claros,
2. todos castanhos,
3. todos escuros,
4. trêes claros e um castanho,
5. três claros e um escuro,
6. um claro e três castanhos,
7. um escuro e três castanhos,
8. um claro e três escuros,
9. um castanho e três escuros,
10. dois claros e dois castanhos,
11. dois claros e dois escuros,
12. dois castanhos e dois escuros,
13. dois claros, um castanho e um escuro,
14. um claro, dois castanhos e um escuro,
15. um claro, um castanho e dois escuros;
N.Filhos: na terceira coluna temos o número de filhos na família
Olhos.claros: na última coluna temos o número de filhos com olhos claros.

Seja $Y_i$ o número de filhos com olhos claros pertencentes à $i$-ésima família. Sugere-se então considerar um modelo logístico linear. Existem pontos aberrantes? Há indícios de superdispersão? Verifique se o fator ''cor dos olhos dos avôs'' deve permanecer no modelo.

> olhos = read.table('http://people.ufpr.br/~lucambio/CE225/FINAL/olhos.txt',h=F) > names(olhos) = c('cor.pais','cor.avos','N.Filhos','Olhos.claros') > attach(olhos) > head(olhos) cor.pais cor.avos N.Filhos Olhos.claros 1 1 1 6 6 2 1 1 6 6 3 1 1 6 6 4 1 1 6 5 5 1 1 7 7 6 1 1 7 7

Todos as variáveis neste exemplo são categóricas, significa que a realização do estudo descritivo é mais complicado. Utilizamos a seguinte código.

> par(mfrow=c(2,2), mar=c(3,3,1,1), cex=1.0) > mosaicplot(table(cor.pais,Olhos.claros), main='') > mosaicplot(table(cor.avos,Olhos.claros), main='') > mosaicplot(table(cor.pais,N.Filhos), main='') > mosaicplot(table(Olhos.claros), main='') > library(lattice) > xyplot(Olhos.claros/N.Filhos ~ cor.pais!cor.avos)

No gráfico a esquerda observamos que os códigos 1, 4 e 5 da classificação dos olhos dos pais segundo a cor destacam-se por serem mais comuns. Aparentemente, a cor dos olhos dos avôs influencia pouco na ocorrência de olhos claros nos netos. No gráfico à direita percebemos que as categorias 4 e 9 da classificação dos olhos dos avôs segundo a cor influenciam na ocorrência de olhos claros nos netos.

> adj00 = glm(cbind(Olhos.claros,N.Filhos)~factor(cor.pais)+factor(cor.avos), family=binomial(link = "logit")) > adj01 = update(adj00, family=binomial(link="logit")) > adj02 = update(adj00, family=binomial(link="cloglog")) > adj03 = update(adj00, family=binomial(link="cauchit")) > AIC(adj00,adj01,adj02,adj03) df AIC adj00 17 285.8151 adj01 17 285.8151 adj02 17 285.8328 adj03 17 285.8548

Selecionamos o modelo com a função de ligação canônica (menor valor de AIC) e escolhemos quais variáveis devem permanecer no modelo.

> adj04 = step(adj00) Start: AIC=285.82 cbind(Olhos.claros, N.Filhos) ~ factor(cor.pais) + factor(cor.avos) Df Deviance AIC - factor(cor.avos) 11 23.167 266.07 <none> 20.914 285.81 - factor(cor.pais) 5 33.360 288.26 Step: AIC=266.07 cbind(Olhos.claros, N.Filhos) ~ factor(cor.pais) Df Deviance AIC <none> 23.167 266.07 - factor(cor.pais) 5 50.206 283.11

De maneira automáica descartamos a cor dos olhos dos avôs.

> summary(adj04) Call: glm(formula = cbind(Olhos.claros, N.Filhos) ~ factor(cor.pais), family = binomial(link = "logit")) Deviance Residuals: Min 1Q Median 3Q Max -2.6339 -0.1485 0.1034 0.1406 1.2887 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.05741 0.09401 -0.611 0.541392 factor(cor.pais)2 -0.45341 0.43199 -1.050 0.293904 factor(cor.pais)3 -1.35136 0.34924 -3.869 0.000109 *** factor(cor.pais)4 -0.25274 0.15683 -1.612 0.107048 factor(cor.pais)5 -0.55209 0.16702 -3.306 0.000948 *** factor(cor.pais)6 -0.66472 0.31021 -2.143 0.032129 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 50.206 on 77 degrees of freedom Residual deviance: 23.167 on 72 degrees of freedom AIC: 266.07 Number of Fisher Scoring iterations: 4 > par(mfrow=c(2,3), mar=c(4,4,2,2), cex=1.0) > plot(adj04, which=1:6)

Percebemos na análise de resíduos que existem três pontos aberrantes: 18, 37 e 47, fundamentalmente. Observamos abaixo suas características e percebemos que são situações nas quais os pais tiveram poucos filhos com olhos claros.

> olhos[16:20,] cor.pais cor.avos N.Filhos Olhos.claros 16 1 1 12 12 17 1 4 7 7 18 1 4 10 4 19 1 4 12 12 20 1 5 7 6 > olhos[34:40,] cor.pais cor.avos N.Filhos Olhos.claros 34 3 8 6 1 35 3 8 11 3 36 3 15 6 0 37 3 15 7 4 38 4 4 6 6 39 4 4 7 6 40 4 4 8 6 > olhos[44:49,] cor.pais cor.avos N.Filhos Olhos.claros 44 4 5 11 7 45 4 10 7 6 46 4 10 9 9 47 4 10 11 1 48 4 11 6 6 49 4 11 6 4

Decidimos então eliminar os pontos aberrantes/influentes e continuar com a análise.

> olhos1 = olhos[-c(18,37,47),] > adj05 = glm(cbind(Olhos.claros,N.Filhos)~factor(cor.pais), family=binomial, data=olhos1) > summary(adj05) Call: glm(formula = cbind(Olhos.claros, N.Filhos) ~ factor(cor.pais), family = binomial, data = olhos1) Deviance Residuals: Min 1Q Median 3Q Max -1.42958 -0.17827 0.05967 0.07876 0.69835 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.03189 0.09547 -0.334 0.738321 factor(cor.pais)2 -0.47893 0.43231 -1.108 0.267929 factor(cor.pais)3 -1.65978 0.42224 -3.931 8.46e-05 *** factor(cor.pais)4 -0.21123 0.15963 -1.323 0.185754 factor(cor.pais)5 -0.57760 0.16784 -3.441 0.000579 *** factor(cor.pais)6 -0.69024 0.31066 -2.222 0.026293 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 42.153 on 74 degrees of freedom Residual deviance: 11.396 on 69 degrees of freedom AIC: 246.63 Number of Fisher Scoring iterations: 4 > anova(adj05, test="Chisq") Analysis of Deviance Table Model: binomial, link: logit Response: cbind(Olhos.claros, N.Filhos) Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev Pr(>Chi) NULL 74 42.153 factor(cor.pais) 5 30.757 69 11.396 1.046e-05 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Decide-se por manter o fator da classificação dos olhos dos pais modelo. Posteriormente tentaremos ajustar modelos considerando a possibilidade de superdispersão nesses dados.

VI. Exercícios

1- Testando a superdisperisão: Considere que $\delta = 1/\omega$ represente o inverso do parâmetro de escala para o modelo de regressão binomial negativo. Quando $\delta = 0$, o modelo binomial negativo se reduz ao modelo de regressão de Poisson, por quê? E, conseqüentemente, um teste de $H_0 \, : \, \delta = 0$ contra a hipótese alternativa unilateral $H_1 \, : \, \delta > 0$ é um teste de sobredispersão. Um teste de Wald dessa hipótese é direto, simplesmente dividindo $\widehat{\delta}$ por seu erro padrão. Também podemos calcular um teste da razão de verossimilhanças contrastando o desviance sob o modelo de regressão de Poisson mais específico com aquele sob o modelo binomial negativo mais geral. Como o modelo binomial negativo tem um parâmetro adicional, referimos a estatística do teste da razão de verossimilhanças a uma distribuição qui-quadrado com um grau de liberdade; como Cameron and Trivedi (1998) explicam, no entanto, o $p$-valor usual de cauda direita obtido da distribuição qui-quadrado deve ser reduzido à metade. Aplique este teste de razão de verossimilhanças para superdispersão à regressão de direção interligada de Ornstein.

2- Modelos de regressão de contagem inflacionada com zeros:
- (a) Mostre que a média e a variância da variável de resposta $Y_i$ no modelo de regressão de Poisson inflacionado de zero (ZIP), são \begin{equation*} \mbox{E}(Y_i)=(1-\pi_i)\mu_i \qquad \mbox{e} \qquad \mbox{Var}(Y_i)=(1-\pi_i)\mu_i(1+\pi_i\mu_i)\cdot \end{equation*} Dica: lembre-se de que existem duas fontes de zeros (0s): observações na primeira classe latente, cujo valor de $Y$ é necessariamente 0, e observações na segunda classe latente, cujo valor pode ser 0. A probabilidade de pertencimento é $\pi_i$ na primeira classe e 1 $1-\pi_i$ no segundo.
  Mostre que $\mbox{Var}(Y)> \mbox{E}(Y_i)$ quando $\pi_i> 0$.
- (b) Derive a log-verossimilhan&ccedi;a para o modelo ZIP.
- (c) O modelo de regressão binomial negativo inflado de zero (ZINB) substitui um GLM binomial negativo para o submodelo de regressão de Poisson onde: \begin{array}{rcl} \log_e(\mu_i) & = & \alpha+\beta_1x_{i1}+\beta_2x_{i2}+\cdots+\beta_kx_{ik}, \\ p(y_i|x_1,\cdots,x_k) & = & \dfrac{\Gamma(y_i+\omega)}{y_i!\Gamma(\omega)}\times \dfrac{\mu_i^{y_i}\omega^\omega}{(\mu_i+\omega)^{\mu_i+\omega}}\cdot \end{array} Mostre que $\mbox{E}(Y_i)=(1-\pi_i)\mu_i$ como no modelo ZIP e que \begin{equation*} \mbox{Var}(Y_i)=(1-\pi_i)\mu_i\big(1+\mu_i(\pi_i+1/\omega)\big)\cdot \end{equation*} Quando $\pi_i> 0$, a variância condicional é maior no modelo ZINB do que no GLM binomial negativo padrão, ou seja, $\mbox{Var}(Y_i)=\mu_i+\mu_i^2/\omega$; porque? Derive a log-verossimilhança para o modelo ZINB.
  Dica: simplesmente substitua o GLM binomial negativo pelo submodelo de regressão de Poisson.

3- A estatística qui-quadrado usual de Pearson para testar a independência em uma tabela de contingência bidirecional é \begin{equation*} \chi^2_0=\sum_{i=1}^r\sum_{j=1}^c \dfrac{\big(Y_{ij}-\widehat{\mu}_{ij}\big)^2}{\widehat{\mu}_{ij}}, \end{equation*} onde o $Y_{ij}$ são as frequências observadas na tabela e o $\widehat{\mu}_{ij}$ são as frequências estimadas esperadas sob independência. As frequências esperadas estimadas podem ser calculadas a partir das estimativas de máxima verossimilhança para o modelo loglinear de independência ou podem ser calculadas diretamente como $\widehat{\mu}_{ij}=Y_{i+}Y_{+j}/n$. A estatística de razão de verossimilhança para testar a independência também pode ser calculada a partir das contagens esperadas estimadas como \begin{equation*} G_0^2 = 2 \sum_{i=1}^r\sum_{j=1}^c Y_{ij}\log_e\Big(Y_{ij}/\widehat{\mu}_{ij}\Big)\cdot \end{equation*} Ambas as estatísticas de teste têm $(r-1)(c-1)$ graus de liberdade. Os dois testes são assintoticamente equivalentes e geralmente produzem resultados semelhantes. Aplicando essas fórmulas à tabela bidirecional para participação eleitoral e intensidade da preferência partidária na Seção II.2, calcule ambas as estatísticas de teste, verificando se a fórmula direta para $G_0^2$ produz o mesmo resultado dado no texto. Os testes de Pearson e razão de verossimilhança concordam?

4- Usando os dados SLID a seguir relatamos os resultados de uma regressão logaitmica de salários segundo o sexo, o quadrado da educação, um quadrático na idade e as interações entre sexo e educação ao quadrado, e entre sexo e o quadrático para idade.
> SLID = read.table("https://socialsciences.mcmaster.ca/jfox/Books/Applied-Regression-2E/datasets/SLID-Ontario.txt", header = T) > head(SLID) age sex compositeHourlyWages yearsEducation 1 40 Male 10.56 15 2 19 Male 11.00 13 3 46 Male 17.76 14 4 50 Female 14.00 16 5 31 Male 8.20 15 6 30 Female 16.97 13 > Idade = age; Sexo = factor(sex); Estudos = I(yearsEducation^2) > ajuste = lm(I(log2(compositeHourlyWages)) ~ (Idade^2)+Sexo*Estudos+Sexo*I(Idade^2)) > summary(ajuste, correlation = TRUE) Call: lm(formula = I(log2(compositeHourlyWages)) ~ (Idade^2) + Sexo * Estudos + Sexo * I(Idade^2)) Residuals: Min 1Q Median 3Q Max -3.07188 -0.33501 0.02892 0.36187 2.61541 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.508e-01 8.689e-02 6.339 2.57e-10 *** Idade 1.208e-01 4.559e-03 26.487 < 2e-16 *** SexoMale 3.141e-01 5.523e-02 5.687 1.38e-08 *** Estudos 3.149e-03 1.651e-04 19.076 < 2e-16 *** I(Idade^2) -1.307e-03 5.978e-05 -21.861 < 2e-16 *** SexoMale:Estudos -1.037e-03 2.223e-04 -4.667 3.16e-06 *** SexoMale:I(Idade^2) 1.298e-04 1.914e-05 6.784 1.34e-11 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.5624 on 3990 degrees of freedom Multiple R-squared: 0.4004, Adjusted R-squared: 0.3995 F-statistic: 444.1 on 6 and 3990 DF, p-value: < 2.2e-16 Correlation of Coefficients: (Intercept) Idade SexoMale Estudos I(Idade^2) SexoMale:Estudos Idade -0.88 SexoMale -0.32 -0.02 Estudos -0.27 -0.12 0.59 I(Idade^2) 0.80 -0.97 0.12 0.15 SexoMale:Estudos 0.27 0.00 -0.79 -0.73 -0.02 SexoMale:I(Idade^2) 0.17 0.03 -0.60 -0.09 -0.19 0.10
- (a) Estime a idade $\gamma_1$ em que as mulheres atingem, em média, seu maior nível de salários, controlando a educação. Use o método delta para estimar o erro padrão de $\gamma_1$.
- (b) Estime a idade $\gamma_2$ em que os homens atingem em média o seu nível salarial mais elevado, controlando a educação. Use o método delta para estimar o erro padrão de $\gamma_2$.
- (c) Seja $\gamma_3 = \gamma_1-\gamma_2$, a diferença entre as idades em que homens e mulheres atingem seus níveis salariais mais elevados. Calcule $\gamma_3$. Use o método delta para encontrar o erro padrão de $\gamma_3$ e teste a hipótese nula $H_0 \, : \, \gamma_3 = 0$.

5- Coeficeinte de quase-variâncias: quase-variâncias para coeficientes de variáveis regressores dummy têm por objetivo aproximar os erros padrão para diferenças de pares entre categorias, \begin{equation} SE(C_j-C_k) \, = \, \sqrt{\widehat{\mbox{Var}}(C_j)+\widehat{\mbox{Var}}(C_k)-2\widehat{\mbox{Cov}}(C_j,C_k)}, \end{equation} onde $C_j$ e $C_k$ são dois coeficientes de variáveis dummy para uma variável explicativa politômica de $m$ categorias; $\widehat{\mbox{Var}}(C_j)$ é a variância amostral estimada de $C_j$ e $\widehat{\mbox{Cov}}(C_j,C_k)$ é a covariância amostral estimada entre $C_j$ e $C_k$. Por convenção, tomamos $C_m$, o coeficiente da categoria de linha de base e seu erro padrão, $SE(C_m)$, como sendo 0. Procuramos o coeficiente de quase-variâncias $\widetilde{\mbox{Var}}(C_j)$, de modo que \begin{equation} SE(C_j-C_k) \, \approx \, \sqrt{\widetilde{\mbox{Var}}(C_j)+\widetilde{\mbox{Var}}(C_k)}, \end{equation} para todos os pares de coeficientes $C_j$ e $C_k$, minimizando o erro total relativo logarítmico de aproximação, $\displaystyle \sum_{j < k} \Big( \log\big(RE_{jk}\big)\Big)^2$, onde \begin{equation} RE_{jk} \, = \, \dfrac{\widetilde{\mbox{Var}}(C_j-C_k)}{\widehat{\mbox{Var}}(C_j-C_k)} \, = \, \dfrac{\widetilde{\mbox{Var}}(C_j)+\widetilde{\mbox{Var}}(C_k)}{\widehat{\mbox{Var}}(C_j)+\widehat{\mbox{Var}}(C_k)-2\widehat{\mbox{Cov}}(C_j,C_k)}\cdot \end{equation} Firth (2003) sugere inteligentemente implementar este critério ajustando um GLM no qual a variável de resposta seja $Y_{jk} = \log_e\Big(\widehat{\mbox{Var}}(C_j-C_k)\Big)$ para todos os pares únicos de categorias $j$ e $k$; o preditor linear seria $\eta_{jk} = \beta_j + \beta_k$; a função de ligação seria a ligação exponencial, $g(\mu) = \exp(\mu)$ que é, observe, não é uma das ligações comuns na Tabela 1 e a função de variância é constante, $\mbox{Var}(Y \, | \, \eta) =\phi$. As estimativas de quase-verossimilhança dos coeficientes $\beta_j$ são as quase-variâncias $\widetilde{\mbox{Var}}(C_j)$.
Por exemplo, para a regressão de prestígio ocupacional canadense descrita abaixo, onde as variáveis dummy pertencem ao tipo de ocupação: profissional e gerencial, colarinho branco ou colarinho azul, temos:

> Prestigio = read.table("https://socialsciences.mcmaster.ca/jfox/Books/Applied-Regression-2E/datasets/GSS-Long.txt", header = T) > head(Prestigio) experience education race occupation 1 3 11 white menial 2 14 12 white menial 3 44 12 white menial 4 18 12 white menial 5 24 14 nonwhite menial 6 38 13 white menial > levels(factor(Prestigio$race)) [1] "nonwhite" "white" > levels(factor(Prestigio$occupation)) [1] "bluecollar" "craft" "menial" "professional" "whitecollar" > ajuste = lm(I(log2(experience)) ~ factor(race)+factor(occupation), data = Prestigio) > summary(ajuste) Call: lm(formula = I(log2(experience)) ~ factor(race) + factor(occupation), data = Prestigio) Residuals: Min 1Q Median 3Q Max -3.0886 -0.7710 0.2110 0.9558 2.1801 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.32160 0.26397 16.372 <2e-16 *** factor(race)white -0.41443 0.23580 -1.758 0.0798 . factor(occupation)craft 0.18147 0.19300 0.940 0.3478 factor(occupation)menial -0.38683 0.25728 -1.504 0.1337 factor(occupation)professional -0.03070 0.18129 -0.169 0.8656 factor(occupation)whitecollar 0.03377 0.23359 0.145 0.8851 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.185 on 331 degrees of freedom Multiple R-squared: 0.02449, Adjusted R-squared: 0.009751 F-statistic: 1.662 on 5 and 331 DF, p-value: 0.1433 > library(qvcalc) > qvcalc(ajuste, factorname = "factor(occupation)") estimate SE quasiSE quasiVar bluecollar 0.00000000 0.0000000 0.09892028 0.009785222 craft 0.12578307 0.1337768 0.08992144 0.008085866 menial -0.26813202 0.1783353 0.14812369 0.021940627 professional -0.02128191 0.1256609 0.07763854 0.006027742 whitecollar 0.02340563 0.1619144 0.12836219 0.016476851

O cálculo descrito aqui é a base do pacote qvcalc de Firth (descrito em Firth, 2003) para o ambiente de programação estatística R.
1. O cálculo de quase-variâncias se aplica não apenas a regressores fictícios em modelos lineares, mas a todos os modelos com um preditor linear para o qual os coeficientes e sua matriz de covariância estimada estão disponíveis - por exemplo, os GLMs descritos aqui.
2. As quase-variâncias podem ser usadas para aproximar o erro padrão para qualquer combinação linear de coeficientes de variáveis dummy, não apenas para diferenças entre pares.
3. Tendo encontrado as aproximações de quase-variância para um conjunto de erros padrão, podemos então calcular e relatar o erro relativo máximo (normalmente pequeno) dessas aproximações. Firth and De Menezes (2004) fornecem resultados mais gerais para o erro relativo máximo para qualquer contraste de coeficientes.

VII. Referências

Agresti, A. (1990). Categorical data analysis. Hoboken, NJ: John Wiley.
Cameron, A.C. and Trivedi, P.K. (1998). Regression analysis for count data. Cambridge, UK: Cambridge University Press.
Campbell, A., Converse, P.E., Miller, W.E. and Stokes, D.E. (1960). The American voter. New York: John Wiley.
Cook, R.D. and Weisberg, S. (1997). Applied regression including computing and graphics. New York: John Wiley.
Fienberg, S.E. (1980). The analysis of cross-classified categorical data (2nd ed.). Cambridge: MIT Press.
Firth, D. (1991). Generalized linear models. In D. V. Hinkley, N. Reid, & E.J. Snell (Eds.), Statistical theory and modelling: In honour of Sir David Cox, FRS (pp. 55–82). London: Chapman & Hall.
Firth, D. (2003). Overcoming the reference category problem in the presentation of statistical models. In R. M. Stolzenberg (Ed.), Sociological methodology 2003 (pp. 1-18). Washington, DC: American Sociological Association.
Firth, D. and De Menezes, R.X. (2004). Quasi-variances. Biometrika, 91, 65-80.
Fox, J. (2016). Applied Regression Analysis and Generalized Linear Models. SAGE Publications, Inc.
Lambert, D. (1992). Zero-inflated Poisson regression, with an application to defects in manufacturing. Technometrics, 34, 1-14.
Landwehr, J.M., Pregibon, D. and Shoemaker, A.C. (1980). Some graphical procedures for studying a logistic regression fit. In Proceedings of the Business and Economic Statistics Section, American Statistical Association (pp. 15-20). Alexandria, VA: American Statistical Association.
Long, J. S. (1997). Regression models for categorical and limited dependent variables. Thousand Oaks, CA: Sage.
McCullagh, P. and Nelder, J.A. (1989). Generalized linear models (2nd ed.). London: Chapman & Hall.
Nelder, J.A. and Wedderburn, R.W.M. (1972). Generalized linear models. Journal of the Royal Statistical Society, A, 135, 370-384.
Pregibon, D. (1981). Logistic regression diagnostics. Annals of Statistics, 9, 705-724.
Powers, D.A. and Xie, Y. (2008). Statistical methods for categorical data analysis (2nd ed.). Bingley, UK: Emerald.
Rao, C.R. (1973). Linear statistical inference and its applications (2nd ed.). New York: John Wiley.
Wang, P.C. (1985). Adding a variable in generalized linear models. Technometrics, 27, 273-276.
Wang, P.C. (1987). Residual plots for detecting nonlinearity in generalized linear models. Technometrics, 29, 435-438.
Wedderburn, R. W. M. (1974). Quasi-likelihood functions, generalized linear models, and the Gauss-Newton method. Biometrika, 61, 439-447.
Weisberg, S. (2005). Applied linear regression (4th ed.). Hoboken, NJ: John Wiley.
Williams, D.A. (1987). Generalized linear model diagnostics using the deviance and single case deletions. Applied Statistics, 36, 181-191.

Ligação	\(\eta_i=g(\mu_i)\)	\(\mu_i=g^{-1}(\eta_i)\)
Identidade	\(\mu_i\)	\(\eta_i\)
Log	\(\log_e\big(\mu_i\big)\)	\(e^{\eta_i}\)
Inversa	\(\mu_i^{-1}\)	\(\eta_i^{-1}\)
Inversa quadrada	\(\mu_i^{-2}\)	\(\eta_i^{-1/2}\)
Raiz quadrada	\(\sqrt{\mu_i}\)	\(\eta_i^2\)
Logit	\(\log_e\Big(\dfrac{\mu_i}{1-\mu_i}\Big)\)	\(\dfrac{1}{1+\exp\big(-\eta_i\big)}\)
Probit	\(\Phi^{-1}\big(\mu_i\big)\)	\(\Phi\big(\eta_i\big)\)
Log-log	\(-\log_e\big(-\log_e\big(\mu_i\big)\big)\)	\(\exp\big(-\exp\big(-\eta_i\big)\big)\)
Complementar log-log	\(\log_e\big(-\log_e\big(1-\mu_i\big)\big)\)	\(1-\exp\big(-\exp\big(\eta_i\big)\big)\)

Família	\(a(\phi)\)	\(b(\theta)\)	\(c(y,\phi)\)
Gaussiana	\(\phi\)	\(\theta^2/2\)	\(-\frac{1}{2}\Big( y^2/\phi+\log_e\big(2\pi\phi\big)\Big)\)
Binomial	\(1/n\)	\(\log_e\big(1+e^\theta\big)\)	\(\log_e{n \choose ny}\)
Poisson	\(1\)	\(e^\theta\)	\(-\log_e(y!)\)
Gama	\(\phi\)	\(-\log_e(-\theta)\)	\(\phi^{-2}\log_e(y/\phi)-\log_e(y)-\log_e\big(\Gamma(\phi^{-1})\big)\)
Gaussiana invera	\(\phi\)	\(-\sqrt{-2\theta}\)	\(-\frac{1}{2}\Big( \log_e\big(\pi\phi y^3\big)+(\phi y)^{-1}\Big)\)

Família	Ligação canônica	Intervalo da resposta	\(\mbox{Var}(Y_i \, \| \, \eta_i)\)
Gaussiana	Identidade	\(-\infty.+\infty)\)	\(\phi\)
Binomial	Logit	\(0,1/n_i,\cdots,n_i/n_i\)	\(\mu_i(1-\mu_i)/n_i\)
Poisson	Log	\(0,1,2,\cdots\)	\(\mu_i\)
Gama	Inversa	\((0,+\infty)\)	\(\phi\mu_i^2\)
Normal inversa	Inversa quadrada	\((0,+\infty)\)	\(\phi\mu_i^3\)

Introdução

Modelo Quase-Poisson

Modelo Binomial-Negativa

Regressão Poisson inflacionada de zeros

Regressão Poisson inflacionada de zeros

Tabelas de mão dupla (Two-Way)

III.1. Famílias exponenciais

III.2. Estimatição por máxima verossimilhança para modelos lineares generalizados

Mínimos quadrados ponderados iterados

Estimando o parâmetro de dispersão

Estimação de quase-verossimilhança

III.3. Testes de hipóteses

Análise de Desvios

Testando Hipóteses Lineares Gerais

Testando Hipóteses Não Lineares

III.4. Mostrando efeitos

IV.1. Diagnóstico de outliers, alavancagem e influência

Matriz chapéu

Resíduos

Gráfico do modelo marginal

Medidas de influência

Gráfico da variável adicionada como diagnóstico de influência

Influência separadamente para cada coeficiente

IV.2. Diagnóstico de não linearidade

V.1. Exemplos de regressão contínua

V.2. Exemplos de regressão discreta

Primeira análise:

Estudo descritivo:

Modelos

Resíduos:

Segunda análise:

Modelos:

Modelos:

Resultados: