2 Modelos de regressão

$

O que é um modelo estatístico?

O contexto

\(Y\) – uma variável resposta quantitativa

\({\bf x}=(x_1,\ldots,x_p)'\) – um qualquer número de preditores, covariáveis ou variáveis explicativas

Nota

Diferentes tipos de modelos (modelos de regressão, ANOVA, . . .) são necessários para incluir diferentes tipos de covariáveis

Algumas questões importantes

Princípio fundamental da modelação

Variação observada em \(Y\)

=

Variação previsível + Variação aleatória

 

Forma funcional

\[Y = g(\mathbf{x}, \boldsymbol{\beta}) + E\]

onde \(E\) é chamado o erro aleatório

O modelo de regressão linear é caraterizado por:

\[g(\mathbf{x}, \boldsymbol{\beta})=\mathbf{x}' \boldsymbol{\beta}\]

e \(E\sim N(0, \sigma^2)\), não correlacionados \(\forall \mathbf{x}\)

Nota

O modelo é linear nos parâmetros!

2.1 Regressão linear simples

Os dados

Um conjunto de pontos observáveis \((x_i,Y_i)\), \(i=1,\ldots,n\)

Modelo de Regressão Linear Simples (MRLS) \[Y_i=\beta_0+\beta_1x_i+E_i,\, i=1,\ldots,n\] \(\beta_0,\, \beta_1\) – parâmetros do MRLS

\(E_i\) – erro aleatório associado a \(Y_i=(Y\mid x=x_i)\)

Pressupostos usuais do MRLS

  1. \(E[E_i]=0\) \(\iff E[Y_i]=\beta_0+\beta_1x_i\)
  1. \(Var[E_i]=\sigma^2\) \(\iff Var[Y_i]=\sigma^2\)

  2. \(E_i\)’s não correlacionadas \(\iff\) \(Y_i\)’s não correlacionadas

  3. \(E_i\sim\) normal

\[E_i\sim N\left(0,\sigma^2\right)\iff Y_i\sim N\left(\beta_0+\beta_1 x_i,\sigma^2\right)\]

Para que servem os pressupostos?

. Tornam o modelo interpretável

\(E[Y\mid x]=\beta_0+\beta_1 x\) — curva de regressão

\(\beta_0=E[Y\mid x=0]\)

\(\beta_1=E[Y\mid x=x_0+1]-E[Y\mid x=x_0]\)

. Tornam simples a inferência estatística

Pelo método da máxima verossimilhança:

\[\left\lbrace\begin{array}{lcl} \hat {\beta }_1 &=& \frac{\sum_{i = 1}^n {x_i Y_i } - n\bar {x}\bar {Y}}{\sum_{i = 1}^n {x_i^2 } - n\bar {x}^2}\\ \hat{\beta }_0 &=& \bar{Y} - \hat{\beta }_1 \bar{x}\\ \hat{\sigma}_{MV}^2 & = & \frac{\sum_{i=1}^{n}{\left(Y_i-(\hat{\beta}_0+\hat{\beta}_1 x_i)\right)^2}}{n} \end{array}\right.\]

Nota

\(E[\hat{\beta}_i]=\beta_i\), \(i=1,2\)

\(E[\hat{\sigma}_{MV}^2]=\frac{n-2}{n}\sigma^2\implies \hat{\sigma}^2=\frac{n}{n-2}\hat{\sigma}_{MV}^2\) é um estimador centrado de \(\sigma^2\) que passaremos a usar

Mais ainda, temos:

\[\hat{\beta}_1 \sim N\left(\beta_1, \frac{\sigma^2}{Sxx}\right)\] \[\hat{\beta}_0 \sim N\left(\beta_0, \sigma^2 \left(\frac{1}{n} + \frac{\bar{x}^2}{Sxx} \right) \right)\]

em que \(Sxx = \sum_{i=1}^n (x_i-\bar{x})^2\)

e

\[\frac{(n-2)\hat{\sigma}^2}{\sigma^2}\sim \chi_{(n-2)}^2\]

\(\hat{\sigma}^2\) é independente de \(\hat{\beta}_0\) e \(\hat{\beta}_1\)

Os resultados anteriores conduzem a:

\[\frac{\hat{\beta}_1-\beta_1}{\hat{\sigma}\sqrt{\frac{1}{Sxx}}} = \frac{\hat{\beta}_1-\beta_1}{se(\hat{\beta}_1)} \sim t_{(n-2)}\]

e

\[\frac{\hat{\beta}_0-\beta_0}{\hat{\sigma}\sqrt{\frac{1}{n} + \frac{\bar{x}^2}{Sxx}}} = \frac{\hat{\beta}_0-\beta_0}{se(\hat{\beta}_0)} \sim t_{(n-2)}\]

que permitem construir intervalos de confiança ou testar hipóteses sobre \(\beta_1\) e \(\beta_0\).

Para que um modelo ajustado possa ser útil é necessário avaliar:

  1. a adequação dos pressupostos

    É possível encontrar algo que ponha em causa algum dos pressupostos?

  1. a qualidade do ajustamento aos dados observados

    O modelo permite explicar grande parte da variação observada em \(Y\)?

  2. a capacidade preditiva do modelo

    É possível obter predições precisas?

2.2 Regressão linear múltipla

Os dados

Um conjunto de pontos observáveis \((\mathbf{x}_i,y_i)\), \(i=1,\ldots,n\) com \(\mathbf{x}_i=(x_{i,1}, \ldots,x_{i,p-1})\).

Vamos, por agora, considerar que todas as \(p-1\) covariáveis são VN.

Modelo de Regressão Linear Múltipla (MRLM) \[y_i = \beta_0 + \sum_{j=1}^{p-1}\beta_j x_{i,j} + E_i,\,i=1,\ldots,n\]

\(E_i\) — erro aleatório associado a \(y_i=(y\mid \mathbf{x}=\mathbf{x}_i)\) com \(E_i\sim N(0, \sigma^2)\), não correlacionadas.

O MRLM pode ser escrito em forma matricial:

\[\underset{n\times 1}{\mathbf{y}} = \underset{n\times p}{\mathbf{X}}\quad \underset{p\times 1}{\boldsymbol{\beta}}+\underset{n\times 1}{\mathbf{E}}\]

\[\begin{pmatrix}y_1\\ \vdots\\ y_n\end{pmatrix}=\begin{pmatrix} 1 & x_{1,1} & \cdots & x_{1,p-1}\\ \vdots & \vdots & \ddots & \vdots\\ 1 & x_{n,1} & \cdots & x_{n,p-1} \end{pmatrix} \begin{pmatrix}\beta_0\\ \vdots\\ \beta_{p-1}\end{pmatrix}+ \begin{pmatrix}E_1\\ \vdots\\ E_n\end{pmatrix}\]

\(\mathbf{X}\) — a matriz de delineamento

Notas

  1. O número de observações (\(n\)) deve ser maior do que o número de parâmetros \((p+1)\)
  1. A matriz \(\mathbf{X}\) deve ter posto completo, ou seja, as \(p\) colunas devem ser linearmente independentes.
  1. De forma equivalente, tem-se \[\mathbf{y}\sim N_n(\boldsymbol{\mu}, \sigma^2\mathbf{I})\] com \(\boldsymbol{\mu}=E[\mathbf{y}\mid \mathbf{x}]=\mathbf{X}\boldsymbol{\beta}\)

A distribuição normal multivariada

\(\mathbf{Y}\sim N_m(\boldsymbol{\mu}, \boldsymbol{\Sigma}),\,\mathbf{y}\in\mathbb{R}^m\)

\[f_{\mathbf{Y}}(\mathbf{y}) = (2\pi)^{-\frac{n}{2}}|\boldsymbol{\Sigma}|^{-\frac{1}{2}}\exp\left\{-\frac{1}{2}(\mathbf{y}-\boldsymbol{\mu})'\boldsymbol{\Sigma}^{-1}(\mathbf{y}-\boldsymbol{\mu})\right\}\]

\(E[\mathbf{y}]=\boldsymbol{\mu}\)

\(Cov[\mathbf{y}]=\boldsymbol{\Sigma}\)

Regressão de 1ª ordem

\[y_i = \beta_0 + \sum_{j=1}^{p-1}\beta_j x_{i,j} + E_i,\,i=1,\ldots,n\]

\[\begin{pmatrix}y_1\\ \vdots\\ y_n\end{pmatrix}=\begin{pmatrix} 1 & x_{1,1} & \cdots & x_{1,p-1}\\ \vdots & \vdots & \ddots & \vdots\\ 1 & x_{n,1} & \cdots & x_{n,p-1} \end{pmatrix} \begin{pmatrix}\beta_0\\ \vdots\\ \beta_{p-1}\end{pmatrix}+ \begin{pmatrix}E_1\\ \vdots\\ E_n\end{pmatrix}\]

Frequentemente é útil incluir termos de maior ordem:

1ª ordem potências-(1) \(x_1,\ldots, x_{p-1}\)
2ª ordem potências-(2) \(x_1^2,\ldots, x_{p-1}^2\)
interações-(1,1) \(x_1x_2,\ldots, x_1x_{p-1}, x_2x_3,\ldots, x_2x_{p-1},\ldots\)
3ª ordem potências-(3) \(x_1^3,\ldots, x_{p-1}^3\)
interações-(1,2) \(x_1x_2^2,\ldots, x_1x_{p-1}^2, x_2x_3^2,\ldots, x_2x_{p-1}^2,\ldots\)
interações-(2,1) \(x_1^2x_2,\ldots, x_1^2x_{p-1}, x_2^2x_3,\ldots, x_2^2x_{p-1},\ldots\)
. . . . . . . . .

ou mesmo outras transformações das covariáveis.

Regressão polinomial

\[y_i = \sum_{j=0}^{p-1}\beta_j x_{i}^j + E_i,\,i=1,\ldots,n\]

\[\begin{pmatrix}y_1\\ \vdots\\ y_n\end{pmatrix}=\begin{pmatrix} 1 & x_{1} & x_{1}^2 & \cdots & x_1^{p-1}\\ \vdots & \vdots & \vdots & \ddots & \vdots\\ 1 & x_{n} & x_{n}^2 & \cdots & x_n^{p-1} \end{pmatrix} \begin{pmatrix}\beta_0\\ \vdots\\ \beta_{p-1}\end{pmatrix}+ \begin{pmatrix}E_1\\ \vdots\\ E_n\end{pmatrix}\]

Estimação pontual

Maximizando \[\log \mathcal{L}(\boldsymbol{\beta},\sigma^2)=-\frac{n}{2}\log \sigma^2-\frac{1}{2\sigma^2}(\mathbf{y}-\mathbf{X}\boldsymbol{\beta})'(\mathbf{y}-\mathbf{X}\boldsymbol{\beta}) + C\] obtêm-se os estimadores de MV:

\(\hat{\mathbf{y}} = \hat{E}[\mathbf{y}\mid \mathbf{x}] = \mathbf{X}\hat{\boldsymbol{\beta}}\)valores ajustados

Usando a expressão do estimador \(\hat{\boldsymbol{\beta}}\) temos:

\[\hat{\mathbf{y}}=\mathbf{X}(\mathbf{X}'\mathbf{X})^{-1}\mathbf{X}'\mathbf{y}= \mathbf{H}\mathbf{y}\]

\(\mathbf{H}_{n\times n}\) é chamada a matriz de projeção (ou matriz chapéu)

\(\mathbf{e} = \mathbf{y} - \hat{\mathbf{y}} = \mathbf{y} - \mathbf{H}\mathbf{y} = (\mathbf{I}_n-\mathbf{H})\mathbf{y}\)resíduos

\(\mathbf{e}'\mathbf{e}=(\mathbf{y}-\mathbf{X}\hat{\boldsymbol{\beta}})'(\mathbf{y}-\mathbf{X}\hat{\boldsymbol{\beta}}) = SSE\)soma dos quadrados dos resíduos

Sob os pressupostos do modelo:

  1. \(\hat{\boldsymbol{\beta}} \sim N_p\left(\boldsymbol{\beta}, \sigma^2(\mathbf{X}'\mathbf{X})^{-1}\right) \implies \hat{\beta}_k \sim N\left(\beta_k, \sigma^2(\mathbf{X}'\mathbf{X})^{-1}_{k,k}\right)\)

  2. \(\frac{SSE}{\sigma^2}=\frac{n\hat{\sigma}^2_{MV}}{\sigma^2}\sim \chi^2_{(n-p)}\)

  3. \(\hat{\boldsymbol{\beta}}\) e \(\hat{\sigma}^2_{MV}\) são independentes

De 2. temos que \(E[SSE]=\sigma^2(n-p)\) o que mostra que \[E[\hat{\sigma}^2_{MV}]=E\left[\frac{SSE}{n}\right]=\frac{n-p}{n}\sigma^2\]

Assim, passaremos a usar o estimador \[\hat{\sigma}^2=\frac{SSE}{n-p}=MSE\]

Em particular, os resultados anteriores implicam

\[\frac{\hat{\boldsymbol{\beta}}_k-\boldsymbol{\beta}_k}{se(\hat{\boldsymbol{\beta}}_k)}\sim t_{(n-p)}\] com \(se(\hat{\boldsymbol{\beta}}_k)=\hat{\sigma}\sqrt{(\mathbf{X}'\mathbf{X})^{-1}_{kk}}\)

Estes resultados distribucionais podem ser usados para calcular intervalos de confiança ou testar hipóteses sobre cada um dos parâmetros de regressão individualmente.

Exemplo

str(ggplot2::mpg)
tibble [234 × 11] (S3: tbl_df/tbl/data.frame)
 $ manufacturer: chr [1:234] "audi" "audi" "audi" "audi" ...
 $ model       : chr [1:234] "a4" "a4" "a4" "a4" ...
 $ displ       : num [1:234] 1.8 1.8 2 2 2.8 2.8 3.1 1.8 1.8 2 ...
 $ year        : int [1:234] 1999 1999 2008 2008 1999 1999 2008 1999 1999 2008 ...
 $ cyl         : int [1:234] 4 4 4 4 6 6 6 4 4 4 ...
 $ trans       : chr [1:234] "auto(l5)" "manual(m5)" "manual(m6)" "auto(av)" ...
 $ drv         : chr [1:234] "f" "f" "f" "f" ...
 $ cty         : int [1:234] 18 21 20 21 16 18 18 18 16 20 ...
 $ hwy         : int [1:234] 29 29 31 30 26 26 27 26 25 28 ...
 $ fl          : chr [1:234] "p" "p" "p" "p" ...
 $ class       : chr [1:234] "compact" "compact" "compact" "compact" ...
modelo <- lm(hwy ~ displ + cyl, data = ggplot2::mpg)
summary(modelo)

Call:
lm(formula = hwy ~ displ + cyl, data = ggplot2::mpg)

Residuals:
   Min     1Q Median     3Q    Max 
-7.510 -2.195 -0.205  1.902 14.922 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   38.216      1.048   36.46   <2e-16 ***
displ         -1.960      0.519   -3.77   0.0002 ***
cyl           -1.354      0.416   -3.25   0.0013 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.76 on 231 degrees of freedom
Multiple R-squared:  0.605, Adjusted R-squared:  0.601 
F-statistic:  177 on 2 and 231 DF,  p-value: <2e-16

A significância de um modelo de regressão

Consideremos as hipóteses

\[H_0: \forall i>0 : \beta_i = 0\] contra \[H_1: \exists i>0 : \beta_i \neq 0\]

Nota

\(H_0\) significa que nenhuma dos termos contribui para explicar a variação de \(y\) sob o modelo ou

\[H_0: E[y\mid \mathbf{x}] = \beta_0\]

Sob \(H_0\), \(\hat{\beta}_0=\bar{y}\).

Pode mostrar-se que, para qualquer modelo de regressão:

\[\sum\left(y_i-\bar{y}\right)^2=\sum\left(y_i-\hat{y}_i\right)^2+\sum\left(\hat{y}_i-\bar{y}\right)^2\]

\[\iff SST=SSE+SSR\]

Nota

Cada modelo de regressão conduz a diferentes valores ajustados (\(\hat{\mathbf{y}}\)), e portanto, diferentes decomposições da variação observada na variável resposta.

Sob \(H_0\),

\[F=\frac{\frac{SSR}{p-1}}{\frac{SSE}{n-p}} = \frac{MSR}{MSE}\sim \mathcal{F}_{(p-1, n-p)}\]

e \(H_0\) pode ser rejeitada se \(F_o > F^{-1}_{\mathcal{F}_{(p-1, n-p)}}(1-\alpha)\).

Relacionado com o teste anterior, já conhecíamos o coeficiente de determinação:

\[R^2=\frac{SSR}{SST}=1-\frac{SSE}{SST}\]

Note-se que:

  1. \(F=\frac{R^2}{1-R^2} \frac{n-p}{p-1}\)

  2. \(SST\) é fixo e não depende do modelo

  3. \(SSR\) não pode diminuir se se incluirem mais termos

\(R^2\) nunca diminui com a inclusão de termos!

Por causa desta inflação do \(R^2\), é preferível usar o:

Coeficiente de determinação ajustado

\[R^2_a=1-\frac{MSE}{MST}=1-\frac{(n-1) SSE}{(n-p) SST}\]

Notas

  1. perde-se a interpretação mas \(R^2_a\) penaliza o aumento da complexidade do modelo

  2. \(R^2_a\) pode ser negativo, ao contrário de \(R^2\)

summary(modelo)

Call:
lm(formula = hwy ~ displ + cyl, data = ggplot2::mpg)

Residuals:
   Min     1Q Median     3Q    Max 
-7.510 -2.195 -0.205  1.902 14.922 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   38.216      1.048   36.46   <2e-16 ***
displ         -1.960      0.519   -3.77   0.0002 ***
cyl           -1.354      0.416   -3.25   0.0013 ** 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.76 on 231 degrees of freedom
Multiple R-squared:  0.605, Adjusted R-squared:  0.601 
F-statistic:  177 on 2 and 231 DF,  p-value: <2e-16

Comparação de modelos encaixados

Um modelo R (modelo reduzido) diz-se encaixado no modelo A (modelo alargado) se o conjunto de termos de R é um subconjunto ou um subespaço do conjunto de termos de A.

Para comparar modelos encaixados

\[H_0: \text{Modelo R}\ \ \text{contra}\ \ H_1: \text{Modelo A}\] podemos usar a estatística de teste

\[F = \frac{\frac{SSE(R) - SSE(A)}{gl_R-gl_A}}{\frac{SSE(A)}{gl_A}}\stackrel{H_0}{\sim}\mathcal{F}_{(gl_R-gl_A,\ gl_A)}\]

e \(H_0\) pode ser rejeitada se \(F^*_o > F^{-1}_{\mathcal{F}_{\left(gl_R-gl_A,\ gl_A\right)}}(1-\alpha)\)

Testes F sequenciais

anova(modelo)
Analysis of Variance Table

Response: hwy
           Df Sum Sq Mean Sq F value Pr(>F)    
displ       1   4848    4848   343.0 <2e-16 ***
cyl         1    149     149    10.6 0.0013 ** 
Residuals 231   3264      14                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Comparação de 2 modelos encaixados

modeloR <- lm(hwy ~ displ, data = ggplot2::mpg)
anova(modeloR, modelo)
Analysis of Variance Table

Model 1: hwy ~ displ
Model 2: hwy ~ displ + cyl
  Res.Df  RSS Df Sum of Sq    F Pr(>F)   
1    232 3414                            
2    231 3264  1       149 10.6 0.0013 **
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Inferências para a resposta média

O estimador de \(E[\mathbf{y}\mid \mathbf{x}_0]=\mathbf{x}'_0\boldsymbol{\beta}\) é naturalmente \(\mathbf{x}'_0\hat{\boldsymbol{\beta}}\), e:

\[\frac{\mathbf{x}'_0\hat{\boldsymbol{\beta}}-\mathbf{x}'_0\boldsymbol{\beta}}{se(\mathbf{x}'_0\hat{\boldsymbol{\beta}})}\sim t_{(n-p)}\]

com \(se(\mathbf{x}'_0\hat{\boldsymbol{\beta}})=\hat{\sigma}\sqrt{\mathbf{x}'_0(\mathbf{X}'\mathbf{X})^{-1}\mathbf{x}_0}\)

Um intervalo de confiança com nivel de confiança \(\gamma\) é dado por:

\[\mathbf{x}'_0\hat{\boldsymbol{\beta}}\pm F_{t_{(n-p)}}^{-1}\left(\frac{1+\gamma}{2}\right)\times se(\mathbf{x}'_0\hat{\boldsymbol{\beta}})\]

Cuidado com as extrapolações!

Predição de uma nova observação

O objetivo é predizer uma nova observação sob a validade do modelo, isto é

\[y_0\sim N(\mathbf{x}'_0\boldsymbol{\beta}, \sigma^2)\]

independente dos dados observados.

O estimador do seu valor esperado, \(\hat{y}_0=\mathbf{x}'_0\hat{\boldsymbol{\beta}}\), é agora chamado um preditor.

Temos ainda

\[\frac{\hat{y}_0-y_0}{se(\hat{y}_0-y_0)}\sim t_{(n-p)}\]

com \(se(\hat{y}_0-y_0)=\hat{\sigma}\sqrt{1+\mathbf{x}'_0(\mathbf{X}'\mathbf{X})^{-1}\mathbf{x}_0}\)

Um intervalo de predição ao nível de confiança \(\gamma\) é dado por

\[\hat{y}_0\pm F_{t_{(n-p)}}^{-1}\left(\frac{1+\gamma}{2}\right)\times se(\hat{y}_0-y_0)\]

Cuidado com as extrapolações!

Exemplo – banda de confiança a 95%

Exemplo – bandas de confiança e predição a 95%

Covariáveis categorizadas

Quando incluímos covariáveis categorizadas é útil analisar a superfície de resposta:

\[E[Y\mid \mathbf{x}] = \mathbf{X} \boldsymbol{\beta}\]

Covariáveis binárias (2 níveis)

Suponhamos que \(p=3\) e que \(x_2\) é binária (0/1). A superfície de resposta do modelo de 1ª ordem sem transformações é:

\[\begin{align*} E[Y\mid \mathbf{x}] & = \beta_0 + \beta_1 x_1 + \beta_2 x_2 =\\[0.25cm] & = \begin{cases}\beta_0+\beta_1 x_1, & x_2=0\\[0.25cm](\beta_0 + \beta_2)+\beta_1 x_1, & x_2=1\end{cases} \end{align*}\]

\(\leadsto\) estamos a ajustar 2 superfícies de resposta paralelas!

Com \(q\) covariáveis binárias teríamos \(2^q\) superfícies de resposta paralelas.

Para remover o paralelismo é necessário incluir interações:

\[\begin{align*} E[Y\mid \mathbf{x}] & = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_1 x_2 =\\[0.25cm] & = \begin{cases}\beta_0+\beta_1 x_1, & x_2=0\\[0.25cm](\beta_0 + \beta_2)+(\beta_1 + \beta_3) x_1, & x_2=1\end{cases} \end{align*}\]

Mais de 2 níveis

No exemplo anterior, suponhamos agora que \(x_2\) é uma covariável categorizada ou fator com 3 níveis. Codificando esses níveis como 0, 1 ou 2 temos:

\[\begin{align*} E[Y\mid \mathbf{x}] & = \beta_0 + \beta_1 x_1 + \beta_2 x_2 =\\[0.25cm] & = \begin{cases}\beta_0+\beta_1 x_1, & x_2=0\\[0.25cm](\beta_0 + \beta_2)+\beta_1 x_1, & x_2=1\\[0.25cm](\beta_0 + 2\beta_2)+\beta_1 x_1, & x_2=2\end{cases} \end{align*}\]

Além de paralelas, as superfícies de resposta estão igualmente espaçadas e ordenadas. Isto é, em geral, indesejável.

Poderíamos associar uma variável binária a cada nível do fator, \(x_2\rightsquigarrow (x_{2,0}, x_{2,1}, x_{2,2})\), mas isso não conduziria a uma matriz de delineamento de posto completo.

Em vez disso usam-se apenas 2 variáveis indicadoras ou variáveis mudas:

Nível \(x_{2,1}\) \(x_{2,2}\)
0 0 0
1 1 0
2 0 1

Isto é chamada a codificação de nível de referência em que o nível codificado com \(\mathbf{x}=\mathbf{0}\) é o nível de referência.

\[\begin{align*} E[Y\mid \mathbf{x}] & = \beta_0 + \beta_1 x_1 + \beta_{2,1} x_{2,1} + \beta_{2,2} x_{2,2} =\\[0.25cm] & = \begin{cases}\beta_0+\beta_1 x_1, & x_2=0\\[0.25cm](\beta_0 + \beta_{2,1})+\beta_1 x_1, & x_2=1\\[0.25cm](\beta_0 + \beta_{2,2})+\beta_1 x_1, & x_2=2\end{cases} \end{align*}\]

Também aqui, a inclusão de interações pode remover o paralelismo.

Notas

  1. Em vez da codificação binária nas variáveis mudas, outros valores (contrastes) são também usados conduzindo a diferentes interpretações dos parâmetros de regressão.
  1. Se todas as covariáveis forem categorizadas usam-se os modelos de Análise de Variância (ANOVA).

Avaliação de modelos de regressão linear

Potenciais problemas

  1. O preditor linear não é adequado

  2. A estrutura do erro aleatório não é adequada

    1. Variância não constante (heterocedasticidade)

    2. Correlação nos erros

    3. Não-normalidade

\(\leadsto\) inclusão de novos termos no modelo, transformações de \(Y\) ou das covariáveis, tentar outros modelos.

  1. Existência de observações atípicas (outliers) ou observações com excessiva influência no modelo ajustado

\(\leadsto\) requer mais investigação: há uma explicação? É um erro? Ou uma fraude? Considerar a remoção com cautela.

  1. Correlações elevadas entre covariáveis (multicolinearidade)

\(\leadsto\) Estandardizar as covariáveis ou usar outros modelos de regressão. Considerar a remoção de covariáveis com cautela.

Muitos dos meios de diagnóstico são baseados nos resíduos \(\mathbf{e}=\mathbf{y}-\hat{\mathbf{y}}\):

Estratégia usual

Começar com alguns gráficos e usar testes apenas para clarificar indicações suspeitas ou pouco claras dadas pelos gráficos.

Resíduos

Sob os pressupostos do modelo, um gráfico dos resíduos deve ter o aspeto de uma nuvem simétrica de pontos em torno de zero com variação constante.

No entanto,

\[\mathbf{e}=(\mathbf{I} - \mathbf{H})\mathbf{y}\sim N_n(\mathbf{0}, \sigma^2(\mathbf{I} - \mathbf{H}))\]

\(\implies e_i\sim N(0, \sigma^2(1-h_{ii}))\)

\(\therefore\) os resíduos são v.a.’s correlacionadas com diferentes variâncias

Resíduos Studentizados

\[r_i=\frac{e_i}{se(e_i)}=\frac{e_i}{\sqrt{MSE (1-h_{ii})}},\ i=1,\ldots, n\]

são chamados os resíduos internamente Studentizados ou estandardizados.

Nota: rstandard() in R

Seja \[d_i=y_i-\hat{y}_{-i}\] em que \(\hat{y}_{-i}\) é o valor ajustado após a remoção da iª observação (deleted residual) e \(r_i^*\) o correspondente resíduo Studentizado.

Aparentemente, o cálculo destes resíduos deverá ser dispendioso!

Felizmente, tem-se \(d_i=\frac{e_i}{1-h_{ii}}\) e,

\[\begin{align*} r_i^* & = e_i\sqrt{\frac{n-p-1}{SSE (1-h_{ii})-e_i^2}}=\\[0.25cm] & = r_i \sqrt{\frac{n-p-1}{n-p- r_i^2}}\sim t_{(n-p-1)},\ i=1,\ldots, n \end{align*}\]

são chamados os resíduos externamente Studentizados.

Nota: rstudent() in R

Exemplo

Num gráfico de resíduos devemos olhar para:

  1. a existência de algum padrão ou um desvio sistemático de zero (A, B1 and B2)

  2. assimetria (B3)

  3. valores extremos (C)

  4. alguma dependência em alguma covariável relativamente aos pontos anteriores

Exemplos

Exemplos

Outros gráficos

Observações atípicas e alavancagem (leverage)

Observações influentes: alavancagem \(\times\) resíduo

Lembremos que \(Var[e_i]=\sigma^2 (1- h_{ii})\).

\(\leadsto\) um valor elevado de \(h_{ii}\) torna a \(Var[e_i]\) pequena e, consequentemente, a superfície de regressão estimada será mais fortemente “atraída” por \((y_i, \mathbf{x}_i)\).

Chamamos a \(h_{ii}\) a leverage da iª observação.

A distância de Cook é definida como

\[D_i=\frac{(\hat{\mathbf{y}} - \hat{\mathbf{y}}_{-i})'(\hat{\mathbf{y}} - \hat{\mathbf{y}}_{-i})}{p MSE}=\frac{1}{p} (r^*_i)^2\frac{h_{ii}}{1-h_{ii}}\]

e é usada como uma medida agregada da influência de cada observação.

Nota Usualmente os valores de \(D_i\) são comparados com os quantis de uma distribuição \(\mathcal{F}_{(p, n-p)}\).

                             leverage std.residual cooks.d
High leverage, Low residual    0.4096       -0.163 0.00926
Low leverage, High residual    0.0478        3.616 0.32819
High leverage, High residual   0.4096       -3.916 5.31837

2.3 Regressão logística e de Poisson

Regressão logística

Consideremos a observação de uma variável resposta binária:

\[Y_i \sim \text {Ber}(\theta_i),\, \theta_i=P(Y_i=1)\in ]0,1[,\]

independentes para \(i=1,\ldots,n\).

Neste caso, não podemos adotar a estratégia seguida na regressão linear, tomando \[E[Y_i\mid \mathbf{x}_i]=\theta_i=\mathbf{x}_i'\boldsymbol{\beta}\]

Porquê?

Em vez disso, podemos fazer \[g(\theta_i)=\mathbf{x}_i'\boldsymbol{\beta}\]

em que \(g: ]0,1[ \rightarrow \mathbb{R}\) é uma função de ligação.

Uma escolha possível é a função logito:

\[\mathop{\mathrm{\text{logit}}}(\theta)=\log \left(\frac{\theta}{1-\theta}\right)\]

A inversa é a função logística:

\[g^{-1}(x)=\frac{1}{1 + e^{-x}}=\frac{e^x}{e^x+1}\]

com \(x\in\mathbb{R}\).

Notas

  1. A interpretação dos parâmetros dos parâmetros de regressão está agora relacionada com o logaritmo da chance de sucesso:

    \(\beta_0\)

    logaritmo da chance de sucesso para \(\mathbf{x}=\mathbf{0}\)

    \(\beta_i, i=1,\ldots, p-1\)

    variação do logaritmo da chance de sucesso quando \(x_i\) aumenta uma unidade e as restantes covariáveis permanecem constantes

  1. A estimação pontual pode continuar a ser feita por MV mas não existe expressão analítica dos estimadores;
  1. Toda a restante inferência baseia-se em aproximações que requerem amostras grandes como, por exemplo:

    \[\frac{\hat{\beta}_i-\beta_i}{se(\hat{\beta}_i)}\stackrel{a}{\sim} N(0,1)\]

    em que \(se(\hat{\beta}_i)\) é calculado a partir da matriz Hessiana da função de verossimilhança.

Generalização (observações repetidas)

\[Y_i \sim \text {binomial}(n_i, \theta_i),\]

independentes para \(i=1,\ldots,k\).

\(E\left[\frac{Y_i}{n_i}\right] = \theta_i\) e \(\mathop{\mathrm{\text{logit}}}(\theta_i)=\mathbf{x}_i'\boldsymbol{\beta}\)

Exemplo

Na tabela seguinte apresenta-se o número de mortes, \(y_i\), em 8 grupos com \(n_i\) besouros expostos a uma dose \(x_i\) de \(CS_2\).

\(i\) 1 2 3 4 5 6 7 8
\(y_i\) 6 13 18 28 52 53 61 60
\(n_i\) 59 60 62 56 63 59 62 60
\(x_i\) 1.6907 1.7242 1.7552 1.7842 1.8113 1.8369 1.8610 1.8839
data.frame(
  y = c(6, 13, 18, 28, 52, 53, 61, 60),
  n = c(59, 60, 62, 56, 63, 59, 62, 60),
  x = c(1.6907, 1.7242, 1.7552, 1.7842, 1.8113, 1.8369, 1.8610, 1.8839)
) -> besouros

modelo <- glm(cbind(y, n - y) ~ x, family = "binomial", data = besouros)
estimativas <- coef(modelo)
estimativas
(Intercept)           x 
      -60.7        34.3 
summary(modelo)

Call:
glm(formula = cbind(y, n - y) ~ x, family = "binomial", data = besouros)

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)   -60.72       5.18   -11.7   <2e-16 ***
x              34.27       2.91    11.8   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 284.202  on 7  degrees of freedom
Residual deviance:  11.232  on 6  degrees of freedom
AIC: 41.43

Number of Fisher Scoring iterations: 4

\(\leadsto \widehat{\text{DL}}_{50}\approx 1.77\) e \(\widehat{\text{DL}}_{90}\approx 1.83\)

Qualidade do ajustamento

A desviância de um modelo \(M\) é dada por

\[-2\log \frac{\mathcal{L}\left(\hat{\boldsymbol{\beta}}_M\right)}{\mathcal{L}\left(\hat{\boldsymbol{\beta}}_S\right)}= 2\left(\log \mathcal{L}\left(\hat{\boldsymbol{\beta}}_S\right)- \log \mathcal{L}\left(\hat{\boldsymbol{\beta}}_M\right)\right)\]

em que \(S\) representa o modelo saturado (um parâmetro por observação).

No R temos:

Desviância nula: \(2\left(\log \mathcal{L}\left(\hat{\boldsymbol{\beta}}_S\right)- \log \mathcal{L}\left(\hat{\boldsymbol{\beta}}_0\right)\right)\)

(\(gl=n-1\))

Desviância residual: \(2\left(\log \mathcal{L}\left(\hat{\boldsymbol{\beta}}_S\right)- \log \mathcal{L}\left(\hat{\boldsymbol{\beta}}_M\right)\right)\)

(\(gl=n-p\))

A diferença é encarada como uma medida da capacidade explicativa de um modelo M relativamente ao modelo nulo.

A medida

\[\text{AIC} = 2p - 2\log \mathcal{L}\left(\hat{\boldsymbol{\beta}}_M\right)\]

é conhecida como o critério de informação de Akaike.

Tal como com a desviância, a diminuição desta medida é indicadora de uma melhor qualidade de ajustamento.

Ao contrário da desviância, o AIC penaliza o aumento de complexidade dos modelos.

Comparação de modelos encaixados

Para testar a hipótese

\(H_0: \text{Modelo reduzido (R)}\) contra \(H_1: \text{Modelo alargado (A)}\)

pode-se usar a estatística de teste

\[G^2 = -2\log \frac{\mathcal{L}\left(\hat{\boldsymbol{\beta}}_R\right)}{\mathcal{L}\left(\hat{\boldsymbol{\beta}}_A\right)}\underset{H_0}{\stackrel{a}{\sim}}\chi^2_{(p_A - p_R)}\]

Rejeita-se \(H_0\) se \(G^2_o > F^{-1}_{\chi^2_{\left(p_A - p_R\right)}}(1-\alpha)\).

Regressão de Poisson

A ideia anterior pode ser aplicada a outras distribuições. Por exemplo, para dados resultantes de contagens, a distribuição de Poisson é frequentemente usada.

\[Y_i \sim \text {Poi}(\lambda_i),\, \lambda_i\in \mathbb{R}^+,\]

independentes para \(i=1,\ldots,n\).

Neste caso, a modelação mais usual é \(\log(\lambda_i)=\mathbf{x}_i'\boldsymbol{\beta}\).

Os modelos de regressão fazem parte da família dos modelos lineares (lm no R).

Os modelos de regressão logística e de Poisson fazem parte da família dos modelos lineares generalizados (glm no R).

menu
fullscreen
aspect_ratio
visibility_off
zoom_out
zoom_in
grid_view

pages