Econometría

name: xaringan-title
class: inverse, left, bottom
background-image: url(images/beach1.jpg)
background-size: cover

# **Econometría**
----

## **<br/> Variables Instrumentales**

### Carlos A. Yanes Guerra
### 2024

---
class: inverse, middle

# Preguntas... de la sesión de ayer? 
<img src="images/lognig.png" width="280" />

---
layout: true

# Variables Instrumentales

---

### Objetivo de la sesión

En esta **sesión** se avanzará sobre el concepto de .hi[endogeneidad], su relación con la idea de causalidad, y el uso de los métodos de .ul[variables instrumentales] como medio para obtener estimadores consistentes cuando *falla* el estimador MCO

El estimador se dice .hi-purple[consistente] cuando

`$$\tag{1}
plim(\hat{\beta})=\beta$$`

En el caso del estimador MCO este resultado requiere que `$E(X|u)=0$`. Sin embargo, hay situaciones en las que esto no es así, entre ellas tenemos

Decimos que un **regresor** es .hi[endógeno] si está correlacionado con el error, lo cual ocurre por alguna de las tres situaciones mencionadas.

---

En Colombia, las zonas de deforestación han coincidido con áreas de presencia de grupos armados, surge la pregunta: ¿La violencia causa la deforestación? [Ferguson, Romero, y Vargas (2014)](https://ageconsearch.umn.edu/record/209328/) intentan estimar el efecto de la expansión paramilitar sobre la deforestación.

- Considere la siguiente especificación

`$$forest_{m,t}=\beta_0+\beta_1\text{Paramilitares}_{m,t}+\epsilon_{m,t}$$`

Donde `$forest_{m,t}$` es la proporción de la municipalidad `$m$` cubierta de bosque en el año `$t$`, mientras que `$\text{Paramilitares}_{m,t}$` son los ataques paramilitares hasta el año `$t$`

- Al estimar por **MCO** encuentran que `$\hat{\beta_1}=0.045$` con `$s.e=0.0117$`

- ¿Podría decir que el estimador es .hi[insesgado]?

- ¿Qué pasa si la deforestación y la presencia del conflicto dependen de las características ecológicas y geológicas del terreno?

---

### Simultaneidad

Usted quiere estimar el *efecto* de los aranceles sobre el volumen de comercio. Sugiere el siguiente modelo

`$$comercio_i=\beta_0+\beta_1arancel_i+\upsilon_i$$`
--

Sin embargo, si los grupos de presión logran hacer que el gobierno suba los aranceles como respuesta a la creciente competencia con importaciones, entonces

`$$arancel_i=\gamma_0+\gamma_1comercio_i+\omega_i$$`
--

En consecuencia

`$$comercio=\beta_0+\beta_1(\gamma_0+\gamma_1comercio+\omega)+\upsilon$$`
--

- Un choque al comercio, `$\upsilon$`, afecta también a los aranceles, luego `$Cov(arancel_i,\upsilon_i)\neq0$`

---

### Error de Medición

Digamos que ahora quiere estimar el efecto del *ingreso familiar* sobre el desempeño académico. Tiene un modelo

`$$Nota_i=\beta_0+\beta_1ing^*_i+u_i$$`
--

Acá, `$ing^*$` es la medida ideal del ingreso. Sin embargo, lo que tiene es lo que reporta el estudiante es `$ing$`

`$$ing_i=ing^*_i+e$$`

luego

`$$\begin{aligned}
nota_i&=\beta_0+\beta_1(ing_i-e_i)+u_i\\
&=\beta_0+\beta_1ing_i+\upsilon_i
\end{aligned}$$`

Con `$\upsilon=u-\beta_1e$`.

- Note que `$Cov(ing_i,\upsilon_i)\neq0$` porque `$ing$` está correlacionado con `$e_i$`

---
layout: false
class: inverse, middle

# La idea del instrumento 😮
<img src="images/lognig.png" width="280" />

---
layout: true

# El Instrumento

---

Para resolver el problema de .hi[endogeneidad] necesitamos exogeneidad, obvio, pero ¿Cómo?

[Feyrer (2009)](https://voxeu.org/article/1967-75-suez-canal-closure-lessons-trade) quiere estimar el efecto del comercio sobre el crecimiento económico. Propone el siguiente modelo

`$$lny_{it}=\alpha+\gamma_i+\gamma_t+\beta\; ln\;(trade_{it})+\epsilon_{it}$$`

La estimación .ul[consistente] de `$\beta$` requiere que `$corr(\epsilon_{it},ln\;(trade_{it}))=0$`. Este supuesto no es plausible, al fin y al cabo entre mayor sea el *ingreso per cápita* de un país mayor tenderá a ser su volumen de importaciones y por lo tanto de comercio.

---

Imagine que podemos descomponer la variabilidad de `$ln\;trade$` en dos partes. Una correlacionada con `$\epsilon$` y otra no correlacionada `$\epsilon$`. Acá es donde entra el *instrumento* <svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M352 320c88.4 0 160-71.6 160-160c0-15.3-2.2-30.1-6.2-44.2c-3.1-10.8-16.4-13.2-24.3-5.3l-76.8 76.8c-3 3-7.1 4.7-11.3 4.7H336c-8.8 0-16-7.2-16-16V118.6c0-4.2 1.7-8.3 4.7-11.3l76.8-76.8c7.9-7.9 5.4-21.2-5.3-24.3C382.1 2.2 367.3 0 352 0C263.6 0 192 71.6 192 160c0 19.1 3.4 37.5 9.5 54.5L19.9 396.1C7.2 408.8 0 426.1 0 444.1C0 481.6 30.4 512 67.9 512c18 0 35.3-7.2 48-19.9L297.5 310.5c17 6.2 35.4 9.5 54.5 9.5zM80 408a24 24 0 1 1 0 48 24 24 0 1 1 0-48z"/></svg>, que no es más que otra variable, `$z$` que debe cumplir con dos condiciones

**C1** No estar correlacionada con el error. Es decir, que sea exógena

**C2** Debe estar correlacionada con la variable endógena. Esto se conoce como condición de relevancia

---

### Definición

Sea un modelo

`$$\begin{align}
  \text{Y}_{i} = \beta_0 + \beta_1 \text{D}_{i} + \varepsilon_i \tag{1}
\end{align}$$`

Un .attn[instrumento] valido es una variable `$\color{#e64173}{\text{Z}_{i}}$` tal que

1. `$\mathop{\text{Cov}} \left( \color{#e64173}{\text{Z}_{i}},\, \text{D}_{i} \right) \neq 0$`
--
<br>Nuestro .pink[instrumento] se correlaciona con el tratamiento
--
 (para que podamos conservar parte de `$\text{D}_{i}$`)

2. `$\mathop{\text{Cov}} \left( \color{#e64173}{\text{Z}_{i}},\, \varepsilon_i \right) = 0$`
--
<br>Nuestro .pink[instrumento] no esta correlacionado con `$(\text{D}_{i})$`, mas "otros" determinantes de `$\text{Y}_{i}$`
--
, _p.e._, `$\color{#e64173}{\text{Z}_{i}}$` lo podemos excluir de la ecuación `$(1)$`.
--
 .attn[(restricción de exclusión)]

---

.qa[P] ¿Cómo ilustra esta DAG los requisitos y la identificación de IV?

---

.qa[Relevancia:] .b.purple[Z] causa un efecto en .b.purple[D].

---

.qa[Restricción de exclusión:] 
<br>  1\. .b.purple[Z] es .b.pink[exogena] (no se asocia con) .b.purple[U] porque la razón es que
--
 .b.purple[D] es una covariable (binaria).
--
<br>  .white[1\.] .it[P.e.], .b.purple[Z → D ← U → Y] es cerrado sin condicionar a lo (inobservable) .b.purple[U].

---

.qa[Restricción de exclusión:] 
<br>  1\. .b.purple[Z] es .b.pink[exogena] (no se asocia con) .b.purple[U] porque .b.purple[D] is una covariable.
<br>  2\. Ademas: .b.purple[Z] no afecta directamente a .b.purple[Y].

---

### Diagrama causal

Lo anteriormente expuesto se conoce como el **diagrama causal**, donde se denota a `$U$` como una variable no observada que afecta tanto a `$D$` como `$Y$`. Note que si `$Z$` varía, entonces `$Y$` varía sin que lo haga `$U$`. Si en `$D$` tenemos personas, y suponemos que una grupo de ellas cambia su comportamiento debido a `$Z$`, entonces el cambio inducido en `$Y$` solo reflejará el efecto causal para el grupo particular que cambió su comportamiento. Por ello, este efecto causal suele llamarse *LATE* por lo de su significado de *Local Average Treatment Effect*

---

### Mas ejemplos

Volvamos al estudio de Feyrer (2009).  Propuso usar el [cierre del canal del Suez entre 1967 y 1975](https://www.britannica.com/topic/Suez-Canal/History) como `$z$`. Si el cierre fue un evento motivado principalmente por razones políticas, pero que impactó los flujos comerciales, entonces podría funcionar.  En el estudio estimaron parámetros que arrojaron resultados como `$\hat{\beta}_{OLS}=0.3(0.053)$` y `$\hat{\beta}_{IV}=0.23(0.083)$`

Note que el **error estándar** del estimador de .hi[variables instrumentales] es mayor. Si calculamos los intervalos de confianza al 95% para cada estimación obtenemos

- `$0.3\pm 1.96(0.053)=[0.196,0.404]$`

- `$0.23\pm 1.96(0.083)=[0.07,0.39]$`

No es evidente que la diferencia sea *estadísticamente* significativa. El intervalo de IV contiene la estimación por MCO.

---

### Mas del Estimador IV:

Considere el siguiente modelo de regresión lineal

`$$y_i=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+e_i$$`

- Si para todos los regresores `$j=1,...,k-1$` tenemos que `$Cov(x_j,e)=0$`, pero sospechamos que `$Cov(x_k,e)\neq0$` entonces para obtener *estimadores consistentes* de `$\beta_k$` necesitamos información adicional. Esta la obtenemos de `$z$`. Esta es una variable observable que debe cumplir con las condiciones estipuladas

**C1**: Exogeneidad

`$$Cov(z,e)=0$$`

**C2**: Relevancia

`$\pi_1\neq0$` en la regresión

`$$x_k=\delta_0+\delta_1x_1+...+\delta_{k-1}x_{k-1}+\pi_1z+\upsilon$$`

Donde `$E(\upsilon)=0$` y además no está correlacionado con `$x_1,x_2,...,x_{k-1},z$`

---

De donde podemos obtener

`$$\hat{x_k}=\hat{\delta}_0+\hat{\delta}_1x_1+...+\hat{\delta}_{k-1}x_{k-1}+\hat{\pi}_1z$$`

Es claro que `$Cov(\hat{x_k},e)=0$`. Luego lo usamos en

`$$y=\beta_0+\beta_1x+\beta_2x_2+...+\beta_k\hat{x}_k+e$$`

En sintesis,

Además,

---

### En el modelo simple

Si tenemos una única .hi[variable independiente], `$x$`

`$$\tag{1}
y=\beta_0+\beta_1x+e$$`

`$$\tag{C.1}
Cov(z,e)=0$$`

Ademas de

`$$\tag{C.2}
Cov(z,x)\neq0$$`

Usando la propiedad **distributiva** de la covarianza escribimos

`$$\tag{2}
Cov(z,y)=\beta_1Cov(z,x)+Cov(z,e)$$`
Note que bajo C.1 y C.2 podemos **identificar** `$\beta_1$`. Esto quiere decir que podemos escribir `$\beta_1$` en términos de de los momentos poblacionales de variables observables

---

Tenemos entonces

`$$\tag{3}
\beta_1=\dfrac{Cov(z,y)}{Cov(z,x)}$$`

Usando el estimador de la **covarianza**, obtenemos el .hi-purple[estimador IV]

`$$\tag{4}
\hat{\beta}_1=\dfrac{n^{-1}\sum_i^n(z_i-\bar{z})(y_i-\bar{y})}{n^{-1}\sum_i^n(z_i-\bar{z})(x_i-\bar{x})}$$`

Usando la **ley de grandes números** podemos mostrar que el estimador es .hi[consistente]: `$plim(\hat{\beta_1})=\beta_1$`

---

### De forma general: modelo justamente identificado

En el caso que hemos venido planteado tenemos una .hi[endógena] y un instrumento. A esto lo llamamos *justamente* identificado.

Escribiendo el modelo en forma **compacta**

`$$\tag{5}
y=\mathbf{x}\boldsymbol{\beta}+e$$`

Donde `$\mathbf{x}=(1,x_2,...,x_k)$` y definimos `$\mathbf{z}=(1,x_2,...,x_{k-1},z)$` como el vector de **variables exógenas**. Si tenemos que para todos los .hi[regresores] `$j=1,...,k-1$` `$Cov(x_j,e)=0$` y si se cumple la condición de .hi[exogeneidad], `$Cov(z,e)=0$`, entonces decimos que

`$$E(\mathbf{z}'e)=\mathbf{0}$$`
--

Si multiplicamos por ec.(5) por `$\mathbf{z}'$`, tomamos **valor esperado**, y si además se cumple que la matriz `$E(\mathbf{z}'\mathbf{x})$` tiene rango completo, entonces

`$$\tag{6}
\boldsymbol{\beta}=[E(\mathbf{z'x})]^{-1}E(\mathbf{z'}y)$$`

---

Los **valores esperados** los estimamos una muestra aleatoria. En la ecuación (6) el vector de parámetros `$\boldsymbol{\beta}$` queda identificado. Si reemplazamos por las contrapartes muestrales, obtenemos

`$$\boldsymbol{\hat{\beta}}_{iv}=\Big(\dfrac{1}{n}\sum_{i}^n\mathbf{z'}_i\mathbf{x}_i\Big)^{-1}\Big(\dfrac{1}{n}\sum_i^n\mathbf{z'}_iy_i\Big)$$`

Que, al escribirlo en términos de las matrices completas de datos tenemos

`$$\boldsymbol{\hat{\beta}}_{iv}=(\mathbf{Z'X})^{-1}\mathbf{Z'Y}$$`

`$\mathbf{Z}$` y `$\mathbf{X}$` son `$n\times K$` y `$\mathbf{Y}$` es `$n\times 1$`. Por la ley de grandes números este estimador es .hi[consistente]

---
layout: false
class: inverse, middle

# Un punto más gráfico 😮
<img src="images/lognig.png" width="280" />

---
class: middle

# Instrumentos

.qa[Vamos] a mirar la intuición de los instrumentos (con diagramas de Venn!).

.note[Créditos a] [Glen Waddell](http://www.glenwaddell.com) la idea nació de él para el profesor Ed Rubin (Oregon's University) y mi persona.

---
layout: true

# Gráficos

---

---

### Explicación de lo anterior

En los diagramas anteriores nos indican lo siguiente:

- Cada **circulo** es una .black[variable].
- La **sobreposición** de un circulo sobre otro es la .hi[correlación] entre ellas.
- Las variables *omitidas* están como líneas intercontinuas.

Por tanto

- Figura 1: .hi-pink[Instrumento valido] (relevante; exógeno)
- Figura 2: .hi-slate[Instrumento invalido] (relevante; no exógeno)
- Figura 3: .hi-slate[Instrumento invalido] (no relevante; no exógenos)
- Figura 4: .hi-slate[Instrumento invalido] (relevante; no exógenos)

---
layout: false
class: inverse, middle

# Múltiples instrumentos 🥱
<img src="images/lognig.png" width="280" />

---
layout: true
# Múltiples instrumentos

---

### Idea

Si tenemos una variable .hi[endógena] y más de un .hi-orange[instrumento] decimos que el modelo está .hi[sobre-identificado]. Veamos,

Suponga que tiene `$M$` instrumentos, `$z_1,z_2,...,z_M$`, tales que no están correlacionados con el error

- **C1**

`$$Cov(z_j,e)=0 \quad j=1,2,...,M$$`

El vector de variables exógenas sería `$\mathbf{z}\equiv (1,x_2,...,x_{k-1},z_1,...,z_M)$` de dimensión `$1\times L$`, con `$L=K+M$`. Hacemos

- **C2**

`$$x_k=\delta_0+\delta_1x_1+...+\delta_{k-1}x_{k-1}+\pi_1z_1+...+\pi_Mz_M+\upsilon$$`
---

En la ecuación anterior debe cumplirse que al menos **uno** de los **coeficientes** es .hi[diferente] de cero. Hacemos una *prueba F* donde `$H_0:\pi_1=\pi_2=...=\pi_M=0$`, y la .black[alternativa] es que al menos uno es diferente de cero. Siendo esto así, obtenemos

`$$\hat{x}_k=\hat{\delta}_0+\hat{\delta}_1x_1+...+\hat{\delta}_{k-1}x_{k-1}+\hat{\pi}_1z_1+...+\hat{\pi}_Mz_M$$`

Para cada `$i$` definimos `$\mathbf{x}_i=(1,x_{i1},...\hat{x}_{ik})$`, `$i=1,2,...,n$`. Si usamos `$\mathbf{x}_i$` como los instrumentos, entonces

`$$\hat{\boldsymbol{\beta}}=\Big(\dfrac{1}{n}\sum_{i}^n\mathbf{\hat{x}'}_i\mathbf{x}_i\Big)^{-1}\Big(\dfrac{1}{n}\sum_i^n\mathbf{\hat{x}'}_iy_i\Big)$$`

---

Usamos el hecho que `$\mathbf{\hat{x}}=\mathbf{z(z'z)^{-1}z'x}$`, luego el .hi[estimador IV] también puede escribirse como

`$$\boldsymbol{\hat{\beta}}=\Big[\Big(\sum_i^n\mathbf{x'_iz_i}\Big)\Big(\sum_i^n\mathbf{z'_iz_i}\Big)^{-1}\Big(\sum_i^n\mathbf{z'_ix_i}\Big)\Big]^{-1}\Big(\sum_i^n\mathbf{x'_iz_i}\Big)\Big(\sum_i^n\mathbf{z'_iz_i}\Big)^{-1}\Big(\sum_i^n\mathbf{x'_i}y_i\Big)$$`

Bajo los siguientes supuestos se puede mostrar que el estimador es insesgado

**S1**: `$E(\mathbf{z}'u)=\mathbf{0}$`

**S2**: el rango `$E(\mathbf{z'z})=L$` y `$E(\mathbf{z'x})=K$`. Está última es importante y se cumple bajo la condición **C2**

---

Para ello, usamos `$y=\mathbf{x\beta}+e$` y escribimos

`$$\boldsymbol{\hat{\beta}}=\boldsymbol{\beta}+\Big[\Big(n^{-1}\sum_i^n\mathbf{x'_iz_i}\Big)\Big(n^{-1}\sum_i^n\mathbf{z'_iz_i}\Big)^{-1}\Big(n^{-1}\sum_i^n\mathbf{z'_ix_i}\Big)\Big]^{-1}\Big(n^{-1}\sum_i^n\mathbf{x'_iz_i}\Big)\Big(n^{-1}\sum_i^n\mathbf{z'_iz_i}\Big)^{-1}\Big(n^{-1}\sum_i^n\mathbf{z'_i}e_i\Big)$$`
--

Al aplicar la .hi[ley de grandes números] y el teorema de mapeo continuo tenemos que

`$$plim\hat{\boldsymbol{\beta}}=\beta$$`

---

### Inferencia: necesitamos un error estándar

Para simplificar, suponemos

*C.3* Homocedasticidad

`$$E(e^2\mathbf{z'z})=\sigma^2\mathbf{z'z} \quad \text{Donde}\quad \sigma^2=E(e^2)$$`

Hacemos `$\sqrt n(\boldsymbol{\hat{\beta}-\boldsymbol{\beta}})$`. Por teorema central del límite tenemos que

`$$n^{-1/2}\sum_i^n\mathbf{z'_i}u_i \underset{d}{\to} N(0,\sigma^2E(\mathbf{z'z}))$$`

De donde `$\sqrt n(\boldsymbol{\hat{\beta}-\boldsymbol{\beta}})$` se distribuye, asintóticamente, normal con media cero y varianza

`$$\sigma^2([E(\mathbf{x'z})][E(\mathbf{z'z})]^{-1}E(\mathbf{z'x})^{-1})$$`

---

Y para un coeficiente particular, la varianza asintótica es

`$$\sqrt n (\hat{\beta}_k-\beta_k)=\dfrac{\sigma^2}{\hat{SSR}_K}$$`

Donde `$\hat{SSR}_K$` es la suma de cuadrados de los residuales de la regresión de `$\hat{x}_k$` sobre `$x_1,x_2,...$` Que también puede escribirse como `$\hat{SST}_k(1-\hat{R}^2_K)$`

De lo anterior, podemos decir lo siguiente:

- Entre menor sea la correlación de la endógena con el .hi[instrumento], mayor es la varianza del estimador.

- Entre menor sea la variabilidad de `$\hat{x}_k$` mayor es la varianza del estimador

- La inclusión de muchos instrumentos tiende a incrementar la varianza

---

### El problema de instrumentos débiles

En el caso de una variable endógena y un instrumento podemos escribir el estimador como está en la ecuación (4)

`$$\hat{\beta}_1=\dfrac{n^{-1}\sum_i^n(z_i-\bar{z})(y_i-\bar{y})}{n^{-1}\sum_i^n(z_i-\bar{z})(x_i-\bar{x})}$$`

De donde podemos escribir

`$$\hat{\beta_1}=\beta_1+\dfrac{\sigma_u}{\sigma_x}\dfrac{Corr(z,u)}{Corr(z,x)}$$`

De acá es claro que si se viola la condición de .hi[exogeneidad] y tenemos `$Corr(z,u)\neq 0$`, entonces en la medida que `$Corr(z,x)$` tienda a cero la *inconsistencia* puede aumentar sustancialmente. De esta manera, si hay dudas sobre el estimador podríamos tener un grado de inconsistencia superior al que tendríamos con el estimador MCO. El remedio resulta peor que la enfermedad.

---
layout: false
class: inverse, middle

# El desarrollo en <svg aria-hidden="true" role="img" viewBox="0 0 581 512" style="height:1em;width:1.13em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:steelblue;overflow:visible;position:relative;"><path d="M581 226.6C581 119.1 450.9 32 290.5 32S0 119.1 0 226.6C0 322.4 103.3 402 239.4 418.1V480h99.1v-61.5c24.3-2.7 47.6-7.4 69.4-13.9L448 480h112l-67.4-113.7c54.5-35.4 88.4-84.9 88.4-139.7zm-466.8 14.5c0-73.5 98.9-133 220.8-133s211.9 40.7 211.9 133c0 50.1-26.5 85-70.3 106.4-2.4-1.6-4.7-2.9-6.4-3.7-10.2-5.2-27.8-10.5-27.8-10.5s86.6-6.4 86.6-92.7-90.6-87.9-90.6-87.9h-199V361c-74.1-21.5-125.2-67.1-125.2-119.9zm225.1 38.3v-55.6c57.8 0 87.8-6.8 87.8 27.3 0 36.5-38.2 28.3-87.8 28.3zm-.9 72.5H365c10.8 0 18.9 11.7 24 19.2-16.1 1.9-33 2.8-50.6 2.9v-22.1z"/></svg>
<img src="images/lognig.png" width="280" />

---
layout: true
# Lo práctico en <svg aria-hidden="true" role="img" viewBox="0 0 581 512" style="height:1em;width:1.13em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:steelblue;overflow:visible;position:relative;"><path d="M581 226.6C581 119.1 450.9 32 290.5 32S0 119.1 0 226.6C0 322.4 103.3 402 239.4 418.1V480h99.1v-61.5c24.3-2.7 47.6-7.4 69.4-13.9L448 480h112l-67.4-113.7c54.5-35.4 88.4-84.9 88.4-139.7zm-466.8 14.5c0-73.5 98.9-133 220.8-133s211.9 40.7 211.9 133c0 50.1-26.5 85-70.3 106.4-2.4-1.6-4.7-2.9-6.4-3.7-10.2-5.2-27.8-10.5-27.8-10.5s86.6-6.4 86.6-92.7-90.6-87.9-90.6-87.9h-199V361c-74.1-21.5-125.2-67.1-125.2-119.9zm225.1 38.3v-55.6c57.8 0 87.8-6.8 87.8 27.3 0 36.5-38.2 28.3-87.8 28.3zm-.9 72.5H365c10.8 0 18.9 11.7 24 19.2-16.1 1.9-33 2.8-50.6 2.9v-22.1z"/></svg>

---

Regresemos a una antigua batalla (retornos de educación).

```
#> # A tibble: 722 × 4
#>     wage education education_dad education_mom
#>    <int>     <int>         <int>         <int>
#>  1   769        12             8             8
#>  2   808        18            14            14
#>  3   825        14            14            14
#>  4   650        12            12            12
#>  5   562        11            11             6
#>  6   600        10             8             8
#>  7  1154        15             5            14
#>  8  1000        12            11            12
#>  9   930        18            14            13
#> 10   900        15            12            12
#> # ℹ 712 more rows
```
---

MCO nos muestra que los retornos de la educación parecen (definitivamente) sesgados

`$$\begin{align}
  \color{#FFA500}{\text{Salario}_i} = \beta_0 + \beta_1 \color{#6A5ACD}{\text{Educación}}_i + u_i
\end{align}$$`

.hi-slate[MCO (al parecer) sesgados]
<table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;">
 <thead>
  <tr>
   <th style="text-align:left;"> Term </th>
   <th style="text-align:right;"> Est. </th>
   <th style="text-align:right;"> S.E. </th>
   <th style="text-align:right;"> t stat. </th>
   <th style="text-align:left;"> p-Value </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;background-color: white !important;"> Intercepto </td>
   <td style="text-align:right;background-color: white !important;"> 176.504 </td>
   <td style="text-align:right;background-color: white !important;"> 89.152 </td>
   <td style="text-align:right;background-color: white !important;"> 1.98 </td>
   <td style="text-align:left;background-color: white !important;"> 0.0481 </td>
  </tr>
  <tr>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> Educación </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 58.594 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 6.439 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 9.10 </td>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 
  </td>
</tr>
</tbody>
</table>

Pero -*puede que*- la educación de la madre del individuo ser un .hi[instrumento valido]?

---

Tratemos de checkear la *relevancia* de .hi-pink[educación de la madre] para .hi-purple[educación].

Esta regresión se le conoce como .hi-slate[*Primera etapa*:]
<br> El efecto del .pink[instrumento]  en nuestra .purple[variable explicativa endogena].

`$$\begin{align}
  \color{#6A5ACD}{\text{Educación}_i} = \gamma_0 + \gamma_1 \color{#e64173}{\left( \text{Educación de la Madre} \right)_i} + v_i
\end{align}$$`

.hi-slate[Resultados de la primera regresión:]
<table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;">
 <thead>
  <tr>
   <th style="text-align:left;"> Term </th>
   <th style="text-align:right;"> Est. </th>
   <th style="text-align:right;"> S.E. </th>
   <th style="text-align:right;"> t stat. </th>
   <th style="text-align:left;"> p-Value </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;background-color: white !important;"> Intercepto </td>
   <td style="text-align:right;background-color: white !important;"> 10.487 </td>
   <td style="text-align:right;background-color: white !important;"> 0.306 </td>
   <td style="text-align:right;background-color: white !important;"> 34.32 </td>
   <td style="text-align:left;background-color: white !important;"> 
  </td>
</tr>
  <tr>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> Educación de la madre </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 0.294 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 0.027 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 10.75 </td>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 
  </td>
</tr>
</tbody>
</table>
--

El *p*-valor sugiere una relación muy fuerte (bastante *relevante*).
---

### Visualizando la primera etapa

<img src="Class03_files/figure-html/first_stage_plot-1.svg" style="display: block; margin: auto;" />
---
count: false

### Visualizando la primera etapa

<img src="Class03_files/figure-html/first_stage_plot2-1.svg" style="display: block; margin: auto;" />
---

### Exogeneidad

**P:** Qué significa la .hi[exogeneidad] en ese caso?

--
<br>**R:** Necesitamos

1. .pink[Educación de la madre (nuestro instrumento)] solo afecte a nuestra variable explicatiba que viene a ser .purple[la educación (nuestra variable endogena)].
2. .pink[Educación de la madre] no debe estar correlacionada con otras variables que afecten o tengan efecto sobre los .orange[salarios (nuestra variable de resultado)].

Queremos poder comparar a dos personas (*A* y *B*) cuyas madres tienen distintos niveles educativos y decir que las únicas diferencias entre las dos personas (*A* y *B*) se deben a los niveles educativos de sus madres.

**P:** ¿Parece probable que la *educación de la madre* satisface la exogeneidad?
---

Ahora vamos a estimar la .hi-turquoise[*forma reducida*]:
<br> El efecto de nuestro .pink[instrumento] en nuestra .orange[variable de resultado].

`$$\begin{align}
  \color{#FFA500}{\text{Salario}_i} = \pi_0 + \pi_1 \color{#e64173}{\left( \text{Educación de la Madre} \right)_i} + w_i
\end{align}$$`

.hi-turquoise[Resultados de la forma reducida]
<table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;">
 <thead>
  <tr>
   <th style="text-align:left;"> Term </th>
   <th style="text-align:right;"> Est. </th>
   <th style="text-align:right;"> S.E. </th>
   <th style="text-align:right;"> t stat. </th>
   <th style="text-align:left;"> p-Value </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;background-color: white !important;"> Intercepto </td>
   <td style="text-align:right;background-color: white !important;"> 633.34 </td>
   <td style="text-align:right;background-color: white !important;"> 58.58 </td>
   <td style="text-align:right;background-color: white !important;"> 10.81 </td>
   <td style="text-align:left;background-color: white !important;"> 
  </td>
</tr>
  <tr>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> Educación de la madre </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 31.81 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 5.24 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 6.07 </td>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 
  </td>
</tr>
</tbody>
</table>

**P.sub[1]:** Cómo podemos interpretar el estimador  `$\left( \hat{\pi}_1 \right)$`?
--
<br>**P.sub[2]:** si nuestro instrumento es *valido*, podemos decir que esa estimación es .hi[causal]?
---

Entonces, ¿cuál es nuestra estimación basada en el IV para los rendimientos de la educación?
`$$\begin{align}
  \color{#FFA500}{\text{Salario}_i} = \beta_0 + \beta_1 \color{#6A5ACD}{\text{Educación}}_i + u_i
\end{align}$$`

Sabemos que la estimación IV para `$\beta_1$` es

`$$\begin{align}
  \hat{\beta}_1^\text{IV} = \dfrac{\color{#20B2AA}{\hat{\pi}_1}}{\color{#314f4f}{\hat{\gamma}_1}}
\end{align}$$`

1. En la ecuación de .hi-turquoise[forma reducida], estimamos `$\color{#20B2AA}{\hat{\pi}_1 \approx 31.81}$`.
2. En la .hi-slate[Primera etapa], estimamos `$\color{#314f4f}{\hat{\gamma}_1 \approx 0.294}$`.

`$$\begin{align}
  \implies\hat{\beta}_1^\text{IV} = \dfrac{\color{#20B2AA}{\hat{\pi}_1}}{\color{#314f4f}{\hat{\gamma}_1}} = \dfrac{\color{#20B2AA}{31.81}}{\color{#314f4f}{0.294}} \approx 108.2
\end{align}$$`

---

**Alternativa:** usar la función `iv_robust()` del paquete `estimatr`.

Esta nueva función `iv_robust` trabaja de forma similar que nuestro amigo `lm`:

`iv_robust(y ~ x | z, data = dataset)`

- `formula` La parte especifica del signo `|` de la regresión separa y dice quien es nuestro instrumento (`z`).
- `data` la parte de como se llama su base de datos.

***Nota:*** Como puede adivinar por su nombre, `iv_robust` calcula por defecto errores estándar robustos de heteroscedasticidad.

---

En practica...

```r
# Estimamos nuestra regresión
iv_est <- iv_robust(wage ~ education | education_mom, data = wage_df)
```

<table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;">
 <thead>
  <tr>
   <th style="text-align:left;"> Term </th>
   <th style="text-align:right;"> Est. </th>
   <th style="text-align:right;"> S.E. </th>
   <th style="text-align:right;"> t stat. </th>
   <th style="text-align:left;"> p-Value </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;background-color: white !important;"> Intercepto </td>
   <td style="text-align:right;background-color: white !important;"> -501.474 </td>
   <td style="text-align:right;background-color: white !important;"> 226.476 </td>
   <td style="text-align:right;background-color: white !important;"> -2.21 </td>
   <td style="text-align:left;background-color: white !important;"> 0.0271 </td>
  </tr>
  <tr>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> Educación </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 108.214 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 16.810 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 6.44 </td>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 
  </td>
</tr>
</tbody>
</table>
---

Así que ya "sabemos" como hacer regresiones de variables instrumentales
--
 *cuando tenemos una variable endogena y otra variable exogena.*

1. Estimamos de forma reducida la (regresión .orange[resultado] con el .pink[instrumento]).
2. Estimamos la primera etapa (regresión .purple[explicativa] con el .pink[instrumento]).
3. Calculamos el IV con las referencias de (1) y (2).

Nuestro mágico .pink[instrumento] aisla la variación exogena de nuestra .purple[variable endogena].

**P:** Qué pasa si queremos más?
--
 (_p.e._, mas instrumentos o mas variables endogenas)
--
<br>**R:** Muy mal.
---
count: false

Así que ya "sabemos" como hacer regresiones de variables instrumentales *cuando tenemos una variable endogena y otra variable exogena.*

Nuestro mágico .pink[instrumento] aisla la variación exogena de nuestra .purple[variable endogena].

**P:** Qué pasa si queremos más?  (_p.e._, mas instrumentos o mas variables endogenas)
<br>**R:** .st[Muy mal.] Extendemos lo de IV a .hi[two-stage least squares (2SLS)].

---

### 2SLS (Mínimos cuadrados en dos etapas)

La intuición y las ideas del IV se trasladan a los mínimos cuadrados en dos etapas.

**Plus:** La *primera etapa* de la que hemos hablado es en realidad la *primera* de las *dos etapas* de los mínimos cuadrados en dos etapas.

`$$\begin{align}
  {\color{#c5c5c5}{\text{Modelo Endogeno}}}& &\color{#FFA500}{\text{Resultado}_i} &= \beta_0 + \beta_1 \color{#6A5ACD}{\left( \text{Endogena} \right)_i} + u_i\\[0.5em]
  {\text{Primera etapa}}& &\color{#6A5ACD}{\left( \text{Endogena} \right)_i} &= \pi_0 + \pi_1 \color{#e64173}{\text{Instrumento}_i} + v_i\\[0.25em]
  {\text{Segunda etapa}}& &\color{#FFA500}{\text{Resultado}_i} &= \delta_0 + \delta_1 \color{#6A5ACD}{\widehat{\left( \text{Endogena} \right)}_i} + \varepsilon_i\\[0.5em]
  {\color{#c5c5c5}{\text{Forma reducida}}}& &\color{#FFA500}{\text{Resultado}_i} &= \pi_0 + \pi_1 \color{#e64173}{\text{Instrumento}_i} + w_i\\[0.25em]
\end{align}$$`

Donde `$\color{#6A5ACD}{\widehat{\left( \text{Variable endogena} \right)}_i}$` denota los valores predichos (*valores ajustados*) de la regresión de primera etapa.
---

Los mínimos cuadrados en dos etapas son muy flexibles: podemos incluir otros controles, variables endógenas adicionales y disponer de múltiples instrumentos.

Pero no te distraigas con esta **flexibilidad**!!, seguimos necesitando instrumentos .hi[válidos].
---

### Estimación

Volvamos a nuestro ejemplo de *retornos a la educación*.

`$$\begin{align}
  \color{#FFA500}{\text{Salario}_i} = \beta_0 + \beta_1 \color{#6A5ACD}{\text{Educación}}_i + u_i
\end{align}$$`

Imaginemos que la educación de la madre *y* del padre son instrumentos válidos.

Entonces nuestra .hi-slate[regresión en primera etapa] es
$$
`\begin{align}
  \color{#6A5ACD}{\text{Educación}}_i = \gamma_0 + \gamma_1 \color{#e64173}{\left( \text{Educación de la Madre} \right)}_i + \gamma_2 \color{#e64173}{\left( \text{Educación del Padre} \right)}_i + v_i
\end{align}`
$$
que podemos estimar mediante MCO.

**P:** Por qué?
---

$$
`\begin{align}
  \color{#6A5ACD}{\text{Educación}}_i = \gamma_0 + \gamma_1 \color{#e64173}{\left( \text{Educación de la Madre} \right)}_i + \gamma_2 \color{#e64173}{\left( \text{Educación del Padre} \right)}_i + v_i
\end{align}`
$$

```r
stage1 <- lm(education ~ education_mom + education_dad, wage_df)
```

.hi-slate[Resultados primera etapa:]
<table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;">
 <thead>
  <tr>
   <th style="text-align:left;"> Term </th>
   <th style="text-align:right;"> Est. </th>
   <th style="text-align:right;"> S.E. </th>
   <th style="text-align:right;"> t stat. </th>
   <th style="text-align:left;"> p-Value </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;background-color: white !important;"> Intercepto </td>
   <td style="text-align:right;background-color: white !important;"> 9.845 </td>
   <td style="text-align:right;background-color: white !important;"> 0.305 </td>
   <td style="text-align:right;background-color: white !important;"> 32.31 </td>
   <td style="text-align:left;background-color: white !important;"> 
  </td>
</tr>
  <tr>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> Educación de la madre </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 0.149 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 0.032 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 4.62 </td>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 
  </td>
</tr>
  <tr>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> Educación del padre </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 0.216 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 0.028 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 7.84 </td>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 
  </td>
</tr>
</tbody>
</table>

Cada uno de nuestros instrumentos parece ser *relevante*.
--
<br>Formalmente, debemos hacer una prueba conjunta (_p.e._, `$F$` test).
---

Usando nuestra .slate[estimación de primera etapa], agarramos el *fitted* .purple[variable endogena]
$$
`\begin{align}
  \color{#6A5ACD}{\widehat{\text{Educación}}}_i = \widehat{\gamma}_0 + \widehat{\gamma}_1 \color{#e64173}{\left( \text{Educación de la Madre} \right)}_i + \widehat{\gamma}_2 \color{#e64173}{\left( \text{Educación del Padre} \right)}_i
\end{align}`
$$

```r
# Tenemos la primera etapa
wage_df$education_hat <- stage1$fitted.values
```

Ahora usamos MCO otra vez para obtener .hi-green[regresión de segunda etapa]
`$$\begin{align}
  \color{#FFA500}{\text{Salario}_i} = \delta_0 + \delta_1 \color{#6A5ACD}{\widehat{\text{Educación}}}_i + \varepsilon_i
\end{align}$$`
---

`$$\begin{align}
  \color{#FFA500}{\text{Salario}_i} = \delta_0 + \delta_1 \color{#6A5ACD}{\widehat{\text{Educación}}}_i + \varepsilon_i
\end{align}$$`

```r
stage2 <- lm(wage ~ education_hat, wage_df)
```

.hi-green[Resultados de segunda etapa:]
<table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;">
 <thead>
  <tr>
   <th style="text-align:left;"> Term </th>
   <th style="text-align:right;"> Est. </th>
   <th style="text-align:right;"> S.E. </th>
   <th style="text-align:right;"> t stat. </th>
   <th style="text-align:left;"> p-Value </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;background-color: white !important;"> Intercepto </td>
   <td style="text-align:right;background-color: white !important;"> -454.683 </td>
   <td style="text-align:right;background-color: white !important;"> 198.149 </td>
   <td style="text-align:right;background-color: white !important;"> -2.29 </td>
   <td style="text-align:left;background-color: white !important;"> 0.022 </td>
  </tr>
  <tr>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> Educación predicha </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 104.789 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 14.462 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 7.25 </td>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 
  </td>
</tr>
</tbody>
</table>
---

.purple[MCO]
<table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;">
 <thead>
  <tr>
   <th style="text-align:left;"> Term </th>
   <th style="text-align:right;"> Est. </th>
   <th style="text-align:right;"> S.E. </th>
   <th style="text-align:right;"> t stat. </th>
   <th style="text-align:left;"> p-Value </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;background-color: white !important;"> Intercepto </td>
   <td style="text-align:right;background-color: white !important;"> 176.504 </td>
   <td style="text-align:right;background-color: white !important;"> 89.152 </td>
   <td style="text-align:right;background-color: white !important;"> 1.98 </td>
   <td style="text-align:left;background-color: white !important;"> 0.0481 </td>
  </tr>
  <tr>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> Educación </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 58.594 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 6.439 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 9.10 </td>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 
  </td>
</tr>
</tbody>
</table>
<br>.slate[Variables Instrumentales]
<table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;">
 <thead>
  <tr>
   <th style="text-align:left;"> Term </th>
   <th style="text-align:right;"> Est. </th>
   <th style="text-align:right;"> S.E. </th>
   <th style="text-align:right;"> t stat. </th>
   <th style="text-align:left;"> p-Value </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;background-color: white !important;"> Intercepto </td>
   <td style="text-align:right;background-color: white !important;"> -501.474 </td>
   <td style="text-align:right;background-color: white !important;"> 226.476 </td>
   <td style="text-align:right;background-color: white !important;"> -2.21 </td>
   <td style="text-align:left;background-color: white !important;"> 0.0271 </td>
  </tr>
  <tr>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: darkslategrey !important;"> Educación </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: darkslategrey !important;"> 108.214 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: darkslategrey !important;"> 16.810 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: darkslategrey !important;"> 6.44 </td>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: darkslategrey !important;"> 
  </td>
</tr>
</tbody>
</table>
<br>.green[Mínimos cuadrados en dos etapas con dos instrumentos]
<table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;">
 <thead>
  <tr>
   <th style="text-align:left;"> Term </th>
   <th style="text-align:right;"> Est. </th>
   <th style="text-align:right;"> S.E. </th>
   <th style="text-align:right;"> t stat. </th>
   <th style="text-align:left;"> p-Value </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;background-color: white !important;"> Intercepto </td>
   <td style="text-align:right;background-color: white !important;"> -454.683 </td>
   <td style="text-align:right;background-color: white !important;"> 198.149 </td>
   <td style="text-align:right;background-color: white !important;"> -2.29 </td>
   <td style="text-align:left;background-color: white !important;"> 0.022 </td>
  </tr>
  <tr>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(139, 177, 116, 255) !important;"> Educación </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(139, 177, 116, 255) !important;"> 104.789 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(139, 177, 116, 255) !important;"> 14.462 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(139, 177, 116, 255) !important;"> 7.25 </td>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(139, 177, 116, 255) !important;"> 
  </td>
</tr>
</tbody>
</table>
---

Como probablemente habrás adivinado, .mono[R] hará las dos etapas por ti.

`iv_robust(y ~ x1 + x2 + ⋯ | z1 + z2 + ⋯, data)`

En nuestro caso, tenemos
- una variable explicativa (`x`) (.purple[educación])
- dos instrumentos (`z`) (.pink[educación de los padres])

```r
iv_robust(wage ~ education | education_mom + education_dad, data = wage_df)
```

<table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;">
 <thead>
  <tr>
   <th style="text-align:left;"> Term </th>
   <th style="text-align:right;"> Est. </th>
   <th style="text-align:right;"> S.E. </th>
   <th style="text-align:right;"> t stat. </th>
   <th style="text-align:left;"> p-Value </th>
  </tr>
 </thead>
<tbody>
  <tr>
   <td style="text-align:left;background-color: white !important;"> Intercepto </td>
   <td style="text-align:right;background-color: white !important;"> -454.683 </td>
   <td style="text-align:right;background-color: white !important;"> 199.946 </td>
   <td style="text-align:right;background-color: white !important;"> -2.27 </td>
   <td style="text-align:left;background-color: white !important;"> 0.0233 </td>
  </tr>
  <tr>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> Educación, Estimado </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 104.789 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 14.852 </td>
   <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 7.06 </td>
   <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 
  </td>
</tr>
</tbody>
</table>
---

### Aún hay mas!!!

Porque 2SLS .hi[aísla la variación exógena en una variable endógena], lo aplicamos en otros escenarios que están sesgados de relaciones *endógenas*.

.hi[Aplicaciones comunes]

- **Inferencia causal general** para datos observacionales (como hemos visto).
- **Experimentos:** Aleatorizar un tratamiento que afecte a una variable endógena.
- **Error de medición:** Regresar `$x_1$` ruidosa sobre `$x_2$` ruidosa para capturar la señal.
- **Relaciones simultáneas** (_p.e_, `$p$` y `$q$` de la oferta y la demanda).

Sin embargo, en cualquier entorno 2SLS/IV, debe tener en cuenta los requisitos de .hi[instrumentos válidos]-.pink[exogeneidad] y .pink[relevancia].
---
layout: false
class: inverse
# Bibliografía

---
class: middle, center
background-image: url(https://media.giphy.com/media/8VITX7wfegOSFWwnCH/giphy.gif)
background-size: cover

---
name: adios
class: middle, inverse

.pull-left[
# **¡Gracias!**
<br/>
## Econometría I

### Seguimos aprendiendo
]

.pull-right[
.right[
<img style="border-radius: 50%;"
src="https://avatars.githubusercontent.com/u/39503983?v=4"
width="150px" />

[<svg aria-hidden="true" role="img" viewBox="0 0 640 512" style="height:1em;width:1.25em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M579.8 267.7c56.5-56.5 56.5-148 0-204.5c-50-50-128.8-56.5-186.3-15.4l-1.6 1.1c-14.4 10.3-17.7 30.3-7.4 44.6s30.3 17.7 44.6 7.4l1.6-1.1c32.1-22.9 76-19.3 103.8 8.6c31.5 31.5 31.5 82.5 0 114L422.3 334.8c-31.5 31.5-82.5 31.5-114 0c-27.9-27.9-31.5-71.8-8.6-103.8l1.1-1.6c10.3-14.4 6.9-34.4-7.4-44.6s-34.4-6.9-44.6 7.4l-1.1 1.6C206.5 251.2 213 330 263 380c56.5 56.5 148 56.5 204.5 0L579.8 267.7zM60.2 244.3c-56.5 56.5-56.5 148 0 204.5c50 50 128.8 56.5 186.3 15.4l1.6-1.1c14.4-10.3 17.7-30.3 7.4-44.6s-30.3-17.7-44.6-7.4l-1.6 1.1c-32.1 22.9-76 19.3-103.8-8.6C74 372 74 321 105.5 289.5L217.7 177.2c31.5-31.5 82.5-31.5 114 0c27.9 27.9 31.5 71.8 8.6 103.9l-1.1 1.6c-10.3 14.4-6.9 34.4 7.4 44.6s34.4 6.9 44.6-7.4l1.1-1.6C433.5 260.8 427 182 377 132c-56.5-56.5-148-56.5-204.5 0L60.2 244.3z"/></svg> Syllabus/ Curso](https://carlosyanes.netlify.app/contenidoc/SyllabusEconometriaME.pdf)<br/>
[<svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M459.37 151.716c.325 4.548.325 9.097.325 13.645 0 138.72-105.583 298.558-298.558 298.558-59.452 0-114.68-17.219-161.137-47.106 8.447.974 16.568 1.299 25.34 1.299 49.055 0 94.213-16.568 130.274-44.832-46.132-.975-84.792-31.188-98.112-72.772 6.498.974 12.995 1.624 19.818 1.624 9.421 0 18.843-1.3 27.614-3.573-48.081-9.747-84.143-51.98-84.143-102.985v-1.299c13.969 7.797 30.214 12.67 47.431 13.319-28.264-18.843-46.781-51.005-46.781-87.391 0-19.492 5.197-37.36 14.294-52.954 51.655 63.675 129.3 105.258 216.365 109.807-1.624-7.797-2.599-15.918-2.599-24.04 0-57.828 46.782-104.934 104.934-104.934 30.213 0 57.502 12.67 76.67 33.137 23.715-4.548 46.456-13.32 66.599-25.34-7.798 24.366-24.366 44.833-46.132 57.827 21.117-2.273 41.584-8.122 60.426-16.243-14.292 20.791-32.161 39.308-52.628 54.253z"/></svg> @keynes37](https://twitter.com/keynes37)<br/>
[<svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M64 112c-8.8 0-16 7.2-16 16v22.1L220.5 291.7c20.7 17 50.4 17 71.1 0L464 150.1V128c0-8.8-7.2-16-16-16H64zM48 212.2V384c0 8.8 7.2 16 16 16H448c8.8 0 16-7.2 16-16V212.2L322 328.8c-38.4 31.5-93.7 31.5-132 0L48 212.2zM0 128C0 92.7 28.7 64 64 64H448c35.3 0 64 28.7 64 64V384c0 35.3-28.7 64-64 64H64c-35.3 0-64-28.7-64-64V128z"/></svg> cayanes@uninorte.edu.co](mailto:cayanes@uninorte.edu.co)
]
]