name: xaringan-title class: inverse, left, bottom background-image: url(images/beach1.jpg) background-size: cover # **Econometría** ---- ## **<br/> Variables Instrumentales** ### Carlos A. Yanes Guerra ### 2024 --- class: inverse, middle # Preguntas... de la sesión de ayer? <img src="images/lognig.png" width="280" /> --- layout: true # Variables Instrumentales --- -- ### Objetivo de la sesión En esta **sesión** se avanzará sobre el concepto de .hi[endogeneidad], su relación con la idea de causalidad, y el uso de los métodos de .ul[variables instrumentales] como medio para obtener estimadores consistentes cuando *falla* el estimador MCO -- El estimador se dice .hi-purple[consistente] cuando `$$\tag{1} plim(\hat{\beta})=\beta$$` -- En el caso del estimador MCO este resultado requiere que `\(E(X|u)=0\)`. Sin embargo, hay situaciones en las que esto no es así, entre ellas tenemos --
Variable omitida
Error de medición
Simultaneidad -- Decimos que un **regresor** es .hi[endógeno] si está correlacionado con el error, lo cual ocurre por alguna de las tres situaciones mencionadas. --- -- En Colombia, las zonas de deforestación han coincidido con áreas de presencia de grupos armados, surge la pregunta: ¿La violencia causa la deforestación? [Ferguson, Romero, y Vargas (2014)](https://ageconsearch.umn.edu/record/209328/) intentan estimar el efecto de la expansión paramilitar sobre la deforestación. -- - Considere la siguiente especificación `$$forest_{m,t}=\beta_0+\beta_1\text{Paramilitares}_{m,t}+\epsilon_{m,t}$$` Donde `\(forest_{m,t}\)` es la proporción de la municipalidad `\(m\)` cubierta de bosque en el año `\(t\)`, mientras que `\(\text{Paramilitares}_{m,t}\)` son los ataques paramilitares hasta el año `\(t\)` -- - Al estimar por **MCO** encuentran que `\(\hat{\beta_1}=0.045\)` con `\(s.e=0.0117\)` -- - ¿Podría decir que el estimador es .hi[insesgado]? -- - ¿Qué pasa si la deforestación y la presencia del conflicto dependen de las características ecológicas y geológicas del terreno? --- -- ### Simultaneidad -- Usted quiere estimar el *efecto* de los aranceles sobre el volumen de comercio. Sugiere el siguiente modelo `$$comercio_i=\beta_0+\beta_1arancel_i+\upsilon_i$$` -- Sin embargo, si los grupos de presión logran hacer que el gobierno suba los aranceles como respuesta a la creciente competencia con importaciones, entonces -- `$$arancel_i=\gamma_0+\gamma_1comercio_i+\omega_i$$` -- En consecuencia -- `$$comercio=\beta_0+\beta_1(\gamma_0+\gamma_1comercio+\omega)+\upsilon$$` -- - Un choque al comercio, `\(\upsilon\)`, afecta también a los aranceles, luego `\(Cov(arancel_i,\upsilon_i)\neq0\)` --- -- ### Error de Medición -- Digamos que ahora quiere estimar el efecto del *ingreso familiar* sobre el desempeño académico. Tiene un modelo -- `$$Nota_i=\beta_0+\beta_1ing^*_i+u_i$$` -- Acá, `\(ing^*\)` es la medida ideal del ingreso. Sin embargo, lo que tiene es lo que reporta el estudiante es `\(ing\)` `$$ing_i=ing^*_i+e$$` -- luego `$$\begin{aligned} nota_i&=\beta_0+\beta_1(ing_i-e_i)+u_i\\ &=\beta_0+\beta_1ing_i+\upsilon_i \end{aligned}$$` Con `\(\upsilon=u-\beta_1e\)`. -- - Note que `\(Cov(ing_i,\upsilon_i)\neq0\)` porque `\(ing\)` está correlacionado con `\(e_i\)` --- layout: false class: inverse, middle # La idea del instrumento 😮 <img src="images/lognig.png" width="280" /> --- layout: true # El Instrumento --- -- Para resolver el problema de .hi[endogeneidad] necesitamos exogeneidad, obvio, pero ¿Cómo? --
La idea básica es pensar que si `\(x_j\)` tiene una parte que está *correlacionada* con el error, `\(e_i\)`, y otra que no lo está, entonces puede usarse la parte de `\(x_j\)` que no está correlacionada con el error. Para ello necesitamos un instrumento --
**Ejemplo** [Feyrer (2009)](https://voxeu.org/article/1967-75-suez-canal-closure-lessons-trade) quiere estimar el efecto del comercio sobre el crecimiento económico. Propone el siguiente modelo -- `$$lny_{it}=\alpha+\gamma_i+\gamma_t+\beta\; ln\;(trade_{it})+\epsilon_{it}$$` -- La estimación .ul[consistente] de `\(\beta\)` requiere que `\(corr(\epsilon_{it},ln\;(trade_{it}))=0\)`. Este supuesto no es plausible, al fin y al cabo entre mayor sea el *ingreso per cápita* de un país mayor tenderá a ser su volumen de importaciones y por lo tanto de comercio. --- -- Imagine que podemos descomponer la variabilidad de `\(ln\;trade\)` en dos partes. Una correlacionada con `\(\epsilon\)` y otra no correlacionada `\(\epsilon\)`. Acá es donde entra el *instrumento*
, que no es más que otra variable, `\(z\)` que debe cumplir con dos condiciones -- **C1** No estar correlacionada con el error. Es decir, que sea exógena **C2** Debe estar correlacionada con la variable endógena. Esto se conoce como condición de relevancia --- -- ### Definición -- Sea un modelo `$$\begin{align} \text{Y}_{i} = \beta_0 + \beta_1 \text{D}_{i} + \varepsilon_i \tag{1} \end{align}$$` -- Un .attn[instrumento] valido es una variable `\(\color{#e64173}{\text{Z}_{i}}\)` tal que 1. `\(\mathop{\text{Cov}} \left( \color{#e64173}{\text{Z}_{i}},\, \text{D}_{i} \right) \neq 0\)` -- <br>Nuestro .pink[instrumento] se correlaciona con el tratamiento -- (para que podamos conservar parte de `\(\text{D}_{i}\)`) -- 2. `\(\mathop{\text{Cov}} \left( \color{#e64173}{\text{Z}_{i}},\, \varepsilon_i \right) = 0\)` -- <br>Nuestro .pink[instrumento] no esta correlacionado con `\((\text{D}_{i})\)`, mas "otros" determinantes de `\(\text{Y}_{i}\)` -- , _p.e._, `\(\color{#e64173}{\text{Z}_{i}}\)` lo podemos excluir de la ecuación `\((1)\)`. -- .attn[(restricción de exclusión)] --- -- <img src="Class03_files/figure-html/dag-plot-1.svg" style="display: block; margin: auto;" /> -- .qa[P] ¿Cómo ilustra esta DAG los requisitos y la identificación de IV? --- <img src="Class03_files/figure-html/dag-plot-2-1.svg" style="display: block; margin: auto;" /> .qa[Relevancia:] .b.purple[Z] causa un efecto en .b.purple[D]. --- <img src="Class03_files/figure-html/dag-plot-3-1.svg" style="display: block; margin: auto;" /> .qa[Restricción de exclusión:] <br> 1\. .b.purple[Z] es .b.pink[exogena] (no se asocia con) .b.purple[U] porque la razón es que -- .b.purple[D] es una covariable (binaria). -- <br> .white[1\.] .it[P.e.], .b.purple[Z → D ← U → Y] es cerrado sin condicionar a lo (inobservable) .b.purple[U]. --- <img src="Class03_files/figure-html/dag-plot-4-1.svg" style="display: block; margin: auto;" /> .qa[Restricción de exclusión:] <br> 1\. .b.purple[Z] es .b.pink[exogena] (no se asocia con) .b.purple[U] porque .b.purple[D] is una covariable. <br> 2\. Ademas: .b.purple[Z] no afecta directamente a .b.purple[Y]. --- -- ### Diagrama causal -- Lo anteriormente expuesto se conoce como el **diagrama causal**, donde se denota a `\(U\)` como una variable no observada que afecta tanto a `\(D\)` como `\(Y\)`. Note que si `\(Z\)` varía, entonces `\(Y\)` varía sin que lo haga `\(U\)`. Si en `\(D\)` tenemos personas, y suponemos que una grupo de ellas cambia su comportamiento debido a `\(Z\)`, entonces el cambio inducido en `\(Y\)` solo reflejará el efecto causal para el grupo particular que cambió su comportamiento. Por ello, este efecto causal suele llamarse *LATE* por lo de su significado de *Local Average Treatment Effect* --- -- ### Mas ejemplos -- Volvamos al estudio de Feyrer (2009). Propuso usar el [cierre del canal del Suez entre 1967 y 1975](https://www.britannica.com/topic/Suez-Canal/History) como `\(z\)`. Si el cierre fue un evento motivado principalmente por razones políticas, pero que impactó los flujos comerciales, entonces podría funcionar. En el estudio estimaron parámetros que arrojaron resultados como `\(\hat{\beta}_{OLS}=0.3(0.053)\)` y `\(\hat{\beta}_{IV}=0.23(0.083)\)` Note que el **error estándar** del estimador de .hi[variables instrumentales] es mayor. Si calculamos los intervalos de confianza al 95% para cada estimación obtenemos - `\(0.3\pm 1.96(0.053)=[0.196,0.404]\)` - `\(0.23\pm 1.96(0.083)=[0.07,0.39]\)` No es evidente que la diferencia sea *estadísticamente* significativa. El intervalo de IV contiene la estimación por MCO. --- -- ### Mas del Estimador IV: -- Considere el siguiente modelo de regresión lineal `$$y_i=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_kx_k+e_i$$` -- - Si para todos los regresores `\(j=1,...,k-1\)` tenemos que `\(Cov(x_j,e)=0\)`, pero sospechamos que `\(Cov(x_k,e)\neq0\)` entonces para obtener *estimadores consistentes* de `\(\beta_k\)` necesitamos información adicional. Esta la obtenemos de `\(z\)`. Esta es una variable observable que debe cumplir con las condiciones estipuladas -- **C1**: Exogeneidad `$$Cov(z,e)=0$$` -- **C2**: Relevancia `\(\pi_1\neq0\)` en la regresión `$$x_k=\delta_0+\delta_1x_1+...+\delta_{k-1}x_{k-1}+\pi_1z+\upsilon$$` Donde `\(E(\upsilon)=0\)` y además no está correlacionado con `\(x_1,x_2,...,x_{k-1},z\)` --- -- De donde podemos obtener `$$\hat{x_k}=\hat{\delta}_0+\hat{\delta}_1x_1+...+\hat{\delta}_{k-1}x_{k-1}+\hat{\pi}_1z$$` -- Es claro que `\(Cov(\hat{x_k},e)=0\)`. Luego lo usamos en `$$y=\beta_0+\beta_1x+\beta_2x_2+...+\beta_k\hat{x}_k+e$$` -- En sintesis, --
**C1** No se puede probar estadísticamente
**C2** Se puede probar estadísticamente -- Además,
Perdemos precisión en la estimación
Si `\(z\)` no cumple las condiciones, entonces puede ser peor que usar MCO --- -- ### En el modelo simple Si tenemos una única .hi[variable independiente], `\(x\)` -- `$$\tag{1} y=\beta_0+\beta_1x+e$$` -- `$$\tag{C.1} Cov(z,e)=0$$` -- Ademas de `$$\tag{C.2} Cov(z,x)\neq0$$` Usando la propiedad **distributiva** de la covarianza escribimos -- `$$\tag{2} Cov(z,y)=\beta_1Cov(z,x)+Cov(z,e)$$` Note que bajo C.1 y C.2 podemos **identificar** `\(\beta_1\)`. Esto quiere decir que podemos escribir `\(\beta_1\)` en términos de de los momentos poblacionales de variables observables --- -- Tenemos entonces -- `$$\tag{3} \beta_1=\dfrac{Cov(z,y)}{Cov(z,x)}$$` Usando el estimador de la **covarianza**, obtenemos el .hi-purple[estimador IV] -- `$$\tag{4} \hat{\beta}_1=\dfrac{n^{-1}\sum_i^n(z_i-\bar{z})(y_i-\bar{y})}{n^{-1}\sum_i^n(z_i-\bar{z})(x_i-\bar{x})}$$` -- Usando la **ley de grandes números** podemos mostrar que el estimador es .hi[consistente]: `\(plim(\hat{\beta_1})=\beta_1\)` --- -- ### De forma general: modelo justamente identificado -- En el caso que hemos venido planteado tenemos una .hi[endógena] y un instrumento. A esto lo llamamos *justamente* identificado. -- Escribiendo el modelo en forma **compacta** `$$\tag{5} y=\mathbf{x}\boldsymbol{\beta}+e$$` -- Donde `\(\mathbf{x}=(1,x_2,...,x_k)\)` y definimos `\(\mathbf{z}=(1,x_2,...,x_{k-1},z)\)` como el vector de **variables exógenas**. Si tenemos que para todos los .hi[regresores] `\(j=1,...,k-1\)` `\(Cov(x_j,e)=0\)` y si se cumple la condición de .hi[exogeneidad], `\(Cov(z,e)=0\)`, entonces decimos que `$$E(\mathbf{z}'e)=\mathbf{0}$$` -- Si multiplicamos por ec.(5) por `\(\mathbf{z}'\)`, tomamos **valor esperado**, y si además se cumple que la matriz `\(E(\mathbf{z}'\mathbf{x})\)` tiene rango completo, entonces -- `$$\tag{6} \boldsymbol{\beta}=[E(\mathbf{z'x})]^{-1}E(\mathbf{z'}y)$$` --- -- Los **valores esperados** los estimamos una muestra aleatoria. En la ecuación (6) el vector de parámetros `\(\boldsymbol{\beta}\)` queda identificado. Si reemplazamos por las contrapartes muestrales, obtenemos -- `$$\boldsymbol{\hat{\beta}}_{iv}=\Big(\dfrac{1}{n}\sum_{i}^n\mathbf{z'}_i\mathbf{x}_i\Big)^{-1}\Big(\dfrac{1}{n}\sum_i^n\mathbf{z'}_iy_i\Big)$$` -- Que, al escribirlo en términos de las matrices completas de datos tenemos `$$\boldsymbol{\hat{\beta}}_{iv}=(\mathbf{Z'X})^{-1}\mathbf{Z'Y}$$` -- `\(\mathbf{Z}\)` y `\(\mathbf{X}\)` son `\(n\times K\)` y `\(\mathbf{Y}\)` es `\(n\times 1\)`. Por la ley de grandes números este estimador es .hi[consistente] --- layout: false class: inverse, middle # Un punto más gráfico 😮 <img src="images/lognig.png" width="280" /> --- class: middle # Instrumentos .qa[Vamos] a mirar la intuición de los instrumentos (con diagramas de Venn!). .note[Créditos a] [Glen Waddell](http://www.glenwaddell.com) la idea nació de él para el profesor Ed Rubin (Oregon's University) y mi persona. --- layout: true # Gráficos --- -- <img src="Class03_files/figure-html/venn_iv-1.svg" style="display: block; margin: auto;" /> --- <img src="Class03_files/figure-html/venn-endog-1.svg" style="display: block; margin: auto;" /> --- <img src="Class03_files/figure-html/venn-irrelevant-1.svg" style="display: block; margin: auto;" /> --- <img src="Class03_files/figure-html/venn-iv-endog2-1.svg" style="display: block; margin: auto;" /> --- <img src="Class03_files/figure-html/venn-iv-endog1-1.svg" style="display: block; margin: auto;" /> --- -- ### Explicación de lo anterior -- En los diagramas anteriores nos indican lo siguiente: - Cada **circulo** es una .black[variable]. - La **sobreposición** de un circulo sobre otro es la .hi[correlación] entre ellas. - Las variables *omitidas* están como líneas intercontinuas. -- Por tanto -- - Figura 1: .hi-pink[Instrumento valido] (relevante; exógeno) - Figura 2: .hi-slate[Instrumento invalido] (relevante; no exógeno) - Figura 3: .hi-slate[Instrumento invalido] (no relevante; no exógenos) - Figura 4: .hi-slate[Instrumento invalido] (relevante; no exógenos) --- layout: false class: inverse, middle # Múltiples instrumentos 🥱 <img src="images/lognig.png" width="280" /> --- layout: true # Múltiples instrumentos --- -- ### Idea -- Si tenemos una variable .hi[endógena] y más de un .hi-orange[instrumento] decimos que el modelo está .hi[sobre-identificado]. Veamos, -- Suponga que tiene `\(M\)` instrumentos, `\(z_1,z_2,...,z_M\)`, tales que no están correlacionados con el error -- - **C1** `$$Cov(z_j,e)=0 \quad j=1,2,...,M$$` -- El vector de variables exógenas sería `\(\mathbf{z}\equiv (1,x_2,...,x_{k-1},z_1,...,z_M)\)` de dimensión `\(1\times L\)`, con `\(L=K+M\)`. Hacemos -- - **C2** `$$x_k=\delta_0+\delta_1x_1+...+\delta_{k-1}x_{k-1}+\pi_1z_1+...+\pi_Mz_M+\upsilon$$` --- -- En la ecuación anterior debe cumplirse que al menos **uno** de los **coeficientes** es .hi[diferente] de cero. Hacemos una *prueba F* donde `\(H_0:\pi_1=\pi_2=...=\pi_M=0\)`, y la .black[alternativa] es que al menos uno es diferente de cero. Siendo esto así, obtenemos -- `$$\hat{x}_k=\hat{\delta}_0+\hat{\delta}_1x_1+...+\hat{\delta}_{k-1}x_{k-1}+\hat{\pi}_1z_1+...+\hat{\pi}_Mz_M$$` -- Para cada `\(i\)` definimos `\(\mathbf{x}_i=(1,x_{i1},...\hat{x}_{ik})\)`, `\(i=1,2,...,n\)`. Si usamos `\(\mathbf{x}_i\)` como los instrumentos, entonces -- `$$\hat{\boldsymbol{\beta}}=\Big(\dfrac{1}{n}\sum_{i}^n\mathbf{\hat{x}'}_i\mathbf{x}_i\Big)^{-1}\Big(\dfrac{1}{n}\sum_i^n\mathbf{\hat{x}'}_iy_i\Big)$$` --- -- Usamos el hecho que `\(\mathbf{\hat{x}}=\mathbf{z(z'z)^{-1}z'x}\)`, luego el .hi[estimador IV] también puede escribirse como `$$\boldsymbol{\hat{\beta}}=\Big[\Big(\sum_i^n\mathbf{x'_iz_i}\Big)\Big(\sum_i^n\mathbf{z'_iz_i}\Big)^{-1}\Big(\sum_i^n\mathbf{z'_ix_i}\Big)\Big]^{-1}\Big(\sum_i^n\mathbf{x'_iz_i}\Big)\Big(\sum_i^n\mathbf{z'_iz_i}\Big)^{-1}\Big(\sum_i^n\mathbf{x'_i}y_i\Big)$$` -- Bajo los siguientes supuestos se puede mostrar que el estimador es insesgado **S1**: `\(E(\mathbf{z}'u)=\mathbf{0}\)` **S2**: el rango `\(E(\mathbf{z'z})=L\)` y `\(E(\mathbf{z'x})=K\)`. Está última es importante y se cumple bajo la condición **C2** --- -- Para ello, usamos `\(y=\mathbf{x\beta}+e\)` y escribimos `$$\boldsymbol{\hat{\beta}}=\boldsymbol{\beta}+\Big[\Big(n^{-1}\sum_i^n\mathbf{x'_iz_i}\Big)\Big(n^{-1}\sum_i^n\mathbf{z'_iz_i}\Big)^{-1}\Big(n^{-1}\sum_i^n\mathbf{z'_ix_i}\Big)\Big]^{-1}\Big(n^{-1}\sum_i^n\mathbf{x'_iz_i}\Big)\Big(n^{-1}\sum_i^n\mathbf{z'_iz_i}\Big)^{-1}\Big(n^{-1}\sum_i^n\mathbf{z'_i}e_i\Big)$$` -- Al aplicar la .hi[ley de grandes números] y el teorema de mapeo continuo tenemos que `$$plim\hat{\boldsymbol{\beta}}=\beta$$` --- -- ### Inferencia: necesitamos un error estándar -- Para simplificar, suponemos *C.3* Homocedasticidad `$$E(e^2\mathbf{z'z})=\sigma^2\mathbf{z'z} \quad \text{Donde}\quad \sigma^2=E(e^2)$$` -- Hacemos `\(\sqrt n(\boldsymbol{\hat{\beta}-\boldsymbol{\beta}})\)`. Por teorema central del límite tenemos que -- `$$n^{-1/2}\sum_i^n\mathbf{z'_i}u_i \underset{d}{\to} N(0,\sigma^2E(\mathbf{z'z}))$$` -- De donde `\(\sqrt n(\boldsymbol{\hat{\beta}-\boldsymbol{\beta}})\)` se distribuye, asintóticamente, normal con media cero y varianza -- `$$\sigma^2([E(\mathbf{x'z})][E(\mathbf{z'z})]^{-1}E(\mathbf{z'x})^{-1})$$` --- -- Y para un coeficiente particular, la varianza asintótica es -- `$$\sqrt n (\hat{\beta}_k-\beta_k)=\dfrac{\sigma^2}{\hat{SSR}_K}$$` Donde `\(\hat{SSR}_K\)` es la suma de cuadrados de los residuales de la regresión de `\(\hat{x}_k\)` sobre `\(x_1,x_2,...\)` Que también puede escribirse como `\(\hat{SST}_k(1-\hat{R}^2_K)\)` -- De lo anterior, podemos decir lo siguiente: -- - Entre menor sea la correlación de la endógena con el .hi[instrumento], mayor es la varianza del estimador. - Entre menor sea la variabilidad de `\(\hat{x}_k\)` mayor es la varianza del estimador - La inclusión de muchos instrumentos tiende a incrementar la varianza --- -- ### El problema de instrumentos débiles -- En el caso de una variable endógena y un instrumento podemos escribir el estimador como está en la ecuación (4) -- `$$\hat{\beta}_1=\dfrac{n^{-1}\sum_i^n(z_i-\bar{z})(y_i-\bar{y})}{n^{-1}\sum_i^n(z_i-\bar{z})(x_i-\bar{x})}$$` -- De donde podemos escribir -- `$$\hat{\beta_1}=\beta_1+\dfrac{\sigma_u}{\sigma_x}\dfrac{Corr(z,u)}{Corr(z,x)}$$` -- De acá es claro que si se viola la condición de .hi[exogeneidad] y tenemos `\(Corr(z,u)\neq 0\)`, entonces en la medida que `\(Corr(z,x)\)` tienda a cero la *inconsistencia* puede aumentar sustancialmente. De esta manera, si hay dudas sobre el estimador podríamos tener un grado de inconsistencia superior al que tendríamos con el estimador MCO. El remedio resulta peor que la enfermedad. --- layout: false class: inverse, middle # El desarrollo en
<img src="images/lognig.png" width="280" /> --- layout: true # Lo práctico en
--- -- Regresemos a una antigua batalla (retornos de educación). -- ``` #> # A tibble: 722 × 4 #> wage education education_dad education_mom #> <int> <int> <int> <int> #> 1 769 12 8 8 #> 2 808 18 14 14 #> 3 825 14 14 14 #> 4 650 12 12 12 #> 5 562 11 11 6 #> 6 600 10 8 8 #> 7 1154 15 5 14 #> 8 1000 12 11 12 #> 9 930 18 14 13 #> 10 900 15 12 12 #> # ℹ 712 more rows ``` --- -- MCO nos muestra que los retornos de la educación parecen (definitivamente) sesgados `$$\begin{align} \color{#FFA500}{\text{Salario}_i} = \beta_0 + \beta_1 \color{#6A5ACD}{\text{Educación}}_i + u_i \end{align}$$` .hi-slate[MCO (al parecer) sesgados] <table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> Term </th> <th style="text-align:right;"> Est. </th> <th style="text-align:right;"> S.E. </th> <th style="text-align:right;"> t stat. </th> <th style="text-align:left;"> p-Value </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;background-color: white !important;"> Intercepto </td> <td style="text-align:right;background-color: white !important;"> 176.504 </td> <td style="text-align:right;background-color: white !important;"> 89.152 </td> <td style="text-align:right;background-color: white !important;"> 1.98 </td> <td style="text-align:left;background-color: white !important;"> 0.0481 </td> </tr> <tr> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> Educación </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 58.594 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 6.439 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 9.10 </td> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> </td> </tr> </tbody> </table> -- Pero -*puede que*- la educación de la madre del individuo ser un .hi[instrumento valido]? --- -- Tratemos de checkear la *relevancia* de .hi-pink[educación de la madre] para .hi-purple[educación]. -- Esta regresión se le conoce como .hi-slate[*Primera etapa*:] <br> El efecto del .pink[instrumento] en nuestra .purple[variable explicativa endogena]. `$$\begin{align} \color{#6A5ACD}{\text{Educación}_i} = \gamma_0 + \gamma_1 \color{#e64173}{\left( \text{Educación de la Madre} \right)_i} + v_i \end{align}$$` -- .hi-slate[Resultados de la primera regresión:] <table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> Term </th> <th style="text-align:right;"> Est. </th> <th style="text-align:right;"> S.E. </th> <th style="text-align:right;"> t stat. </th> <th style="text-align:left;"> p-Value </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;background-color: white !important;"> Intercepto </td> <td style="text-align:right;background-color: white !important;"> 10.487 </td> <td style="text-align:right;background-color: white !important;"> 0.306 </td> <td style="text-align:right;background-color: white !important;"> 34.32 </td> <td style="text-align:left;background-color: white !important;"> </td> </tr> <tr> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> Educación de la madre </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 0.294 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 0.027 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 10.75 </td> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> </td> </tr> </tbody> </table> -- El *p*-valor sugiere una relación muy fuerte (bastante *relevante*). --- -- ### Visualizando la primera etapa <img src="Class03_files/figure-html/first_stage_plot-1.svg" style="display: block; margin: auto;" /> --- count: false ### Visualizando la primera etapa <img src="Class03_files/figure-html/first_stage_plot2-1.svg" style="display: block; margin: auto;" /> --- -- ### Exogeneidad **P:** Qué significa la .hi[exogeneidad] en ese caso? -- <br>**R:** Necesitamos 1. .pink[Educación de la madre (nuestro instrumento)] solo afecte a nuestra variable explicatiba que viene a ser .purple[la educación (nuestra variable endogena)]. 2. .pink[Educación de la madre] no debe estar correlacionada con otras variables que afecten o tengan efecto sobre los .orange[salarios (nuestra variable de resultado)]. -- Queremos poder comparar a dos personas (*A* y *B*) cuyas madres tienen distintos niveles educativos y decir que las únicas diferencias entre las dos personas (*A* y *B*) se deben a los niveles educativos de sus madres. -- **P:** ¿Parece probable que la *educación de la madre* satisface la exogeneidad? --- -- Ahora vamos a estimar la .hi-turquoise[*forma reducida*]: <br> El efecto de nuestro .pink[instrumento] en nuestra .orange[variable de resultado]. `$$\begin{align} \color{#FFA500}{\text{Salario}_i} = \pi_0 + \pi_1 \color{#e64173}{\left( \text{Educación de la Madre} \right)_i} + w_i \end{align}$$` -- .hi-turquoise[Resultados de la forma reducida] <table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> Term </th> <th style="text-align:right;"> Est. </th> <th style="text-align:right;"> S.E. </th> <th style="text-align:right;"> t stat. </th> <th style="text-align:left;"> p-Value </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;background-color: white !important;"> Intercepto </td> <td style="text-align:right;background-color: white !important;"> 633.34 </td> <td style="text-align:right;background-color: white !important;"> 58.58 </td> <td style="text-align:right;background-color: white !important;"> 10.81 </td> <td style="text-align:left;background-color: white !important;"> </td> </tr> <tr> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> Educación de la madre </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 31.81 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 5.24 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 6.07 </td> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> </td> </tr> </tbody> </table> -- **P.sub[1]:** Cómo podemos interpretar el estimador `\(\left( \hat{\pi}_1 \right)\)`? -- <br>**P.sub[2]:** si nuestro instrumento es *valido*, podemos decir que esa estimación es .hi[causal]? --- -- Entonces, ¿cuál es nuestra estimación basada en el IV para los rendimientos de la educación? `$$\begin{align} \color{#FFA500}{\text{Salario}_i} = \beta_0 + \beta_1 \color{#6A5ACD}{\text{Educación}}_i + u_i \end{align}$$` -- Sabemos que la estimación IV para `\(\beta_1\)` es `$$\begin{align} \hat{\beta}_1^\text{IV} = \dfrac{\color{#20B2AA}{\hat{\pi}_1}}{\color{#314f4f}{\hat{\gamma}_1}} \end{align}$$` -- 1. En la ecuación de .hi-turquoise[forma reducida], estimamos `\(\color{#20B2AA}{\hat{\pi}_1 \approx 31.81}\)`. 2. En la .hi-slate[Primera etapa], estimamos `\(\color{#314f4f}{\hat{\gamma}_1 \approx 0.294}\)`. -- `$$\begin{align} \implies\hat{\beta}_1^\text{IV} = \dfrac{\color{#20B2AA}{\hat{\pi}_1}}{\color{#314f4f}{\hat{\gamma}_1}} = \dfrac{\color{#20B2AA}{31.81}}{\color{#314f4f}{0.294}} \approx 108.2 \end{align}$$` --- -- **Alternativa:** usar la función `iv_robust()` del paquete `estimatr`. Esta nueva función `iv_robust` trabaja de forma similar que nuestro amigo `lm`: `iv_robust(y ~ x | z, data = dataset)` - `formula` La parte especifica del signo `|` de la regresión separa y dice quien es nuestro instrumento (`z`). - `data` la parte de como se llama su base de datos. -- ***Nota:*** Como puede adivinar por su nombre, `iv_robust` calcula por defecto errores estándar robustos de heteroscedasticidad. --- -- En practica... ```r # Estimamos nuestra regresión iv_est <- iv_robust(wage ~ education | education_mom, data = wage_df) ``` <table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> Term </th> <th style="text-align:right;"> Est. </th> <th style="text-align:right;"> S.E. </th> <th style="text-align:right;"> t stat. </th> <th style="text-align:left;"> p-Value </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;background-color: white !important;"> Intercepto </td> <td style="text-align:right;background-color: white !important;"> -501.474 </td> <td style="text-align:right;background-color: white !important;"> 226.476 </td> <td style="text-align:right;background-color: white !important;"> -2.21 </td> <td style="text-align:left;background-color: white !important;"> 0.0271 </td> </tr> <tr> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> Educación </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 108.214 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 16.810 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 6.44 </td> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> </td> </tr> </tbody> </table> --- Así que ya "sabemos" como hacer regresiones de variables instrumentales -- *cuando tenemos una variable endogena y otra variable exogena.* -- 1. Estimamos de forma reducida la (regresión .orange[resultado] con el .pink[instrumento]). 2. Estimamos la primera etapa (regresión .purple[explicativa] con el .pink[instrumento]). 3. Calculamos el IV con las referencias de (1) y (2). Nuestro mágico .pink[instrumento] aisla la variación exogena de nuestra .purple[variable endogena]. -- **P:** Qué pasa si queremos más? -- (_p.e._, mas instrumentos o mas variables endogenas) -- <br>**R:** Muy mal. --- count: false Así que ya "sabemos" como hacer regresiones de variables instrumentales *cuando tenemos una variable endogena y otra variable exogena.* 1. Estimamos de forma reducida la (regresión .orange[resultado] con el .pink[instrumento]). 2. Estimamos la primera etapa (regresión .purple[explicativa] con el .pink[instrumento]). 3. Calculamos el IV con las referencias de (1) y (2). Nuestro mágico .pink[instrumento] aisla la variación exogena de nuestra .purple[variable endogena]. **P:** Qué pasa si queremos más? (_p.e._, mas instrumentos o mas variables endogenas) <br>**R:** .st[Muy mal.] Extendemos lo de IV a .hi[two-stage least squares (2SLS)]. --- -- ### 2SLS (Mínimos cuadrados en dos etapas) -- La intuición y las ideas del IV se trasladan a los mínimos cuadrados en dos etapas. -- **Plus:** La *primera etapa* de la que hemos hablado es en realidad la *primera* de las *dos etapas* de los mínimos cuadrados en dos etapas. -- `$$\begin{align} {\color{#c5c5c5}{\text{Modelo Endogeno}}}& &\color{#FFA500}{\text{Resultado}_i} &= \beta_0 + \beta_1 \color{#6A5ACD}{\left( \text{Endogena} \right)_i} + u_i\\[0.5em] {\text{Primera etapa}}& &\color{#6A5ACD}{\left( \text{Endogena} \right)_i} &= \pi_0 + \pi_1 \color{#e64173}{\text{Instrumento}_i} + v_i\\[0.25em] {\text{Segunda etapa}}& &\color{#FFA500}{\text{Resultado}_i} &= \delta_0 + \delta_1 \color{#6A5ACD}{\widehat{\left( \text{Endogena} \right)}_i} + \varepsilon_i\\[0.5em] {\color{#c5c5c5}{\text{Forma reducida}}}& &\color{#FFA500}{\text{Resultado}_i} &= \pi_0 + \pi_1 \color{#e64173}{\text{Instrumento}_i} + w_i\\[0.25em] \end{align}$$` Donde `\(\color{#6A5ACD}{\widehat{\left( \text{Variable endogena} \right)}_i}\)` denota los valores predichos (*valores ajustados*) de la regresión de primera etapa. --- -- Los mínimos cuadrados en dos etapas son muy flexibles: podemos incluir otros controles, variables endógenas adicionales y disponer de múltiples instrumentos. Pero no te distraigas con esta **flexibilidad**!!, seguimos necesitando instrumentos .hi[válidos]. --- -- ### Estimación Volvamos a nuestro ejemplo de *retornos a la educación*. `$$\begin{align} \color{#FFA500}{\text{Salario}_i} = \beta_0 + \beta_1 \color{#6A5ACD}{\text{Educación}}_i + u_i \end{align}$$` Imaginemos que la educación de la madre *y* del padre son instrumentos válidos. -- Entonces nuestra .hi-slate[regresión en primera etapa] es $$ `\begin{align} \color{#6A5ACD}{\text{Educación}}_i = \gamma_0 + \gamma_1 \color{#e64173}{\left( \text{Educación de la Madre} \right)}_i + \gamma_2 \color{#e64173}{\left( \text{Educación del Padre} \right)}_i + v_i \end{align}` $$ que podemos estimar mediante MCO. -- **P:** Por qué? --- $$ `\begin{align} \color{#6A5ACD}{\text{Educación}}_i = \gamma_0 + \gamma_1 \color{#e64173}{\left( \text{Educación de la Madre} \right)}_i + \gamma_2 \color{#e64173}{\left( \text{Educación del Padre} \right)}_i + v_i \end{align}` $$ ```r stage1 <- lm(education ~ education_mom + education_dad, wage_df) ``` .hi-slate[Resultados primera etapa:] <table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> Term </th> <th style="text-align:right;"> Est. </th> <th style="text-align:right;"> S.E. </th> <th style="text-align:right;"> t stat. </th> <th style="text-align:left;"> p-Value </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;background-color: white !important;"> Intercepto </td> <td style="text-align:right;background-color: white !important;"> 9.845 </td> <td style="text-align:right;background-color: white !important;"> 0.305 </td> <td style="text-align:right;background-color: white !important;"> 32.31 </td> <td style="text-align:left;background-color: white !important;"> </td> </tr> <tr> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> Educación de la madre </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 0.149 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 0.032 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 4.62 </td> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> </td> </tr> <tr> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> Educación del padre </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 0.216 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 0.028 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> 7.84 </td> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(230, 65, 115, 255) !important;"> </td> </tr> </tbody> </table> -- Cada uno de nuestros instrumentos parece ser *relevante*. -- <br>Formalmente, debemos hacer una prueba conjunta (_p.e._, `\(F\)` test). --- -- Usando nuestra .slate[estimación de primera etapa], agarramos el *fitted* .purple[variable endogena] $$ `\begin{align} \color{#6A5ACD}{\widehat{\text{Educación}}}_i = \widehat{\gamma}_0 + \widehat{\gamma}_1 \color{#e64173}{\left( \text{Educación de la Madre} \right)}_i + \widehat{\gamma}_2 \color{#e64173}{\left( \text{Educación del Padre} \right)}_i \end{align}` $$ -- ```r # Tenemos la primera etapa wage_df$education_hat <- stage1$fitted.values ``` -- Ahora usamos MCO otra vez para obtener .hi-green[regresión de segunda etapa] `$$\begin{align} \color{#FFA500}{\text{Salario}_i} = \delta_0 + \delta_1 \color{#6A5ACD}{\widehat{\text{Educación}}}_i + \varepsilon_i \end{align}$$` --- `$$\begin{align} \color{#FFA500}{\text{Salario}_i} = \delta_0 + \delta_1 \color{#6A5ACD}{\widehat{\text{Educación}}}_i + \varepsilon_i \end{align}$$` ```r stage2 <- lm(wage ~ education_hat, wage_df) ``` .hi-green[Resultados de segunda etapa:] <table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> Term </th> <th style="text-align:right;"> Est. </th> <th style="text-align:right;"> S.E. </th> <th style="text-align:right;"> t stat. </th> <th style="text-align:left;"> p-Value </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;background-color: white !important;"> Intercepto </td> <td style="text-align:right;background-color: white !important;"> -454.683 </td> <td style="text-align:right;background-color: white !important;"> 198.149 </td> <td style="text-align:right;background-color: white !important;"> -2.29 </td> <td style="text-align:left;background-color: white !important;"> 0.022 </td> </tr> <tr> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> Educación predicha </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 104.789 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 14.462 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 7.25 </td> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> </td> </tr> </tbody> </table> --- -- .purple[MCO] <table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> Term </th> <th style="text-align:right;"> Est. </th> <th style="text-align:right;"> S.E. </th> <th style="text-align:right;"> t stat. </th> <th style="text-align:left;"> p-Value </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;background-color: white !important;"> Intercepto </td> <td style="text-align:right;background-color: white !important;"> 176.504 </td> <td style="text-align:right;background-color: white !important;"> 89.152 </td> <td style="text-align:right;background-color: white !important;"> 1.98 </td> <td style="text-align:left;background-color: white !important;"> 0.0481 </td> </tr> <tr> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> Educación </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 58.594 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 6.439 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 9.10 </td> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> </td> </tr> </tbody> </table> <br>.slate[Variables Instrumentales] <table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> Term </th> <th style="text-align:right;"> Est. </th> <th style="text-align:right;"> S.E. </th> <th style="text-align:right;"> t stat. </th> <th style="text-align:left;"> p-Value </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;background-color: white !important;"> Intercepto </td> <td style="text-align:right;background-color: white !important;"> -501.474 </td> <td style="text-align:right;background-color: white !important;"> 226.476 </td> <td style="text-align:right;background-color: white !important;"> -2.21 </td> <td style="text-align:left;background-color: white !important;"> 0.0271 </td> </tr> <tr> <td style="text-align:left;background-color: white !important;font-weight: bold;color: darkslategrey !important;"> Educación </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: darkslategrey !important;"> 108.214 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: darkslategrey !important;"> 16.810 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: darkslategrey !important;"> 6.44 </td> <td style="text-align:left;background-color: white !important;font-weight: bold;color: darkslategrey !important;"> </td> </tr> </tbody> </table> <br>.green[Mínimos cuadrados en dos etapas con dos instrumentos] <table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> Term </th> <th style="text-align:right;"> Est. </th> <th style="text-align:right;"> S.E. </th> <th style="text-align:right;"> t stat. </th> <th style="text-align:left;"> p-Value </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;background-color: white !important;"> Intercepto </td> <td style="text-align:right;background-color: white !important;"> -454.683 </td> <td style="text-align:right;background-color: white !important;"> 198.149 </td> <td style="text-align:right;background-color: white !important;"> -2.29 </td> <td style="text-align:left;background-color: white !important;"> 0.022 </td> </tr> <tr> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(139, 177, 116, 255) !important;"> Educación </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(139, 177, 116, 255) !important;"> 104.789 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(139, 177, 116, 255) !important;"> 14.462 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(139, 177, 116, 255) !important;"> 7.25 </td> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(139, 177, 116, 255) !important;"> </td> </tr> </tbody> </table> --- -- Como probablemente habrás adivinado, .mono[R] hará las dos etapas por ti. -- `iv_robust(y ~ x1 + x2 + ⋯ | z1 + z2 + ⋯, data)` -- En nuestro caso, tenemos - una variable explicativa (`x`) (.purple[educación]) - dos instrumentos (`z`) (.pink[educación de los padres]) ```r iv_robust(wage ~ education | education_mom + education_dad, data = wage_df) ``` <table class="table" style="font-size: 20px; margin-left: auto; margin-right: auto;"> <thead> <tr> <th style="text-align:left;"> Term </th> <th style="text-align:right;"> Est. </th> <th style="text-align:right;"> S.E. </th> <th style="text-align:right;"> t stat. </th> <th style="text-align:left;"> p-Value </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;background-color: white !important;"> Intercepto </td> <td style="text-align:right;background-color: white !important;"> -454.683 </td> <td style="text-align:right;background-color: white !important;"> 199.946 </td> <td style="text-align:right;background-color: white !important;"> -2.27 </td> <td style="text-align:left;background-color: white !important;"> 0.0233 </td> </tr> <tr> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> Educación, Estimado </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 104.789 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 14.852 </td> <td style="text-align:right;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> 7.06 </td> <td style="text-align:left;background-color: white !important;font-weight: bold;color: rgba(106, 90, 205, 255) !important;"> </td> </tr> </tbody> </table> --- -- ### Aún hay mas!!! Porque 2SLS .hi[aísla la variación exógena en una variable endógena], lo aplicamos en otros escenarios que están sesgados de relaciones *endógenas*. -- .hi[Aplicaciones comunes] - **Inferencia causal general** para datos observacionales (como hemos visto). - **Experimentos:** Aleatorizar un tratamiento que afecte a una variable endógena. - **Error de medición:** Regresar `\(x_1\)` ruidosa sobre `\(x_2\)` ruidosa para capturar la señal. - **Relaciones simultáneas** (_p.e_, `\(p\)` y `\(q\)` de la oferta y la demanda). Sin embargo, en cualquier entorno 2SLS/IV, debe tener en cuenta los requisitos de .hi[instrumentos válidos]-.pink[exogeneidad] y .pink[relevancia]. --- layout: false class: inverse # Bibliografía
Angrist, J. D., & Pischke, J. S. (2009). *Mostly harmless econometrics: An empiricist's companion*. Princeton university press.
Álvarez, R. A. R., Calvo, J. A. P., Torrado, C. A. M., & Mondragón, J. A. U. (2013). *Fundamentos de econometría intermedia: teoría y aplicaciones*. Universidad de los Andes.
Wooldridge, J. M. (2015). *Introductory econometrics: A modern approach*. Cengage learning.
Rubin, E. (2021) *Econometrics Lectures class*. --- class: middle, center background-image: url(https://media.giphy.com/media/8VITX7wfegOSFWwnCH/giphy.gif) background-size: cover --- name: adios class: middle, inverse .pull-left[ # **¡Gracias!** <br/> ## Econometría I ### Seguimos aprendiendo ] .pull-right[ .right[ <img style="border-radius: 50%;" src="https://avatars.githubusercontent.com/u/39503983?v=4" width="150px" /> [
Syllabus/ Curso](https://carlosyanes.netlify.app/contenidoc/SyllabusEconometriaME.pdf)<br/> [
@keynes37](https://twitter.com/keynes37)<br/> [
cayanes@uninorte.edu.co](mailto:cayanes@uninorte.edu.co) ] ]