name: xaringan-title class: inverse, left, bottom background-image: url(images/beach1.jpg) background-size: cover # **Econometría** ---- ## **<br/> El asunto de Regresión** ### Carlos A. Yanes Guerra ### 2024-II --- # Todo sobre regresión -- ### *Econometría* **El objetivo?** Identificar el efecto de la variable de tratamiento `\(D\)` en una variable resultado `\(Y\)`..super[.hi-pink[<span>†</span>]] -- - **Cómo?** Eliminando/minimizando de alguna manera el .hi-pink[sesgo de selección]. .footnote[.super[.hi-pink[<span>†</span>]] Los otros objetivos? Pronosticar valores futuros de variables de resultados clave, como el desempleo, el PIB, la retención de clientes, *etc.*] -- ### **Análisis de regresión** > Conjunto de procesos estadísticos para cuantificar la relación entre una variable dependiente (por ejemplo, un resultado) y una o varias variables independientes (por ejemplo, un tratamiento o una variable de control). --- # Todo sobre regresión -- ### **Análisis de regresión** -- Los economistas recurren a menudo al análisis de regresión para realizar diversas comparaciones estadísticas. - Puede facilitar las comparaciones "a igualdad de condiciones" - Puede eliminar el .hi-pink[sesgo de selección] **controlando explícitamente** .hi-pink[variables de control] - Si no se controlan las variables de control .mono[-->] .hi-pink[sesgo de variables omitidas]. -- **Nuestro objetivo?** Aprender a interpretar los resultados de un análisis de regresión. 1. **Interpretación literal** - Interpretar el tamaño y la significación estadística de las estimaciones de los coeficientes de regresión.. - Saber como usar una tabla de regresión. 2. **Interpretación a gran escala** - ¿Qué implican las estimaciones sobre los efectos de un tratamiento? - ¿Debemos fiarnos de las estimaciones? ¿Reflejan una relación causal? --- class: inverse, middle # Regresión lineal simple <img src="images/lognig.png" width="280" /> --- # Regresión lineal simple <img src="Class01_files/figure-html/simple-1.svg" style="display: block; margin: auto;" /> --- count: false # Regresión lineal simple <img src="Class01_files/figure-html/simple_reg-1.svg" style="display: block; margin: auto;" /> --- # Regresión lineal simple ### **Modelo** -- Podemos expresar la relación entre .hi-purple[variable de resultado] y .hi-green[variable de tratamiento] como una función lineal: $$ \color{#9370DB}{Y_i} = \beta_0 + \beta_1~\color{#007935}{D_i} + \varepsilon_i $$ - La parte `\(i\)` corresponde a los individuos (corte transversal). - `\(\beta_0\)` .mono[=] término de __intercepto__ o constante. - `\(\beta_1\)` .mono[=] la __pendiente__. - Pensemos por ahora que `\(D_i\)` puede tomar distintos valores mas allá que los binarios (*p.e.,* 0 o 1). - `\(\varepsilon_i\)` .mono[=] término del __error__ (residuo). .footnote[ _Simple_ .mono[=] solo una variable independiente. ] --- # Regresión lineal simple ### **Modelo** -- El término del .hi[intercepto] nos dice el valor esperado de `\(Y_i\)` cuando la explicativa es `\(D_i = 0\)`. $$ Y_i = \color{#e64173}{\beta_0} + \beta_1 ~ D_i + \varepsilon_i $$ Parte de la recta de regresión, pero casi nunca es objeto de **análisis**. - En la práctica, omitir el intercepto sesgaría las estimaciones del coeficiente de la pendiente—el objeto que realmente nos importa. --- # Regresión lineal simple ### **Modelo** -- El término de .hi[la pendiente] nos dice los cambios esperados en `\(Y_i\)` cuando `\(D_i\)` se incrementa en una unidad. $$ Y_i = \beta_0 + \color{#e64173}{\beta_1} ~ D_i + \varepsilon_i $$ "Un incremento en una unidad de `\(D_i\)` *esta asociado con* un incremento de la unidad `\(\color{#e64173}{\beta_1}\)` en `\(Y_i\)`." -- Bajo ciertos supuestos de MCO (fuertes) (*p.e.,* no hay sesgo de selección) podemos decir que, `\(\color{#e64173}{\beta_1}\)` representa el efecto causal de `\(D_i\)` en `\(Y_i\)`. - "Un incremento de una unidad en `\(D_i\)` *conduce* a un incremento de `\(\color{#e64173}{\beta_1}\)` en `\(Y_i\)`." - De otra manera, solo seria la _asociación lineal_ de `\(D_i\)` _con_ `\(Y_i\)`, representando una correlación no causal. --- # Regresión lineal simple ### **Modelo** -- El .hi[termino del error] nos recuerda que `\(D_i\)` no es la única variable que tiene efectos sobre `\(Y_i\)`. $$ Y_i = \beta_0 + \beta_1 ~ D_i + \color{#e64173}{\varepsilon_i} $$ -- este término nos muestra que otros factores/variables tienen efecto en `\(Y_i\)`. - **Así que?** Si algunos de esos .hi-slate[factores] .ul[influyen] en `\(D_i\)`, entonces el .hi-orange[sesgo de variable omitida] contaminará las **estimaciones** del coeficiente de la pendiente. --- # Regresión lineal simple ### **Ejemplo** .pull-left[ **P:** Como la .hi[atención] tiene efectos en el rendimiento académico? Tratando de dar respuesta a esto, vamos a estimar un modelo de **regresión** que nos va a capturar esto `$$\text{Final}_i = \beta_0 + \beta_1~\text{Atención}_i + \varepsilon_i$$` <table> <thead> <tr> <th style="text-align:left;"> Parámetros </th> <th style="text-align:center;"> (1) </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> Intercepto </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-weight: bold;"> 56.82 </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-weight: bold;"> (2.19) </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> Atención </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-weight: bold;"> 0.3 </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-weight: bold;"> (0.08) </td> </tr> </tbody> </table> .center[*Errores estándar en paréntesis.*] ] .pull-right[ <img src="Class01_files/figure-html/attend_1_plot-1.svg" style="display: block; margin: auto;" /> ] --- # Regresión lineal simple ### **Ejemplo** .pull-left[ .center[.purple[Crimen.sub[*i*] .mono[=] 18.41 .mono[+] 1.76 Número de Policías.sub[*i*]]] <img src="Class01_files/figure-html/campus_crime_1_plot-1.svg" style="display: block; margin: auto;" /> ] .pull-right[ **P:** El número de policias reducen el crimen en los campus universitarios? - Qué nos dice la pendiente? ] --- count: false # Regresión lineal simple ### **Ejemplo** .pull-left[ .center[.purple[Crimen.sub[*i*] .mono[=] 18.41 .mono[+] 1.76 Número de Policias.sub[*i*]]] <img src="Class01_files/figure-html/campus_crime_2_plot-1.svg" style="display: block; margin: auto;" /> ] .pull-right[ **P:** El número de policias reducen el crimen en los campus universitarios? - Qué nos dice la pendiente? **P:** Significa que los policias *causan* el crimen en el campus!? - Por qué o Por qué no? ] --- count: false # Regresión lineal simple ### **Ejemplo** .pull-left[ .center[.purple[Crimen.sub[*i*] .mono[=] 18.41 .mono[+] 1.76 Número de Policias.sub[*i*]]] <img src="Class01_files/figure-html/campus_crime_3_plot-1.svg" style="display: block; margin: auto;" /> ] .pull-right[ **P:** El número de policias reducen el crimen en los campus universitarios? - Qué nos dice la pendiente? **P:** Significa que los policias *causan* el crimen en el campus!? - Por qué o Por qué no? .footnote[Para mirar la discusión de los efectos causales puede mirar un debate en el asunto del crimen y los arrestos—y como los efectos incluso varian por raza— se encuentra en [episode 55](https://www.probablecausation.com/podcasts/episode-55-morgan-williams-jr) Es un podcast de la página [*Posible causalidad*](https://www.probablecausation.com/)] ] --- # Regresión lineal simple ### **Ejemplo** .pull-left[ **P:** De donde surge la .blue[línea] de regresión? ] .pull-right[ .center[.purple[Crimen.sub[*i*] .mono[=] 18.41 .mono[+] 1.76 Número de Policias.sub[*i*]]] <img src="Class01_files/figure-html/unnamed-chunk-2-1.svg" style="display: block; margin: auto;" /> ] --- count: false # Regresión lineal simple ### **Estimación** .pull-left[ **P:** De donde surge la .blue[línea] de regresión? <br> **R/:** Un algoritmo llamado **Mínimos cuadrados ordinarios (MCO)**. ] .pull-right[ .center[.purple[Crimen.sub[*i*] .mono[=] 18.41 .mono[+] 1.76 Número de Policias.sub[*i*]]] <img src="Class01_files/figure-html/unnamed-chunk-3-1.svg" style="display: block; margin: auto;" /> ] --- count: false # Regresión lineal simple ### **Estimación** .pull-left[ **P:** De donde surge la .blue[línea] de regresión? <br> **R/:** Un algoritmo llamado **Mínimos cuadrados ordinarios (MCO)**. **Como funciona el MCO?** ] .pull-right[ .center[.purple[Crimen.sub[*i*] .mono[=] 18.41 .mono[+] 1.76 Número de Policias.sub[*i*]]] <img src="Class01_files/figure-html/unnamed-chunk-4-1.svg" style="display: block; margin: auto;" /> ] --- count: false # Regresión lineal simple ### **Estimación** .pull-left[ **P:** De donde surge la .blue[línea] de regresión? <br> **R/:** Un algoritmo llamado **Mínimos cuadrados ordinarios (MCO)**. **Como funciona el MCO?** - Cada "linea de ajuste" produce un .hi-pink[residuo]. - Los residuos son .mono[=] Los valores reales .mono[-] .hi-purple[predichos] ] .pull-right[ .center[.purple[Crimen.sub[*i*] .mono[=] 18.41 .mono[+] 1.76 Número de Policias.sub[*i*]]] <img src="Class01_files/figure-html/unnamed-chunk-5-1.svg" style="display: block; margin: auto;" /> ] --- # Regresión lineal simple ### **Estimación** .pull-left[ **P:** De donde surge la .blue[línea] de regresión? <br> **R/:** Un algoritmo llamado **Mínimos cuadrados ordinarios (MCO)**. **Como funciona el MCO?** - Algunas lineas de los ajustados generan mayores residuos que otros ] .pull-right[ .center[.purple[Crimen.sub[*i*] .mono[=] 58.2 .mono[+] -2.2 Número de Policias.sub[*i*]]] <img src="Class01_files/figure-html/unnamed-chunk-7-1.svg" style="display: block; margin: auto;" /> ] --- count: false # Regresión lineal simple ### **Estimación** .pull-left[ **P:** De donde surge la .blue[línea] de regresión? <br> **R/:** Un algoritmo llamado **Mínimos cuadrados ordinarios (MCO)**. **Como funciona el MCO?** - Algunas lineas de los ajustados generan mayores residuos que otros ] .pull-right[ .center[.purple[Crimen.sub[*i*] .mono[=] 20.5 .mono[+] 3.15 Número de Policias.sub[*i*]]] <img src="Class01_files/figure-html/unnamed-chunk-9-1.svg" style="display: block; margin: auto;" /> ] --- count: false # Regresión lineal simple ### **Estimación** .pull-left[ **P:** De donde surge la .blue[linea] de regresión? <br> **R/:** Un algoritmo llamado **Mínimos cuadrados ordinarios (MCO)**. **Como funciona el MCO?** - Algunas lineas de los ajustados generan mayores residuos que otros ] .pull-right[ .center[.purple[Crimen.sub[*i*] .mono[=] 1.3 .mono[+] 0.75 Número de Policias.sub[*i*]]] <img src="Class01_files/figure-html/unnamed-chunk-11-1.svg" style="display: block; margin: auto;" /> ] --- # Regresión lineal simple ### **Estimación** .pull-left[ **P:** De donde surge la .blue[linea] de regresión? <br> **R/:** Un algoritmo llamado **Mínimos cuadrados ordinarios (MCO)**. **Como funciona el MCO?** - La "mejor línea de ajuste" es aquella que **minimiza** la **suma de los residuos al cuadrado**. - **P:** Por qué al cuadrado? ] .pull-right[ .center[.purple[Crimen.sub[*i*] .mono[=] 18.41 .mono[+] 1.76 Número de Policias.sub[*i*]]] <img src="Class01_files/figure-html/unnamed-chunk-12-1.svg" style="display: block; margin: auto;" /> ] --- count: false # Regresión lineal simple ### **Estimación** .pull-left[ **P:** De donde surge la .blue[linea] de regresión? <br> **R/:** Un algoritmo llamado **Mínimos cuadrados ordinarios (MCO)**. **Como funciona el MCO?** - La "mejor linea de ajuste" es aquella que **minimiza** la **suma de los residuos al cuadrado**. - **P:** Por qué al cuadrado? - Usando matemáticas y mirando algunos lineamientos del profesor. ] .pull-right[ .center[.purple[Crimen.sub[*i*] .mono[=] 18.41 .mono[+] 1.76 Número de Policias.sub[*i*]]] <img src="Class01_files/figure-html/unnamed-chunk-13-1.svg" style="display: block; margin: auto;" /> ] --- # Regresión lineal simple ### **Estimación** .pull-left[ **P:** De donde surge la .blue[linea] de regresión? <br> **R/:** Un algoritmo llamado **Mínimos cuadrados ordinarios (MCO)**. **Como funciona el MCO?** - **"Mínimos?"** Minimize that sum. - **"Cuadrados?"** Suma al cuadrado de los residuos. - **"Ordinarios?"** La forma mas tradicional de resolver el algoritmo. ] .pull-right[ .center[.purple[Crimen.sub[*i*] .mono[=] 18.41 .mono[+] 1.76 Número de Policias.sub[*i*]]] <img src="Class01_files/figure-html/unnamed-chunk-14-1.svg" style="display: block; margin: auto;" /> ] --- class: inverse, middle # Retornos de la educación <img src="images/lognig.png" width="280" /> --- # Regresión lineal simple ### **Ejemplo: Retornos de la educación** La inversión óptima en educación por parte de estudiantes, padres y legisladores depende en parte del *retorno monetario de la educación*. -- .hi-purple[Pensemos en un experimento:] - Realizamos una asignacióna aleatoria. - Dado un año adicional de educación. - Cuanto aumenta el nivel de ingreso de una persona? El cambio en sus ingresos describe el .hi-slate[efecto causal] de la educación sobre los ingresos. --- # Regresión lineal simple ### **Ejemplo: Retornos de la educación** .pull-left[ .center[.purple[Ingresos.sub[*i*] .mono[=] 146.95 .mono[+] 60.21 Escolaridad.sub[*i*]]] <img src="Class01_files/figure-html/unnamed-chunk-16-1.svg" style="display: block; margin: auto;" /> ] .pull-right[ **P:** ¿Cuánto dinero extra puede esperar un trabajador de esta muestra dado un año adicional de educación? - Como saberlo? ] --- count: false # Regresión lineal simple ### **Ejemplo: Retornos de la educación** .pull-left[ .center[.purple[Ingresos.sub[*i*] .mono[=] 146.95 .mono[+] 60.21 Escolaridad.sub[*i*]]] <img src="Class01_files/figure-html/unnamed-chunk-17-1.svg" style="display: block; margin: auto;" /> ] .pull-right[ **P:** ¿Cuánto dinero extra puede esperar un trabajador de esta muestra dado un año adicional de educación? - Como saberlo? **P:** ¿Representa esta cifra el rendimiento causal de un año adicional de educación? - ¿Qué otras variables podrían estar impulsando la relación? ] --- class: inverse, middle # Haciendo Ajustes <img src="images/lognig.png" width="280" /> --- # Haciendo Ajustes .pull-left[ <img src="Class01_files/figure-html/unnamed-chunk-18-1.svg" style="display: block; margin: auto;" /> ] .pull-right[ Podemos producir una línea ajustada estimando una regresión de un resultado sobre un tratamiento: `$$Y_i = \beta_0 + \beta_1~D_i + \varepsilon_i$$` `\(\beta\)` describe cómo cambia el resultado, *en promedio*, cuando cambia el tratamiento. <table> <thead> <tr> <th style="text-align:left;"> Parámetro </th> <th style="text-align:center;"> (1) </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> Intercepto </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-weight: bold;"> 1.22 </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-weight: bold;"> (0.18) </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> Tratamiento </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-weight: bold;"> 0.56 </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-weight: bold;"> (0.08) </td> </tr> </tbody> </table> .center[*Errores estandar en parentesis.*] ] --- # Haciendo Ajustes .pull-left[ <img src="Class01_files/figure-html/unnamed-chunk-20-1.svg" style="display: block; margin: auto;" /> ] .pull-right[ Sin embargo, nos puede preocupar que una tercera variable `\(W_i\)` confunda nuestra estimación del efecto del tratamiento sobre el resultado. ] --- # Haciendo Ajustes .pull-left[ <img src="Class01_files/figure-html/unnamed-chunk-21-1.svg" style="display: block; margin: auto;" /> ] .pull-right[ Si existen datos sobre la variable de control adicional, pueden añadirse al modelo de regresión: `$$Y_i = \beta_0 + \beta_1~D_i + \gamma_i~W_i + \varepsilon_i$$` ] **P:** ¿Cómo "ajusta" MCO la inclusión de esa variable? --- count: false # Haciendo Ajustes .pull-left[ <img src="Class01_files/figure-html/unnamed-chunk-22-1.svg" style="display: block; margin: auto;" /> ] .pull-right[ Si existen datos sobre la variable de control adicional, pueden añadirse al modelo de regresión: `$$Y_i = \beta_0 + \beta_1~D_i + \gamma_i~W_i + \varepsilon_i$$` **P:** ¿Cómo "ajusta" MCO la inclusión de esa variable? - **Paso 1:** Averiguar qué diferencias en D se explican por W. ] --- # Haciendo Ajustes .pull-left[ <img src="Class01_files/figure-html/unnamed-chunk-23-1.svg" style="display: block; margin: auto;" /> ] .pull-right[ Si existen datos sobre la variable de control adicional, pueden añadirse al modelo de regresión: `$$Y_i = \beta_0 + \beta_1~D_i + \gamma_i~W_i + \varepsilon_i$$` **P:** ¿Cómo "ajusta" MCO la inclusión de esa variable? - **Paso 2:** Remover las diferencias de D explicadas por W. ] --- # Haciendo Ajustes .pull-left[ <img src="Class01_files/figure-html/unnamed-chunk-24-1.svg" style="display: block; margin: auto;" /> ] .pull-right[ Si existen datos sobre la variable de control adicional, pueden añadirse al modelo de regresión: `$$Y_i = \beta_0 + \beta_1~D_i + \gamma_i~W_i + \varepsilon_i$$` **P:** ¿Cómo "ajusta" MCO la inclusión de esa variable? - **Paso 3:** Miramos que diferencias de Y son explicadas por W ] --- # Haciendo Ajustes .pull-left[ <img src="Class01_files/figure-html/unnamed-chunk-25-1.svg" style="display: block; margin: auto;" /> ] .pull-right[ Si existen datos sobre la variable de control adicional, pueden añadirse al modelo de regresión: `$$Y_i = \beta_0 + \beta_1~D_i + \gamma_i~W_i + \varepsilon_i$$` **P:** ¿Cómo "ajusta" MCO la inclusión de esa variable? - **Paso 4:** Removemos las diferencias de Y que son explicadas por W ] --- # Haciendo Ajustes .pull-left[ <img src="Class01_files/figure-html/unnamed-chunk-26-1.svg" style="display: block; margin: auto;" /> ] .pull-right[ Si existen datos sobre la variable de control adicional, pueden añadirse al modelo de regresión: `$$Y_i = \beta_0 + \beta_1~D_i + \gamma_i~W_i + \varepsilon_i$$` **P:** ¿Cómo "ajusta" MCO la inclusión de esa variable? - **Paso 5:** Establecemos una regresión que se ajusta a los datos con que contamos ] --- # Haciendo Ajustes .pull-left[ <img src="Class01_files/figure-html/unnamed-chunk-27-1.svg" style="display: block; margin: auto;" /> ] .pull-right[ Si la co-variable existe y se puede vincular, podemos entonces adherirla al modelo de regresión: `$$Y_i = \beta_0 + \beta_1~D_i + \gamma_i~W_i + \varepsilon_i$$` <table> <thead> <tr> <th style="text-align:left;"> Parameter </th> <th style="text-align:center;"> (1) </th> <th style="text-align:center;"> (2) </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> Intercepto </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;"> 1.22 </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-weight: bold;"> 0.9 </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;"> (0.18) </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-weight: bold;"> (0.1) </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> Tratamiento </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;"> 0.56 </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-weight: bold;"> -0.42 </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;"> (0.08) </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-weight: bold;"> (0.07) </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> Covariable </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-weight: bold;"> 3.91 </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-weight: bold;"> (0.2) </td> </tr> </tbody> </table> .center[*Errores estandar en parentesis.*] ] --- class: inverse, middle # Sesgo de variables omitidas <img src="images/lognig.png" width="280" /> --- # Sesgo de variables omitidas -- ### **Ejemplo: Retornos de la educación** .pull-left[ <br> <table> <caption>Resultado: Ganancia Semanal</caption> <thead> <tr> <th style="text-align:left;"> Parámetro </th> <th style="text-align:center;"> 1 </th> <th style="text-align:center;"> 2 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> Intercepto </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-weight: bold;"> 146.95 </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;"> -128.89 </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-weight: bold;"> (77.72) </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;"> (92.18) </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> Años de escolaridad </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-weight: bold;"> 60.21 </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;"> 42.06 </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-weight: bold;"> (5.70) </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;"> (6.55) </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> Prueba IQ Score (Puntos) </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-weight: bold;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;"> 5.14 </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-weight: bold;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;"> (0.96) </td> </tr> </tbody> </table> .center[*Errores estándar en paréntesis.*] ] .pull-right[ ] --- count: false # Sesgo de variables omitidas ### **Ejemplo: Retornos de la educación** .pull-left[ <br> <table> <caption>Resultado: Ganancia Semanal</caption> <thead> <tr> <th style="text-align:left;"> Parámetro </th> <th style="text-align:center;"> 1 </th> <th style="text-align:center;"> 2 </th> </tr> </thead> <tbody> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> Intercepto </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;"> 146.95 </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-weight: bold;"> -128.89 </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;"> (77.72) </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-weight: bold;"> (92.18) </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> Años de escolaridad </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;"> 60.21 </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-weight: bold;"> 42.06 </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;"> (5.70) </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-weight: bold;"> (6.55) </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> Prueba IQ Score (Puntos) </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;line-height: 110%;font-weight: bold;"> 5.14 </td> </tr> <tr> <td style="text-align:left;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-style: italic;color: black !important;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;"> </td> <td style="text-align:center;color: rgba(39, 40, 34, 255) !important;color: rgba(194, 190, 190, 255) !important;line-height: 110%;font-weight: bold;"> (0.96) </td> </tr> </tbody> </table> .center[*Errores estándar en paréntesis.*] ] -- .pull-right[ <br> <br> .orange[Sesgo] por omitir el score de IQ <br> `\(\quad\)` .mono[=] .pink["Corto"] .mono[-] .purple["largo"] <br> `\(\quad\)` .mono[=] .pink[60.21] .mono[-] .purple[42.06] <br> `\(\quad\)` .mono[=] .orange[18.15] La primera regresión atribuye erróneamente parte de la influencia de la inteligencia a la educación. ] --- # Sesgo de variables omitidas .more-left[ <img src="Class01_files/figure-html/venn2-1.svg" style="display: block; margin: auto;" /> ] .less-right[ .hi-purple[Y] .mono[=] Resultado .hi-green[D] .mono[=] Tratamiento .hi-orange[W] .mono[=] Variable Omitida Si .hi-orange[W] esta correlacionada con ambas .hi-green[D] y la variable .hi-purple[Y] .mono[-->] el sesgo de variable omitida .mono[-->] el método de regresión falla en aislar el efecto causal de la variable de tratamiento .hi-green[D] en .hi-purple[Y]. ] --- # Sesgo de variables omitidas .more-left[ <img src="Class01_files/figure-html/unnamed-chunk-31-1.svg" style="display: block; margin: auto;" /> ] .less-right[ .hi-purple[Y] .mono[=] Resultado .hi-green[D] .mono[=] Tratamiento .hi-orange[W] .mono[=] Variable Omitida Si .hi-orange[W] esta correlacionada con ambas .hi-green[D] y la variable .hi-purple[Y] .mono[-->] el sesgo de variable omitida .mono[-->] el método de regresión falla en aislar el efecto causal de la variable de tratamiento .hi-green[D] en .hi-purple[Y]. ] --- class: inverse, middle # Elementos adicionales e inferencia <img src="images/lognig.png" width="280" /> --- # Estimador -- El modelo de regresión simple, obtendremos los estimadores `\(\hat{\beta}_0\)` y `\(\hat{\beta}_1\)` que minimiza la suma de los residuos al cuadrado (SSE), _p.e._, -- `$$\min_{\hat{\beta}_0,\, \hat{\beta}_1} \text{SSE}$$` -- Vamos a conocer que: `$$\text{SSE} = \sum_i e_i^2$$` -- La referencia es que los residuos `\(e_i\)` salen del modelo estimado o valor predicho de la .hi[dependiente] `\(\hat{y}\)` y de la variable resultado `\(y\)`. -- $$ `\begin{aligned} e_i^2 &= \left( y_i - \hat{y}_i \right)^2 = \left( y_i - \hat{\beta}_0 - \hat{\beta}_1 x_i \right)^2 \\ &= y_i^2 - 2 y_i \hat{\beta}_0 - 2 y_i \hat{\beta}_1 x_i + \hat{\beta}_0^2 + 2 \hat{\beta}_0 \hat{\beta}_1 x_i + \hat{\beta}_1^2 x_i^2 \end{aligned}` $$ -- **Recuerde:** Minimizar una función multivariada requiere 1. La primera derivada (La condición de *1.super[er]-orden*) y, 2. La condición de *2.super[do]-orden* o (concavidad). --- # Estimador -- Debemos **minimizar la SSE** `$$\text{SSE} = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^n\left( y_i^2 - 2 y_i \hat{\beta}_0 - 2 y_i \hat{\beta}_1 x_i + \hat{\beta}_0^2 + 2 \hat{\beta}_0 \hat{\beta}_1 x_i + \hat{\beta}_1^2 x_i^2 \right)$$` -- Dadas las condiciones de primer orden de .hi[minimización], realizamos la primera derivada de SSE con respecto a `\(\hat{\beta}_0\)` como de `\(\hat{\beta}_1\)`. -- $$ `\begin{aligned} \dfrac{\partial \text{SSE}}{\partial \hat{\beta}_0} &= \sum_i \left( 2 \hat{\beta}_0 + 2 \hat{\beta}_1 x_i - 2 y_i \right) = 2n \hat{\beta}_0 + 2 \hat{\beta}_1 \sum_i x_i - 2 \sum_i y_i \\ &= 2n \hat{\beta}_0 + 2n \hat{\beta}_1 \overline{x} - 2n \overline{y} \end{aligned}` $$ donde `\(\overline{x} = \frac{\sum x_i}{n}\)` y `\(\overline{y} = \frac{\sum y_i}{n}\)` son las medias muestrales de `\(x\)` e `\(y\)` (tamaño `\(n\)`). --- # Estimador -- Las condiciones de primer orden establecen que las derivadas son iguales a cero, por lo que: -- `$$\dfrac{\partial \text{SSE}}{\partial \hat{\beta}_0} = 2n \hat{\beta}_0 + 2n \hat{\beta}_1 \overline{x} - 2n \overline{y} = 0$$` -- `$$\hat{\beta}_0 = \overline{y} - \hat{\beta}_1 \overline{x}$$` --
Este .hi[estimador] viene a ser la diferencia entre los promedios de nuestras variables dependientes e independientes teniendo presente el efecto de `\(\hat{\beta}_1\)`. -- Ahora solo nos falta por hallar `\(\hat{\beta}_1\)`. --- # Estimador -- Hay que tomar la derivada de SSE con respecto a `\(\hat{\beta}_1\)` -- $$ `\begin{aligned} \dfrac{\partial \text{SSE}}{\partial \hat{\beta}_1} &= \sum_i \left( 2 \hat{\beta}_0 x_i + 2 \hat{\beta}_1 x_i^2 - 2 y_i x_i \right) = 2 \hat{\beta}_0 \sum_i x_i + 2 \hat{\beta}_1 \sum_i x_i^2 - 2 \sum_i y_i x_i \\ &= 2n \hat{\beta}_0 \overline{x} + 2 \hat{\beta}_1 \sum_i x_i^2 - 2 \sum_i y_i x_i \end{aligned}` $$ todo igual a cero (condición de primer-orden, de nuevo) -- `$$\dfrac{\partial \text{SSE}}{\partial \hat{\beta}_1} = 2n \hat{\beta}_0 \overline{x} + 2 \hat{\beta}_1 \sum_i x_i^2 - 2 \sum_i y_i x_i = 0$$` -- y sustituimos `\(\hat{\beta}_0\)`, _p.e._, `\(\hat{\beta}_0 = \overline{y} - \hat{\beta}_1 \overline{x}\)`. Así, -- $$ 2n \left(\overline{y} - \hat{\beta}_1 \overline{x}\right) \overline{x} + 2 \hat{\beta}_1 \sum_i x_i^2 - 2 \sum_i y_i x_i = 0 $$ --- # Estimador -- Ya después de jugar con tanta álgebra: -- $$2n \left(\overline{y} - \hat{\beta}_1 \overline{x}\right) \overline{x} + 2 \hat{\beta}_1 \sum_i x_i^2 - 2 \sum_i y_i x_i = 0 $$ -- a multiplicar -- `$$2n \overline{y}\,\overline{x} - 2n \hat{\beta}_1 \overline{x}^2 + 2 \hat{\beta}_1 \sum_i x_i^2 - 2 \sum_i y_i x_i = 0$$` -- `$$\implies 2 \hat{\beta}_1 \left( \sum_i x_i^2 - n \overline{x}^2 \right) = 2 \sum_i y_i x_i - 2n \overline{y}\,\overline{x}$$` -- $$ \implies \hat{\beta}_1 = \dfrac{\sum_i y_i x_i - 2n \overline{y}\,\overline{x}}{\sum_i x_i^2 - n \overline{x}^2} = \dfrac{\sum_i (x_i - \overline{x})(y_i - \overline{y})}{\sum_i (x_i - \overline{x})^2} $$ --- # Estimador -- Hecho!! Ahora tenemos los estimadores MCO (encantadores) para la pendiente -- `$$\hat{\beta}_1 = \dfrac{\sum_i (x_i - \overline{x})(y_i - \overline{y})}{\sum_i (x_i - \overline{x})^2}$$` -- Para el intercepto o `\(\beta_{0}\)` `$$\hat{\beta}_0 = \overline{y} - \hat{\beta}_1 \overline{x}$$` -- Ahora **ya saben de dónde** sale formalmente la parte de *mínimos cuadrados* de MCO. --- class: inverse, middle # Función de esperanza condicional <img src="images/lognig.png" width="280" /> --- # Función de esperanza condicional -- ### La función de expectativa condicional -- Decimos que `\(Y\)` es una variable aleatoria y `\(X=(X_1,X_2,...,X_k)\)` un vector de variables aleatorias explicativas. Si `\(E(|Y|)<\infty\)` entonces hay una función `\(\mu:\mathbb{R}^k \to \mathbb{R}\)` tal que -- `\begin{equation} \tag{1} E(Y|X_1,X_2,...,X_k)=\mu(X_1,X_2,...,X_k) \end{equation}` A esto lo llamamos la función de expectativa condicional y nos determina como cambia el valor medio de `\(Y\)` cuando cambian los elementos de `\(X\)`. Definimos el error de la expectativa condicional como la diferencia entre `\(Y\)` y el valor de la función de expectativa condicional evaluada en `\(X\)` `\begin{equation} \tag{2} e=Y-\mu(X) \end{equation}` --- # Función de esperanza condicional -- Luego por construcción `\begin{equation} \tag{2} Y=\mu(X)+e \end{equation}` -- También, por construcción, tenemos que la expectativa condicional del error es cero `\begin{align} E(e|X)&=E(Y-\mu(X)|X)\\ &=E(Y|X)-E(\mu(X)|X)\\ &=\mu(X)-\mu(X)\\ &=0 \end{align}` -- Y al usar la ley de expectativas iteradas, `\(E(E(Y|X))=E(Y)\)` tenemos que `\begin{equation} E(e)=E(E(Y|X))=E(0)=0 \end{equation}` -- Ahora, podemos especificar la función de expectativa condicional de la siguiente manera `\begin{equation} \mu(X)=\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_kX_k \end{equation}` --- # Función de esperanza condicional -- De donde podemos como cambios marginales en los regresores `\(X\)` impactan en la expectativa condicional de la variable de resultado `\(Y\)`. Si la variable `\(X_1\)` es continua, entonces -- `\begin{equation} \dfrac{\partial E(Y|X)}{\partial{X_1}}=\beta_1 \end{equation}` Si la variable `\(X_1\)` es discreta y toma los valores `\(0\)` y `\(1\)`, entonces tenemos que -- `\begin{equation} E(Y|X_1=1)-E(Y|X_1=0)=\beta_1 \end{equation}` En otras palabras, los parámetros recogen el cambio en la expectativa condicional de `\(Y\)` atribuible a `\(X\)`, dado que todo lo demás está constante. Todo lo demás significa todas las demás variables explícitamente incorporadas en el modelo. Ahora, si usamos la forma lineal en `\((2)\)` tenemos que -- `\begin{equation} Y=\beta_0+\beta_1X_1+\beta_2X_2+...+\beta_kX_k+u \end{equation}` De donde podemos concluir que los parámetros capturan el cambio en el valor actual de `\(Y\)` atribuible al cambio en la independiente, solo si el error `\(e\)` no está afectado por el regresor que se modifica. Esto nos lleva a la discusión sobre efectos causales --- <img src="Class01_files/figure-html/fig_cef_dist-1.svg" style="display: block; margin: auto;" /> --- <img src="Class01_files/figure-html/fig_cef-1.svg" style="display: block; margin: auto;" /> --- <img src="Class01_files/figure-html/fig_cef_only-1.svg" style="display: block; margin: auto;" /> --- class: inverse # Bibliografía
Angrist, J. D., & Pischke, J. S. (2009). *Mostly harmless econometrics: An empiricist's companion*. Princeton university press.
Rubin, E. (2021) *Econometrics Lectures class*.
Raze, K. (2022) *Labor Economics Lectures class*.
Angrist, J. (2022) *Mastering Econometrics* [Con Acceso abril 2022](https://mru.org/mastering-econometrics-joshua-angrist).
Wooldridge, J. M. (2015). *Introductory econometrics: A modern approach*. Cengage learning. --- name: adios class: middle, inverse .pull-left[ # **¡Gracias!** <br/> ## Econometría ### Seguimos aprendiendo ] .pull-right[ .right[ <img style="border-radius: 50%;" src="https://avatars.githubusercontent.com/u/39503983?v=4" width="150px" /> [
Syllabus/ Curso](https://ignaciomsarmiento.github.io/teaching/UniNorte/Syllabus__Ciencia_de_Datos_TDE.pdf)<br/> [
@keynes37](https://twitter.com/keynes37)<br/> [
cayanes@uninorte.edu.co](mailto:cayanes@uninorte.edu.co) ] ]