Capítulo 3 Un primer análisis de datos
La importancia del análisis de datos es requerida para tomar decisiones y conocer muy bien lo que cada una de las variables nos esta indicando, es por esto que recurrimos a la estadística y hacemos uso de las distintas medidas de tendencia central ampliamente conocidas como media, desviación estándar (varianza), asimetría y curtosis.
3.1 Métricas
Definición 3.1 (Promedio o media aritmética) Es una característica central de un grupo de datos u observaciones, se denomina muchas veces como la esperanza matematica (valor esperado) y esta compuesto por la sumatoria de todos los elementos dividos por el total de ellos. \[\bar{X}= \frac{\sum \limits_{i=1}^{n} x_{i}}{n}\]
Donde (n) es el tamaño de la muestra y (x) la variable de interés con sus observaciones (i) hasta (n).
En R solo es cargar los datos con los que se pretende trabajar y empezar aplicar cada una de las formulas (funciones) y con esto tener las metricas que se requieren para un primer análisis
library(readxl) # Paquete para leer archivos de excel de Microsoft
#Se carga la base con la que se va a trabajar
Pruebadatos <- read_excel("C:/Users/keyne/Downloads/Pruebadatos.xlsx")
# Promedio de una variable: El signo $ solo selecciona una de las variables de la base
mean(Pruebadatos$Salarios) #En este caso Salarios
## [1] 222381.4
Lo que nos indica que los salarios de los individuos de la base en promedio son de unos $222.381.
Definición 3.2 (Varianza) Regularmente se expresa como \((\sigma^2)\) y nos dice que tan dispersa esta una serie de observaciones con respecto a la media o promedio aritmético. Es una resta al cuadrado dividido por el tamaño muestral.
\[Var (X)=\frac{\sum \limits_{i=1}^{n} (x_{i} - \bar{x})^{2}}{n}\]
Donde (n) es el tamaño muestral, (x) la variable y ({x}) su respectiva media o promedio aritmético,
Dentro del programa solo hay que escribir
## [1] 7878422680
Brindando como resultado 7878422680. Con el propósito de realizar una mejor lectura de la varianza, podemos extraer su raíz cuadrada, o directamente en R colocar el comando de la desviación estandar que es (sd)
## [1] 88760.48
Y con este valor de 88760.48, podemos decir que tan dispersos esta cada uno de los salarios de la muestra con respecto a la media o promedio.
Definición 3.3 (Asimetría) Es denominada el tercer momento de una distribución. Tiene los elementos del promedio y la varianza y sirve para medir que tan concentrados estan los datos de una distribución. Suele clasificarse como asimetría positiva y negativa.
\[Asímetría=\frac{\mu^{3}}{\sigma^{3}}\]
El término de \(\mu\) es el mismo del promedio muestral solo que elevado al cubo.
Primero que todo, hay que instalar el paquete moments del CRAN6 y esto se hace así
Luego de instalado, ya se puede hacer uso de los momentos de asímetria y curtosis respectivamente para calcular las métricas de la variable de interés
## [1] 0.9690956
Para este caso podemos afirmar con el valor de 0.97 existe una asimetría positiva, lo que indica que hay cierta variación de los salarios hacia la izquierda de la distribución de los salarios, pero que hay una gran participación de salarios menores a la media.
Definición 3.4 (Curtosis) Es denominada como el cuarto momento de una distribución. Nos indica que forma tiene la varianza de la variable. Podemos decir que si esta \(K=3\), es mesocurtica y su varianza es estable y su forma gráfica es similar a la de una distribución normal o Gaussiana. Si por el contrario, su valor es \(K<3\) podemos identificarla como platicurtica y su varianza es alta. Por último si \(K>3\) tendremos una distribución de forma leptocurtica y la indicación es una varianza pequeña.
\[\frac{\sum \limits_{i=1}^{n} (x_{i} - \bar{x})^{4}}{n\sigma^{2}}-3\]
El término de \(x_{i}\) son cada una de las observaciones, (n) el número total de observaciones, \(\bar{x}\) el mismo del promedio muestral.
## [1] 3.268191
La forma de la Curtosis puede indicarnos que tan “volátiles” son nuestros datos, para este caso arrojó un resultado de 3.26, que nos define a los salarios que siguen una distribución de forma mesocurtica y que posee una varianza estable, lo que quiere decir que entre los salarios de los individuos no existe demasiada diferencia.
3.2 Los resúmenes de métricas
Existen un grupo de paquetes que permiten de igual forma realizar resumenes de estas métricas por grupo de variables y tener el mismo resultado que lo anterior. En esta parte lo haremos con el paquete skimr
Este se instala de tal manera que:
Luego de instalado el paquete, ya se puede hacer uso desde la biblioteca del programa R y nos dará como resultado una tabla bastante amplia de acuerdo a la composición que tenga dicha base.
Name | Pruebadatos |
Number of rows | 11 |
Number of columns | 4 |
_______________________ | |
Column type frequency: | |
numeric | 4 |
________________________ | |
Group variables | None |
Variable type: numeric
skim_variable | n_missing | complete_rate | mean | sd | p0 | p25 | p50 | p75 | p100 | hist |
---|---|---|---|---|---|---|---|---|---|---|
Salarios | 0 | 1 | 222381.36 | 88760.48 | 115000 | 178097.5 | 197000 | 259500.0 | 420000 | ▅▇▂▂▂ |
Edad | 0 | 1 | 28.27 | 7.55 | 18 | 21.5 | 25 | 35.5 | 38 | ▇▃▁▂▇ |
Experiencia | 0 | 1 | 6.27 | 4.82 | 0 | 1.5 | 6 | 10.5 | 13 | ▇▂▂▃▆ |
CI | 0 | 1 | 96.09 | 8.78 | 85 | 91.5 | 93 | 98.0 | 114 | ▂▇▁▁▂ |
Encontramos para este ejemplo, los resultados del número de filas (n) y columnas7, la clasificación que poseen cada una de las variables y las estadísticas de tendencia central incluyendo los percentiles que van desde el primero, hasta la mediana o (p50) y así hasta los valores mayores p100 de cada una de ellas. De igual forma aparece un minigráfico de histograma que en la sección de gráficas ampliaremos su explicación y uso.
3.3 Datos cualitativos
Es común tambien intentar medir algunas variables cuya naturaleza son condiciones cualitativas