Caso Encuesta Longitudinal de Primera Infancia (ELPI)

ELPI

Presentación del caso

La Encuesta Longitudinal de la Primera Infancia (ELPI) fue diseñada para realizar un seguimiento periódico de una muestra de niños y niñas desde su nacimiento, con el objetivo de conocer sus trayectorias de vida y los factores que influyen en su desarrollo. En 2010, se seleccionó una muestra de 30,000 niños y niñas nacidos entre el 1 de enero de 2006 y el 31 de agosto de 2009, de los registros de nacimientos del Servicio de Registro Civil e Identificación, con el fin de obtener una muestra objetivo de 15,000. Esta muestra se eligió para ser representativa de todos los niños y niñas nacidos en ese período, asegurando representatividad por rango etario para las cohortes de 2006, 2007, 2008 y mediados de 2009. El diseño muestral utilizado fue estratificado por conglomerados, donde las comunas fueron seleccionadas como unidades de la primera etapa y los niños como variable de la segunda. En la primera etapa, se agruparon comunas con niveles socioeconómicos similares, y en la segunda se realizó un muestreo aleatorio sistemático de niños dentro de las comunas, distribuyendo la muestra de manera proporcional a la población de cada estrato en las 15 regiones del país.

Los instrumentos aplicados entre las primeras tres rondas del ELPI incluyeron cuestionarios aplicados al cuidador(a) principal, divididos en módulos referentes a la composición del hogar, educación, situación laboral, ingresos, previsión social, activos y patrimonio, y participación en programas sociales. Además, se incluyó una batería de instrumentos para evaluar el desarrollo psicomotor, socioemocional y antropométrico de los niños. Entre estos, el EEDP (Escala de Evaluación del Desarrollo Psicomotor) y el TEPSI (Test de Desarrollo Psicomotor) midieron habilidades motoras, cognitivas y de lenguaje en los menores. Por otro lado, el ASQ: SE (Ages & Stages Questionnaire: Social Emotional) y el CBCL1 (Child Behavior Checklist) evaluaron el desarrollo socioemocional, mientras que las medidas antropométricas (peso, talla, IMC, circunferencia craneal) permitieron monitorear la salud física. Para los cuidadores principales, se aplicaron subescalas de la WAIS (Wechsler Adults Intelligence Scale), que midieron aspectos cognitivos, y el Big Five Inventory (BFI), que evaluó dimensiones socioemocionales como la extraversión y responsabilidad. Estos instrumentos permitieron recolectar datos comprensivos sobre el desarrollo infantil en diversas áreas.

A partir de estos datos, es posible resolver preguntas relacionadas con el desarrollo infantil, el bienestar emocional y social, y las dinámicas familiares. Algunas preguntas que podrían explorarse son: ¿Cuál es la correlación entre el nivel educativo del cuidador(a) principal y el desarrollo cognitivo y psicomotor de los niños(as)? ¿Cómo afecta la participación en programas como “Chile Crece Contigo” al desarrollo emocional y conductual de los niños y niñas en comparación con aquellos que no participan? ¿Existen diferencias significativas en el desarrollo emocional y social de los niños y niñas que viven con ambos padres biológicos frente a aquellos que viven solo con uno de ellos o en hogares monoparentales? ¿Cómo influye el nivel de educación alcanzado por cuidador(a) principal en la salud mental y el desarrollo psicomotor de los niños(as)? Estas preguntas no solo podrían ayudar a entender mejor las dinámicas de desarrollo infantil en Chile, sino que también podrían informar la creación de políticas y programas de intervención orientados a mejorar el bienestar de los niños y sus familias.

Presentación de los datos

En esta guía se plantean una serie de actividades junto con sus resoluciones haciendo uso de los datos recolectados en el estudio. La descripción de las variables más importantes de la base de datos se encuentra en la siguiente tabla. La primera variable corresponde a un identiifcador por participantes, las siguientes corresponden a los elemantos evaluados por el cuestionario que fue aplicado y las últimas dos al tipo de uso de redes sociales. La base de datos contiene un total de 10.698 observaciones y 44 variables.

Variable	Descripción de la variable	Tipo de variable
ID	Identificador del participante	Nominal
tot_per	Total de personas en hogar	Numérica
tot_ingreso	Total de ingreso del hogar	Numérica
ingreso_per_cap	Ingreso per capita	Numérica
gen_jh	Género jefe de hogar	Nominal
edu_madre	Nivel educacional de la madre	Ordinal
comp_hogar	Composición del hogar	Nominal
edu_cuid	Nivel educacional del cuidador	Ordinal
cons_cig	Consumo de cigarro	Dicotómica
cons_alco	Consumo de alcohol	Dicotómica
amamantado	Amamantado	Dicotómica

Actividades

Para inciar la resolución de actividades de este caso de estudio, activamos las librerías que serán utilizadas y cargamos la base de datos.

Code

library(knitr)
library(readr)
library(psych)
library(rockchalk)
library(lme4)

Loading required package: Matrix

Code

library(dplyr)


Attaching package: 'dplyr'

The following object is masked from 'package:rockchalk':

    summarize

The following objects are masked from 'package:stats':

    filter, lag

The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union

Code

data <- read.csv("data/base_elpi.csv")

Clase 1

Modelo de datos

Tendencia central y variabilidad

En la Encuesta Longitudinal de la Primera Infancia (ELPI) se recogen datos detallados sobre los ingresos familiares en los hogares con niños menores de 5 años. Estos datos nos permiten comprender cómo varían los ingresos entre los hogares y cómo se distribuyen en función de características socioeconómicas, como el número de miembros o la zona geográfica. Para analizar estos datos, partiremos calculando la media, la mediana, la desviación estándar y el rango de los ingresos per cápita. Estas medidas nos permiten analizar qué tan dispersos están los ingresos respecto a la media, lo cual es útil para entender la desigualdad económica entre los hogares.

Resolución haciendo uso de la función ‘summary’:

Code

# Para obtener la media de las variables de interés se puede utilizar la función 'summary', indicando el uso de la variable adecuada 

summary(data$ingreso_per_cap)

output

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   1857   41635   64000  110959  103750 8333333

Resolución haciendo uso de la función ‘mean’:

Code

# También es posible hacer uso de la función 'mean' para obtener la media de cada variable.

mean(data$ingreso_per_cap)

output

[1] 110959.4

Resolución haciendo uso de la función ‘sd’:

Code

# Para obtener la desviación estándar se utilizará la función 'sd'. 

sd(data$ingreso_per_cap)

output

[1] 235889.1

Finalmente, responde ¿Qué nos dicen las medidas de tendencia central y dispersión sobre la distribución de los ingresos en este caso?

Respuesta:

Haz clic aquí para expandir

Respuesta:

Los resultados reportan una media de 110959, mediana de 64000 y desviación estándar de 235889. La diferencia entre la media y mediana nos indica que hay una minoría con ingresos per cápita mucho más altos que aumentan el promedio, pues la mitad gana menos de 64000 pero el promedio es 110959. Es decir, la distribución es positivamente sesgada (positively skewed). Además, una desviación estándar de 235889 refleja una gran dispersión, es decir, hay mucha variabilidad en los ingresos per cápita. Finalmente, el valor mínimo es 1857 y el máximo 8333333, lo que muestra un rango muy grande de 8331476.

A través de estos datos, también podemos analizar cómo varían las puntuaciones de desarrollo entre los niños. En esta ocasión, nos enfocaremos en la variable de puntuación en el desarrollo psicomotor medido a través de la escala TEPSI, la cual permite conocer el nivel de desarrollo psicomotor de niños(as) entre dos y cinco años en relación a una norma estadística establecida por grupo de edad, y determinar si este rendimiento es normal (40 puntos T o más) o está bajo lo esperado (39 puntos T o menos). Al igual que en ejercicio anterior, calcula media, mediana, desviación estándar y rango de los puntajes T de los niños de la muestra, y responde: ¿Qué nos dicen las medidas de tendencia central y dispersión sobre la distribución de las puntuaciones y la variabilidad en el desarrollo de los niños?

Descriptivos puntajes T del TEPSI:

Code

# Descriptivos de puntajes T del TEPSI
summary(data$tepsi_pt_tot)

output

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's 
  19.00   46.00   55.00   54.07   63.00   80.00    3823

Code

sd(data$tepsi_pt_tot,na.rm = TRUE)

output

[1] 12.31867

Respuesta:

Haz clic aquí para expandir

Respuesta:

Los resultados reportan una media de 54.07, mediana de 55 y desviación estándar de 12.32. La media y mediana son bastante similares, lo que indica que los puntajes están centrados y simétricamente distribuidos. La desviación estándar de 12 puntos muestra que hay cierta dispersión en los datos pero la mayoría de los niños tienen puntajes relativamente cercanos al promedio. Finalmente, el puntaje mínimo de 19 y máximo de 80 (rango de 61) indica que hay niños con rendimiento bajo en esta escala y otros con puntajes muy avanzados.

Modelo nulo y residuos

En el análisis del desarrollo infantil, es común utilizar modelos estadísticos para predecir resultados, como el puntaje en el Test de Desarrollo Psicomotor (TEPSI). En este ejercicio, aplicaremos un modelo nulo (sin predictores) y evaluaremos los residuos, que nos permitirán observar las desviaciones de cada niño respecto a la media general. Para ello, formula un modelo nulo utilizando la media de los puntajes T que obtuviste anteriormente y calcula sus residuos. Luego, visualiza en un histograma la magnitud de los residuos para ver si hay grandes desviaciones de los puntajes observados respecto a la media predicha.

Formulación de modelo nulo:

Code

# Modelo nulo de puntajes T del TEPSI
Tepsi1 <- lm(data$tepsi_pt_tot ~ 1)

# Resumen del modelo de puntajes T del TEPSI
summary(Tepsi1)

output


Call:
lm(formula = data$tepsi_pt_tot ~ 1)

Residuals:
    Min      1Q  Median      3Q     Max 
-35.072  -8.072   0.928   8.928  25.928 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  54.0716     0.1486   363.9   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 12.32 on 6874 degrees of freedom
  (3823 observations deleted due to missingness)

Histograma de residuos:

Code

# Histograma de residuos de fatiga
hist(Tepsi1$residuals)

plot

Clase 2

Modelo de regresión

Regresión simple y sus parámetros

Hasta ahora, hemos obtenido información de dos variables por separado, el ingreso per cápita del hogar y el puntaje en el Test de Desarrollo Psicomotor (TEPSI). El análisis de regresión simple nos permitirá relacionarlas, estimando cómo cambia el puntaje TEPSI a medida que varía el ingreso familiar. Para ello, ajusta el modelo para predecir el puntaje TEPSI (variable dependiente) a partir del ingreso per cápita (variable independiente). Posteriormente, obtén los resultados del modelo e interpreta los parámetros (pendiente e intersección) ¿Existe una relación entre el ingreso per cápita y los puntajes TEPSI? ¿Qué dirección tiene esta relación? ¿Cuál es la magnitud de esta relación?

Resultados de modelo de regresión simple:

Code

summary(lm(data$tepsi_pt_tot ~ 1 + data$ingreso_per_cap))

output


Call:
lm(formula = data$tepsi_pt_tot ~ 1 + data$ingreso_per_cap)

Residuals:
    Min      1Q  Median      3Q     Max 
-40.730  -8.017   0.307   8.304  26.368 

Coefficients:
                      Estimate Std. Error t value Pr(>|t|)    
(Intercept)          5.360e+01  1.620e-01 330.875  < 2e-16 ***
data$ingreso_per_cap 4.128e-06  5.817e-07   7.097 1.41e-12 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 12.27 on 6873 degrees of freedom
  (3823 observations deleted due to missingness)
Multiple R-squared:  0.007274,  Adjusted R-squared:  0.00713 
F-statistic: 50.36 on 1 and 6873 DF,  p-value: 1.407e-12

Respuesta:

Haz clic aquí para expandir

Respuesta:

El output de la regresión muestra una pendiente de 4.128e-06, lo que significa que por cada peso que aumente la variable ingreso per cápita, el puntaje T del niño aumentará 0.000004128 puntos. Este valor es positivo, lo que indica una relación positiva (mientras más ingreso per cápita, más puntaje T). Además, el valor p asociado a la pendiente es mucho menor que 0.05 (1.41e-12), por lo que la relación es estadísticamente significativa. Sin embargo, la pendiente es muy pequeña, lo que indica un efecto muy leve. Además, el r cuadrado es 0.0073, lo que indica que solo el 0.73% de la variabilidad en los puntajes T puede explicarse por el ingreso per cápita, es decir, no es un buen predictor por sí solo.

Caracterizando y comparando distribuciones

Tendencia central, variabilidad y asimetría

Los quintiles de ingreso per cápita permiten dividir a los hogares en cinco grupos, desde los hogares con menor ingreso (primer quintil) hasta los hogares con mayor ingreso (quinto quintil). En este ejercicio, caracterizaremos y compararemos las distribuciones de los puntajes TEPSI de niños pertenecientes a diferentes quintiles de ingreso per cápita utilizando medidas de tendencia central, variabilidad y asimetría. Esto nos ayudará a entender cómo varían los puntajes TEPSI entre diferentes niveles socioeconómicos y qué implicaciones tienen estas diferencias en el desarrollo infantil. Para ello,

Divide el ingreso per cápita en quintiles (Q1 a Q5) generando 5 distribuciones,
calcula las medidas de tendencia central (media y mediana), variabilidad (desviación estándar y rango) y asimetría para cada una de estas.
Visualiza las distribuciones de cada grupo utilizando histogramas y boxplots para identificar posibles diferencias.
Finalmente, compara los resultados entre los cinco quintiles, y describe las diferencias observadas. Emplea un gráfico que permita ilustrar las diferencias descritas.

Cálculo de quintiles:

Code

# Si queremos ver quintiles dividimos la distribución en 5 partes iguales, indicando cuatro puntos de corte.

# Se guarda el valor del primer quintil.
primer_quintil <- quantile(data$ingreso_per_cap
  , probs = c(.2), na.rm = TRUE)

# Se guarda el valor del segundo quintil.
segundo_quintil <- quantile(data$ingreso_per_cap
  , probs = c(.4), na.rm = TRUE)

# Se guarda el valor del tercer quintil.
tercer_quintil <- quantile(data$ingreso_per_cap
  , probs = c(.6), na.rm = TRUE)

# Se guarda el valor del cuarto quintil.
cuarto_quintil <- quantile(data$ingreso_per_cap
  , probs = c(.8), na.rm = TRUE)

Recodificación de ingreso_per_cap:

Code

# Creamos una nueva variable como factor vacía para guardar los valores recodificados
data$ingreso_per_cap_niveles <- factor(NA, levels = c("Primer quintil", "Segundo quintil", "Tercer quintil", "Cuarto quintil", "Quinto quintil"))

# Asignamos los valores recodificados
data$ingreso_per_cap_niveles[data$ingreso_per_cap <= primer_quintil] <- "Primer quintil"
data$ingreso_per_cap_niveles[data$ingreso_per_cap > primer_quintil & data$ingreso_per_cap <= segundo_quintil] <- "Segundo quintil"
data$ingreso_per_cap_niveles[data$ingreso_per_cap > segundo_quintil & data$ingreso_per_cap <= tercer_quintil] <- "Tercer quintil"
data$ingreso_per_cap_niveles[data$ingreso_per_cap > tercer_quintil & data$ingreso_per_cap <= cuarto_quintil] <- "Cuarto quintil"
data$ingreso_per_cap_niveles[data$ingreso_per_cap > cuarto_quintil] <- "Quinto quintil"

A continuación, calcula las medidas de tendencia central (media y mediana), variabilidad (desviación estándar y rango) y asimetría para cada uno de los grupos respecto a los puntajes T del TEPSI.

Descriptivos usando ‘describeBy’:

Code

# Se utiliza la función 'describeBy' para obtener los descriptivos según grupo.
describeBy(data$tepsi_pt_tot, group=data$ingreso_per_cap_niveles)

output


 Descriptive statistics by group 
group: Primer quintil
    vars    n  mean    sd median trimmed   mad min max range  skew kurtosis
X1*    1 1364 31.99 12.37     32   32.09 11.86   1  61    60 -0.08    -0.17
      se
X1* 0.34
------------------------------------------------------------ 
group: Segundo quintil
    vars    n  mean    sd median trimmed   mad min max range  skew kurtosis
X1*    1 1362 34.63 12.29     35   34.96 11.86   1  60    59 -0.29    -0.07
      se
X1* 0.33
------------------------------------------------------------ 
group: Tercer quintil
    vars    n  mean    sd median trimmed   mad min max range  skew kurtosis
X1*    1 1361 33.85 12.23     34   34.12 13.34   1  60    59 -0.19     -0.3
      se
X1* 0.33
------------------------------------------------------------ 
group: Cuarto quintil
    vars    n  mean    sd median trimmed   mad min max range  skew kurtosis
X1*    1 1382 35.22 11.55     36   35.51 11.86   1  60    59 -0.28    -0.09
      se
X1* 0.31
------------------------------------------------------------ 
group: Quinto quintil
    vars    n  mean    sd median trimmed   mad min max range  skew kurtosis
X1*    1 1406 38.57 11.82     39   39.08 11.86   1  61    60 -0.41    -0.01
      se
X1* 0.32

Visualiza las distribuciones de cada grupo utilizando histogramas o boxplots para identificar posibles diferencias.

Boxplots según quintiles de ingreso:

Code

# Se genera un gráfico que permite comprar las tres distribuciones de datos mediante boxplots
boxplot(data$tepsi_pt_tot ~ data$ingreso_per_cap_niveles,
        ylab = "Puntaje TEPSI",
        xlab = "Quintiles ingreso per cápita")

plot

Respuesta:

Haz clic aquí para expandir

Respuesta:

La mediana del puntaje TEPSI aumenta progresivamente a medida que aumentan los quintiles. Esto muestra que en general, los niños con hogares de mayor ingreso per cápita presentan resultados levemente mejores en puntajes T. El primer quintil tiene una mediana cercana a los 50 puntos mientras que el último quintil se acerca a los 60. Además, se puede apreciar que los primeros quintiles muestran una dispersión mayor en comparación con los últimos dos. Esto sugiere una mayor heterogeneidad en los puntajes de niños de hogares con menor ingreso per cápita. Hay valores atípicos en el último quintil, mostrando que aunque la mayoría tiene buen desempeño, hay excepciones significativas. Las cajas son relativamente simétricas, pero los outliers de quinto quintil indican una ligera asimetría negativa

Clase 3

Comparación de modelos

Modelo base vs modelo de regresión y R2 como indicador de comparación de ajuste

A continuación compararemos los dos modelos que creaste anteriormente, aquel que predice el desarrollo psicomotor de los niños a partir del puntaje T promedio de la muestra (modelo base) y aquel que introduce el ingreso per cápita como variable predictora (modelo de regresión). Queremos saber cuánto mejora el ajuste del modelo al incluir el efecto de esta última variable. Para ello,

Calcula los componentes de varianza de ambos modelos para obtener el R² SST (Suma Total de Cuadrados): Calcula la variabilidad total en los puntajes TEPSI respecto a su media general. SSR (Suma de Cuadrados de la Regresión): Calcula la variabilidad explicada por el modelo. SSE (Suma de Cuadrados del Error): Calcula la variabilidad no explicada (error) Calcula el R² para cada modelo dividiendo el SSR por el SST. Esto nos permitirá saber qué proporción de la variabilidad en los puntajes TEPSI es explicada por el ingreso per cápita.

Cálculo componentes de varianza:

Code

# Calculamos la suma la cuadrados totales
SST = sum(resid(lm(data$tepsi_pt_tot ~ 1))^2)

# Calculamos la suma la cuadrados del modelo ampliado
SSEA = sum(resid(lm(data$tepsi_pt_tot ~ 1 + data$ingreso_per_cap))^2)

# Calculamos la reducción en la suma la cuadrados
SSR = (SST - SSEA)

# Calculamos la reducción proporcional del error
R_cuadrado = (SST - SSEA)/SST

R_cuadrado

output

[1] 0.007274144

Code

# Vemos que este equivale al Multiple R-squared en el resumen que nos brinda R en el modelo ampliado.
# En este caso vemos que el error cambia un 0.72% entre los dos modelos.

Realiza una prueba de ANOVA para comparar ambos modelos y verifica si el modelo que incluye el ingreso per cápita mejora significativamente el ajuste en comparación con el modelo base. La tabla de ANOVA mostrará los componentes de varianza para cada modelo y el estadístico F correspondiente. Este valor F sigue una distribución de probabilidad F utilizada para realizar pruebas de hipótesis sobre varianzas. En este caso, se emplea para comparar el ajuste de dos modelos mediante el análisis de varianza (ANOVA). La distribución F nos permite probar si la reducción en el error del modelo al incluir el ingreso per cápita como predictor es significativa o si podría haberse producido simplemente por azar.

Prueba ANOVA para modelo base y ampliado:

Code

modelo_base <- lm(data$tepsi_pt_tot ~ 1)

modelo_ampliado <- lm(data$tepsi_pt_tot ~ 1 + data$ingreso_per_cap)

anova1 <- anova(modelo_base,modelo_ampliado)

anova1

output

Analysis of Variance Table

Model 1: data$tepsi_pt_tot ~ 1
Model 2: data$tepsi_pt_tot ~ 1 + data$ingreso_per_cap
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1   6874 1043127                                  
2   6873 1035539  1    7587.9 50.361 1.407e-12 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Interpretación de Resultados: Observa los valores de R² para ambos modelos y determina qué proporción de la variabilidad en los puntajes TEPSI explica el ingreso per cápita. Interpreta el valor p del estadístico F en la tabla de ANOVA.

Respuesta:

Haz clic aquí para expandir

Respuesta:

El r cuadrado del modelo ampliado es 0.0073 aproximadamente. Esto indica que el ingreso per cápita explica solamente el 0.73% de la variabilidad en los puntajes TEPSI. Si bien es un porcentaje muy bajo que no es suficiente para explicar la variabilidad de los puntajes TEPSI, es mejor que el modelo nulo que usa la media como predicción y no explica nada de la variabilidad. El valor F del ANOVA comparando los modelos es 50.361 y el valor p es 1.407e-12. Un valor F alto y valor p mucho menor a 0.01 indican que la reducción del error es estadísticamente significativa, es decir, sería muy poco probable que la diferencia sea por azar.

La distribución normal

Puntaje Z

En este ejercicio, analizaremos cómo se distribuye el desarrollo psicomotor de los niños según su quintil de ingreso utilizando el puntaje Z. Para ello, utilizando la media y desviación estándar que obtuviste previamente para cada grupo,

calcula el puntaje Z del desarrollo psicomotor (puntaje T en TEPSI) de cada niño dentro de su propio quintil, lo que permitirá comparar el desempeño individual en relación con el promedio de su grupo socioeconómico.
Luego, clasifica a los niños dentro de su quintil en tres grupos: por debajo del promedio (Z < 0), en promedio (Z = 0) y por encima del promedio (Z > 0).
Finalmente, analiza las proporciones de niños en cada grupo y observa si existen tendencias entre los diferentes quintiles de ingreso.

Cálculo de puntajes Z, construcción de grupos y proporciones:

Code

# Calcular el puntaje Z dentro de cada quintil
data <- data %>%
  group_by(ingreso_per_cap_niveles) %>%
  mutate(
    z_score = (tepsi_pt_tot - mean(tepsi_pt_tot, na.rm = TRUE)) / sd(tepsi_pt_tot, na.rm = TRUE),
    categoria = case_when(
      z_score < 0  ~ "Por debajo del promedio",
      z_score == 0 ~ "En promedio",
      z_score > 0  ~ "Por encima del promedio"
    )
  ) %>%
  ungroup()

# Calcular las proporciones de cada grupo dentro de cada quintil
proporciones <- data %>%
  group_by(ingreso_per_cap_niveles, categoria) %>%
  summarise(cantidad = n(), .groups = "drop") %>%
  group_by(ingreso_per_cap_niveles) %>%
  mutate(proporcion = cantidad / sum(cantidad))

Respuesta:

Haz clic aquí para expandir

Respuesta:

Basándonos en los datos de la tabla de proporciones, podemos concluir que no se observa una tendencia clara y marcada en la distribución del desarrollo psicomotor a medida que aumenta el quintil de ingreso per cápita. En las proporciones de niños por debajo del promedio, vemos resultados relativamente estables entre los quintiles, oscilando alrededor del 30% al 31%. En los niños por encima del promedio vemos algo similar, oscilando entre el 32% al 34.5%. Un factor importante es que aproximadamente un 35% de todos los quintiles están en la categoría NA, por lo que se debe tener esto en cuenta a la hora de sacar conclusiones.

Simulación de datos y muestras de una distribución normal

El Inventario de Desarrollo Battelle (BDI) es una herramienta utilizada para evaluar diversas áreas del desarrollo infantil, incluyendo: Personal/Social, Adaptativa, Motora, Comunicación y Cognitiva. A diferencia del TEPSI, que se aplica en niños de 2 a 5 años, el BDI se aplica en niños de entre 6 y 23 meses. En la Encuesta Longitudinal de la Primera Infancia (ELPI), se han obtenido puntajes BDI que muestran un promedio de 0.9 y una desviación estándar de 0.2. Basándote en estos valores,

simula dos muestras de 1,000 datos de puntajes BDI utilizando una distribución normal. Genera histogramas para visualizar las distribuciones de las dos muestras simuladas y superpone curvas de densidad para comparar las distribuciones.

Simulación de muestras:

Code

#| code-fold: true

mean(data$bdi_pt_tot,na.rm = TRUE)

output

[1] 45.26554

Code

sd(data$bdi_pt_tot,na.rm = TRUE)

output

[1] 13.40773

Code

muestra01 <- rnorm(1000, mean = 45.26, sd = 13.4)

muestra02 <- rnorm(1000, mean = 45.26, sd = 13.4)

Extrae una muestra aleatoria de 100 datos de cada una de las distribuciones simuladas y sus respectivos estadísticos descriptivos (media, desviación estándar, percentiles). ESTA PARTE ESTÁ DESORDENADA

Comparación de histogramas:

Code

# Uso mfrow para crear un lienzo con 1 fila y 2 columnas
par(mfrow=c(1,2))

# Histograma de primera muestra
hist(muestra01, xlim = c(-30,70),
     xlab = "Puntajes",
     ylab = "Frecuencia")

# Histograma de segunda muestra
hist(muestra02, xlim = c(-30,70),
     xlab = "Puntajes",
     ylab = "Frecuencia")

plot

Superposición de curvas de densidad:

Code

# Se grafica la curva de densidad de la muestra 1
plot(density(muestra01),
     main = "Gráfico de densidad",
     xlab = "Puntajes",
     ylab = "Densidad",
     col = "blue",
     ylim = c(0, 0.03))

# Se añade al mismo gráfico la curva de densidad de la muestra 2
lines(density(muestra02), col = "red")

plot

Calcula el sesgo de la media en cada muestra de 100 observaciones. Usa la fórmula: sesgo = 𝑥 − 𝜃.Donde 𝑥 es la media de la muestra de 100 observaciones y 𝜃 es el parámetro poblacional. Este cálculo permite evaluar cuánto se desvía la media muestral de 100 observaciones respecto al verdadero valor poblacional.

Sesgo de muestra:

Code

submuestra01 <- sample(muestra01, size=100)

m_muestra <- mean(submuestra01)

m_poblacional <- mean(data$bdi_pt_tot,na.rm = TRUE)

sesgo <- m_muestra - m_poblacional

Finalmente, responde a las siguientes preguntas: ¿Qué diferencias observas en los histogramas de las dos muestras simuladas de puntajes BDI? Describe estas diferencias no solo en términos de su forma y dispersión, sino también considerando el sesgo de la media en cada muestra de 100 observaciones respecto al promedio poblacional. ¿Qué implicaciones podría tener el sesgo en la interpretación de cada muestra?

Respuesta:

Haz clic aquí para expandir

Respuesta:

Ambos histogramas muestran una forma aproximadamente simétrica y acampanada, es decir, se acercan mucho a una distirbución normal. La dispersión de los datos también es similar en ambas muestras, indicando una variabilidad semejante. El resultado de los sesgos implica que podríamos sobrestimar o subestimar el promedio de la población. Por ejemplo, si la media de una de las submuestras es mayor a la media poblacional, podríamos cometer el error de asumir que la media poblacional es mayor de lo que realmente es (basándonos en la submuestra)

Clase 4

Modelo de regresión y correlación

Interpretando la pendiente y su estandarización y Correlación de Pearson

Retomando el análisis de regresión simple, exploraremos la relación entre el desarrollo psicomotor (ahora medido a través del puntaje BDI) y el ingreso per cápita del hogar. Utilizaremos tres estimados estadísticos clave: beta no estandarizado, beta estandarizado, y correlación de Pearson. El primero indica cuánto cambia el desarrollo psicomotor por cada unidad adicional de ingreso per cápita. Para obtener este valor, ajusta un modelo de regresión simple donde el ingreso per cápita sea la variable independiente y el puntaje del BDI sea la variable dependiente. Ejecuta el modelo de regresión y revisa la salida del modelo, donde el coeficiente del ingreso per cápita será el valor de beta no estandarizado.

Modelo de regresión:

Code

summary(lm(data$bdi_pt_tot ~ 1 + data$ingreso_per_cap))

output


Call:
lm(formula = data$bdi_pt_tot ~ 1 + data$ingreso_per_cap)

Residuals:
     Min       1Q   Median       3Q      Max 
-23.6216 -14.0757  -0.1626  10.9045  24.0234 

Coefficients:
                      Estimate Std. Error t value Pr(>|t|)    
(Intercept)          4.496e+01  2.491e-01 180.532   <2e-16 ***
data$ingreso_per_cap 2.830e-06  1.102e-06   2.568   0.0103 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 13.4 on 3730 degrees of freedom
  (6966 observations deleted due to missingness)
Multiple R-squared:  0.001764,  Adjusted R-squared:  0.001497 
F-statistic: 6.593 on 1 and 3730 DF,  p-value: 0.01028

El segundo, el beta estandarizado, permite medir la relación en términos de desviaciones estándar, lo cual facilita la comparación de la magnitud del efecto. Para obtener este valor, estandariza tanto el ingreso per cápita como el puntaje del BDI para que ambas variables tengan una media de 0 y una desviación estándar de 1. Luego, ajusta nuevamente el modelo de regresión con estas variables estandarizadas.

Modelo de regresión con coeficientes estandarizados:

Code

summary(lm(scale(data$bdi_pt_tot) ~ 1 + scale(data$ingreso_per_cap)))

output


Call:
lm(formula = scale(data$bdi_pt_tot) ~ 1 + scale(data$ingreso_per_cap))

Residuals:
     Min       1Q   Median       3Q      Max 
-1.76179 -1.04982 -0.01213  0.81330  1.79175 

Coefficients:
                             Estimate Std. Error t value Pr(>|t|)  
(Intercept)                 0.0008135  0.0163601   0.050   0.9603  
scale(data$ingreso_per_cap) 0.0497815  0.0193884   2.568   0.0103 *
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.9993 on 3730 degrees of freedom
  (6966 observations deleted due to missingness)
Multiple R-squared:  0.001764,  Adjusted R-squared:  0.001497 
F-statistic: 6.593 on 1 and 3730 DF,  p-value: 0.01028

Correlación de Pearson:

El tercero, la correlación de Pearson, te permitirá conocer la dirección y el tamaño de la relación entre el ingreso per cápita y el puntaje del BDI en términos de asociación lineal. Calcula la correlación de Pearson entre el ingreso per cápita estandarizado y el puntaje de BDI estandarizado.

Code

cor.test(data$bdi_pt_tot, data$ingreso_per_cap, use=pairwise.complete.obs)

output


    Pearson's product-moment correlation

data:  data$bdi_pt_tot and data$ingreso_per_cap
t = 2.5676, df = 3730, p-value = 0.01028
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.009932124 0.073989136
sample estimates:
       cor 
0.04200379

Finalmente, compara los tres estimados (beta no estandarizado, beta estandarizado, y correlación de Pearson) para analizar si son consistentes en cuanto a la dirección de la relación. ¿Qué diferencias observas entre ellos? Discute en qué situaciones cada uno de estos estimados es útil y qué información adicional proporciona el beta no estandarizado en comparación con la correlación de Pearson.

Respuesta:

Haz clic aquí para expandir

Respuesta:

El beta no estandarizado es 2.830e-06, indicando que por cada unidad adicional de ingreso per cápita, se espera 2.830e-06 más de puntaje BDI. Esto muestra una relación positiva. El beta no estandarizado agrega información extra en comparación con los otros dos ya que muestra la magnitud del cambio esperado en la variable dependiente por cada unidad de cambio en la variable independiente en sus unidades originales. El beta estandarizado es 0.0497815, es decir, que por cada desviación estándar de aumento en el ingreso per cápita, se espera un cambio de 0.0497815 desviaciónes estándar en el puntaje BDI. También muestra una relación positiva. Esto puede ser útil para comparar la fuerza relativa de los predictores dentro de un modelo cuando las variables están en diferentes escalas y se quiere tener una medida comparable de la fuerza de su relación. Finalmente, la correlación de Pearson da un coeficiente de correlación de 0.04200379. Este valor mide la fuerza y dirección de la relación entre ambas variables, indicando también que esta es positiva. Es útil para obtener una medida rápida y sencilla de la relación entre dos variables ya que indica dirección y fuerza. Los tres estimados son consistentes al indicar una relación positiva, es decir, que a medida que aumenta el ingreso per cápita del hogar, tiende a haber un ligero aumento en el puntaje BDI.

Clase 5

Distribuciones de datos y distribuciones de probabilidad

Simulando distribuciones de datos

En este ejercicio, analizaremos cómo se puede ubicar un puntaje específico de TEPSI dentro de diferentes distribuciones (Normal, Uniforme y t de Student) para observar cómo varía su probabilidad de ocurrencia según la distribución empleada. Para ello,

Simula distribuciones con las siguientes características
- Distribución Normal: Utiliza la media y desviación estándar reales de los puntajes TEPSI. Teniendo como puntaje TEPSI específico el valor 29 (valor a partir del cual se considera tener retraso en el desarrollo psicomotor) indica y calcula su posición y probabilidad acumulada dentro de esta distribución.
- Distribución Uniforme: Usa el mínimo y máximo de los puntajes TEPSI para definir el rango. Calcula la posición del mismo puntaje específico dentro de esta distribución y su probabilidad de ocurrencia en función de la distribución uniforme.
- Distribución t de Student: Calcula los grados de libertad como GL = 𝑛 − 1, donde 𝑛 es el tamaño de la muestra. Calcula la probabilidad asociada al puntaje específico dentro de esta distribución y su comparación con la probabilidad en las otras distribuciones.
Genera gráficos de densidad o histogramas para cada distribución simulada. Marca la posición del puntaje TEPSI seleccionado en cada gráfico para visualizar cómo cambia su probabilidad de ocurrencia según la distribución.
Responde ¿Qué diferencias observas en la posición y probabilidad del puntaje específico dentro de cada distribución? ¿Cómo influye la forma de cada distribución en la interpretación de la probabilidad asociada al puntaje? ¿Por qué la probabilidad de ocurrencia varía entre distribuciones para el mismo puntaje?
Distribución Normal: Usa la media y desviación estándar reales de los puntajes de estrés.

Code

# Calculamos la media y la desviacion estandar de la variable puntajes T del TEPSI

mean(data$tepsi_pt_tot, na.rm=TRUE)

output

[1] 54.07156

Code

sd(data$tepsi_pt_tot, na.rm=TRUE)

output

[1] 12.31867

Code

dist_normal <- rnorm(1000, mean = 54.07, sd = 12.31)

# Histograma de la distribución normal
hist(dist_normal,
     xlab = "Puntajes",
     ylab = "Frecuencia",
     main = "")

plot

Distribución Uniforme: Usa el mínimo y máximo de los valores reales de los puntajes de estrés.

Code

# Obtenemos los valores minimos y maximos de la variable
min(data$tepsi_pt_tot,na.rm=TRUE)

output

[1] 19

Code

max(data$tepsi_pt_tot,na.rm=TRUE)

output

[1] 80

Code

# Para generar una distribución uniforme señalamos este intervalo en la función 'rep'
# Se utiliza 'each=16' para aproximarnos a los 1000 casos esperados
dist_uniforme <- rep(19:80, each=16)

# Luego, graficamos la distribución con un gráfico de barras
barplot(prop.table(table(dist_uniforme)))

plot

Distribución t de Student: Calcula los grados de libertad como GL=𝑛−1, donde𝑛es el tamaño de la muestra.

Code

# Sabemos que el tamaño de la muestra es igual a 125, por lo que los grados de libertad equivalen a 124

# Para generar una distribución t utilizamos la función 'rt'
# Se especifica el número de la valores de la distribución y los grados de libertad
dist_t <- rt(1000, df = 124)

# Histograma de la distribución t
hist(dist_t,
     xlab = "Puntajes",
     ylab = "Frecuencia",
     main = "")

plot

Respuesta:

Haz clic aquí para expandir

Respuesta:

En la distribución normal, un puntaje T de 29 se encuentra aproximadamente 2.035 ((29 - 54.07156)/12.31867) desviaciones estándar por debajo de la media. Esto lo sitúa en la cola inferior izquierda de la distribución normal. Su probabilidad acumulada es 2.09%, es decir, es poco común obtener ese puntaje. En una distribución uniforme, todos los puntajes tienen la misma probabilidad de ocurrencia (en este caso, 1.6% aproximadamente). La probabilidad acumulada de un puntaje 29 es 16.39%, es decir, aproximadamente un 16% de los datos estarían en 29 o por debajo. En relación a la distribución t de student, con 124 grados de libertad, esta es muy similar a la normal, con un 0.0221 de probabilidad para el valor 29. Mientras que la distribución normal y la distirbución t presenta resultados muy similares, la distribución uniforme le asigna una probabilidad significativamente más alta a obtener un puntaje T de 29 o menos puntos. En las distribuciones con forma de campana (normal y t student) se concentra la probabilidad alrededor de la media, por lo que los valores más extremos tienen cada vez menos probabilidad. En cambio en la distribución uniforme, todos los valores tienen una misma probabilidad. La probabilidad de un puntaje no es una propiedad intrínseca del puntaje mismo, sino que depende del modelo de distribución de probabilidad que se asuma para el conjunto de datos.

Expresando en probabilidades un resultado en una distribución de datos

A continuación, usarás la primera distribución simulada, en la que usaste la media y desviación estándar reales de los puntajes TEPSI para calcular la probabilidad de obtener un puntaje inferior a 29. Luego, compara los resultados de la simulación con los datos reales. ¿Cuál es la probabilidad de que un niño(a) obtenga un puntaje inferior a 29 en los puntajes TEPSI simulados y reales?

Cálculo de probabilidad:

Code

# Probabilidad de X ≤ 29 en la dist_normal
pnorm(29, mean = 54.07, sd = 12.31)

output

[1] 0.0208473

Respuesta:

Haz clic aquí para expandir

Respuesta:

La probabilidad de obtener un puntaje T de 29 o menor en la distribución normal es 2.08%.

Clase 6

Distribuciones muestrales

Simulación de muestras de un universo y distribución muestral del promedio

En este ejercicio, usarás los puntajes del CBCL (cuyo promedio obtenido fue 53,73 puntos y la desviación estándar 22,91) como el universo del cual se tomarán muestras. Simula 1,000 muestras de tamaño n = 30 y calcula el promedio de cada muestra. Finalmente, visualiza la distribución de los promedios muestrales en un histograma y responde ¿Cómo se distribuyen los promedios de las muestras simuladas? ¿Qué observas sobre la forma de la distribución?

Construcción de medias de muestras:

Code

# Fijamos una semilla para que se reproduzcan siempre los mismos valores
set.seed(123)  

# Número de muestras
n_muestras <- 1000  

# Tamaño de cada muestra
n <- 30 

# Vector para almacenar los promedios de cada muestra
medias_muestras <- numeric(n_muestras)

# Elimina los NA antes de muestrear
datos_validos <- na.omit(data$cbcl_pb_tot)

# Simulación de 1000 muestras y cálculo de medias
for (i in 1:n_muestras) {
  muestra <- sample(datos_validos, size = n, replace = TRUE) 
  medias_muestras[i] <- mean(muestra)  
}

Histogramas de medias muestrales:

Code

# Histograma de distribución de los promedios muestrales
hist(medias_muestras, 
     breaks = 40, 
     main = "Distribución de las Medias Muestrales",
     xlab = "Medias de las Muestras",
     ylab = "Frecuencia")

plot

Respuesta:

Haz clic aquí para expandir

Respuesta:

La distribución de las medias muéstrales se asemeja a una distribución normal. Tiene forma de campana donde la mayor concentración está al medio y hay menos valores en los extremos.

El teorema del límite central y el efecto del tamaño muestral en la distribución muestral

Para observar cómo cambia la distribución muestral a medida que aumenta el tamaño de muestra, utiliza las simulaciones previas y agrega 1,000 muestras de tamaño n = 10, n = 50, y n = 100. Calcula el promedio y desviación estándar de cada muestra y visualiza en un histograma las distribuciones muestrales del promedio para cada tamaño muestral. Luego, compara los resultados: ¿Cómo cambia la distribución muestral del promedio conforme aumenta el tamaño de la muestra? ¿Qué sucede con la variabilidad de los promedios?

Distribución muestral:

Code

# Fijamos una semilla para que se reproduzcan siempre los mismos valores
set.seed(123)  

# Número de muestras
n_muestras <- 1000  

# Tamaños adicionales de cada muestra
tamano_muestras <- c(10, 50, 100)  

# Creamos una lista de resultados e incluimos directamente las medias simuladas anteriormente para n=30
resultados <- list("30" = list(medias = medias_muestras))  

# Generar nuevas muestras para n = 10, 50 y 100
for (n in tamano_muestras) {
  medias <- numeric(n_muestras)  
  
  for (i in 1:n_muestras) {
    muestra <- sample(datos_validos, size = n, replace = TRUE) 
    medias[i] <- mean(muestra) 
  }
  
  resultados[[as.character(n)]] <- list(medias = medias)
}

Histogramas de medias muestrales:

Code

# Uso mfrow para crear un lienzo con 2 filas y 2 columnas
par(mfrow = c(2, 2)) 

for (n in c(10, 30, 50, 100)) {  #
  hist(resultados[[as.character(n)]]$medias, breaks = 30, 
       main = paste("Distribución de Medias (n =", n, ")"),
       xlab = "Medias de las Muestras", 
       ylab = "Frecuencia")
}

plot

Descriptivos de medias muestrales:

Code

# Estadísticas de cada tamaño muestral
for (n in c(10, 30, 50, 100)) {
  cat("\nTamaño de muestra:", n)
  cat("\n  Media de medias:", mean(resultados[[as.character(n)]]$medias))
  cat("\n  Desviación estándar de medias:", sd(resultados[[as.character(n)]]$medias), "\n")
}

output


Tamaño de muestra: 10
  Media de medias: 53.5558
  Desviación estándar de medias: 7.116203 

Tamaño de muestra: 30
  Media de medias: 53.55323
  Desviación estándar de medias: 4.169374 

Tamaño de muestra: 50
  Media de medias: 53.76958
  Desviación estándar de medias: 3.250723 

Tamaño de muestra: 100
  Media de medias: 53.6234
  Desviación estándar de medias: 2.34356

Respuesta:

Haz clic aquí para expandir

Respuesta:

Si bien todas las distribuciones muestrales se asemejan a una distribución normal, a medida que aumenta el tamaño muestral, disminuye la variabilidad de los promedios y todos se concentran más hacia la media. La media permanece similar en todas las distribuciones.

Intervalos de confianza

A continuación, construiremos intervalos de confianza para el promedio poblacional de los puntajes CBCL basados en las muestras simuladas. Para ello, elige una muestra simulada de tamaño n = 50 y calcula el promedio y el intervalo de confianza al 95%. Finalmente, responde ¿Qué significa el intervalo de confianza en términos de la estimación del promedio poblacional?

Construcción intervalos de confianza:

Code

# Fijamos una semilla para que se reproduzcan siempre los mismos valores
set.seed(123)  

# Seleccionar una muestra aleatoria de tamaño n = 50
muestra_50 <- sample(datos_validos, size = 50, replace = TRUE) 

# Desviación estándar de la poblacion
sigma = 22.91

# Tamaño y promedio de la muestra
n = 50
x_barra <- mean(muestra_50)

# Calcular el valor Z para un 95%
Z <- abs( qnorm((1 - .95)/2) )

# Calcular error estándar
error_est <- sigma/sqrt(n)

# Calcular los límites
lim_inferior <- x_barra - ( Z * error_est )
lim_superior <- x_barra + ( Z * error_est )

# Intervalo de confianza al 95% redondeado
round(c(lim_inferior, lim_superior),2)

output

[1] 48.17 60.87

Respuesta:

Haz clic aquí para expandir

Respuesta:

El intervalo de confianza hace referencia a que, en este caso, podemos asegurar con un 95% de confianza que el promedio de la población se encuentra entre los puntajes 48.17 y 60.87.

Clase 7

La lógica del contraste de hipótesis en estadística con una media

El modelo de regresión base, Hipótesis nula, Hipótesis alternativa y El valor p

Vuelve sobre el primer modelo que creaste para la clase 2, el modelo nulo. En este, utilizamos el promedio de los puntajes obtenidos en el TEPSI para predecir el puntaje individual de cada niño de la muestra. En cambio, el segundo modelo que ajustaste introduce, además, el ingreso per cápita del hogar como variable predictora. ¿Cuál es la hipótesis que este segundo modelo está tratando de probar? Y si la hipótesis nula es aquella que niega los efectos de la variable predictora postulada en la hipótesis alternativa ¿Cuál sería la hipótesis nula dentro de este contexto? Responde estas mismas preguntas para el modelo de regresión que creaste para predecir el nivel de desarrollo psicomotor medido a través del BDI.

Respuesta:

Haz clic aquí para expandir

Respuesta:

Al probar el modelo ampliado usando el ingreso per cápita como predictor buscamos probar la hipótesis de que el ingreso per cápita del hogar de un niño tiene una relación significativa con su puntaje en la escala TEPSI. La hipótesis nula en este caso sería que no hay una relación significativa entre el ingreso per cápita del hogar de un niño y su puntaje en la escala TEPSI. Para el caso de la regresión que busca predecir el nivel de desarrollo psicomotor, la hipótesis que se busca probar es que el ingreso per cápita del hogar de un niño tiene una relación significativa con su puntaje de BDI. La hipótesis nula sería que no hay una relación significativa entre el ingreso per cápita del hogar de un niño y su puntaje de BDI.

Calcula el valor p para el ingreso per cápita del hogar en cada modelo, este nos indicará si dicha variable tiene un impacto significativo en el nivel de desarrollo psicomotor de los niños de entre 6 y 23 meses, en el caso del BDI, y de entre 24 y 59 meses, en el caso del TEPSI. Finalmente, responde: ¿El valor p asociado al ingreso per cápita es menor a 0.05? Si es así, ¿qué podemos concluir sobre las hipótesis alternativas formuladas?

Cálculo p-value:

Code

# Modelo TEPSI
summary(lm(data$tepsi_pt_tot ~ 1 + data$ingreso_per_cap))

output


Call:
lm(formula = data$tepsi_pt_tot ~ 1 + data$ingreso_per_cap)

Residuals:
    Min      1Q  Median      3Q     Max 
-40.730  -8.017   0.307   8.304  26.368 

Coefficients:
                      Estimate Std. Error t value Pr(>|t|)    
(Intercept)          5.360e+01  1.620e-01 330.875  < 2e-16 ***
data$ingreso_per_cap 4.128e-06  5.817e-07   7.097 1.41e-12 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 12.27 on 6873 degrees of freedom
  (3823 observations deleted due to missingness)
Multiple R-squared:  0.007274,  Adjusted R-squared:  0.00713 
F-statistic: 50.36 on 1 and 6873 DF,  p-value: 1.407e-12

Code

#Modelo BDI
summary(lm(data$bdi_pt_tot ~ 1 + data$ingreso_per_cap))

output


Call:
lm(formula = data$bdi_pt_tot ~ 1 + data$ingreso_per_cap)

Residuals:
     Min       1Q   Median       3Q      Max 
-23.6216 -14.0757  -0.1626  10.9045  24.0234 

Coefficients:
                      Estimate Std. Error t value Pr(>|t|)    
(Intercept)          4.496e+01  2.491e-01 180.532   <2e-16 ***
data$ingreso_per_cap 2.830e-06  1.102e-06   2.568   0.0103 *  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 13.4 on 3730 degrees of freedom
  (6966 observations deleted due to missingness)
Multiple R-squared:  0.001764,  Adjusted R-squared:  0.001497 
F-statistic: 6.593 on 1 and 3730 DF,  p-value: 0.01028

Respuesta:

Haz clic aquí para expandir

Respuesta:

En el modelo TEPSI se obtuvo un valor p de 1.41e-12. Este valor es mucho menor a 0.05 (e incluso menor a 0.001), por lo que podemos rechazar la hipótesis nula y decir que con un 95% de confianza (si consideramos solo que sea <0.05) la relación entre el ingreso per cápita del hogar de un niño y su puntaje en la escala TEPSI no fue por azar. En el modelo BDI se obtuvo un valor p de 0.0103. Este también es menor que 0.05, por lo que rechazamos la hipótesis nula y decimos con un 95% de confianza que la relación entre el ingreso per cápita del hogar y el puntaje BDI de un niño no se dio por azar.

Clase 8

Comparando medias de dos grupos I

El modelo de regresión con predictor dicotómico

El Test de Vocabulario en Imágenes Peabody (TVIP) es una herramienta psicométrica diseñada para medir el vocabulario receptivo o auditivo de un individuo, evaluando su capacidad para entender palabras al escuchar su significado. Este ejercicio tiene como objetivo evaluar si el nivel educacional de la madre influye en el desarrollo del vocabulario receptivo de los niños, utilizando los puntajes de TVIP (Test de Vocabulario en Imágenes Peabody) como variable dependiente. Para ello,

Codifica el nivel educacional de la madre como una variable dicotómica: Baja escolaridad (0): Incluye las categorías Sin educación formal, Básica Incompleta, Básica Completa, y Media Incompleta. Alta escolaridad (1): Incluye Media Completa, Técnica Superior, y Universitaria.

Recodificación de edu_madre:

Code

# Creamos una nueva variable como factor vacía para guardar los valores recodificados
data$edu_madre2 <- factor(NA, levels = c("Baja escolaridad", "Alta escolaridad")) #**CÓDIGO CORREGIDO**

# Asignamos los valores recodificados
data$edu_madre2[data$edu_madre <= 7] <- "Baja escolaridad"
data$edu_madre2[data$edu_madre > 7] <- "Alta escolaridad"

# Crear variable dummy 
data$edu_madre_dicotomico <- as.numeric(data$edu_madre2 == "Alta escolaridad")

Crea un modelo de regresión lineal donde la variable dependiente sea el puntaje de TVIP y la variable independiente sea la escolaridad de la madre (alta o baja). Visualiza los resultados utilizando un boxplot que compare los puntajes del TVIP entre ambos grupos.

Modelo de regresión lineal:

Code

# Modelo de regresión
summary(lm(data$tvip_pt ~ 1 + data$edu_madre_dicotomico))

output


Call:
lm(formula = data$tvip_pt ~ 1 + data$edu_madre_dicotomico)

Residuals:
    Min      1Q  Median      3Q     Max 
-41.881  -9.881  -1.881   9.119  47.797 

Coefficients:
                          Estimate Std. Error t value Pr(>|t|)    
(Intercept)                97.2030     0.4738  205.16   <2e-16 ***
data$edu_madre_dicotomico   7.6779     0.5249   14.63   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 15.06 on 5450 degrees of freedom
  (5246 observations deleted due to missingness)
Multiple R-squared:  0.03777,   Adjusted R-squared:  0.0376 
F-statistic:   214 on 1 and 5450 DF,  p-value: < 2.2e-16

Code

# Boxplot de comparación de puntajes
boxplot(data$tvip_pt ~ data$edu_madre2,
        ylab = "Puntaje TVIP",
        xlab = "Escolaridad de la madre")

plot

Finalmente, interpreta los resultados del modelo: La pendiente del modelo indicará el cambio promedio en el puntaje de TVIP asociado a un cambio en el nivel de escolaridad de la madre (de baja a alta), mientras que el valor p asociado al predictor indicará si la escolaridad de la madre es un factor significativo para predecir el vocabulario receptivo de los niños.

Respuesta:

Haz clic aquí para expandir

Respuesta:

El modelo indica que a mayor educación de la madre, habrán mayores puntajes en el TVIP, y que esta relación es estadísticamente significativa (p-value < .05). Como es una variable predictora dicotómica que divide en 2 grupos (madre con alta escolaridad vs baja escolaridad), la pendiente nos indica la diferencia en TVIP en función de la pertenencia a un grupo o al otro. Por lo tanto, en este caso, tener una madre con alta escolaridad predice un aumento de 7,68 puntos aproximadamente en el puntaje de TVIP de los niños.

Es decir, cuando la madre tiene educación media o superior, el vocabulario receptivo de los niños (medido por el TVIP) es mayor en un promedio de 7,68 puntos, y esta diferencia es estadísticamente significativa.

Clase 9

Comparando medias de dos grupos II

Comparación con Prueba z

La lactancia materna ha sido asociada con beneficios en el desarrollo cognitivo de los niños (Anderson, Johnstone, & Remley, 1999; Mortensen, Michaelsen, Sanders, & Reinisch, 2002). En este ejercicio, compararemos los puntajes en el área cognitiva del Inventario de Desarrollo Battelle (BDI) entre los niños que fueron amamantados por la madre biológica y aquellos que no lo fueron. Para ello,

Calcula la media y desviación estándar de los puntajes en el área cognitiva del BDI de cada grupo y realiza una prueba z, asumiendo que tenemos una muestra grande y que conocemos las desviaciones estándar de la población.

Descriptivos según grupo:

Code

# Se utiliza la función 'describeBy' para obtener los descriptivos según grupo.
describe.by(data$bdi_pt_cog,data$amamantado)

Warning in describe.by(data$bdi_pt_cog, data$amamantado): describe.by is
deprecated.  Please use the describeBy function

output


 Descriptive statistics by group 
group: 1
    vars    n  mean   sd median trimmed mad min max range skew kurtosis   se
X1*    1 3580 10.18 7.24     10    9.78 8.9   1  25    24 0.23    -1.12 0.12
------------------------------------------------------------ 
group: 2
    vars   n mean   sd median trimmed   mad min max range skew kurtosis   se
X1*    1 152 9.16 7.07      9    8.62 10.38   1  24    23 0.33    -1.15 0.57

Prueba Z:

Code

# Almacenar valores relevantes
media1 <- 44.28
media2 <- 42.52
sd1 <- 12.95
sd2 <- 12.95
n1 <- 3580
n2 <- 152

# Calcular el estadístico z
z <- (media1 - media2) / sqrt((sd1^2 / n1) + (sd2^2 / n2))
z

output

[1] 1.641101

Code

# Calcular el valor p (prueba bilateral)
p_valor <- 2 * (1 - pnorm(abs(z)))
p_valor

output

[1] 0.1007764

Luego, utiliza un boxplot para visualizar los resultados y evalúa si hay diferencias significativas entre los dos grupos.

Boxplots por grupo:

Code

# Boxplot de comparación de puntajes
boxplot(data$bdi_pt_cog ~ data$amamantado,
        ylab = "Puntaje BDI cognitivo",
        xlab = "Amamantado por la madre")

plot

Respuesta:

Haz clic aquí para expandir

Respuesta:

En este caso no hay diferencias significativas entre los grupos (con un 95% de confianza), pues el p-value calculado en función del puntaje Z es mayor a 0.05. En este caso, el valor p es 0.1 aproximadamente, lo que significa que la probabilidad de conseguir un valor de Z así o más extremo bajo la hipótesis nula es de 0.1.

Es decir, las diferencias en el desarrollo cognitivo (medido según BDI) entre los niños que fueron amamantados por sus madres y los que no, no son estadísticamente significativas.

Comparación con prueba t

El consumo de alcohol durante el embarazo puede tener efectos negativos en el desarrollo psicomotor de los niños. En este ejercicio, compararemos los resultados del Test de Desarrollo Psicomotor (TEPSI) entre los niños cuyas madres consumieron alcohol regularmente durante el embarazo y aquellos cuyas madres nunca consumieron alcohol durante el embarazo. Para ello,

asumiendo varianzas iguales, realiza una prueba t para comparar las medias de los puntajes TEPSI entre los dos grupos.

Prueba t:

Code

t.test(data$tepsi_pt_tot ~ data$cons_alco, var.equal = TRUE)

output


    Two Sample t-test

data:  data$tepsi_pt_tot by data$cons_alco
t = 0.58866, df = 6873, p-value = 0.5561
alternative hypothesis: true difference in means between group 1 and group 2 is not equal to 0
95 percent confidence interval:
 -0.8189328  1.5218399
sample estimates:
mean in group 1 mean in group 2 
       54.09487        53.74342

Finalmente, realiza un boxplot para visualizar los resultados y evalúa si hay diferencias significativas en el desarrollo psicomotor de cada condición.

Boxplots por grupo:

Code

boxplot(data$tepsi_pt_tot ~ data$cons_alco,
        ylab = "Puntaje TEPSI",
        xlab = "Consumo de alcohol de la madre")

plot

Respuesta:

Haz clic aquí para expandir

Respuesta:

En este caso no se encontraron diferencias significativas entre ambos grupos, lo que se observa en un valor p mucho mayor a .05 y un intervalo de confianza que incluye el 0. Por lo tanto, en esta muestra las diferencias en el desarrollo psicomotor (según TEPSI) entre aquellos niños cuya madre consumió alcohol en el embarazo y aquellos en que su madre no lo hizo, no son estadísticamente significativas.

Ahora, vuelve a realizar una prueba t de dos muestras independientes para comparar los puntajes TEPSI entre las mismas dos condiciones del ejercicio anterior, pero esta vez sin asumir varianzas iguales. Visualiza los resultados utilizando un boxplot y, fíjate en cómo cambian los grados de libertad entre esta prueba y la del primer ejercicio (asumiendo varianzas iguales). Compara los resultados obtenidos en ambas pruebas y discute las diferencias: ¿Existen diferencias en los resultados entre la prueba t con varianzas iguales y la que no asume varianzas iguales? ¿Cómo afectan los grados de libertad a los resultados? ¿El modelo de regresión proporciona resultados consistentes con ambas pruebas t?

Prueba T sin asumir varianzas iguales:

Code

# Prueba T sin asumir varianzas iguales 
t.test(data$tepsi_pt_tot ~ data$cons_alco, var.equal = FALSE)

output


    Welch Two Sample t-test

data:  data$tepsi_pt_tot by data$cons_alco
t = 0.59414, df = 523.24, p-value = 0.5527
alternative hypothesis: true difference in means between group 1 and group 2 is not equal to 0
95 percent confidence interval:
 -0.8106154  1.5135225
sample estimates:
mean in group 1 mean in group 2 
       54.09487        53.74342

Code

boxplot(data$tepsi_pt_tot ~ data$cons_alco,
        ylab = "Puntaje TEPSI",
        xlab = "Consumo de alcohol de la madre")

plot

Code

#Modelo de regresión para las mismas variables
summary(lm(tepsi_pt_tot ~ cons_alco, data = data))

output


Call:
lm(formula = tepsi_pt_tot ~ cons_alco, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-35.095  -8.095   0.905   8.905  26.257 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  54.4463     0.6537  83.283   <2e-16 ***
cons_alco    -0.3515     0.5970  -0.589    0.556    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 12.32 on 6873 degrees of freedom
  (3823 observations deleted due to missingness)
Multiple R-squared:  5.041e-05, Adjusted R-squared:  -9.507e-05 
F-statistic: 0.3465 on 1 and 6873 DF,  p-value: 0.5561

Respuesta:

Haz clic aquí para expandir

Respuesta:

Los resultados entre ambas pruebas son similares, en tanto en ninguna de ellas se alcanza la significancia estadística.

Ahora bien, en el caso de asumir varianzas distintas los grados de libertad son menores, y deja de ser un número entero, pues la estimación de ellos es más conservadora en este tipo de prueba t. Esto provoca que la distribución t aumente su curtosis, derivando normalmente en p-values más grandes, con algunas excepciones.

En este caso los valores p son muy similares, ya que la varianza de ambos grupos es la misma (12.95), por lo que asumir varianzas iguales es correcto.

El modelo de regresión presenta resultados consistentes, mostrando el mismo valor y el mismo p-value que la prueba t asumiendo varianzas iguales, y agrega la dirección de la relación. La coincidencia con la prueba t de varianzas iguales se debe al supuesto de homocedasticidad de las regresiones lineales, que asume que la varianza de los errores es constante.

Comparación con ANOVA

A continuación, analizaremos cómo varían los puntajes del área cognitiva del Inventario de Desarrollo Battelle (BDI) entre los diferentes niveles educativos del cuidador principal (variable edu_cuid)

En este caso, la variable de nivel educativo tiene 22 respuestas posibles, así que la recodificaremos en: sin educación formal, educación básica, educación media, técnica superior completa, universitaria completa, universitaria de posgrado, y no sabe o no responde.

Haz clic aquí para ver el libro de códigos de la variable, es decir, a qué nivel educacional corresponde cada número.

Libro de códigos de la variable

¿A qué Nivel educacional corresponde?

Sala Cuna
Jardín Infantil
Pre Kinder
Kinder
Preparatoria (Sistema Antiguo)
Educación Básica
Educación Diferencial
Humanidades (Sistema Antiguo)
Educación Media Científico-Humanista
Técnica, Comercial, Industrial o Normalista (Sistema Antiguo)
Educación Media Técnico Profesional
Centro de Formación Técnica incompleta (sin título)
Centro de Formación Técnica completa (con título)
Instituto Profesional incompleta (sin título)
Instituto Profesional completa (con título)
Educación Universitaria incompleta (sin título)
Educación Universitaria completa (con título)
Universitaria de Postgrado
Ninguno
No responde
No sabe

Para ello,

realiza un análisis ANOVA de un factor para comparar los puntajes del BDI entre los diferentes niveles educativos.

ANOVA:

Code

#Recodificamos la variable
# Creamos un vector vacío (inicialmente NA) del mismo largo que edu_cuid
data$edu_cuid2 <- rep(NA_character_, length(data$edu_cuid))
#Creamos las categorías
data$edu_cuid2[data$edu_cuid == 19] <- "Sin educación formal"
data$edu_cuid2[data$edu_cuid <= 7] <- "Educación básica"
data$edu_cuid2[data$edu_cuid %in% c(8:12, 14, 16)] <- "Educación media" #Completa, incluye estudios universitarios/técnicos incompletos.
data$edu_cuid2[data$edu_cuid == 13 | data$edu_cuid == 15] <- "Técnico superior"
data$edu_cuid2[data$edu_cuid == 17] <- "Universitaria"
data$edu_cuid2[data$edu_cuid == 18] <- "Universitaria de posgrado"
data$edu_cuid2[data$edu_cuid >= 88] <- "No sabe o no responde"
#Convertimos la variable en factores
data$edu_cuid2 <- factor(data$edu_cuid2, levels = c(
  "Sin educación formal",
  "Educación básica",
  "Educación media",
  "Técnico superior",
  "Universitaria",
  "Universitaria de posgrado",
  "No sabe o no responde"))

#Creamos el ANOVA
anova_BDI_cog_edu_cuid <- aov(data$bdi_pt_cog ~ edu_cuid2, data = data)
#Para saber el reporte del ANOVA usamos summary del objeto
summary(anova_BDI_cog_edu_cuid)

output

              Df Sum Sq Mean Sq F value   Pr(>F)    
edu_cuid2      6   4634   772.4   4.628 0.000108 ***
Residuals   3725 621701   166.9                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
6966 observations deleted due to missingness

Posteriormente, interpreta los resultados del ANOVA y,
si hay diferencias significativas en los niveles de desarrollo cognitivo entre los grupos de nivel educativo del cuidador, realiza una prueba post-hoc de Tukey para identificar qué grupos específicos tienen diferencias significativas.

Prueba post-hoc de Tukey:

Code

TukeyHSD(anova_BDI_cog_edu_cuid)

output

  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = data$bdi_pt_cog ~ edu_cuid2, data = data)

$edu_cuid2
                                                      diff         lwr
Educación básica-Sin educación formal           -0.2117840 -10.1718321
Educación media-Sin educación formal             1.9671171  -7.9005417
Técnico superior-Sin educación formal            2.6656566  -7.5402616
Universitaria-Sin educación formal               4.5120879  -5.7253739
Universitaria de posgrado-Sin educación formal   5.4214286  -6.7726809
No sabe o no responde-Sin educación formal       4.1294118  -7.6834047
Educación media-Educación básica                 2.1789011   0.4694430
Técnico superior-Educación básica                2.8774405  -0.2390195
Universitaria-Educación básica                   4.7238719   1.5056143
Universitaria de posgrado-Educación básica       5.6332125  -1.7321023
No sabe o no responde-Educación básica           4.3411957  -2.3740251
Técnico superior-Educación media                 0.6985394  -2.1086752
Universitaria-Educación media                    2.5449708  -0.3748430
Universitaria de posgrado-Educación media        3.4543115  -3.7855775
No sabe o no responde-Educación media            2.1622946  -4.4151153
Universitaria-Técnico superior                   1.8464313  -2.0670567
Universitaria de posgrado-Técnico superior       2.7557720  -4.9387760
No sabe o no responde-Técnico superior           1.4637552  -5.6110167
Universitaria de posgrado-Universitaria          0.9093407  -6.8269975
No sabe o no responde-Universitaria             -0.3826761  -7.5028767
No sabe o no responde-Universitaria de posgrado -1.2920168 -11.0176498
                                                      upr     p adj
Educación básica-Sin educación formal            9.748264 1.0000000
Educación media-Sin educación formal            11.834776 0.9971634
Técnico superior-Sin educación formal           12.871575 0.9877056
Universitaria-Sin educación formal              14.749550 0.8521177
Universitaria de posgrado-Sin educación formal  17.615538 0.8468082
No sabe o no responde-Sin educación formal      15.942228 0.9468907
Educación media-Educación básica                 3.888359 0.0032689
Técnico superior-Educación básica                5.993901 0.0926618
Universitaria-Educación básica                   7.942129 0.0003075
Universitaria de posgrado-Educación básica      12.998527 0.2659242
No sabe o no responde-Educación básica          11.056417 0.4756452
Técnico superior-Educación media                 3.505754 0.9904889
Universitaria-Educación media                    5.464785 0.1351296
Universitaria de posgrado-Educación media       10.694200 0.7980298
No sabe o no responde-Educación media            8.739705 0.9604469
Universitaria-Técnico superior                   5.759919 0.8064541
Universitaria de posgrado-Técnico superior      10.450320 0.9404837
No sabe o no responde-Técnico superior           8.538527 0.9965138
Universitaria de posgrado-Universitaria          8.645679 0.9998625
No sabe o no responde-Universitaria              6.737524 0.9999987
No sabe o no responde-Universitaria de posgrado  8.433616 0.9997194

Visualiza estas diferencias utilizando un boxplot que represente las medias de desarrollo cognitivo para cada nivel educativo del cuidador.

Boxplots por grupo:

Code

boxplot(data$bdi_pt_cog ~ data$edu_cuid2,
        ylab = "Puntaje BDI cognitivo",
        xlab = "Nivel educacional cuidador",
        las = 2, #nombres VI en vertical
        par(mar = c(10, 4, 4, 2))) #poner más espacio debajo para que se lean los nombres

plot

Respuesta:

Haz clic aquí para expandir

Respuesta:

El ANOVA nos indica que sí existen diferencias significativas en el puntaje de desarrollo cognitivo (según BDI) entre los grupos según nivel educacional del cuidador principal, pues el p-value asociado es menor a 0.05 (asumiendo un 95% de confianza).

Al realizar la prueba post-hoc de Tukey, vemos que hay diferencias significativas (asumiendo un 95% de confianza) en el puntaje de desarrollo cognitivo entre los niños cuyo cuidador principal solo terminó la Educación Básica y aquellos en que completó la Educación Media (p-value = 0.0032689) o la Educación Universitaria (p-value = 0.0003075).

Clase 10

Comparando medias de tres o más grupos ll

El modelo de regresión con un predictor politómico

Un cuidador con mayor nivel educativo podría tener acceso a mejores recursos y conocimientos que promuevan el aprendizaje y el desarrollo de los niños en un entorno enriquecedor. Este ejercicio tiene como objetivo analizar si existen diferencias en el desarrollo cognitivo y psicomotor de los niños en función del nivel educativo del cuidador(a) principal, para ello, utilizaremos los puntajes del BDI y la información sobre el nivel educativo alcanzado por los cuidadores principales del niño(a). Con estas variables,

realiza un ANOVA que te permita comparar las medias del desarrollo cognitivo y psicomotor de los niños entre los diferentes niveles educativos del cuidador(a) principal.

ANOVA:

Code

anova_BDI <- aov(bdi_pt_tot ~ data$edu_cuid2, data = data)
summary(anova_BDI)

output

                 Df Sum Sq Mean Sq F value   Pr(>F)    
data$edu_cuid2    6   5926   987.6   5.534 1.01e-05 ***
Residuals      3725 664786   178.5                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
6966 observations deleted due to missingness

Si el resultado del ANOVA indica diferencias significativas, realiza una prueba post hoc (como la prueba de Tukey) para identificar diferencias específicas entre los niveles educativos.

Prueba post-hoc de Tukey:

Code

TukeyHSD(anova_BDI)

output

  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = bdi_pt_tot ~ data$edu_cuid2, data = data)

$`data$edu_cuid2`
                                                       diff        lwr
Educación básica-Sin educación formal            2.17326787 -8.1261237
Educación media-Sin educación formal             5.23641141 -4.9674430
Técnico superior-Sin educación formal            5.13939394 -5.4142445
Universitaria-Sin educación formal               6.74761905 -3.8386378
Universitaria de posgrado-Sin educación formal   5.64047619 -6.9690921
No sabe o no responde-Sin educación formal       6.70980392 -5.5054806
Educación media-Educación básica                 3.06314354  1.2954435
Técnico superior-Educación básica                2.96612607 -0.2565132
Universitaria-Educación básica                   4.57435118  1.2464461
Universitaria de posgrado-Educación básica       3.46720832 -4.1490461
No sabe o no responde-Educación básica           4.53653605 -2.4074754
Técnico superior-Educación media                -0.09701747 -2.9998752
Universitaria-Educación media                    1.51120764 -1.5080855
Universitaria de posgrado-Educación media        0.40406478 -7.0824905
No sabe o no responde-Educación media            1.47339251 -5.3281128
Universitaria-Técnico superior                   1.60822511 -2.4385973
Universitaria de posgrado-Técnico superior       0.50108225 -7.4556225
No sabe o no responde-Técnico superior           1.57040998 -5.7454027
Universitaria de posgrado-Universitaria         -1.10714286 -9.1070616
No sabe o no responde-Universitaria             -0.03781513 -7.4006042
No sabe o no responde-Universitaria de posgrado  1.06932773 -8.9876620
                                                      upr     p adj
Educación básica-Sin educación formal           12.472659 0.9961135
Educación media-Sin educación formal            15.440266 0.7366132
Técnico superior-Sin educación formal           15.693032 0.7819472
Universitaria-Sin educación formal              17.333876 0.4936107
Universitaria de posgrado-Sin educación formal  18.250044 0.8429925
No sabe o no responde-Sin educación formal      18.925088 0.6691184
Educación media-Educación básica                 4.830844 0.0000070
Técnico superior-Educación básica                6.188765 0.0947241
Universitaria-Educación básica                   7.902256 0.0010055
Universitaria de posgrado-Educación básica      11.083463 0.8316079
No sabe o no responde-Educación básica          11.480548 0.4622292
Técnico superior-Educación media                 2.805840 0.9999999
Universitaria-Educación media                    4.530501 0.7589648
Universitaria de posgrado-Educación media        7.890620 0.9999986
No sabe o no responde-Educación media            8.274898 0.9955091
Universitaria-Técnico superior                   5.655048 0.9046054
Universitaria de posgrado-Técnico superior       8.457787 0.9999966
No sabe o no responde-Técnico superior           8.886223 0.9957286
Universitaria de posgrado-Universitaria          6.892776 0.9996443
No sabe o no responde-Universitaria              7.324974 1.0000000
No sabe o no responde-Universitaria de posgrado 11.126317 0.9999236

Finalmente, interpreta los resultados obtenidos a partir del análisis.

Respuesta:

Haz clic aquí para expandir

Respuesta:

El ANOVA nos indica que sí existen diferencias significativas en el puntaje de desarrollo cognitivo y psicomotor (según el puntaje BDI total) entre los grupos según nivel educacional del cuidador principal, pues el p-value asociado es menor a 0.05 (asumiendo un 95% de confianza).

Al realizar la prueba post-hoc de Tukey, vemos que hay diferencias significativas (asumiendo un 95% de confianza) en el puntaje total de BDI entre los niños cuyo cuidador principal solo terminó la Educación Básica y aquellos en que completó la Educación Media (p-value = 0.0000070) o la Educación Universitaria (p-value = 0.0010055).

Estos resultados son consistentes con los encontrados en el ejercicio anterior respecto al puntaje específico de desarrollo cognitivo.

Clase 12

Regresión múltiple I

Dos variables dicotómicas (e interacción)

El desarrollo psicomotor de los niños puede verse afectado por el consumo de sustancias durante el embarazo. Este ejercicio tiene como objetivo analizar si existe una relación entre el desarrollo psicomotor de los niños, medido por el Inventario de Desarrollo Battelle (BDI), y el consumo de cigarrillos y alcohol por parte de las madres durante el embarazo. Para ello,

Convierte a dummy variables las variables de consumo de alcohol y cigarrillos, respectivamente. Originalmente las variables tienen valores 1 (no consumió) y 2 (sí consumió). Por lo tanto, conviértelas a los siguientes valores:
- No consume (0)
- Cualquier consumo (1) De esta manera, ambas variables quedarán como variables dicotómicas indicadoras.

Construcción variables dummy:

Code

# Creamos una nueva variable como factor vacía para guardar los valores recodificados
data$cons_alco2 <- factor(NA, levels = c("No consume", "Cualquier consumo"))

data$cons_cig2 <- factor(NA, levels = c("No consume", "Cualquier consumo"))

# Asignamos los valores recodificados
data$cons_alco2[data$cons_alco == 1] <- "No consume"
data$cons_alco2[data$cons_alco >= 2] <- "Cualquier consumo"

data$cons_cig2[data$cons_cig == 1] <- "No consume"
data$cons_cig2[data$cons_cig >= 2] <- "Cualquier consumo"

# Creamos variable dummy
data$cons_alco_dicotomico <- as.numeric(data$cons_alco2 == "Cualquier consumo")

data$cons_cig_dicotomico <- as.numeric(data$cons_cig2 == "Cualquier consumo")

crea un modelo de regresión múltiple que incluya las variables recodificadas de consumo de cigarrillos y consumo de alcohol, además de su interacción para predecir el desarrollo psicomotor (BDI).

Modelo de regresión múltiple:

Code

summary(lm(bdi_pt_tot ~ 1 + cons_alco_dicotomico + cons_cig_dicotomico + cons_alco_dicotomico:cons_cig_dicotomico, data = data))

output


Call:
lm(formula = bdi_pt_tot ~ 1 + cons_alco_dicotomico + cons_cig_dicotomico + 
    cons_alco_dicotomico:cons_cig_dicotomico, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-19.6418 -14.2831  -0.2831  10.7169  24.4593 

Coefficients:
                                         Estimate Std. Error t value Pr(>|t|)
(Intercept)                               44.5407     0.7230  61.606   <2e-16
cons_alco_dicotomico                       2.1011     1.7907   1.173    0.241
cons_cig_dicotomico                        0.7424     0.7619   0.974    0.330
cons_alco_dicotomico:cons_cig_dicotomico  -1.6282     2.0309  -0.802    0.423
                                            
(Intercept)                              ***
cons_alco_dicotomico                        
cons_cig_dicotomico                         
cons_alco_dicotomico:cons_cig_dicotomico    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 13.41 on 3728 degrees of freedom
  (6966 observations deleted due to missingness)
Multiple R-squared:  0.0005351, Adjusted R-squared:  -0.0002692 
F-statistic: 0.6653 on 3 and 3728 DF,  p-value: 0.5733

Luego, evalúa los coeficientes de regresión y la significancia de las variables, incluyendo la interacción, y responde ¿Existen diferencias significativas en el desarrollo psicomotor de los niños según el consumo de cigarrillos y alcohol por parte de las madres durante el embarazo, y cómo interactúan estos dos factores en su efecto sobre el desarrollo psicomotor?

Respuesta:

Haz clic aquí para expandir

Respuesta:

Los coeficientes de regresión son β0 = 44.54, β1 = 2.1, β2 = 0.74 y β3 =-1.63.

En base ello, podemos inferir que las medias en el puntaje total en BDI son:

Para el grupo cuya madre no consumió de alcohol ni cigarrillos: 44.54
Para el grupo cuya madre consumió sólo alcohol: 46.64
Para el grupo cuya madre consumió solo cigarrillos: 45.28
Para el grupo cuya madre consumió ambas: 45.75

Ahora bien, estas diferencias NO son significativas, pues los p-value son mucho mayores a .05.

Por lo tanto, NO existen diferencias significativas en el desarrollo psicomotor de los niños según el consumo de cigarrillos y alcohol por parte de las madres durante el embarazo, y estos factores no tienen una interacción estadísticamente significativa al predecir el desarrollo psicomotor.

Covarianza, correlación de Pearson y matrices de correlaciones

El desarrollo socioemocional de los niños está influenciado por múltiples factores, y uno de ellos es el entorno familiar y, en particular, las características socioemocionales de los cuidadores principales. Para analizar esta relación, utilizaremos dos instrumentos: (1) el ASQ (Ages and Stages Questionnaires: Social Emotional), que evalúa el desarrollo socioemocional de los niños, midiendo factores como la regulación emocional, la interacción social y el comportamiento; y (2) el Big Five Inventory (BFI), que mide cinco dimensiones de la personalidad de los cuidadores: Neuroticismo, Extraversión, Apertura a la experiencia, Amabilidad, y Responsabilidad. Nuestro objetivo es responder a la pregunta ¿Qué dimensiones del Big Five Inventory (BFI) se correlacionan más fuertemente con el desarrollo socioemocional de los niños medido por el ASQ? Para ello,

Calcula la covarianza entre los puntajes de desarrollo socioemocional de los niños (ASQ) y cada una de las cinco dimensiones del BFI.

Cálculo de covarianza:

Code

covs <- cov(data[, c("asq", "bfi_pb_ama", "bfi_pb_ext", "bfi_pb_res", "bfi_pb_neu", "bfi_pb_ape")], use = "complete.obs")
covs[1, -1]

output

bfi_pb_ama bfi_pb_ext bfi_pb_res bfi_pb_neu bfi_pb_ape 
 -2.632317  -1.934433  -3.190053   4.336946  -2.821496

Code

covs

output

                  asq  bfi_pb_ama  bfi_pb_ext  bfi_pb_res bfi_pb_neu
asq        422.522419 -2.63231700 -1.93443281 -3.19005280  4.3369464
bfi_pb_ama  -2.632317  0.37411732  0.06155896  0.11373382 -0.1933197
bfi_pb_ext  -1.934433  0.06155896  0.54124264  0.06464262 -0.1208068
bfi_pb_res  -3.190053  0.11373382  0.06464262  0.34004706 -0.1444559
bfi_pb_neu   4.336946 -0.19331971 -0.12080685 -0.14445594  0.6786301
bfi_pb_ape  -2.821496  0.08243822  0.16707124  0.11278187 -0.1050742
            bfi_pb_ape
asq        -2.82149610
bfi_pb_ama  0.08243822
bfi_pb_ext  0.16707124
bfi_pb_res  0.11278187
bfi_pb_neu -0.10507421
bfi_pb_ape  0.40095148

Finalmente, genera una matriz de correlaciones entre ambas variables e interpreta los resultados respondiendo a la pregunta anterior.

Matriz de correlaciones:

Code

# Calcular la matriz de correlación con datos completos
corrs <- cor(data[, c("asq", "bfi_pb_ama", "bfi_pb_ext", "bfi_pb_res", "bfi_pb_neu", "bfi_pb_ape")], use = "complete.obs")

# Extraer la primera fila sin el primer elemento
corrs1 <- corrs[1, -1]
corrs1

output

bfi_pb_ama bfi_pb_ext bfi_pb_res bfi_pb_neu bfi_pb_ape 
-0.2093676 -0.1279183 -0.2661359  0.2561195 -0.2167747

Code

corrs

output

                  asq bfi_pb_ama bfi_pb_ext bfi_pb_res bfi_pb_neu bfi_pb_ape
asq         1.0000000 -0.2093676 -0.1279183 -0.2661359  0.2561195 -0.2167747
bfi_pb_ama -0.2093676  1.0000000  0.1368016  0.3188719 -0.3836681  0.2128525
bfi_pb_ext -0.1279183  0.1368016  1.0000000  0.1506793 -0.1993329  0.3586409
bfi_pb_res -0.2661359  0.3188719  0.1506793  1.0000000 -0.3007110  0.3054385
bfi_pb_neu  0.2561195 -0.3836681 -0.1993329 -0.3007110  1.0000000 -0.2014344
bfi_pb_ape -0.2167747  0.2128525  0.3586409  0.3054385 -0.2014344  1.0000000

Respuesta:

Haz clic aquí para expandir

Respuesta:

Las dimensiones del Big Five que más se correlacionan con el desarrollo socioemocional de los niños (medido por el ASQ) son la Responsabilidad (r = -0.27) y el Neuroticismo (r = 0.26).

Es decir, hay una correlación pequeña entre estos rasgos de personalidad y el desarrollo socioemocional de los niños, negativa en el caso de la Responsabilidad, y positiva en el caso del Neuroticismo.

También hay correlaciones más pequeñas entre el ASQ y la Amabilidad (r = -0.21), la Apertura a la Experiencia (r = -0.22) y la Extraversión (r = -0.13)

En el estudio, también se utilizaron dos subescalas del WAIS (Escala de Inteligencia para Adultos de Wechsler) para evaluar las capacidades cognitivas de los cuidadores: Vocabulario y Retención de Dígitos. Estos puntajes estandarizados permiten medir el nivel de inteligencia del cuidador en relación con su grupo etario. A continuación, responderemos a la pregunta: ¿El nivel cognitivo de los niños se correlaciona mejor con la subescala de Vocabulario o Retención de Dígitos del WAIS, o con ambas por igual? Para ello,

calcula la covarianza y correlación de Pearson, utilizando los puntajes del área cognitiva de los niños, medida por el BDI, y las subescalas del WAIS para los cuidadores.

Cálculo de covarianza:

Code

covs <- cov(data[, c("bdi_pt_cog","wais_pt_num", "wais_pt_vo")], use = "complete.obs")
covs[1, -1]

output

wais_pt_num  wais_pt_vo 
   2.743922    7.688851

Muestra las correlaciones generando una matriz y

Matriz de correlaciones:

Code

# Calcular la matriz de correlación con datos completos
corrs <- cor(data[, c("bdi_pt_cog","wais_pt_num", "wais_pt_vo")], use = "complete.obs")

# Extraer la primera fila sin el primer elemento
corrs1 <- corrs[1, -1]
corrs1

output

wais_pt_num  wais_pt_vo 
 0.07884527  0.16755880

Code

corrs

output

            bdi_pt_cog wais_pt_num wais_pt_vo
bdi_pt_cog  1.00000000  0.07884527  0.1675588
wais_pt_num 0.07884527  1.00000000  0.3906240
wais_pt_vo  0.16755880  0.39062400  1.0000000

determina si existe una correlación más fuerte entre el nivel cognitivo de los niños y una subescala del WAIS, o si ambas subescalas tienen una correlación similar.

Respuesta:

Haz clic aquí para expandir

Respuesta:

El nivel cognitivo de los niños (según BDI) se correlaciona mejor con la subprueba de vocabulario (r = 0.17) que con la subprueba de retención de dígitos (r = 0.08)

Clase 13

Regresión múltiple II

Una variable cuantitativa y una dicotómica (e interacción)

Este ejercicio tiene como objetivo analizar el desarrollo cognitivo de los niños, medido por el Inventario de Desarrollo Battelle (BDI), en función del ingreso per cápita y la composición familiar. Para ello,

Crea un modelo de regresión múltiple que incluya estas variables y su interacción para predecir el desarrollo cognitivo (BDI).
Luego, evalúa los coeficientes de regresión y la significancia de los tres predictores (ingreso per cápita, composición familiar e interacción), ¿Existen diferencias significativas en el desarrollo cognitivo de los niños según el ingreso per cápita? ¿cómo afecta la composición familiar esta relación?

Modelo de regresión múltiple:

Code

summary(lm(data$bdi_pt_tot ~ 1 + data$ingreso_per_cap + data$comp_hogar + data$ingreso_per_cap:data$comp_hogar))

output


Call:
lm(formula = data$bdi_pt_tot ~ 1 + data$ingreso_per_cap + data$comp_hogar + 
    data$ingreso_per_cap:data$comp_hogar)

Residuals:
     Min       1Q   Median       3Q      Max 
-22.5953 -14.0733  -0.1769  10.8792  24.0788 

Coefficients:
                                                   Estimate Std. Error t value
(Intercept)                                       4.490e+01  2.993e-01 150.042
data$ingreso_per_cap                              3.380e-06  1.208e-06   2.797
data$comp_hogarmonoparental                       2.760e-01  5.457e-01   0.506
data$ingreso_per_cap:data$comp_hogarmonoparental -3.429e-06  3.004e-06  -1.142
                                                 Pr(>|t|)    
(Intercept)                                       < 2e-16 ***
data$ingreso_per_cap                              0.00518 ** 
data$comp_hogarmonoparental                       0.61301    
data$ingreso_per_cap:data$comp_hogarmonoparental  0.25370    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 13.4 on 3728 degrees of freedom
  (6966 observations deleted due to missingness)
Multiple R-squared:  0.002114,  Adjusted R-squared:  0.001311 
F-statistic: 2.632 on 3 and 3728 DF,  p-value: 0.04835

Respuesta:

Haz clic aquí para expandir

Respuesta:

Sí existen diferencias estadísticamente significativas en el desarrollo cognitivo de los niños según el ingreso per cápita (p < 0.05), pero no hay diferencias estadísticamente significativas en el desarrollo cognitivo según la composición del hogar (p > 0.05). Además, este último factor no afectó significativamente la relación entre el ingreso per cápita y el desarrollo cognitivo (p > 0.05)

Clase 14

Medidas de asociación de dos variables categóricas

Chi-cuadrado

Por último, responderemos a la pregunta ¿Existe una asociación significativa entre el género del jefe de hogar y el quintil de ingresos familiares? Para ello,

construye una tabla que muestre la frecuencia de las diferentes combinaciones entre el género del jefe de hogar y el quintil de ingresos.

Tabla de contingencia:

Code

# Guardamos la table de contingencia
Tabla_contingencia <- table(data$gen_jh, data$ingreso_per_cap_niveles)
Tabla_contingencia

output

   
    Primer quintil Segundo quintil Tercer quintil Cuarto quintil Quinto quintil
  1           1425            1631           1604           1664           1727
  2            738             489            532            477            411

Luego, realiza la prueba de Chi-cuadrado para determinar si hay una asociación significativa entre las dos variables categóricas.

Prueba de Chi-cuadrado:

Code

# Realizamos un análisis de Chi cuadrado sobre esta tabla
chisq.test(Tabla_contingencia)

output


    Pearson's Chi-squared test

data:  Tabla_contingencia
X-squared = 147.31, df = 4, p-value < 2.2e-16

Finalmente, evalúa el valor p de la prueba y determina si existe una asociación significativa entre el género del jefe de hogar y el quintil de ingresos.

Respuesta:

Haz clic aquí para expandir

Respuesta:

La prueba arroja un valor p de 2.2e-16, que es menor a 0.05, por lo que sí existe una asociación significativa entre el género del jefe de hogar y el quintil de ingresos.