Polivictimización

Presentación del caso

La Primera Encuesta Nacional de Polivictimización en Niñas, Niños y Adolescentes en Chile se realizó con el objetivo de medir la magnitud de la exposición a diversas formas de violencia en la niñez y adolescencia, a nivel nacional y regional, junto a indicadores de salud mental como la autoestima y la depresión. Esta encuesta fue aplicada entre octubre y diciembre de 2017, y abarcó una muestra de 19,867 estudiantes de 7º básico a 3º medio de establecimientos educacionales de todas las regiones del país.

En este estudio, se incluyen diferentes instrumentos para evaluar victimización, autoestima y depresión en adolescentes. Se utilizó un cuestionario adaptado del Cuestionario sobre victimización juvenil (Juvenile Victimization Questionnaire, JVQ) desarrollado por Finkelhor (Finkelhor et al., 2005), el cual se aplicó de forma auto-administrada con la asistencia de un facilitador. A través de este cuestionario, se estudiaron variables que permiten evaluar la prevalencia y acumulación de experiencias traumáticas en la infancia y adolescencia, divididas en seis dimensiones clave: delitos comunes, maltrato o negligencia por cuidadores, victimización por pares, victimización de carácter sexual, exposición a violencia en entornos familiares y comunitarios, y victimización digital. En este estudio, se define como “polivíctima” aquellos niños, niñas y adolescentes (NNA) que pertenecen al 10% superior de la distribución de puntajes de victimizaciones en el grupo estudiado. Este indicador es empleado para mostrar que el número de victimizaciones acumuladas puede variar según las características de los estudiantes, como el sexo, la edad, y otras características de sus entornos.

Además, para complementar el análisis, se incluyeron dos escalas psicométricas relevantes: la Escala de autoestima de Rosenberg (Rosenberg, 1965) y la Escala de detección de depresión infantil de Birleson (Birleson, 1981, MINSAL, 2013). Este enfoque multidimensional permite entender cómo la acumulación de experiencias traumáticas impacta en el desarrollo infantil y adolescente. Por ejemplo, algunas de las preguntas que podríamos resolver con estos datos son: ¿Cómo se relaciona el número de victimizaciones con los síntomas depresivos en niños, niñas y adolescentes?; ¿Existen diferencias significativas entre niños y niñas en la frecuencia y el tipo de victimización sufrida?; ¿Cuál es la relación entre la cantidad de victimizaciones sufridas y los niveles de autoestima en adolescentes?; y ¿Existen diferencias significativas en los niveles de polivictimización entre distintas regiones del país? La respuesta a estas preguntas favorece el diseño de intervenciones tempranas y políticas públicas que prioricen la prevención de la violencia de carácter intersectorial.

Presentación de los datos

En esta guía se plantean una serie de actividades junto con sus resoluciones haciendo uso de los datos recolectados en el estudio. La base de datos que será utilizada en el caso posee la información recoletada en bruto.

La descripción de las variables de la base de datos se encuentra en la siguiente tabla. La primera variable corresponde a un identiifcador por participantes, las siguientes corresponden algunos de los elemantos evaluados por el cuestionario que fue aplicado, sin embargo, pueden encontrar el detalle de cada una de las variables en el libro de códigos. La base de datos contiene un total de 19.684 observaciones y 134 variables.

Variable Descripción de la variable Tipo de variable
Folio Identificador del participante Nominal
Curso Nivel que cursa el encuestado Ordinal
Sexo Sexo del encuestado Nominal
Condiciones (1 a 6) Presencia/ausencia de condiciones determinadas Dicotómica
Puntaje_depresion Puntuación cuestionario de depresión Numérica
Puntaje_autoestima Puntuación cuestionario de autoestima Numérica
victim_ano_cuenta Cantidad de victimizaciones en el último año Numérica

Actividades

Para iniciar le resolución de actividades de este caso de estudio, activamos las librería que serán utilizadas y cargamos la base de datos.

Code
library(readr)
library(psych)
library(rockchalk)
library(lme4)
library(dplyr)
data <- read_csv("data/data_polivictimizacion.csv")[2:131]

Clase 1

Modelo de datos:

  • Tendencia central y variabilidad

Para empezar, obtengamos, a nivel general, la media, mediana, varianza y desviación estándar de los puntajes de depresión (según la escala de Birleson) presentados por las niñas, niños y adolescentes (NNA) de la muestra.

Resolución haciendo uso de la función ‘describe’:
Code
# Para obtener la media, mediana y desviación estándar se puede utilizar la función 'describe'
describe(data$puntaje_depresion)
output
   vars     n  mean   sd median trimmed  mad min max range skew kurtosis   se
X1    1 18180 11.72 6.14     11   11.32 5.93   0  36    36 0.62     0.15 0.05
Calculo de la varianza con la función ‘var’:
Code
# Para obtener la varianza se puede utilizar la función 'var'
# Dado que la base de datos contiene datos perdidos (NA) se debe indicar que estos no deben ser considerados en el cálculo de la varinza
var(data$puntaje_depresion, na.rm = TRUE)
output
[1] 37.71383

Respuesta:

Haz clic aquí para expandir

Respuesta: Se observa que la muestra posee una media de 11.72, una mediana de 11, una varianza de 37.7 y una desviación estándar de 6.14 en los puntajes de depresión.

Estudios previos sobre la escala de Birleson et al (1987) han encontrado patrones diferentes en las respuestas de hombres y mujeres (e.g., Denda et al, 2006). En particular, se ha encontrado mayor dispersión en los puntajes por parte de las mujeres, y mayores puntajes totales. Calcule los descriptivos correspondientes para mujeres y hombres, incluyendo medias, medianas y desviación estándar.

Descriptivos por grupo:
Code
# Se utiliza la función 'describeBy' para obtener los descriptivos según grupo.
# El grupo '1' corresponde a mujeres y '2' a hombres.

describeBy(data$puntaje_depresion, group=data$sexo)
output

 Descriptive statistics by group 
group: 1
    vars    n  mean    sd median trimmed   mad min max range skew kurtosis   se
X1*    1 9272 16.55 12.07     12   15.71 10.38   1  37    36 0.64    -1.18 0.13
------------------------------------------------------------ 
group: 2
    vars    n  mean    sd median trimmed   mad min max range skew kurtosis   se
X1*    1 8908 19.31 13.25     15   19.33 17.79   1  36    35 0.05    -1.78 0.14

Respuesta:

Haz clic aquí para expandir

Respuesta: Se observa un comportamiento similar a estudios previos. La mujeres poseen mayores puntajes y mayor dispersión (Media=13.49, DS=6.3) en comparación a los hombres (Media=9.89, DS=5.39).

El MINSAL (2013) emplea los 19 puntos en la escala de Birleson como puntaje corte para determinar quiénes se encuentran en riesgo de depresión. Bajo este criterio, calcula la proporción de los casos que estaría en riesgo de depresión (19 puntos o más).

Proporción:
Code
# Creamos una nueva variable como factor vacía para guardar los valores recodificados
data$Dep_Niveles <- factor(NA, levels = c("En riesgo", "Sin riesgo"))

# Asignamos los valores recodificados
data$Dep_Niveles[data$puntaje_depresion < 19] <- "Sin riesgo"
data$Dep_Niveles[data$puntaje_depresion >= 19] <- "En riesgo"
Code
prop.table(table(data$Dep_Niveles))
output

 En riesgo Sin riesgo 
 0.1411441  0.8588559 

Respuesta:

Haz clic aquí para expandir

Respuesta: Según los resultados obtenidos, un aproximadamente 14% de la muestra se encuentra en riesgo de depresión.

Para mayor especificidad, calcula la proporción de “polivictimas” y “no polivictimas” que se encontraría en riesgo de depresión, tomando en consideración la polivictimización en la vida.

Proporción por grupo:
Code
# El grupo '1' corresponde a polivictimas y '2' a no polivitimas.
addmargins(prop.table(table(data$Dep_Niveles, data$poli_vida)
      , margin = 2))
output
            
                     1         2       Sum
  En riesgo  0.4243523 0.1048253 0.5291776
  Sin riesgo 0.5756477 0.8951747 1.4708224
  Sum        1.0000000 1.0000000 2.0000000

Respuesta:

Haz clic aquí para expandir

Respuesta: Según los resultados obtenidos, del total de polivictimas aproximadamente un 42.4% se encuentra en riesgo de depresión.Del total de no polivictimas aproximadamente un 10.4% se encuentra en riesgo de depresión.

  • Modelo nulo y concepto de residuo

Para predecir el puntaje de depresión de un individuo, podemos guiarnos por la media de la muestra que obtuvimos anteriormente. A continuación, crearemos un modelo nulo para los niveles de depresión en los NNA y, luego, visualizaremos los residuos en un histograma para evaluar la magnitud de las desviaciones de los puntajes observados respecto a la media predicha.

Formulación de modelo nulo:
Code
# Modelo nulo de depresión
Mod_dep01 <- lm(data$puntaje_depresion ~ 1)

# Resumen del modelo de depresión
summary(Mod_dep01)
output

Call:
lm(formula = data$puntaje_depresion ~ 1)

Residuals:
     Min       1Q   Median       3Q      Max 
-11.7249  -4.7249  -0.7249   4.2751  24.2751 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) 11.72486    0.04555   257.4   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 6.141 on 18179 degrees of freedom
  (1504 observations deleted due to missingness)
Histograma de residuos:
Code
# Histograma de residuos de depresión
hist(Mod_dep01$residuals,
     xlab = "Residuos",
     ylab = "Frecuencia",
     main = "Histograma de residuos de depresión")
plot

Esto mismo es factible también para predecir la cantidad total de tipo de victimizaciones sufridas en los últimos 12 meses por los NNA de la muestra. A continuación, crearemos un modelo nulo en base al promedio de la cantidad total de tipos de victimizaciones sufridas y, luego, visualizaremos los residuos.

Formulación de modelo nulo:
Code
# Modelo nulo de victimización
Mod_vic <- lm(data$victim_ano_cuenta ~ 1)

# Resumen del modelo de victimización
summary(Mod_vic)
output

Call:
lm(formula = data$victim_ano_cuenta ~ 1)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.6832 -2.6832 -0.6832  1.3168 28.3168 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.68319    0.02571   143.3   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.607 on 19683 degrees of freedom
Histograma de residuos:
Code
# Histograma de residuos de cantidad de victimizaciones
hist(Mod_vic$residuals,
     xlab = "Residuos",
     ylab = "Frecuencia",
     main = "Histograma de residuos de victimizaciones")
plot

Clase 2

Modelo de regresión:

  • Regresión simple y sus parámetros

Para complejizar nuestro modelo anterior, podemos introducir una variable predictora, en este caso, la cantidad total de tipos de victimizaciones sufridas por cada NNA en los últimos 12 meses. Queremos responder a la pregunta ¿Cómo afecta la cantidad total de tipos de victimizaciones sufridas a los niveles de depresión en niños y adolescentes? Para ello, realizaremos un modelo de regresión simple en el que la variable respuesta será la puntuación total de depresión y la variable predictora será el total de tipos de victimizaciones sufridas. Esto nos permitirá entender cómo cambia la puntuación de depresión en función del número de victimizaciones sufridas.

Resultados de modelo de regresión simple:
Code
# Modelo ampliado de depresión
Mod_dep02 <- lm(data$puntaje_depresion ~ 1 + data$victim_ano_cuenta)

# Resumen del modelo de depresión ampliado
summary(Mod_dep02)
output

Call:
lm(formula = data$puntaje_depresion ~ 1 + data$victim_ano_cuenta)

Residuals:
     Min       1Q   Median       3Q      Max 
-19.7836  -4.1710  -0.5366   3.6352  26.6352 

Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)             9.36475    0.06089  153.79   <2e-16 ***
data$victim_ano_cuenta  0.63438    0.01177   53.88   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.703 on 18178 degrees of freedom
  (1504 observations deleted due to missingness)
Multiple R-squared:  0.1377,    Adjusted R-squared:  0.1376 
F-statistic:  2903 on 1 and 18178 DF,  p-value: < 2.2e-16

Respuesta:

Haz clic aquí para expandir

Respuesta:

Intercepto (β₀ = 9.36, p < 0.001): Representa el puntaje de depresión esperado cuando el total de victimizaciones en el año es 0. Es decir, una persona que no ha sido víctima en el último año tiene un puntaje de depresión promedio de 9.36.

Pendiente (β₁ = 0.63, p < 0.001): Indica que por cada incremento de una unidad en el total de victimizaciones en el año, el puntaje de depresión aumenta en 0.63 puntos, en promedio. Dado que el valor-p es menor a 0.05, este efecto es estadísticamente significativo.

R² = 0.1377: Indica que aproximadamente 13.77% de la variabilidad en el puntaje de depresión es explicada por el total de victimizaciones en el año.

Error estándar residual = 5.703: Muestra la desviación estándar de los residuos. Indica que, en promedio, los valores observados de depresión se desvían 5.7 puntos de la línea de regresión ajustada.

F(1, 18178) = 2903, p < 0.001: La prueba F muestra que el modelo en su conjunto es significativo, lo que indica que el total de victimizaciones en el año tiene un efecto sobre el puntaje de depresión.

En conclusión, el modelo sugiere que ser víctima más veces en el último año está positivamente asociado con un mayor puntaje de depresión.

Caracterizando y comparando distribuciones

  • Tendencia central, variabilidad y asimetría

Considerando los dos grupos de la variable ‘sexo’, sigue las siguientes indicaciones

  1. Calcula los estadísticos descriptivos (media, mediana, desviación estándar, etc.) para la cantidad total de tipos de victimizaciones sufridas en los últimos 12 meses en ambos subgrupos.
Descriptivos por grupo:
Code
# Se utiliza la función 'describeBy' para obtener los descriptivos según grupo.
# El grupo '1' corresponde a mujeres y '2' a hombres.

describeBy(data$victim_ano_cuenta, group=data$sexo)
output

 Descriptive statistics by group 
group: 1
    vars    n  mean    sd median trimmed   mad min max range  skew kurtosis  se
X1*    1 9964 13.96 10.36     13   13.94 16.31   1  28    27 -0.12    -1.72 0.1
------------------------------------------------------------ 
group: 2
    vars    n  mean   sd median trimmed   mad min max range  skew kurtosis  se
X1*    1 9720 12.27 9.43     13    12.1 14.83   1  26    25 -0.05    -1.71 0.1
  1. Visualiza las distribuciones de ambas muestras utilizando boxplots para identificar posibles diferencias.
Boxplot:
Code
# Se genera un gráfico que permite comprar las dos distribuciones de datos mediante boxplots
boxplot(data$victim_ano_cuenta ~ data$sexo,
        names = c("Mujeres", "Hombres"),
        ylab = "Cantidad de victimizaciones al año")
plot

  1. Compara las proporciones de polivíctimas en el año en ambos grupos. Utiliza la variable ‘poli_año’.
Proporción por grupo:
Code
# El grupo '1' corresponde a polivictimas y '2' a no polivitimas.
addmargins(prop.table(table(data$poli_año, data$sexo==1)
      , margin = 2))
output
     
           FALSE       TRUE        Sum
  1   0.09343787 0.12823766 0.22167553
  2   0.90656213 0.87176234 1.77832447
  Sum 1.00000000 1.00000000 2.00000000

Respuesta:

Haz clic aquí para expandir

Respuesta: Según los resultados obtenidos, del total de hombres aproximadamente 9.34% son polivictimas.Del total de mujeres aproximadamente un 12.3% son polivitimas.

Clase 3

Comparación de modelos

  • Modelo base vs modelo de regresión: R2 como indicador de comparación de ajuste

Hasta ahora, hemos creado dos modelos para predecir los puntajes de depresión de los NNA de la muestra. El primero de ellos (el modelo nulo o de base) predice los puntajes en función de la media, mientras que el segundo agrega como variable predictora la cantidad total de tipos de victimizaciones sufridas por el sujeto en los últimos 12 meses. A continuación, visualizaremos los residuos de ambos modelos utilizando gráficos de dispersión o histogramas para observar cómo se distribuyen, y los compararemos utilizando la varianza explicada (R²).

Comparación con histogramas:
Code
# Uso mfrow para crear un lienzo con 1 fila y 2 columnas
par(mfrow=c(1,2))

# Histograma de residuos modelo nulo
hist(Mod_dep01$residuals,
     xlim = c(-30,30),
     ylim = c(0,7000),
     xlab = "Residuos",
     ylab = "Frecuencia")

# Histograma de residuos modelo ampliado
hist(Mod_dep02$residuals,
     xlim = c(-30,30),
     ylim = c(0,7000),
     xlab = "Residuos",
     ylab = "Frecuencia")
plot

Superposición de curvas de densidad:
Code
# Se grafica la curva de densidad de la muestra residuos modelo nulo
plot(density(Mod_dep01$residuals),
     main = "Gráfico de densidad",
     xlab = "Residuos",
     ylab = "Densidad",
     col = "blue",
     ylim = c(0, 0.08))

# Se añade al mismo gráfico la curva de densidad de residuos modelo ampliado
lines(density(Mod_dep02$residuals), col = "red")
plot

Calculo de R cuadrado:
Code
# Calculamos la suma la cuadrados totales
SST = sum(resid(lm(data$puntaje_depresion ~ 1))^2)

# Calculamos la suma la cuadrados del modelo ampliado
SSEA = sum(resid(lm(data$puntaje_depresion ~ 1 + data$victim_ano_cuenta))^2)

# Calculamos la reducción en la suma la cuadrados
SSR = SST - SSEA

# Calculamos la reducción proporcional del error
R_cuadrado = (SST - SSEA)/SST

# Vemos que este equivale al Multiple R-squared en el resumen que nos brinda R en el modelo apliado.
R_cuadrado
output
[1] 0.1376933

Evalúa cuál de los dos modelos ofrece un mejor ajuste y discute los resultados. ¿En qué medida mejora el modelo de regresión frente al modelo base? ¿Qué implicaciones tiene esto para la comprensión de la relación entre la variable predictora seleccionada y la depresión?

Respuesta:

Haz clic aquí para expandir

Respuesta: El modelo ampliado mejora el ajuste, explicando un 13.77% de la variabilidad de los puntajes de depresión.

Distribución normal

  • Puntaje z

Para comparar cómo diferentes tipos de victimización impactan los niveles de depresión en los NNA, selecciona dos tipos de victimización al año del estudio, maltrato por cuidadores y por parte de pares, y calcula la media y desviación estándar de los niveles de depresión asociados a cada tipo de victimización.

Descriptivos por grupo:
Code
# Puntajes de depresion en quienes han sufrido maltrato de cuidadores
describe(data$puntaje_depresion[data$B_una_en_año == 1], na.rm = TRUE)
output
   vars    n  mean   sd median trimmed  mad min max range skew kurtosis   se
X1    1 6196 14.93 6.38     14   14.68 5.93   0  36    36 0.34    -0.25 0.08
Code
# Puntajes de depresion en quienes han sufrido maltrato de pares
describe(data$puntaje_depresion[data$C_una_en_año == 1], na.rm = TRUE)
output
   vars    n  mean   sd median trimmed  mad min max range skew kurtosis   se
X1    1 5078 13.79 6.49     13   13.47 5.93   0  36    36 0.43    -0.22 0.09

Utilizando como valor específico los 19 puntos en la escala de Birleson, calcula su puntaje Z para cada tipo de victimización.

Cálculo puntaje Z:
Code
# Maltrato de cuidadores

# Valor de referencia
valor_referencia <- 19

# Cálculo media de puntaje de depresión de 
media1 <- mean(data$puntaje_depresion[data$B_una_en_año == 1], na.rm = TRUE)             

# Cálculo desviación estándar
desviacion1 <- sd(data$puntaje_depresion[data$B_una_en_año == 1], na.rm =TRUE)

# Cálculo puntaje Z
z_score1 <- (valor_referencia - media1) / desviacion1

z_score1
output
[1] 0.6385899
Code
# Maltrato de pares

# Valor de referencia
valor_referencia <- 19

# Cálculo media de puntaje de depresión de 
media2 <- mean(data$puntaje_depresion[data$C_una_en_año == 1], na.rm = TRUE)             

# Cálculo desviación estándar
desviacion2 <- sd(data$puntaje_depresion[data$C_una_en_año == 1], na.rm =TRUE)

# Cálculo puntaje Z
z_score2 <- (valor_referencia - media2) / desviacion2

z_score2
output
[1] 0.8029019

Interpreta estos puntajes en términos de cómo se compara este valor con el promedio de cada grupo de victimización. ¿En qué tipo de victimización el valor de depresión se encuentra más alejado de la media (positivamente o negativamente)? ¿Qué implicaciones tienen estos resultados para entender la relación entre diferentes formas de victimización y la severidad de los síntomas de depresión?

Respuesta:

Haz clic aquí para expandir

Respuesta: Los puntajes Z muestran que el valor 19 en la escala de depresión está más alejado de la media en el grupo que sufrió maltrato por parte de pares (Z = 0.8) que en el grupo maltratado por cuidadores (Z = 0.6). Esto indica que, en promedio, los niveles de depresión en víctimas de pares son más bajos que en quienes sufrieron maltrato por cuidadores.

  • Simulación de datos y muestras de una distribución normal

Simula dos muestras de 1000 datos de depresión utilizando una distribución normal. Usa las medias y desviaciones estándar que obtuviste para los niveles de depresión asociados a los dos tipos de victimización utilizados en el ejercicio anterior.

Creación de muestras:
Code
muestra_cuidadores <- rnorm(1000, mean = 14.93, sd = 6.38)

muestra_pares <- rnorm(1000, mean = 13.79, sd = 6.49)

Visualiza las distribuciones de las dos muestras simuladas utilizando histogramas y superpone una curva de densidad para comparar cómo varían las distribuciones entre los distintos tipos de victimización.

Comparación de histogramas:
Code
# Uso mfrow para crear un lienzo con 1 fila y 2 columnas
par(mfrow=c(1,2))

# Histograma de primera muestra
hist(muestra_cuidadores, xlim = c(-30,70),
     xlab = "Puntajes",
     ylab = "Frecuencia")

# Histograma de segunda muestra
hist(muestra_pares, xlim = c(-30,70),
     xlab = "Puntajes",
     ylab = "Frecuencia")
plot

Superposición de curvas de densidad:
Code
# Se grafica la curva de densidad de la muestra 1
plot(density(muestra_cuidadores),
     main = "Gráfico de densidad",
     xlab = "Puntajes",
     ylab = "Densidad",
     col = "blue",
     ylim = c(0, 0.07))

# Se añade al mismo gráfico la curva de densidad de la muestra 2
lines(density(muestra_pares), col = "red")
plot

Extrae una muestra aleatoria de 100 datos de cada una de las distribuciones simuladas y calcula los estadísticos descriptivos (media, desviación estándar, percentiles). Luego, compara los estadígrafos y la forma de las distribuciones simuladas para los dos tipos de victimización.

Creación de submuestras aletorias:
Code
# Utilizamos la función 'sample' para extraer submuestras
submuestra_cuidadores <- sample(muestra_cuidadores, size=100)

submuestra_pares <- sample(muestra_pares, size=100)
Descriptivos submuestra voctimización de cuidadores:
Code
describe(submuestra_cuidadores)
output
   vars   n  mean   sd median trimmed  mad  min   max range skew kurtosis   se
X1    1 100 15.05 5.68  14.57   14.88 5.94 2.41 27.85 25.44 0.22    -0.44 0.57
Descriptivos submuestra victimización de pares:
Code
describe(submuestra_pares)
output
   vars   n  mean   sd median trimmed  mad   min   max range skew kurtosis  se
X1    1 100 12.91 5.97  12.13   12.71 6.35 -0.82 26.57 27.39 0.28    -0.65 0.6

Compara las distribuciones de los niveles de depresión simulados entre NNA víctimas de cuidadores y víctimas de pares, describe también lo observado en el gráfico de densidad. ¿Qué sugieren los resultados obtenidos?

Respuesta:

Haz clic aquí para expandir

Respuesta: Los resultados muestran que la media de depresión es más alta en la submuestra simulada de NNA víctimas de cuidadores en comparación con quienes han sido víctimas de pares. Además, la distribución de los puntajes en ambos grupos presenta formas similares, aunque la curva de densidad en el grupo de cuidadores parece estar más desplazada hacia valores altos. Esto sugiere que la victimización por cuidadores podría estar asociada a un mayor impacto emocional, reflejado en puntajes más elevados de depresión.

Clase 4

Modelo de regresión y correlación

  • Interpretando la pendiente y su estandarización y Correlación de Pearson

Retomando el modelo de regresión simple que creamos anteriormente, compararemos tres estimados estadísticos clave en un análisis de este tipo: beta no estandarizado, beta estandarizado y correlación de Pearson.

  1. El primero te indica cuánto cambian los niveles de depresión por unidad adicional de tipo de victimización sufrida dentro de los últimos 12 meses. Ejecuta nuevamente el modelo de regresión y obtén los coeficientes. El valor del beta no estandarizado aparecerá en la salida del modelo como el coeficiente de la variable independiente.
Code
summary(lm(data$puntaje_depresion ~ 1 + data$victim_ano_cuenta))
output

Call:
lm(formula = data$puntaje_depresion ~ 1 + data$victim_ano_cuenta)

Residuals:
     Min       1Q   Median       3Q      Max 
-19.7836  -4.1710  -0.5366   3.6352  26.6352 

Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)             9.36475    0.06089  153.79   <2e-16 ***
data$victim_ano_cuenta  0.63438    0.01177   53.88   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.703 on 18178 degrees of freedom
  (1504 observations deleted due to missingness)
Multiple R-squared:  0.1377,    Adjusted R-squared:  0.1376 
F-statistic:  2903 on 1 and 18178 DF,  p-value: < 2.2e-16
  1. El beta estandarizado te permite medir la relación en unidades de desviaciones estándar, lo que facilita la comparación de la magnitud del efecto entre diferentes variables en una misma escala. Para obtenerlo, estandariza el total de tipos de victimizaciones sufridas y la puntuación total de depresión para que ambas variables tengan una media de 0 y una desviación estándar de 1.
Code
summary(lm(scale(data$puntaje_depresion) ~ 1 + scale(data$victim_ano_cuenta)))
output

Call:
lm(formula = scale(data$puntaje_depresion) ~ 1 + scale(data$victim_ano_cuenta))

Residuals:
    Min      1Q  Median      3Q     Max 
-3.2215 -0.6792 -0.0874  0.5919  4.3372 

Coefficients:
                               Estimate Std. Error t value Pr(>|t|)    
(Intercept)                   -0.003838   0.006888  -0.557    0.577    
scale(data$victim_ano_cuenta)  0.372630   0.006916  53.876   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.9286 on 18178 degrees of freedom
  (1504 observations deleted due to missingness)
Multiple R-squared:  0.1377,    Adjusted R-squared:  0.1376 
F-statistic:  2903 on 1 and 18178 DF,  p-value: < 2.2e-16
  1. Finalmente, calcula la correlación de Pearson entre la cantidad total de victimizaciones sufridas dentro de los últimos 12 meses y los niveles de depresión. Esto te permitirá conocer la dirección y el tamaño de la relación entre las variables.
Code
cor.test(data$puntaje_depresion, data$victim_ano_cuenta, use=pairwise.complete.obs) 
output

    Pearson's product-moment correlation

data:  data$puntaje_depresion and data$victim_ano_cuenta
t = 53.876, df = 18178, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.3584677 0.3835380
sample estimates:
      cor 
0.3710705 

Compara los tres estimados (beta no estandarizado, beta estandarizado y correlación de Pearson) para analizar si son consistentes en cuanto a la dirección de la relación. ¿Qué diferencias encuentras? ¿En qué situaciones son útiles cada uno de estos estimados y qué información adicional proporciona el beta no estandarizado respecto a la correlación de Pearson?

Respuesta:

Haz clic aquí para expandir

Respuesta: Los 3 coeficientes calculados son consistentes entre si en cuanto a la relación presente. Las diferencias que se observan son las magnitudes de el beta no estandarizado en comparación con el coeficiente de correlación y el beta estandarizado y se deben a que el beta no estandarizado está funcionando con la unidad de medida de la variable, mientras que los otros dos funcionan con la variable estandarizada, es decir, en términos de desviaciones estandar.

Clase 5

Distribuciones de datos y distribuciones de probabilidad

  • Simulando distribuciones de datos

En este ejercicio, usarás los valores de depresión reportados en el estudio. Simularás distribuciones de 1,000 valores para cada uno de los siguientes tipos de distribuciones: - Distribución Normal: Usa la media y desviación estándar reales de los puntajes de estrés. - Distribución Uniforme: Usa el mínimo y máximo de los valores. - Distribución t de Student: Calcula los grados de libertad como GL =𝑛 − 1, donde 𝑛 es el tamaño de la muestra.

Genera gráficos de densidad o histogramas para cada distribución simulada y compáralos con la distribución real de los puntajes de depresión.

  1. Distribución Normal: Usa la media y desviación estándar reales de los puntajes de depresión.
Descriptivos:
Code
# Calculamos la media y la desviacion estandar de la variable puntajes T del TEPSI

mean(data$puntaje_depresion, na.rm=TRUE)
output
[1] 11.72486
Code
sd(data$puntaje_depresion, na.rm=TRUE)
output
[1] 6.141159
Simulación de la distribución:]{.smallcaps}
Code
dist_normal <- rnorm(1000, mean = 11.72, sd = 6.14)
Histograma:
Code
# Histograma de la distribución normal
hist(dist_normal,
     xlab = "Puntajes",
     ylab = "Frecuencia",
     main = "")
plot

  1. Distribución Uniforme: Usa el mínimo y máximo de los valores reales de los puntajes de depresión.
Descriptivos:
Code
# Obtenemos los valores minimos y maximos de la variable
min(data$puntaje_depresion,na.rm=TRUE)
output
[1] 0
Code
max(data$puntaje_depresion,na.rm=TRUE)
output
[1] 36
Simulación de la distribución:]{.smallcaps}
Code
# Para generar una distribución uniforme señalamos este intervalo en la función 'rep'
# Se utiliza 'each=27' para aproximarnos a los 1000 casos esperados
dist_uniforme <- rep(0:36, each=27)
Gráfico de barras:
Code
# Luego, graficamos la distribución con un gráfico de barras
barplot(prop.table(table(dist_uniforme)))
plot

  1. Distribución t de Student: Calcula los grados de libertad como GL=𝑛−1, donde𝑛es el tamaño de la muestra.
Simulación de la distribución:]{.smallcaps}
Code
# Sabemos que el tamaño de la muestra es igual a 125, por lo que los grados de libertad equivalen a 124

# Para generar una distribución t utilizamos la función 'rt'
# Se especifica el número de la valores de la distribución y los grados de libertad
dist_t <- rt(1000, df = 18110)
Histograma:
Code
# Histograma de la distribución t
hist(dist_t,
     xlab = "Puntajes",
     ylab = "Frecuencia",
     main = "")
plot

¿Qué diferencias observas entre las distribuciones simuladas y la distribución real de los datos? ¿Cómo cambia la forma entre las distribuciones?

Distribución real:
Code
# Histograma de la distribución real de los datos
hist(data$puntaje_depresion,
     xlab = "Puntajes",
     ylab = "Frecuencia",
     main = "Distribución real")
plot

Respuesta:

Haz clic aquí para expandir

Respuesta: Se observa que la distribución real de los puntajes de despresión es asimetrica con un sesgo postivo, es decir, que posee un mayor concentración hacia el rango de valores más bajos y una concentración que disminuye progresivamente hacia los valores más alto de la distribución. En términos de semejanza a las distribuciones simuladas, se observa que ninguna cumple con los criterios descritos.

  • Se observa que la distribución normal simulada posee valores entre -10 y 30, a diferencia de la distrbución real que solo posee valores cero o positivos. Se observa que la moda se encuentra alrededor de 10, lo cual se considera similar a la moda de la distribución real.

  • Se observa que la distribución uniforme simulada posee valores entre 0 y 36, lo cual es equivalente a la distrbución real. Sin embargo, el tipo de distribución no es equivalente.

  • Se observa que la distribución t simulada posee valores entre -3 y 4, a diferencia de la distrbución real que solo posee valores cero o positivos y de mayor magnitud. Se observa que la moda se encuentra alrededor de 0, lo cual se diferencia de a la moda de la distribución real.

  • Expresando en probabilidades un resultado en una distribución de datos

Suponiendo que los datos de depresión siguen (o se aproximan a) una distribución normal, usaremos la media y desviación estándar de la muestra para calcular la probabilidad de que un NNA tenga una puntuación de depresión mayor a 19.

Probabilidad simulada:
Code
# Calcular la probabilidad de que un participante tenga puntaje de depresión superior a 19
probabilidad_simulada <- 1 - pnorm(19, mean = 11.72, sd = 6.14)

probabilidad_simulada
output
[1] 0.1178768

Calcula el valor crítico correspondiente al percentil 95 de la distribución. Esto nos da el valor de depresión por encima del cual se encuentra el 5% superior de la población.

Percentil 95:
Code
percentil_95 <- qnorm(0.95, mean = 11.72, sd = 6.14)

percentil_95
output
[1] 21.8194

¿Cuántos NNA tienen una probabilidad alta de estar por encima de una puntuación de depresión crítica? ¿Qué implicaciones tienen estos resultados para la identificación de casos severos?

Respuesta:

Haz clic aquí para expandir

Respuesta: La probabilidad de que un NNA tenga una puntuación elevada (mayor a 19) es de 11.78%. Además, el 5% de los NNA simulados tendrían puntajes superiores a 21.82, lo que los ubica en el extremo superior de la distribución. Estos resultados permiten estimar cuántos casos podrían estar en riesgo elevado y, por tanto, requerir intervención psicológica.

Clase 6

Distribuciones muestrales

  • Teorema del límite central y el efecto del tamaño muestral

Simula tres muestras aleatorias de tamaño 500, 1000 y 5000 a partir de los datos de depresión de los NNA victimizados por cuidadores. ¿Cómo cambia la media y desviación estándar de los niveles de depresión conforme aumenta el tamaño de la muestra?

Simulación de muestras y sus medias:
Code
dep_vic_cuid <- subset(data, B_una_en_año == 1, select = puntaje_depresion)

# Tamaños de las muestras
tamanos_muestra <- c(500, 1000, 5000)

# Crear un data frame vacío para almacenar los resultados
resultados <- data.frame(Tamano_Muestra = integer(), Media = numeric(), Desviacion_Estandar = numeric())

for(tamano in tamanos_muestra) {
  # Tomar una muestra aleatoria de tamaño 'tamano' de la columna de depresión
  muestra <- sample(dep_vic_cuid$puntaje_depresion, size = tamano, replace = TRUE)
  
  # Calcular la media y la desviación estándar de la muestra
  media_muestra <- mean(muestra, na.rm=TRUE)
  sd_muestra <- sd(muestra, na.rm=TRUE)
  
  # Guardar los resultados
  resultados <- rbind(resultados, data.frame(Tamano_Muestra = tamano, Media = media_muestra, Desviacion_Estandar = sd_muestra))
}

resultados
output
  Tamano_Muestra    Media Desviacion_Estandar
1            500 14.77253            6.500271
2           1000 15.05850            6.376377
3           5000 14.88118            6.437428

Respuesta:

Haz clic aquí para expandir

Respuesta: Sabemos que la media y la desviación estándar poblacional equivalen a 14.93 y 6.38, respectivamente. A medida que aumenta el tamaño de la muestra, los valores muestrales tienden a acercarse a los valores poblacionales. Para n = 5000, tanto la media como la desviación estándar están más cerca de los valores reales, lo que sugiere que la estimación es más precisa.

  • Intervalos de confianza

Toma 100 muestras aleatorias de tamaño 50 de los niveles de depresión en NNA victimizados por cuidadores. Calcula la media de depresión de cada muestra y construye la distribución muestral del promedio. ¿Cómo es la forma de la distribución muestral de las medias en comparación con la distribución original de los puntajes de depresión en NNA victimizados por cuidadores?

Simulación de muestras y sus medias:
Code
# Fijamos una semilla para que se reproduzcan siempre los mismos valores
set.seed(123)  

# Número de muestras
n_muestras <- 100 

# Tamaño de cada muestra
n <- 50 

# Vector para almacenar los promedios de cada muestra
medias_muestras <- numeric(n_muestras)

# Simulación de 100 muestras y cálculo de medias
for (i in 1:n_muestras) {
  muestra <- sample(dep_vic_cuid$puntaje_depresion, size = n, replace = TRUE) 
  medias_muestras[i] <- mean(muestra, na.rm=TRUE)  
}
Histogramas de medias muestrales:
Code
# Histograma de distribución de los promedios muestrales
hist(medias_muestras, 
     breaks = "FD", 
     xlim = c(10,20),
     main = "Distribución de las Medias Muestrales",
     xlab = "Medias de las Muestras",
     ylab = "Frecuencia")
plot

Histogramas de medias originales:
Code
# Histograma de distribución de los promedios muestrales
hist(dep_vic_cuid$puntaje_depresion, 
     breaks = "FD", 
     xlim = c(0,40),
     main = "Distribución de las Medias originales",
     xlab = "Medias originales",
     ylab = "Frecuencia")
plot

Respuesta:

Haz clic aquí para expandir

Respuesta: En ambos casos se asemeja la moda, existiendo una mayor frecuencia de datos alrededor del valor 15. Sin embargo, la dispersión de los datos es menor en el caso de las medias de las muestras simuladas.

Usando la distribución muestral de tamaño 100, calcula el intervalo de confianza del 95% para los niveles de depresión de los NNA victimizados por cuidadores. ¿Qué nos dice este intervalo sobre la precisión de la estimación de la media?

Intervalo de confianza:
Code
# Fijamos una semilla para que se reproduzcan siempre los mismos valores
set.seed(123)  

# Seleccionar una muestra aleatoria de tamaño n = 100
muestra_100 <- sample(dep_vic_cuid$puntaje_depresion, size = 100, replace = TRUE) 

# Desviación estándar de la poblacion
sigma = 6.38

# Tamaño y promedio de la muestra
n = 100
x_barra <- mean(muestra_100, na.rm=TRUE)

# Calcular el valor Z para un 95%
Z <- abs( qnorm((1 - .95)/2) )

# Calcular error estándar
error_est <- sigma/sqrt(n)

# Calcular los límites
lim_inferior <- x_barra - ( Z * error_est )
lim_superior <- x_barra + ( Z * error_est )

# Intervalo de confianza al 95% redondeado
round(c(lim_inferior, lim_superior),2)
output
[1] 13.47 15.97

Ahora exploraremos cómo cambia ese intervalo si: (1) Usamos una muestra más pequeña (n = 30) y (2) aumentamos el nivel de confianza al 99%. Esto nos ayudará a comprender mejor la relación entre el tamaño de la muestra, el nivel de confianza y la amplitud del intervalo.

Intervalo de confianza con n = 30 y 95% de confianza:
Code
# Fijamos la semilla para que los resultados sean reproducibles
set.seed(123)

# Extraer muestra aleatoria de tamaño 30
muestra_30 <- sample(dep_vic_cuid$puntaje_depresion, size = 30, replace = TRUE)

# Media de la muestra
media_30 <- mean(muestra_30, na.rm = TRUE)

# Desviación estándar poblacional conocida
sigma <- 6.38

# Tamaño muestral
n <- 30

# Valor Z para 95%
Z_95 <- abs(qnorm((1 - 0.95) / 2))

# Error estándar
error_est_30 <- sigma / sqrt(n)

# Límites del intervalo
lim_inf_30_95 <- media_30 - (Z_95 * error_est_30)
lim_sup_30_95 <- media_30 + (Z_95 * error_est_30)

# Resultado final
round(c(lim_inf_30_95, lim_sup_30_95), 2)
output
[1] 12.30 16.87
Intervalo de confianza con n = 100 y 99% de confianza:
Code
# Fijamos la semilla nuevamente
set.seed(123)

# Extraer muestra aleatoria de tamaño 100
muestra_100 <- sample(dep_vic_cuid$puntaje_depresion, size = 100, replace = TRUE)

# Media de la muestra
media_100 <- mean(muestra_100, na.rm = TRUE)

# Tamaño muestral
n <- 100

# Valor Z para 99%
Z_99 <- abs(qnorm((1 - 0.99) / 2))

# Error estándar
error_est_100 <- sigma / sqrt(n)

# Límites del intervalo
lim_inf_100_99 <- media_100 - (Z_99 * error_est_100)
lim_sup_100_99 <- media_100 + (Z_99 * error_est_100)

# Resultado final
round(c(lim_inf_100_99, lim_sup_100_99), 2)
output
[1] 13.07 16.36

Compara el intervalo original (IC 95% con n=100) con los dos nuevos:¿Cuál es más amplio? ¿Qué efecto tiene usar menos datos? ¿Qué cambia al aumentar el nivel de confianza?

Respuesta:

Haz clic aquí para expandir

Respuesta: El intervalo original (IC 95% con n=100) fue [13.47, 15.97], mientras que el nuevo con n=30 fue más amplio ([12.30, 16.87]), y el de 99% con n=100 también se amplió ([13.07, 16.36]). Esto muestra que reducir el tamaño muestral aumenta el error estándar y, por lo tanto, disminuye la precisión de la estimación. Por otro lado, aumentar el nivel de confianza también ensancha el intervalo, ya que se requiere mayor margen para estar más seguros de incluir la media real. En ambos casos, los intervalos más amplios reflejan mayor incertidumbre en la estimación.

Clase 7

La lógica del contraste de hipótesis en estadística con una media

  • El modelo de regresión base, hipótesis nula e hipótesis alternativa

El primer modelo base que creamos predice los niveles de depresión utilizando la media de depresión para todos los NNA, sin incluir ninguna otra variable como predictor. En cambio, el segundo modelo que creaste, el modelo completo, incluía como variable predictora el total de tipos de victimizaciones sufridas. ¿Cuál es la hipótesis que este segundo modelo está tratando de probar? Y si la hipótesis nula es aquella que niega los efectos de la variable predictora postulada en la hipótesis alternativa ¿Cuál sería la hipótesis nula dentro de este contexto?

Haz clic aquí para expandir

Respuesta: Hipótesis nula (h0): La variable “cantidad de victimizaciones” no predice los niveles de depresion de los NNA.

Hipótesis alternativa (h1): La variable “cantidad de victimizaciones” predice los niveles de depresión de los NNA.

Calcula el valor p para el predictor que corresponde al total de tipos de victimizaciones sufridas del segundo modelo, que nos indicará si esta variable tiene un impacto significativo en los niveles de depresión de los NNA.

Valor p para el predictor:
Code
modelo_ampliado <- lm(data$puntaje_depresion ~ 1 + data$victim_ano_cuenta)
summary(modelo_ampliado)
output

Call:
lm(formula = data$puntaje_depresion ~ 1 + data$victim_ano_cuenta)

Residuals:
     Min       1Q   Median       3Q      Max 
-19.7836  -4.1710  -0.5366   3.6352  26.6352 

Coefficients:
                       Estimate Std. Error t value Pr(>|t|)    
(Intercept)             9.36475    0.06089  153.79   <2e-16 ***
data$victim_ano_cuenta  0.63438    0.01177   53.88   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.703 on 18178 degrees of freedom
  (1504 observations deleted due to missingness)
Multiple R-squared:  0.1377,    Adjusted R-squared:  0.1376 
F-statistic:  2903 on 1 and 18178 DF,  p-value: < 2.2e-16

¿El valor p asociado al total de tipos de victimizaciones sufridas es menor a 0.05? Si es así, ¿qué podemos concluir sobre la hipótesis alternativa?

Haz clic aquí para expandir

Respuesta: El valor p es < 0.05, por lo los análisis nos permiten rechazar la hipótesis nula a la luz de los datos y favorecer la hipostesis alternativa. Esto nos lleva a decir que la variable “cantidad de victimizaciones” es un predictor significativo del puntaje de depresión de los NNA.

Para simular la distribución bajo la hipótesis nula, vamos a realizar múltiples permutaciones aleatorias de la variable de depresión. Repite el ajuste del modelo de regresión entre el número de tipos de victimizaciones y las puntuaciones de depresión para cada permutación (por ejemplo, 1000 permutaciones), y guarda los valores de la pendiente obtenidos en cada iteración. Finalmente, calcula el valor p comparando el valor de la pendiente observado en el modelo completo original con la distribución de pendientes obtenidas bajo la hipótesis nula.

Permutación de valores de la pendiente:
Code
# Pendiente original
pendiente_original <- coef(modelo_ampliado)[2]

# Realizar las permutaciones y calcular las pendientes
set.seed(123)  
# Número de permutaciones
n_perm <- 1000  
pendientes_permutados <- numeric(n_perm)

for (i in 1:n_perm) {
  data$victim_ano_cuenta_permutada <- sample(data$victim_ano_cuenta)
  
  modelo_permutado <- lm(puntaje_depresion ~ victim_ano_cuenta_permutada, data = data)
  
  pendientes_permutados[i] <- coef(modelo_permutado)[2]
}

# Calcular el valor p comparando el valor observado con la distribución de pendientes
valor_p <- mean(abs(pendientes_permutados) >= abs(pendiente_original))

# Redondear el valor p a 3 decimales
valor_p_redondeado <- round(valor_p, 3)

# Resultado
cat("Valor p:", valor_p_redondeado, "\n")
output
Valor p: 0 
Code
valor_p
output
[1] 0

¿Qué representa la distribución muestral de las pendientes bajo la hipótesis nula? ¿Cómo te ayuda a entender el valor p y su significado en este contexto?

Haz clic aquí para expandir

Respuesta: La distribución muestral de las pendientes bajo la hipótesis nula representa cómo fluctúan las pendientes cuando no hay una relación real entre victimización y depresión, generalmente centrada en cero. Un valor p = 0 indica que ninguna permutación generó una pendiente tan extrema como la observada, lo que sugiere que la relación entre ambas variables es altamente significativa y no producto del azar.

Clase 8

Comparando medias de dos grupos

  • El modelo de regresión con predictor dicotómico

Analizaremos cómo la victimización por parte de cuidadores (“maltrato o negligencia por cuidadores”) (sí/no) influye en los niveles de depresión de los NNA. Para ello, identifica y codifica la variable que indica si un NNA ha sufrido victimización por parte de cuidadores (sí/no), donde 1 significa “sí ha sido victima” y 0 significa “no ha sido victima”. Usa la puntuación de depresión como la variable dependiente.

Recodificación:
Code
data$vic_cuid_ano <- NA
data$vic_cuid_ano <- recode(data$B_una_en_año,
                                "1" = 'Si',    
                                "2" = 'No')

Crea un modelo de regresión lineal donde la variable dependiente sea la puntuación de depresión y la variable independiente sea la victimización por cuidadores (sí/no).

Modelo de regresión:
Code
summary(lm(data$puntaje_depresion ~ 1 + data$vic_cuid_ano))
output

Call:
lm(formula = data$puntaje_depresion ~ 1 + data$vic_cuid_ano)

Residuals:
     Min       1Q   Median       3Q      Max 
-14.9253  -4.0635  -0.9253   3.9365  25.9365 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)         10.06354    0.05245  191.88   <2e-16 ***
data$vic_cuid_anoSi  4.86174    0.08935   54.41   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.694 on 17982 degrees of freedom
  (1700 observations deleted due to missingness)
Multiple R-squared:  0.1414,    Adjusted R-squared:  0.1413 
F-statistic:  2960 on 1 and 17982 DF,  p-value: < 2.2e-16

Visualiza los resultados utilizando un boxplot que compare los niveles de depresión entre NNA que han sido victimizados por cuidadores y aquellos que no. Luego, obtén un resumen del modelo e interpreta los resultados: la pendiente te indica cómo cambia la puntuación de depresión entre los NNA que han sufrido victimización por parte de cuidadores y aquellos que no, mientras que el valor p determina si la variable victimización es un predictor significativo de los niveles de depresión.

Boxplot puntaje depresión:
Code
# Boxplot de comparación de puntajes
boxplot(data$puntaje_depresion ~ data$vic_cuid_ano,
        ylab = "Puntaje Depresión",
        xlab = "Victimización por cuidador")
plot

Haz clic aquí para expandir

Respuesta:

Pendiente (β₁ = 4,86, p < 0.001): Indica que el valor en los puntajes de depresión para quienes han sido victimizados por cuidadores es de 4,86 puntos mas que aquellos que no lo fueron. Dado que el valor-p es menor a 0.05, este efecto es estadísticamente significativo.

Clase 9

Comparando medias de dos grupos II

  • Comparación con Prueba z

En este ejercicio queremos determinar si existen diferencias significativas en los niveles de depresión entre los NNA que han sufrido victimización digital y aquellos que han sufrido exposición a violencia familiar. Usaremos la distribución muestral del estadígrafo Z para evaluar la plausibilidad de la hipótesis nula frente a la alternativa. Para ello, asumiendo que la desviación estándar de la muestra se puede usar como indicador de la desviación estándar de la población,

  1. Formula la hipótesis nula (H₀) y la hipótesis alternativa (Hₐ) para comparar los niveles de depresión entre los dos grupos (victimización digital y exposición a violencia familiar).
Haz clic aquí para expandir

Respuesta:

Hipótesis nula (H₀): No hay diferencias significativas en los niveles de depresión entre los NNA que han sufrido victimización digital y aquellos que han estado expuestos a violencia familiar. Hipótesis alternativa (Hₐ): Existen diferencias significativas en los niveles de depresión entre ambos grupos. Es decir, al menos uno de los grupos tiene una media diferente.

  1. Calcula las medias y desviaciones estándar de la puntuación de depresión de cada grupo para realizar una prueba Z.
Muestras y descriptivos:
Code
# Creamos bases de victimización digital y exposición a violencia familiar
dep_vic_dig <- subset(data, F_una_en_año == 1, select = puntaje_depresion)
dep_vic_vif <- subset(data, E2_una_en_año == 1, select = puntaje_depresion)

# Calculamos la media y desviación estándar de los grupos
describe(dep_vic_dig$puntaje_depresion)
output
   vars    n mean   sd median trimmed  mad min max range skew kurtosis   se
X1    1 3678 14.7 6.67     14   14.41 7.41   0  36    36 0.35    -0.37 0.11
Code
describe(dep_vic_vif$puntaje_depresion)
output
   vars    n  mean   sd median trimmed  mad min max range skew kurtosis   se
X1    1 1280 15.68 6.56     15   15.44 7.41   0  36    36  0.3    -0.41 0.18
  1. Calcula el valor p asociado al estadístico Z para determinar si la diferencia en depresión entre los dos grupos es significativa.
Cálculo Z y p-value:
Code
# Almacenar valores relevantes
media1 <- 14.7
media2 <- 15.68
sd1 <- 6.67
sd2 <- 6.56
n1 <- 3678
n2 <- 1280

# Calcular el estadístico z
z <- (media1 - media2) / sqrt((sd1^2 / n1) + (sd2^2 / n2))
z
output
[1] -4.583447
Code
# Calcular el valor p (prueba bilateral)
p_valor <- 2 * (1 - pnorm(abs(z)))
p_valor
output
[1] 4.57373e-06
  1. Visualiza los resultados con un boxplot que compare los niveles de depresión entre ambos grupos.
Boxplot Depresión dos grupos:
Code
# Combinamos los dos datasets en un solo dataframe
datos_combinados <- data.frame(
  puntaje_depresion = c(dep_vic_dig$puntaje_depresion, dep_vic_vif$puntaje_depresion),
  grupo = rep(c("Victimización Digital", "Violencia Intrafamiliar"), 
              c(length(dep_vic_dig$puntaje_depresion), length(dep_vic_vif$puntaje_depresion)))
)

# Crear el boxplot con ambos grupos
boxplot(puntaje_depresion ~ grupo, data = datos_combinados, 
        main = "Comparación de Depresión en los Grupos", 
        ylab = "Puntaje de Depresión", 
        xlab = "Grupo")
plot

  1. Responde a la pregunta: ¿Existen diferencias significativas en los niveles de depresión entre los NNA que han sufrido victimización digital y los que han sufrido victimización por exposición a violencia familiar?
Haz clic aquí para expandir

Respuesta: Si existe una diferencia estadísticamente significativa. Esto queda en evidencia si miramos el estadístico Z, el cual tuvo un valor de -4.58 y el valor p, el cual fue menor a 0.05, considerandose significativa la diferencia en términos estadísticos

  • Comparación con prueba t

Ahora evaluaremos si existen diferencias significativas en los niveles de autoestima entre los NNA que han sufrido victimización por cuidadores y aquellos que han sufrido victimización por pares. Usaremos la distribución t para evaluar la plausibilidad de H₀ frente a Hₐ. Para ello,

  1. Formula la hipótesis nula (H₀) y la hipótesis alternativa (Hₐ) pertinentes en este contexto.
Haz clic aquí para expandir

Respuesta: Hipótesis nula (H₀): No hay diferencias significativas en los niveles de autoestima entre los NNA que han sufrido victimización por cuidadores y aquellos que han sufrido victimización por pares. Hipótesis alternativa (Hₐ): Existen diferencias significativas en los niveles de autoestima entre ambos grupos.

  1. realiza una prueba t de dos muestras independientes, asumiendo varianzas iguales, para comparar los niveles de autoestima entre ambos grupos de NNA (víctimas de cuidadores y víctimas de pares), y
Prueba T puntaje autoestima:
Code
# Creamos las bases de autoestima para ambas victimizaciones
aut_vic_cuid <- subset(data, B_una_en_año == 1, select = puntaje_autoestima)
aut_vic_par <- subset(data, C_una_en_año == 1, select = puntaje_autoestima)


t.test(aut_vic_par$puntaje_autoestima, aut_vic_cuid$puntaje_autoestima, var.equal = TRUE)
output

    Two Sample t-test

data:  aut_vic_par$puntaje_autoestima and aut_vic_cuid$puntaje_autoestima
t = 6.6105, df = 11182, p-value = 4.004e-11
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.6931258 1.2774491
sample estimates:
mean of x mean of y 
 32.69558  31.71030 
  1. visualiza los resultados utilizando un boxplot que compare las medias de ambos grupos.
Boxplot:
Code
datos_combinados1 <- data.frame(
  puntaje_autoestima = c(aut_vic_par$puntaje_autoestima, aut_vic_cuid$puntaje_autoestima),
  grupo = rep(c("Victimización de pares", "Victimización de cuidador"), 
              c(length(aut_vic_par$puntaje_autoestima), length(aut_vic_cuid$puntaje_autoestima)))
)

# Crear el boxplot con ambos grupos
boxplot(puntaje_autoestima ~ grupo, data = datos_combinados1, 
        main = "Comparación de Autoestima en los Grupos", 
        ylab = "Puntaje de Autoestima", 
        xlab = "Grupo")
plot

  1. ¿Qué se puede decir acerca de la diferencia observada en los niveles de autoestima entre los NNA víctimas de cuidadores y de pares?
Haz clic aquí para expandir

Respuesta: Aunque la diferencia promedio es pequeña (aproximadamente 1 punto), la prueba t mostró una diferencia estadísticamente significativa en los niveles de autoestima entre NNA víctimas de cuidadores y de pares (p < 0.001), con un intervalo de confianza del 95% entre 0.69 y 1.28 puntos.

En esta oportunidad, sin asumir varianzas iguales,

  1. aplica una prueba t de dos muestras independientes para comparar los niveles de autoestima entre NNA víctimas de cuidadores y de pares.
Prueba T:
Code
t.test(aut_vic_par$puntaje_autoestima, aut_vic_cuid$puntaje_autoestima, var.equal = FALSE)
output

    Welch Two Sample t-test

data:  aut_vic_par$puntaje_autoestima and aut_vic_cuid$puntaje_autoestima
t = 6.5893, df = 10597, p-value = 4.63e-11
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 0.692182 1.278393
sample estimates:
mean of x mean of y 
 32.69558  31.71030 
  1. Visualiza los resultados utilizando un boxplot y, fíjate en cómo cambian los grados de libertad entre esta prueba y la del primer ejercicio (asumiendo varianzas iguales).
Boxplot:
Code
datos_combinados2 <- data.frame(
  puntaje_autoestima = c(aut_vic_par$puntaje_autoestima, aut_vic_cuid$puntaje_autoestima),
  grupo = rep(c("Victimización de pares", "Victimización de cuidador"), 
              c(length(aut_vic_par$puntaje_autoestima), length(aut_vic_cuid$puntaje_autoestima)))
)

# Crear el boxplot con ambos grupos
boxplot(puntaje_autoestima ~ grupo, data = datos_combinados2, 
        main = "Comparación de Autoestima en los Grupos", 
        ylab = "Puntaje de Autoestima", 
        xlab = "Grupo")
plot

  1. Compara los resultados obtenidos en ambas pruebas y discute las diferencias: ¿Existen diferencias en los resultados entre la prueba t con varianzas iguales y la que no asume varianzas iguales? ¿Cómo afectan los grados de libertad a los resultados?
Haz clic aquí para expandir

Respuesta:

Estadístico t: La prueba con varianzas iguales da t = 6.6105, mientras que la prueba sin asumir varianzas iguales da t= 6.5893. La diferencia es muy pequeña. Grados de libertad (df): La prueba con varianzas iguales tiene df= 11182, mientras que la prueba sin asumir varianzas iguales tiene df=10597. La segunda prueba ajusta los grados de libertad usando una corrección estadistica, lo cual suele reducirlos ligeramente.

Valor p: Ambos valores p son extremadamente pequeños (p<0.00000000005), por lo que en ambos casos se rechaza la hipótesis nula con alta confianza.

  • Comparación con ANOVA A continuación, compararemos los niveles de autoestima entre distintos grupos de frecuencia de exposición a violencia digital (Nunca, 1 vez, 2 o 3 veces, Al menos una vez al mes, Al menos una vez a la semana o, Todos los días) para explorar la distribución muestral del estadígrafo F. Para ello,
  1. Formula la hipótesis nula (H₀) y la hipótesis alternativa (Hₐ) pertinentes en este contexto.
Haz clic aquí para expandir

Respuesta: Hipótesis nula (H₀): No hay diferencias significativas en los niveles de autoestima entre los grupos de frecuencia de exposición a violencia digital. Las medias de los diferentes grupos son iguales. Hipótesis alternativa (Hₐ): Al menos uno de los grupos tiene una media diferente en los niveles de autoestima.

  1. Realiza una prueba ANOVA para comparar las medias de autoestima entre los distintos niveles de frecuencia de exposición a violencia digital.
ANOVA:
Code
data$frec_exp_dig <- recode(data$poli31_c,
                                "1" = 'Nunca',  
                                "2" = '1 vez',   
                                "3" = '2 o 3 veces',
                                "4" = 'Al menos una vez al mes',   
                                "5" = 'Al menos una vez a la semana',
                                "6" = 'Todos los dias')      

# Se genera un objeto
anova_aut = aov(data$puntaje_autoestima ~ data$frec_exp_dig)

# Ahora para saber el reporte del anova usamos summary del objeto
summary(anova_aut)
output
                     Df  Sum Sq Mean Sq F value Pr(>F)    
data$frec_exp_dig     5   25544    5109   89.39 <2e-16 ***
Residuals         17556 1003384      57                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
2122 observations deleted due to missingness
  1. Si el ANOVA indica diferencias significativas, realiza un análisis post-hoc (como la prueba de Tukey) para identificar específicamente qué grupos son significativamente diferentes.
Prueba post-hoc Tukey:
Code
TukeyHSD(anova_aut)
output
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = data$puntaje_autoestima ~ data$frec_exp_dig)

$`data$frec_exp_dig`
                                                           diff        lwr
2 o 3 veces-1 vez                                    -0.9594020 -1.9400819
Al menos una vez a la semana-1 vez                   -3.9918747 -5.9764575
Al menos una vez al mes-1 vez                        -1.9714198 -3.5630682
Nunca-1 vez                                           2.3136396  1.5356762
Todos los dias-1 vez                                 -4.4302805 -7.6312347
Al menos una vez a la semana-2 o 3 veces             -3.0324727 -4.9692757
Al menos una vez al mes-2 o 3 veces                  -1.0120178 -2.5436776
Nunca-2 o 3 veces                                     3.2730417  2.6266176
Todos los dias-2 o 3 veces                           -3.4708785 -6.6424309
Al menos una vez al mes-Al menos una vez a la semana  2.0204550 -0.2866682
Nunca-Al menos una vez a la semana                    6.3055144  4.4630433
Todos los dias-Al menos una vez a la semana          -0.4384058 -4.0488877
Nunca-Al menos una vez al mes                         4.2850594  2.8745716
Todos los dias-Al menos una vez al mes               -2.4588608 -5.8691915
Todos los dias-Nunca                                 -6.7439202 -9.8587618
                                                            upr     p adj
2 o 3 veces-1 vez                                     0.0212779 0.0593763
Al menos una vez a la semana-1 vez                   -2.0072920 0.0000002
Al menos una vez al mes-1 vez                        -0.3797713 0.0055729
Nunca-1 vez                                           3.0916031 0.0000000
Todos los dias-1 vez                                 -1.2293264 0.0011298
Al menos una vez a la semana-2 o 3 veces             -1.0956698 0.0001190
Al menos una vez al mes-2 o 3 veces                   0.5196421 0.4125921
Nunca-2 o 3 veces                                     3.9194657 0.0000000
Todos los dias-2 o 3 veces                           -0.2993262 0.0224125
Al menos una vez al mes-Al menos una vez a la semana  4.3275782 0.1252470
Nunca-Al menos una vez a la semana                    8.1479854 0.0000000
Todos los dias-Al menos una vez a la semana           3.1720761 0.9993494
Nunca-Al menos una vez al mes                         5.6955472 0.0000000
Todos los dias-Al menos una vez al mes                0.9514700 0.3113762
Todos los dias-Nunca                                 -3.6290786 0.0000000
  1. Responde: ¿Qué grupos de frecuencia de exposición a violencia digital tienen medias de autoestima significativamente diferentes?
Haz clic aquí para expandir

Respuesta: Los grupos que presentan diferencias significativas (p < 0.05) son: - Al menos una vez a la semana - 1 vez - Al menos una vez al mes - 1 vez - Nunca - 1 vez - Todos los dias - 1 vez - Al menos una vez a la semana - 2 o 3 veces - Nunca - 2 o 3 veces - Todos los dias - 2 o 3 veces - Nunca - Al menos una vez a la semana - Nunca - Al menos una vez al mes - Todos los dias - Nunca

A continuación, compararemos los niveles de autoestima entre NNA con diferentes condiciones físicas de larga duración. Dado que algunas personas pueden presentar más de una condición (mudez, sordera y/o ceguera), se agrupará a los participantes en tres categorías:

  • Sin condición física
  • Con una sola condición
  • Con múltiples condiciones.

Nuestro objetivo es responder:¿Existen diferencias significativas en los puntajes de autoestima entre los NNA sin condiciones físicas, con una sola condición física o con múltiples condiciones físicas?Para ello,

  1. Formula la hipótesis nula (H₀) y la hipótesis alternativa (Hₐ) pertinentes en este contexto.
Haz clic aquí para expandir

Respuesta: Hipótesis nula (H₀): No hay diferencias significativas en los puntajes de autoestima entre los tres grupos definidos según la cantidad de condiciones físicas. Hipótesis alternativa (Hₐ): Al menos uno de los grupos difiere significativamente en los puntajes de autoestima respecto a los otros.

  1. Crea una nueva variable categórica según la cantidad de condiciones físicas reportadas por cada NNA
Creación variable categórica:
Code
data$condiciones_tot <- rowSums(data[, c("condiciones1", "condiciones2", "condiciones3", 
                                 "condiciones4", "condiciones5", "condiciones6")], 
                          na.rm = TRUE)

data$condiciones_cat <- ifelse(data$condiciones_tot == 0, "sin condición física",
                      ifelse(data$condiciones_tot == 1, "con una sola condición",
                             "con múltiples condiciones"))
  1. Realiza un ANOVA para comparar niveles de autoestima entre los tres grupos
ANOVA autoestima y condiciones:
Code
anova_aut2 = aov(data$puntaje_autoestima ~ data$condiciones_cat)
summary(anova_aut2)
output
                        Df  Sum Sq Mean Sq F value Pr(>F)    
data$condiciones_cat     2    4722  2361.0   40.45 <2e-16 ***
Residuals            17938 1047028    58.4                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
1743 observations deleted due to missingness
  1. Finalmente, interpreta los resultados del ANOVA y, si hay diferencias significativas en los niveles de autoestima entre los grupos, realiza una prueba post-hoc (como la prueba de Tukey) para identificar qué grupos específicos tienen diferencias significativas en los niveles de autoestima. También, puedes visualizar las diferencias de autoestima entre los grupos utilizando un boxplot para representar las medias de autoestima para cada condición.
Pruebas post-hoc:
Code
TukeyHSD(anova_aut2)
output
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = data$puntaje_autoestima ~ data$condiciones_cat)

$`data$condiciones_cat`
                                                       diff       lwr       upr
con una sola condición-con múltiples condiciones  3.2021517  2.359331 4.0449723
sin condición física-con múltiples condiciones    2.7690758  1.727186 3.8109652
sin condición física-con una sola condición      -0.4330759 -1.076251 0.2100989
                                                     p adj
con una sola condición-con múltiples condiciones 0.0000000
sin condición física-con múltiples condiciones   0.0000000
sin condición física-con una sola condición      0.2550823
Haz clic aquí para expandir

Respuesta:

La prueba ANOVA mostró diferencias estadísticamente significativas en la variable dependiente según el número de condiciones reportadas por los participantes (F(2, 17938) = 40.45, p < .001). Las pruebas post hoc indicaron que las personas con múltiples condiciones difieren significativamente tanto de quienes tienen una sola condición, como de quienes no presentan ninguna condición. En contraste, no se observaron diferencias significativas entre quienes no tienen condiciones y quienes presentan solo una. Estos resultados sugieren que la presencia de múltiples condiciones está asociada con un peor puntaje de autoestima, mientras que una sola condición no parece tener un efecto significativo.

Clases 10 y 11

Comparando medias de tres o más grupos II

  • Dicotomizando una variable politómica

Analizaremos cómo el año escolar cursado y la frecuencia de victimización por parte de pares (baja vs. alta exposición) afectan los niveles de depresión. Para ello,

  1. Dicotomiza la variable de frecuencia de victimización por pares en dos grupos: baja exposición (nunca, 1 vez, 2 o 3 veces) y alta exposición (al menos una vez al mes, al menos una vez a la semana, todos los días).
Dicotomizar exposición :
Code
data$cant_vic_par <- ifelse(data$poli14_c < 4, "Baja exposición",
                      ifelse(data$poli14_c > 3, "Alta exposición", NA))

table(data$cant_vic_par)
output

Alta exposición Baja exposición 
            904           18278 
  1. Luego, realiza un ANOVA para comparar los niveles de depresión entre los diferentes años escolares y la exposición a la victimización por parte de pares. Posteriormente, interpreta los resultados del ANOVA guiándote por el estadígrafo F y el valor p.
ANOVA para exposición a victimización de pares :
Code
anova_dep <- aov(data$puntaje_depresion ~ data$curso * data$cant_vic_par)
summary(anova_dep)
output
                                Df Sum Sq Mean Sq F value Pr(>F)    
data$curso                       1    231     231   6.373 0.0116 *  
data$cant_vic_par                1  23481   23481 647.871 <2e-16 ***
data$curso:data$cant_vic_par     1    229     229   6.316 0.0120 *  
Residuals                    17816 645705      36                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
1864 observations deleted due to missingness
  1. Finalmente interpreta los resultados del análisis y las conclusiones que obtuviste a partir de éste.
Haz clic aquí para expandir

Respuesta: El análisis ANOVA factorial mostró efectos significativos tanto para el curso (p = 0.0116) como para la cantidad de victimización de pares (p < 0.001) sobre el puntaje de depresión. Además, se identificó una interacción significativa entre ambos factores (p = 0.0120), lo que indica que el impacto de la victimización de pares en los niveles de depresión varía según el curso. Esto sugiere que no solo existen diferencias entre cursos y niveles de victimización por separado, sino que la combinación de ambos factores influye de manera diferencial en los puntajes de depresión.

  • El modelo de regresión con un predictor politómico

En este ejercicio, analizaremos cómo varía la autoestima de los NNA en función del año escolar cursado. La variable “año escolar” es una variable politómica con múltiples categorías (de séptimo básico a tercero medio) y se utilizará como predictor en un modelo de regresión lineal. Para ello, 1. dado que “año escolar” es una variable con varias categorías, primero debes crear variables dummy. Cada categoría del año escolar se representará con una variable dummy que tomará el valor de 1 cuando el estudiante esté en ese año y 0 en caso contrario. Elige una categoría como referencia en el modelo (por ejemplo, 7º básico) y usa las demás categorías como variables dummy en la regresión.

Dummies por curso :
Code
data$dummiescurso2 <- ifelse(data$curso == 2, 1, 0)

data$dummiescurso3 <- ifelse(data$curso == 3, 1, 0)

data$dummiescurso4 <- ifelse(data$curso == 4, 1, 0)

data$dummiescurso5 <- ifelse(data$curso == 5, 1, 0)
  1. Crea un modelo de regresión lineal donde la variable dependiente sea el nivel de autoestima y las variables independientes sean las dummies para cada año escolar (exceptuando la categoría de referencia). Ejecuta el modelo y observa los coeficientes para cada dummy. Cada coeficiente te indicará cuánto difiere el nivel de autoestima en cada año escolar en relación con la categoría de referencia.
Regresión con dummies :
Code
# Ajustar el modelo de regresión lineal
modelo_dummies <- lm(puntaje_autoestima ~ dummiescurso2 + dummiescurso3 + dummiescurso4 + dummiescurso5, data = data)

summary(modelo_dummies)
output

Call:
lm(formula = puntaje_autoestima ~ dummiescurso2 + dummiescurso3 + 
    dummiescurso4 + dummiescurso5, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-25.8078  -4.8078   0.3469   5.4719  15.7715 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)    34.6531     0.1214 285.388  < 2e-16 ***
dummiescurso2  -0.1250     0.1714  -0.729  0.46585    
dummiescurso3  -0.4246     0.1789  -2.373  0.01767 *  
dummiescurso4   0.4677     0.1786   2.619  0.00883 ** 
dummiescurso5   1.1547     0.1814   6.367 1.97e-10 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 7.639 on 17936 degrees of freedom
  (1743 observations deleted due to missingness)
Multiple R-squared:  0.00482,   Adjusted R-squared:  0.004598 
F-statistic: 21.72 on 4 and 17936 DF,  p-value: < 2.2e-16
  1. Para una comparación visual de los niveles de autoestima en cada año escolar, usa un gráfico de barras o un boxplot que muestre las medias de autoestima en cada grupo de año escolar.
Boxplots :
Code
boxplot(puntaje_autoestima ~ curso, data = data, 
        main = "Distribución de la Autoestima por Año Escolar",
        xlab = "Año Escolar", ylab = "Puntaje de Autoestima")
plot

  1. Finalmente, interpreta los coeficientes de la regresión y determina si el año escolar tiene un efecto significativo sobre la autoestima. Examina el valor p de cada dummy para ver si hay diferencias significativas entre la autoestima de los estudiantes en distintos años escolares
Haz clic aquí para expandir

Respuesta: El análisis muestra que los estudiantes en curso 3 tienen una autoestima significativamente más baja que los del curso 1, mientras que los estudiantes en curso 4 y curso 5 tienen una autoestima significativamente más alta. Sin embargo, no hay diferencias significativas entre los estudiantes del curso 2 y el curso 1. En general, el año escolar tiene un efecto significativo sobre los niveles de autoestima.

Clase 12

Regresión múltiple

  • Dos variables dicotómicas (e interacción)

Ahora analizaremos cómo el sexo y la victimización digital interactúan para influir en los niveles de depresión. Para ello,

  1. dicotomiza las variables de sexo y victimización digital: codifica como 1 para mujeres y 0 para hombres, y codifica como 1 para víctimas de violencia digital y 0 para no víctimas.
Dicotomizar variables :
Code
data$sexo[data$sexo == 2] <- 0
data$F_una_en_vida[data$F_una_en_vida == 2] <- 0 
  1. Crea una variable de interacción entre el sexo y la victimización digital.
Interacción :
Code
data$interaccion <- data$F_una_en_vida * data$sexo
  1. Ajusta un modelo de regresión múltiple para predecir los niveles de depresión a partir del sexo, la victimización digital, y la interacción.
Modelo de regresión :
Code
modelo_dico <- lm(data$puntaje_depresion ~ 1 + data$sexo + data$F_una_en_vida + data$interaccion)

summary(modelo_dico)
output

Call:
lm(formula = data$puntaje_depresion ~ 1 + data$sexo + data$F_una_en_vida + 
    data$interaccion)

Residuals:
     Min       1Q   Median       3Q      Max 
-15.6619  -4.0002  -0.2977   3.7023  26.7023 

Coefficients:
                   Estimate Std. Error t value Pr(>|t|)    
(Intercept)         9.29769    0.06858 135.568  < 2e-16 ***
data$sexo           2.70249    0.10322  26.183  < 2e-16 ***
data$F_una_en_vida  2.67985    0.14669  18.268  < 2e-16 ***
data$interaccion    0.98187    0.19013   5.164 2.44e-07 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 5.675 on 17878 degrees of freedom
  (1802 observations deleted due to missingness)
Multiple R-squared:  0.1459,    Adjusted R-squared:  0.1458 
F-statistic:  1018 on 3 and 17878 DF,  p-value: < 2.2e-16
  1. Finalmente, interpreta los resultados de la regresión múltiple: ¿El sexo tiene un efecto significativo sobre los niveles de depresión? ¿La victimización digital tiene un efecto significativo sobre los niveles de depresión?¿La interacción entre sexo y victimización digital tiene un efecto significativo en la depresión?
Haz clic aquí para expandir

Respuesta: Los resultados muestran que tanto ser mujer como haber experimentado victimización digital se asocian con un aumento significativo en la variable dependiente. Específicamente, las mujeres presentan puntajes más altos que los hombres, incluso en ausencia de victimización. Además, la victimización se relaciona con un incremento en los puntajes, siendo este efecto más pronunciado en las mujeres, como lo indica la interacción positiva entre sexo y victimización digital. Esto sugiere que el impacto de la victimización es mayor en mujeres que en hombres.

Clase 13

Regresión múltiple II

  • Una variable cuantitativa y una dicotómica (e interacción)

Analizaremos cómo los niveles de autoestima varían según el sexo (masculino vs. femenino) y el curso escolar, considerando también si existe interacción entre ambas variables. Queremos responder a las preguntas:¿El sexo y el curso predicen significativamente los niveles de autoestima? ¿Existe una interacción entre estos factores que modifique ese efecto? Para ello,

  1. Crea las variables:Usa la variable sexo como dicotómica (masculino = 1, femenino = 0) y la variable de curso escolar en su forma ordinal (1 = 7mo básico, 2 = 8vo básico, etc).
Creación de variables :
Code
# Las variables ya están codificadas de esa manera
table(data$sexo)
output

   0    1 
9720 9964 
Code
table(data$curso)
output

   1    2    3    4    5 
4435 4418 3706 3648 3477 
  1. Crea un modelo de regresión múltiple en el que la variable dependiente sea la cantidad de victimizaciones sufridas y las variables independientes sean el año escolar y el sexo. Incluye una interacción entre ambas variables para evaluar si la combinación de año escolar y sexo afecta la cantidad de victimizaciones.
Ajustar regresión múltiple :
Code
Regresion_mult <- lm(victim_ano_cuenta ~ 1 + sexo + curso + sexo:curso, data = data )
summary(Regresion_mult)
output

Call:
lm(formula = victim_ano_cuenta ~ 1 + sexo + curso + sexo:curso, 
    data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.0762 -2.8197 -0.9479  1.8095 28.8095 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.06651    0.08208  37.362  < 2e-16 ***
sexo         0.68905    0.11578   5.952 2.70e-09 ***
curso        0.12398    0.02579   4.807 1.54e-06 ***
sexo:curso  -0.05985    0.03626  -1.651   0.0988 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 3.595 on 19680 degrees of freedom
Multiple R-squared:  0.006681,  Adjusted R-squared:  0.00653 
F-statistic: 44.12 on 3 and 19680 DF,  p-value: < 2.2e-16
  1. Usa un gráfico de líneas o regresión que muestre cómo cambia la autoestima según curso, diferenciando por sexo.
Gráfico regresión :
Code
data$sexo <- as.factor(data$sexo)
data$curso <- as.factor(data$curso)
# Agrega la predicción del modelo a tu base original
data$predicho <- predict(Regresion_mult)

library(ggplot2)

ggplot(data, aes(x = curso, y = predicho, color = sexo, group = sexo)) +
  geom_point() +
  geom_line(stat = "summary", fun = mean) +
  labs(
    title = "Victimización anual predicha según curso y sexo",
    x = "Curso",
    y = "Victimización (modelo ajustado)",
    color = "Sexo"
  )
plot

  1. Interpreta los resultados: ¿Cómo afectan el año escolar y el sexo la cantidad total de victimizaciones? ¿Es significativo el coeficiente de interacción?
Haz clic aquí para expandir

Respuesta:

El modelo muestra que el sexo tiene un efecto significativo en la cantidad total de victimizaciones: las mujeres (sexo = 1) reportan en promedio 0.55 victimizaciones menos que los hombres (p < 0.001). En relación con el curso, solo Primero Medio (curso 3) presenta una diferencia significativa respecto de Séptimo Básico (curso 1), con un aumento promedio de 0.73 victimizaciones (p = 0.00395). Los otros cursos (Octavo, Segundo y Tercero Medio) no difieren significativamente de Séptimo Básico. Además, ninguna interacción entre sexo y curso es significativa, lo que indica que la diferencia entre hombres y mujeres en victimización se mantiene relativamente constante en todos los niveles escolares. En resumen, las mujeres reportan menos victimización en general, y el mayor aumento se observa al pasar de Séptimo Básico a Primero Medio.

Clase 14

Medidas de asociación de dos variables categóricas

  • Chi-cuadrado

Por último, vamos a investigar si existe una relación significativa entre el sexo (hombres y mujeres) y el riesgo de depresión en niños y adolescentes, categorizado en dos niveles (alto y bajo) según la escala de Birleson. Para ello,

  1. clasifica el nivel de depresión en dos categorías: “Alto” si la puntuación de depresión en la escala de Birleson es 19 o más, y “Bajo” si es menor a 19.
Recodificación Depresión:
Code
#Recordar que la variable sexo fue recodificada para 0 = HOmbre y 1 = Mujer

# Creamos una nueva variable como factor vacía para guardar los valores recodificados
data$Dep_Niveles2 <- factor(NA, levels = c("Alto", "Bajo"))

# Asignamos los valores recodificados
data$Dep_Niveles2[data$puntaje_depresion < 19] <- "Bajo"
data$Dep_Niveles2[data$puntaje_depresion >= 19] <- "Alto"
  1. Crea una tabla de frecuencia cruzada que muestre el número de individuos en cada combinación de sexo y riesgo de depresión (alto y bajo).
Tabla de frecuencia :
Code
# Creamos una tabla de frecuencia para sexo y riesgo de depresión
tabla_chi <- table(data$sexo, data$Dep_Niveles2)
  1. Realiza una prueba de chi-cuadrado sobre la tabla de frecuencia cruzada para determinar si existe una asociación significativa entre el sexo y el riesgo de depresión.
Prueba Chi-cuadrado :
Code
# Ahora ejecutamos la prueba Chi-cuadrado sobre la tabla de frecuencia
chisq.test(tabla_chi)
output

    Pearson's Chi-squared test with Yates' continuity correction

data:  tabla_chi
X-squared = 792.89, df = 1, p-value < 2.2e-16
  1. Crea un gráfico de barras que compare la frecuencia de riesgo de depresión (alto y bajo) entre hombres y mujeres.
Barplot :
Code
#Creamos barplot para la comparación
barplot(tabla_chi,
        beside = TRUE,         # Para que las barras estén lado a lado
        col = c("blue", "red"),  # Colores para hombres y mujeres
        legend = TRUE,         
        main = "Riesgo de depresión por sexo",
        xlab = "Riesgo de depresión",
        ylab = "Frecuencia")
plot

  1. Interpreta los resultados: ¿El valor p obtenido en la prueba de chi-cuadrado es menor a 0.05? Si es así, ¿qué nos sugiere esto sobre la relación entre el sexo y el riesgo de depresión? ¿Qué observas en la comparación de frecuencias de riesgo de depresión entre hombres y mujeres en el gráfico de barras? ¿Hay diferencias notables?
Haz clic aquí para expandir

Respuesta:

El resultado de la prueba chi-cuadrado (p < 0.05) sugiere que hay evidencia suficiente para rechazar la hipótesis de que no hay relación entre el sexo y el riesgo de depresión. A la luz de las observaciones, no podemos afirmar que las diferencias observadas se deban al azar. La distribución de personas sugiere que los hombres tienen menos probabilidades que las mujeres de tener alto riesgo de depresión, y más probabilidades de tener un nivel bajo en comparación con mujeres, quienes tienen menos probabilidad.

Referencias

Birleson, P. (1981). The Validity of Depressive Disorder in Childhood and the Development of a Self‐Rating Scale: a Research Report. Journal of Child Psychology and Psychiatry, 22(1), 73–88. https://doi.org/10.1111/j.1469-7610.1981.tb00533.x

Birleson, P., Hudson, I., Buchanan, D. G., & Wolff, S. (1987). Clinical Evaluation of a Self‐Rating Scale for Depressive Disorder in Childhood (Depression Self‐Rating Scale). Journal of Child Psychology and Psychiatry, 28(1), 43–60. https://doi.org/10.1111/j.1469-7610.1987.tb00651.x

Finkelhor, D., Hamby, S. L., Ormrod, R., & Turner, H. (2005). The Juvenile Victimization Questionnaire: Reliability, validity, and national norms. Child Abuse and Neglect, 29(4), 383–412. https://doi.org/10.1016/j.chiabu.2004.11.001

MINSAL. (2013). Guía Clínica para el tratamiento de adolescentes de 10 a 14 años con Depresión. https://www.guiadisc.com/wp-content/pdfs/guia-clinica-tratamiento-depresion-adolescentes.pdf

Rosenberg, M. (1965). Society and the adolescent self-image. In Society and the Adolescent Self-Image. Princeton University Press.