Code
library(readr)
library(psych)
library(rockchalk)
library(lme4)
library(dplyr)
data <- read_csv("data/data_polivictimizacion.csv")[2:131]La Primera Encuesta Nacional de Polivictimización en Niñas, Niños y Adolescentes en Chile se realizó con el objetivo de medir la magnitud de la exposición a diversas formas de violencia en la niñez y adolescencia, a nivel nacional y regional, junto a indicadores de salud mental como la autoestima y la depresión. Esta encuesta fue aplicada entre octubre y diciembre de 2017, y abarcó una muestra de 19,867 estudiantes de 7º básico a 3º medio de establecimientos educacionales de todas las regiones del país.
En este estudio, se incluyen diferentes instrumentos para evaluar victimización, autoestima y depresión en adolescentes. Se utilizó un cuestionario adaptado del Cuestionario sobre victimización juvenil (Juvenile Victimization Questionnaire, JVQ) desarrollado por Finkelhor (Finkelhor et al., 2005), el cual se aplicó de forma auto-administrada con la asistencia de un facilitador. A través de este cuestionario, se estudiaron variables que permiten evaluar la prevalencia y acumulación de experiencias traumáticas en la infancia y adolescencia, divididas en seis dimensiones clave: delitos comunes, maltrato o negligencia por cuidadores, victimización por pares, victimización de carácter sexual, exposición a violencia en entornos familiares y comunitarios, y victimización digital. En este estudio, se define como “polivíctima” aquellos niños, niñas y adolescentes (NNA) que pertenecen al 10% superior de la distribución de puntajes de victimizaciones en el grupo estudiado. Este indicador es empleado para mostrar que el número de victimizaciones acumuladas puede variar según las características de los estudiantes, como el sexo, la edad, y otras características de sus entornos.
Además, para complementar el análisis, se incluyeron dos escalas psicométricas relevantes: la Escala de autoestima de Rosenberg (Rosenberg, 1965) y la Escala de detección de depresión infantil de Birleson (Birleson, 1981, MINSAL, 2013). Este enfoque multidimensional permite entender cómo la acumulación de experiencias traumáticas impacta en el desarrollo infantil y adolescente. Por ejemplo, algunas de las preguntas que podríamos resolver con estos datos son: ¿Cómo se relaciona el número de victimizaciones con los síntomas depresivos en niños, niñas y adolescentes?; ¿Existen diferencias significativas entre niños y niñas en la frecuencia y el tipo de victimización sufrida?; ¿Cuál es la relación entre la cantidad de victimizaciones sufridas y los niveles de autoestima en adolescentes?; y ¿Existen diferencias significativas en los niveles de polivictimización entre distintas regiones del país? La respuesta a estas preguntas favorece el diseño de intervenciones tempranas y políticas públicas que prioricen la prevención de la violencia de carácter intersectorial.
En esta guía se plantean una serie de actividades junto con sus resoluciones haciendo uso de los datos recolectados en el estudio. La base de datos que será utilizada en el caso posee la información recoletada en bruto.
La descripción de las variables de la base de datos se encuentra en la siguiente tabla. La primera variable corresponde a un identiifcador por participantes, las siguientes corresponden algunos de los elemantos evaluados por el cuestionario que fue aplicado, sin embargo, pueden encontrar el detalle de cada una de las variables en el libro de códigos. La base de datos contiene un total de 19.684 observaciones y 134 variables.
| Variable | Descripción de la variable | Tipo de variable |
| Folio | Identificador del participante | Nominal |
| Curso | Nivel que cursa el encuestado | Ordinal |
| Sexo | Sexo del encuestado | Nominal |
| Condiciones (1 a 6) | Presencia/ausencia de condiciones determinadas | Dicotómica |
| Puntaje_depresion | Puntuación cuestionario de depresión | Numérica |
| Puntaje_autoestima | Puntuación cuestionario de autoestima | Numérica |
| victim_ano_cuenta | Cantidad de victimizaciones en el último año | Numérica |
Para iniciar le resolución de actividades de este caso de estudio, activamos las librería que serán utilizadas y cargamos la base de datos.
Para empezar, obtengamos, a nivel general, la media, mediana, varianza y desviación estándar de los puntajes de depresión (según la escala de Birleson) presentados por las niñas, niños y adolescentes (NNA) de la muestra.
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 18180 11.72 6.14 11 11.32 5.93 0 36 36 0.62 0.15 0.05
[1] 37.71383
Respuesta:
Respuesta: Se observa que la muestra posee una media de 11.72, una mediana de 11, una varianza de 37.7 y una desviación estándar de 6.14 en los puntajes de depresión.
Estudios previos sobre la escala de Birleson et al (1987) han encontrado patrones diferentes en las respuestas de hombres y mujeres (e.g., Denda et al, 2006). En particular, se ha encontrado mayor dispersión en los puntajes por parte de las mujeres, y mayores puntajes totales. Calcule los descriptivos correspondientes para mujeres y hombres, incluyendo medias, medianas y desviación estándar.
Descriptive statistics by group
group: 1
vars n mean sd median trimmed mad min max range skew kurtosis se
X1* 1 9272 16.55 12.07 12 15.71 10.38 1 37 36 0.64 -1.18 0.13
------------------------------------------------------------
group: 2
vars n mean sd median trimmed mad min max range skew kurtosis se
X1* 1 8908 19.31 13.25 15 19.33 17.79 1 36 35 0.05 -1.78 0.14
Respuesta:
Respuesta: Se observa un comportamiento similar a estudios previos. La mujeres poseen mayores puntajes y mayor dispersión (Media=13.49, DS=6.3) en comparación a los hombres (Media=9.89, DS=5.39).
El MINSAL (2013) emplea los 19 puntos en la escala de Birleson como puntaje corte para determinar quiénes se encuentran en riesgo de depresión. Bajo este criterio, calcula la proporción de los casos que estaría en riesgo de depresión (19 puntos o más).
# Creamos una nueva variable como factor vacía para guardar los valores recodificados
data$Dep_Niveles <- factor(NA, levels = c("En riesgo", "Sin riesgo"))
# Asignamos los valores recodificados
data$Dep_Niveles[data$puntaje_depresion < 19] <- "Sin riesgo"
data$Dep_Niveles[data$puntaje_depresion >= 19] <- "En riesgo"Respuesta:
Respuesta: Según los resultados obtenidos, un aproximadamente 14% de la muestra se encuentra en riesgo de depresión.
Para mayor especificidad, calcula la proporción de “polivictimas” y “no polivictimas” que se encontraría en riesgo de depresión, tomando en consideración la polivictimización en la vida.
1 2 Sum
En riesgo 0.4243523 0.1048253 0.5291776
Sin riesgo 0.5756477 0.8951747 1.4708224
Sum 1.0000000 1.0000000 2.0000000
Respuesta:
Respuesta: Según los resultados obtenidos, del total de polivictimas aproximadamente un 42.4% se encuentra en riesgo de depresión.Del total de no polivictimas aproximadamente un 10.4% se encuentra en riesgo de depresión.
Para predecir el puntaje de depresión de un individuo, podemos guiarnos por la media de la muestra que obtuvimos anteriormente. A continuación, crearemos un modelo nulo para los niveles de depresión en los NNA y, luego, visualizaremos los residuos en un histograma para evaluar la magnitud de las desviaciones de los puntajes observados respecto a la media predicha.
Call:
lm(formula = data$puntaje_depresion ~ 1)
Residuals:
Min 1Q Median 3Q Max
-11.7249 -4.7249 -0.7249 4.2751 24.2751
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.72486 0.04555 257.4 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 6.141 on 18179 degrees of freedom
(1504 observations deleted due to missingness)
Esto mismo es factible también para predecir la cantidad total de tipo de victimizaciones sufridas en los últimos 12 meses por los NNA de la muestra. A continuación, crearemos un modelo nulo en base al promedio de la cantidad total de tipos de victimizaciones sufridas y, luego, visualizaremos los residuos.
Call:
lm(formula = data$victim_ano_cuenta ~ 1)
Residuals:
Min 1Q Median 3Q Max
-3.6832 -2.6832 -0.6832 1.3168 28.3168
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.68319 0.02571 143.3 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.607 on 19683 degrees of freedom
Para complejizar nuestro modelo anterior, podemos introducir una variable predictora, en este caso, la cantidad total de tipos de victimizaciones sufridas por cada NNA en los últimos 12 meses. Queremos responder a la pregunta ¿Cómo afecta la cantidad total de tipos de victimizaciones sufridas a los niveles de depresión en niños y adolescentes? Para ello, realizaremos un modelo de regresión simple en el que la variable respuesta será la puntuación total de depresión y la variable predictora será el total de tipos de victimizaciones sufridas. Esto nos permitirá entender cómo cambia la puntuación de depresión en función del número de victimizaciones sufridas.
Call:
lm(formula = data$puntaje_depresion ~ 1 + data$victim_ano_cuenta)
Residuals:
Min 1Q Median 3Q Max
-19.7836 -4.1710 -0.5366 3.6352 26.6352
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.36475 0.06089 153.79 <2e-16 ***
data$victim_ano_cuenta 0.63438 0.01177 53.88 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 5.703 on 18178 degrees of freedom
(1504 observations deleted due to missingness)
Multiple R-squared: 0.1377, Adjusted R-squared: 0.1376
F-statistic: 2903 on 1 and 18178 DF, p-value: < 2.2e-16
Respuesta:
Respuesta:
Intercepto (β₀ = 9.36, p < 0.001): Representa el puntaje de depresión esperado cuando el total de victimizaciones en el año es 0. Es decir, una persona que no ha sido víctima en el último año tiene un puntaje de depresión promedio de 9.36.
Pendiente (β₁ = 0.63, p < 0.001): Indica que por cada incremento de una unidad en el total de victimizaciones en el año, el puntaje de depresión aumenta en 0.63 puntos, en promedio. Dado que el valor-p es menor a 0.05, este efecto es estadísticamente significativo.
R² = 0.1377: Indica que aproximadamente 13.77% de la variabilidad en el puntaje de depresión es explicada por el total de victimizaciones en el año.
Error estándar residual = 5.703: Muestra la desviación estándar de los residuos. Indica que, en promedio, los valores observados de depresión se desvían 5.7 puntos de la línea de regresión ajustada.
F(1, 18178) = 2903, p < 0.001: La prueba F muestra que el modelo en su conjunto es significativo, lo que indica que el total de victimizaciones en el año tiene un efecto sobre el puntaje de depresión.
En conclusión, el modelo sugiere que ser víctima más veces en el último año está positivamente asociado con un mayor puntaje de depresión.
Considerando los dos grupos de la variable ‘sexo’, sigue las siguientes indicaciones
Descriptive statistics by group
group: 1
vars n mean sd median trimmed mad min max range skew kurtosis se
X1* 1 9964 13.96 10.36 13 13.94 16.31 1 28 27 -0.12 -1.72 0.1
------------------------------------------------------------
group: 2
vars n mean sd median trimmed mad min max range skew kurtosis se
X1* 1 9720 12.27 9.43 13 12.1 14.83 1 26 25 -0.05 -1.71 0.1
FALSE TRUE Sum
1 0.09343787 0.12823766 0.22167553
2 0.90656213 0.87176234 1.77832447
Sum 1.00000000 1.00000000 2.00000000
Respuesta:
Respuesta: Según los resultados obtenidos, del total de hombres aproximadamente 9.34% son polivictimas.Del total de mujeres aproximadamente un 12.3% son polivitimas.
Hasta ahora, hemos creado dos modelos para predecir los puntajes de depresión de los NNA de la muestra. El primero de ellos (el modelo nulo o de base) predice los puntajes en función de la media, mientras que el segundo agrega como variable predictora la cantidad total de tipos de victimizaciones sufridas por el sujeto en los últimos 12 meses. A continuación, visualizaremos los residuos de ambos modelos utilizando gráficos de dispersión o histogramas para observar cómo se distribuyen, y los compararemos utilizando la varianza explicada (R²).
# Uso mfrow para crear un lienzo con 1 fila y 2 columnas
par(mfrow=c(1,2))
# Histograma de residuos modelo nulo
hist(Mod_dep01$residuals,
xlim = c(-30,30),
ylim = c(0,7000),
xlab = "Residuos",
ylab = "Frecuencia")
# Histograma de residuos modelo ampliado
hist(Mod_dep02$residuals,
xlim = c(-30,30),
ylim = c(0,7000),
xlab = "Residuos",
ylab = "Frecuencia")# Se grafica la curva de densidad de la muestra residuos modelo nulo
plot(density(Mod_dep01$residuals),
main = "Gráfico de densidad",
xlab = "Residuos",
ylab = "Densidad",
col = "blue",
ylim = c(0, 0.08))
# Se añade al mismo gráfico la curva de densidad de residuos modelo ampliado
lines(density(Mod_dep02$residuals), col = "red")# Calculamos la suma la cuadrados totales
SST = sum(resid(lm(data$puntaje_depresion ~ 1))^2)
# Calculamos la suma la cuadrados del modelo ampliado
SSEA = sum(resid(lm(data$puntaje_depresion ~ 1 + data$victim_ano_cuenta))^2)
# Calculamos la reducción en la suma la cuadrados
SSR = SST - SSEA
# Calculamos la reducción proporcional del error
R_cuadrado = (SST - SSEA)/SST
# Vemos que este equivale al Multiple R-squared en el resumen que nos brinda R en el modelo apliado.
R_cuadrado[1] 0.1376933
Evalúa cuál de los dos modelos ofrece un mejor ajuste y discute los resultados. ¿En qué medida mejora el modelo de regresión frente al modelo base? ¿Qué implicaciones tiene esto para la comprensión de la relación entre la variable predictora seleccionada y la depresión?
Respuesta:
Respuesta: El modelo ampliado mejora el ajuste, explicando un 13.77% de la variabilidad de los puntajes de depresión.
Para comparar cómo diferentes tipos de victimización impactan los niveles de depresión en los NNA, selecciona dos tipos de victimización al año del estudio, maltrato por cuidadores y por parte de pares, y calcula la media y desviación estándar de los niveles de depresión asociados a cada tipo de victimización.
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 6196 14.93 6.38 14 14.68 5.93 0 36 36 0.34 -0.25 0.08
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 5078 13.79 6.49 13 13.47 5.93 0 36 36 0.43 -0.22 0.09
Utilizando como valor específico los 19 puntos en la escala de Birleson, calcula su puntaje Z para cada tipo de victimización.
# Maltrato de cuidadores
# Valor de referencia
valor_referencia <- 19
# Cálculo media de puntaje de depresión de
media1 <- mean(data$puntaje_depresion[data$B_una_en_año == 1], na.rm = TRUE)
# Cálculo desviación estándar
desviacion1 <- sd(data$puntaje_depresion[data$B_una_en_año == 1], na.rm =TRUE)
# Cálculo puntaje Z
z_score1 <- (valor_referencia - media1) / desviacion1
z_score1[1] 0.6385899
# Maltrato de pares
# Valor de referencia
valor_referencia <- 19
# Cálculo media de puntaje de depresión de
media2 <- mean(data$puntaje_depresion[data$C_una_en_año == 1], na.rm = TRUE)
# Cálculo desviación estándar
desviacion2 <- sd(data$puntaje_depresion[data$C_una_en_año == 1], na.rm =TRUE)
# Cálculo puntaje Z
z_score2 <- (valor_referencia - media2) / desviacion2
z_score2[1] 0.8029019
Interpreta estos puntajes en términos de cómo se compara este valor con el promedio de cada grupo de victimización. ¿En qué tipo de victimización el valor de depresión se encuentra más alejado de la media (positivamente o negativamente)? ¿Qué implicaciones tienen estos resultados para entender la relación entre diferentes formas de victimización y la severidad de los síntomas de depresión?
Respuesta:
Respuesta: Los puntajes Z muestran que el valor 19 en la escala de depresión está más alejado de la media en el grupo que sufrió maltrato por parte de pares (Z = 0.8) que en el grupo maltratado por cuidadores (Z = 0.6). Esto indica que, en promedio, los niveles de depresión en víctimas de pares son más bajos que en quienes sufrieron maltrato por cuidadores.
Simula dos muestras de 1000 datos de depresión utilizando una distribución normal. Usa las medias y desviaciones estándar que obtuviste para los niveles de depresión asociados a los dos tipos de victimización utilizados en el ejercicio anterior.
Visualiza las distribuciones de las dos muestras simuladas utilizando histogramas y superpone una curva de densidad para comparar cómo varían las distribuciones entre los distintos tipos de victimización.
Extrae una muestra aleatoria de 100 datos de cada una de las distribuciones simuladas y calcula los estadísticos descriptivos (media, desviación estándar, percentiles). Luego, compara los estadígrafos y la forma de las distribuciones simuladas para los dos tipos de victimización.
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 100 15.05 5.68 14.57 14.88 5.94 2.41 27.85 25.44 0.22 -0.44 0.57
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 100 12.91 5.97 12.13 12.71 6.35 -0.82 26.57 27.39 0.28 -0.65 0.6
Compara las distribuciones de los niveles de depresión simulados entre NNA víctimas de cuidadores y víctimas de pares, describe también lo observado en el gráfico de densidad. ¿Qué sugieren los resultados obtenidos?
Respuesta:
Respuesta: Los resultados muestran que la media de depresión es más alta en la submuestra simulada de NNA víctimas de cuidadores en comparación con quienes han sido víctimas de pares. Además, la distribución de los puntajes en ambos grupos presenta formas similares, aunque la curva de densidad en el grupo de cuidadores parece estar más desplazada hacia valores altos. Esto sugiere que la victimización por cuidadores podría estar asociada a un mayor impacto emocional, reflejado en puntajes más elevados de depresión.
Retomando el modelo de regresión simple que creamos anteriormente, compararemos tres estimados estadísticos clave en un análisis de este tipo: beta no estandarizado, beta estandarizado y correlación de Pearson.
Call:
lm(formula = data$puntaje_depresion ~ 1 + data$victim_ano_cuenta)
Residuals:
Min 1Q Median 3Q Max
-19.7836 -4.1710 -0.5366 3.6352 26.6352
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.36475 0.06089 153.79 <2e-16 ***
data$victim_ano_cuenta 0.63438 0.01177 53.88 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 5.703 on 18178 degrees of freedom
(1504 observations deleted due to missingness)
Multiple R-squared: 0.1377, Adjusted R-squared: 0.1376
F-statistic: 2903 on 1 and 18178 DF, p-value: < 2.2e-16
Call:
lm(formula = scale(data$puntaje_depresion) ~ 1 + scale(data$victim_ano_cuenta))
Residuals:
Min 1Q Median 3Q Max
-3.2215 -0.6792 -0.0874 0.5919 4.3372
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.003838 0.006888 -0.557 0.577
scale(data$victim_ano_cuenta) 0.372630 0.006916 53.876 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.9286 on 18178 degrees of freedom
(1504 observations deleted due to missingness)
Multiple R-squared: 0.1377, Adjusted R-squared: 0.1376
F-statistic: 2903 on 1 and 18178 DF, p-value: < 2.2e-16
Pearson's product-moment correlation
data: data$puntaje_depresion and data$victim_ano_cuenta
t = 53.876, df = 18178, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.3584677 0.3835380
sample estimates:
cor
0.3710705
Compara los tres estimados (beta no estandarizado, beta estandarizado y correlación de Pearson) para analizar si son consistentes en cuanto a la dirección de la relación. ¿Qué diferencias encuentras? ¿En qué situaciones son útiles cada uno de estos estimados y qué información adicional proporciona el beta no estandarizado respecto a la correlación de Pearson?
Respuesta:
Respuesta: Los 3 coeficientes calculados son consistentes entre si en cuanto a la relación presente. Las diferencias que se observan son las magnitudes de el beta no estandarizado en comparación con el coeficiente de correlación y el beta estandarizado y se deben a que el beta no estandarizado está funcionando con la unidad de medida de la variable, mientras que los otros dos funcionan con la variable estandarizada, es decir, en términos de desviaciones estandar.
En este ejercicio, usarás los valores de depresión reportados en el estudio. Simularás distribuciones de 1,000 valores para cada uno de los siguientes tipos de distribuciones: - Distribución Normal: Usa la media y desviación estándar reales de los puntajes de estrés. - Distribución Uniforme: Usa el mínimo y máximo de los valores. - Distribución t de Student: Calcula los grados de libertad como GL =𝑛 − 1, donde 𝑛 es el tamaño de la muestra.
Genera gráficos de densidad o histogramas para cada distribución simulada y compáralos con la distribución real de los puntajes de depresión.
[1] 11.72486
[1] 6.141159
[1] 0
[1] 36
¿Qué diferencias observas entre las distribuciones simuladas y la distribución real de los datos? ¿Cómo cambia la forma entre las distribuciones?
Respuesta:
Respuesta: Se observa que la distribución real de los puntajes de despresión es asimetrica con un sesgo postivo, es decir, que posee un mayor concentración hacia el rango de valores más bajos y una concentración que disminuye progresivamente hacia los valores más alto de la distribución. En términos de semejanza a las distribuciones simuladas, se observa que ninguna cumple con los criterios descritos.
Se observa que la distribución normal simulada posee valores entre -10 y 30, a diferencia de la distrbución real que solo posee valores cero o positivos. Se observa que la moda se encuentra alrededor de 10, lo cual se considera similar a la moda de la distribución real.
Se observa que la distribución uniforme simulada posee valores entre 0 y 36, lo cual es equivalente a la distrbución real. Sin embargo, el tipo de distribución no es equivalente.
Se observa que la distribución t simulada posee valores entre -3 y 4, a diferencia de la distrbución real que solo posee valores cero o positivos y de mayor magnitud. Se observa que la moda se encuentra alrededor de 0, lo cual se diferencia de a la moda de la distribución real.
Suponiendo que los datos de depresión siguen (o se aproximan a) una distribución normal, usaremos la media y desviación estándar de la muestra para calcular la probabilidad de que un NNA tenga una puntuación de depresión mayor a 19.
[1] 0.1178768
Calcula el valor crítico correspondiente al percentil 95 de la distribución. Esto nos da el valor de depresión por encima del cual se encuentra el 5% superior de la población.
¿Cuántos NNA tienen una probabilidad alta de estar por encima de una puntuación de depresión crítica? ¿Qué implicaciones tienen estos resultados para la identificación de casos severos?
Respuesta:
Respuesta: La probabilidad de que un NNA tenga una puntuación elevada (mayor a 19) es de 11.78%. Además, el 5% de los NNA simulados tendrían puntajes superiores a 21.82, lo que los ubica en el extremo superior de la distribución. Estos resultados permiten estimar cuántos casos podrían estar en riesgo elevado y, por tanto, requerir intervención psicológica.
Simula tres muestras aleatorias de tamaño 500, 1000 y 5000 a partir de los datos de depresión de los NNA victimizados por cuidadores. ¿Cómo cambia la media y desviación estándar de los niveles de depresión conforme aumenta el tamaño de la muestra?
dep_vic_cuid <- subset(data, B_una_en_año == 1, select = puntaje_depresion)
# Tamaños de las muestras
tamanos_muestra <- c(500, 1000, 5000)
# Crear un data frame vacío para almacenar los resultados
resultados <- data.frame(Tamano_Muestra = integer(), Media = numeric(), Desviacion_Estandar = numeric())
for(tamano in tamanos_muestra) {
# Tomar una muestra aleatoria de tamaño 'tamano' de la columna de depresión
muestra <- sample(dep_vic_cuid$puntaje_depresion, size = tamano, replace = TRUE)
# Calcular la media y la desviación estándar de la muestra
media_muestra <- mean(muestra, na.rm=TRUE)
sd_muestra <- sd(muestra, na.rm=TRUE)
# Guardar los resultados
resultados <- rbind(resultados, data.frame(Tamano_Muestra = tamano, Media = media_muestra, Desviacion_Estandar = sd_muestra))
}
resultados Tamano_Muestra Media Desviacion_Estandar
1 500 14.77253 6.500271
2 1000 15.05850 6.376377
3 5000 14.88118 6.437428
Respuesta:
Respuesta: Sabemos que la media y la desviación estándar poblacional equivalen a 14.93 y 6.38, respectivamente. A medida que aumenta el tamaño de la muestra, los valores muestrales tienden a acercarse a los valores poblacionales. Para n = 5000, tanto la media como la desviación estándar están más cerca de los valores reales, lo que sugiere que la estimación es más precisa.
Toma 100 muestras aleatorias de tamaño 50 de los niveles de depresión en NNA victimizados por cuidadores. Calcula la media de depresión de cada muestra y construye la distribución muestral del promedio. ¿Cómo es la forma de la distribución muestral de las medias en comparación con la distribución original de los puntajes de depresión en NNA victimizados por cuidadores?
# Fijamos una semilla para que se reproduzcan siempre los mismos valores
set.seed(123)
# Número de muestras
n_muestras <- 100
# Tamaño de cada muestra
n <- 50
# Vector para almacenar los promedios de cada muestra
medias_muestras <- numeric(n_muestras)
# Simulación de 100 muestras y cálculo de medias
for (i in 1:n_muestras) {
muestra <- sample(dep_vic_cuid$puntaje_depresion, size = n, replace = TRUE)
medias_muestras[i] <- mean(muestra, na.rm=TRUE)
}Respuesta:
Respuesta: En ambos casos se asemeja la moda, existiendo una mayor frecuencia de datos alrededor del valor 15. Sin embargo, la dispersión de los datos es menor en el caso de las medias de las muestras simuladas.
Usando la distribución muestral de tamaño 100, calcula el intervalo de confianza del 95% para los niveles de depresión de los NNA victimizados por cuidadores. ¿Qué nos dice este intervalo sobre la precisión de la estimación de la media?
# Fijamos una semilla para que se reproduzcan siempre los mismos valores
set.seed(123)
# Seleccionar una muestra aleatoria de tamaño n = 100
muestra_100 <- sample(dep_vic_cuid$puntaje_depresion, size = 100, replace = TRUE)
# Desviación estándar de la poblacion
sigma = 6.38
# Tamaño y promedio de la muestra
n = 100
x_barra <- mean(muestra_100, na.rm=TRUE)
# Calcular el valor Z para un 95%
Z <- abs( qnorm((1 - .95)/2) )
# Calcular error estándar
error_est <- sigma/sqrt(n)
# Calcular los límites
lim_inferior <- x_barra - ( Z * error_est )
lim_superior <- x_barra + ( Z * error_est )
# Intervalo de confianza al 95% redondeado
round(c(lim_inferior, lim_superior),2)[1] 13.47 15.97
Ahora exploraremos cómo cambia ese intervalo si: (1) Usamos una muestra más pequeña (n = 30) y (2) aumentamos el nivel de confianza al 99%. Esto nos ayudará a comprender mejor la relación entre el tamaño de la muestra, el nivel de confianza y la amplitud del intervalo.
# Fijamos la semilla para que los resultados sean reproducibles
set.seed(123)
# Extraer muestra aleatoria de tamaño 30
muestra_30 <- sample(dep_vic_cuid$puntaje_depresion, size = 30, replace = TRUE)
# Media de la muestra
media_30 <- mean(muestra_30, na.rm = TRUE)
# Desviación estándar poblacional conocida
sigma <- 6.38
# Tamaño muestral
n <- 30
# Valor Z para 95%
Z_95 <- abs(qnorm((1 - 0.95) / 2))
# Error estándar
error_est_30 <- sigma / sqrt(n)
# Límites del intervalo
lim_inf_30_95 <- media_30 - (Z_95 * error_est_30)
lim_sup_30_95 <- media_30 + (Z_95 * error_est_30)
# Resultado final
round(c(lim_inf_30_95, lim_sup_30_95), 2)[1] 12.30 16.87
# Fijamos la semilla nuevamente
set.seed(123)
# Extraer muestra aleatoria de tamaño 100
muestra_100 <- sample(dep_vic_cuid$puntaje_depresion, size = 100, replace = TRUE)
# Media de la muestra
media_100 <- mean(muestra_100, na.rm = TRUE)
# Tamaño muestral
n <- 100
# Valor Z para 99%
Z_99 <- abs(qnorm((1 - 0.99) / 2))
# Error estándar
error_est_100 <- sigma / sqrt(n)
# Límites del intervalo
lim_inf_100_99 <- media_100 - (Z_99 * error_est_100)
lim_sup_100_99 <- media_100 + (Z_99 * error_est_100)
# Resultado final
round(c(lim_inf_100_99, lim_sup_100_99), 2)[1] 13.07 16.36
Compara el intervalo original (IC 95% con n=100) con los dos nuevos:¿Cuál es más amplio? ¿Qué efecto tiene usar menos datos? ¿Qué cambia al aumentar el nivel de confianza?
Respuesta:
Respuesta: El intervalo original (IC 95% con n=100) fue [13.47, 15.97], mientras que el nuevo con n=30 fue más amplio ([12.30, 16.87]), y el de 99% con n=100 también se amplió ([13.07, 16.36]). Esto muestra que reducir el tamaño muestral aumenta el error estándar y, por lo tanto, disminuye la precisión de la estimación. Por otro lado, aumentar el nivel de confianza también ensancha el intervalo, ya que se requiere mayor margen para estar más seguros de incluir la media real. En ambos casos, los intervalos más amplios reflejan mayor incertidumbre en la estimación.
El primer modelo base que creamos predice los niveles de depresión utilizando la media de depresión para todos los NNA, sin incluir ninguna otra variable como predictor. En cambio, el segundo modelo que creaste, el modelo completo, incluía como variable predictora el total de tipos de victimizaciones sufridas. ¿Cuál es la hipótesis que este segundo modelo está tratando de probar? Y si la hipótesis nula es aquella que niega los efectos de la variable predictora postulada en la hipótesis alternativa ¿Cuál sería la hipótesis nula dentro de este contexto?
Respuesta: Hipótesis nula (h0): La variable “cantidad de victimizaciones” no predice los niveles de depresion de los NNA.
Hipótesis alternativa (h1): La variable “cantidad de victimizaciones” predice los niveles de depresión de los NNA.
Calcula el valor p para el predictor que corresponde al total de tipos de victimizaciones sufridas del segundo modelo, que nos indicará si esta variable tiene un impacto significativo en los niveles de depresión de los NNA.
Call:
lm(formula = data$puntaje_depresion ~ 1 + data$victim_ano_cuenta)
Residuals:
Min 1Q Median 3Q Max
-19.7836 -4.1710 -0.5366 3.6352 26.6352
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.36475 0.06089 153.79 <2e-16 ***
data$victim_ano_cuenta 0.63438 0.01177 53.88 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 5.703 on 18178 degrees of freedom
(1504 observations deleted due to missingness)
Multiple R-squared: 0.1377, Adjusted R-squared: 0.1376
F-statistic: 2903 on 1 and 18178 DF, p-value: < 2.2e-16
¿El valor p asociado al total de tipos de victimizaciones sufridas es menor a 0.05? Si es así, ¿qué podemos concluir sobre la hipótesis alternativa?
Respuesta: El valor p es < 0.05, por lo los análisis nos permiten rechazar la hipótesis nula a la luz de los datos y favorecer la hipostesis alternativa. Esto nos lleva a decir que la variable “cantidad de victimizaciones” es un predictor significativo del puntaje de depresión de los NNA.
Para simular la distribución bajo la hipótesis nula, vamos a realizar múltiples permutaciones aleatorias de la variable de depresión. Repite el ajuste del modelo de regresión entre el número de tipos de victimizaciones y las puntuaciones de depresión para cada permutación (por ejemplo, 1000 permutaciones), y guarda los valores de la pendiente obtenidos en cada iteración. Finalmente, calcula el valor p comparando el valor de la pendiente observado en el modelo completo original con la distribución de pendientes obtenidas bajo la hipótesis nula.
# Pendiente original
pendiente_original <- coef(modelo_ampliado)[2]
# Realizar las permutaciones y calcular las pendientes
set.seed(123)
# Número de permutaciones
n_perm <- 1000
pendientes_permutados <- numeric(n_perm)
for (i in 1:n_perm) {
data$victim_ano_cuenta_permutada <- sample(data$victim_ano_cuenta)
modelo_permutado <- lm(puntaje_depresion ~ victim_ano_cuenta_permutada, data = data)
pendientes_permutados[i] <- coef(modelo_permutado)[2]
}
# Calcular el valor p comparando el valor observado con la distribución de pendientes
valor_p <- mean(abs(pendientes_permutados) >= abs(pendiente_original))
# Redondear el valor p a 3 decimales
valor_p_redondeado <- round(valor_p, 3)
# Resultado
cat("Valor p:", valor_p_redondeado, "\n")Valor p: 0
[1] 0
¿Qué representa la distribución muestral de las pendientes bajo la hipótesis nula? ¿Cómo te ayuda a entender el valor p y su significado en este contexto?
Respuesta: La distribución muestral de las pendientes bajo la hipótesis nula representa cómo fluctúan las pendientes cuando no hay una relación real entre victimización y depresión, generalmente centrada en cero. Un valor p = 0 indica que ninguna permutación generó una pendiente tan extrema como la observada, lo que sugiere que la relación entre ambas variables es altamente significativa y no producto del azar.
Analizaremos cómo la victimización por parte de cuidadores (“maltrato o negligencia por cuidadores”) (sí/no) influye en los niveles de depresión de los NNA. Para ello, identifica y codifica la variable que indica si un NNA ha sufrido victimización por parte de cuidadores (sí/no), donde 1 significa “sí ha sido victima” y 0 significa “no ha sido victima”. Usa la puntuación de depresión como la variable dependiente.
Crea un modelo de regresión lineal donde la variable dependiente sea la puntuación de depresión y la variable independiente sea la victimización por cuidadores (sí/no).
Call:
lm(formula = data$puntaje_depresion ~ 1 + data$vic_cuid_ano)
Residuals:
Min 1Q Median 3Q Max
-14.9253 -4.0635 -0.9253 3.9365 25.9365
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 10.06354 0.05245 191.88 <2e-16 ***
data$vic_cuid_anoSi 4.86174 0.08935 54.41 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 5.694 on 17982 degrees of freedom
(1700 observations deleted due to missingness)
Multiple R-squared: 0.1414, Adjusted R-squared: 0.1413
F-statistic: 2960 on 1 and 17982 DF, p-value: < 2.2e-16
Visualiza los resultados utilizando un boxplot que compare los niveles de depresión entre NNA que han sido victimizados por cuidadores y aquellos que no. Luego, obtén un resumen del modelo e interpreta los resultados: la pendiente te indica cómo cambia la puntuación de depresión entre los NNA que han sufrido victimización por parte de cuidadores y aquellos que no, mientras que el valor p determina si la variable victimización es un predictor significativo de los niveles de depresión.
Respuesta:
Pendiente (β₁ = 4,86, p < 0.001): Indica que el valor en los puntajes de depresión para quienes han sido victimizados por cuidadores es de 4,86 puntos mas que aquellos que no lo fueron. Dado que el valor-p es menor a 0.05, este efecto es estadísticamente significativo.
En este ejercicio queremos determinar si existen diferencias significativas en los niveles de depresión entre los NNA que han sufrido victimización digital y aquellos que han sufrido exposición a violencia familiar. Usaremos la distribución muestral del estadígrafo Z para evaluar la plausibilidad de la hipótesis nula frente a la alternativa. Para ello, asumiendo que la desviación estándar de la muestra se puede usar como indicador de la desviación estándar de la población,
Respuesta:
Hipótesis nula (H₀): No hay diferencias significativas en los niveles de depresión entre los NNA que han sufrido victimización digital y aquellos que han estado expuestos a violencia familiar. Hipótesis alternativa (Hₐ): Existen diferencias significativas en los niveles de depresión entre ambos grupos. Es decir, al menos uno de los grupos tiene una media diferente.
# Creamos bases de victimización digital y exposición a violencia familiar
dep_vic_dig <- subset(data, F_una_en_año == 1, select = puntaje_depresion)
dep_vic_vif <- subset(data, E2_una_en_año == 1, select = puntaje_depresion)
# Calculamos la media y desviación estándar de los grupos
describe(dep_vic_dig$puntaje_depresion) vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 3678 14.7 6.67 14 14.41 7.41 0 36 36 0.35 -0.37 0.11
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 1280 15.68 6.56 15 15.44 7.41 0 36 36 0.3 -0.41 0.18
[1] -4.583447
[1] 4.57373e-06
# Combinamos los dos datasets en un solo dataframe
datos_combinados <- data.frame(
puntaje_depresion = c(dep_vic_dig$puntaje_depresion, dep_vic_vif$puntaje_depresion),
grupo = rep(c("Victimización Digital", "Violencia Intrafamiliar"),
c(length(dep_vic_dig$puntaje_depresion), length(dep_vic_vif$puntaje_depresion)))
)
# Crear el boxplot con ambos grupos
boxplot(puntaje_depresion ~ grupo, data = datos_combinados,
main = "Comparación de Depresión en los Grupos",
ylab = "Puntaje de Depresión",
xlab = "Grupo")Respuesta: Si existe una diferencia estadísticamente significativa. Esto queda en evidencia si miramos el estadístico Z, el cual tuvo un valor de -4.58 y el valor p, el cual fue menor a 0.05, considerandose significativa la diferencia en términos estadísticos
Ahora evaluaremos si existen diferencias significativas en los niveles de autoestima entre los NNA que han sufrido victimización por cuidadores y aquellos que han sufrido victimización por pares. Usaremos la distribución t para evaluar la plausibilidad de H₀ frente a Hₐ. Para ello,
Respuesta: Hipótesis nula (H₀): No hay diferencias significativas en los niveles de autoestima entre los NNA que han sufrido victimización por cuidadores y aquellos que han sufrido victimización por pares. Hipótesis alternativa (Hₐ): Existen diferencias significativas en los niveles de autoestima entre ambos grupos.
# Creamos las bases de autoestima para ambas victimizaciones
aut_vic_cuid <- subset(data, B_una_en_año == 1, select = puntaje_autoestima)
aut_vic_par <- subset(data, C_una_en_año == 1, select = puntaje_autoestima)
t.test(aut_vic_par$puntaje_autoestima, aut_vic_cuid$puntaje_autoestima, var.equal = TRUE)
Two Sample t-test
data: aut_vic_par$puntaje_autoestima and aut_vic_cuid$puntaje_autoestima
t = 6.6105, df = 11182, p-value = 4.004e-11
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.6931258 1.2774491
sample estimates:
mean of x mean of y
32.69558 31.71030
datos_combinados1 <- data.frame(
puntaje_autoestima = c(aut_vic_par$puntaje_autoestima, aut_vic_cuid$puntaje_autoestima),
grupo = rep(c("Victimización de pares", "Victimización de cuidador"),
c(length(aut_vic_par$puntaje_autoestima), length(aut_vic_cuid$puntaje_autoestima)))
)
# Crear el boxplot con ambos grupos
boxplot(puntaje_autoestima ~ grupo, data = datos_combinados1,
main = "Comparación de Autoestima en los Grupos",
ylab = "Puntaje de Autoestima",
xlab = "Grupo")Respuesta: Aunque la diferencia promedio es pequeña (aproximadamente 1 punto), la prueba t mostró una diferencia estadísticamente significativa en los niveles de autoestima entre NNA víctimas de cuidadores y de pares (p < 0.001), con un intervalo de confianza del 95% entre 0.69 y 1.28 puntos.
En esta oportunidad, sin asumir varianzas iguales,
Welch Two Sample t-test
data: aut_vic_par$puntaje_autoestima and aut_vic_cuid$puntaje_autoestima
t = 6.5893, df = 10597, p-value = 4.63e-11
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.692182 1.278393
sample estimates:
mean of x mean of y
32.69558 31.71030
datos_combinados2 <- data.frame(
puntaje_autoestima = c(aut_vic_par$puntaje_autoestima, aut_vic_cuid$puntaje_autoestima),
grupo = rep(c("Victimización de pares", "Victimización de cuidador"),
c(length(aut_vic_par$puntaje_autoestima), length(aut_vic_cuid$puntaje_autoestima)))
)
# Crear el boxplot con ambos grupos
boxplot(puntaje_autoestima ~ grupo, data = datos_combinados2,
main = "Comparación de Autoestima en los Grupos",
ylab = "Puntaje de Autoestima",
xlab = "Grupo")
Respuesta:
Estadístico t: La prueba con varianzas iguales da t = 6.6105, mientras que la prueba sin asumir varianzas iguales da t= 6.5893. La diferencia es muy pequeña. Grados de libertad (df): La prueba con varianzas iguales tiene df= 11182, mientras que la prueba sin asumir varianzas iguales tiene df=10597. La segunda prueba ajusta los grados de libertad usando una corrección estadistica, lo cual suele reducirlos ligeramente.
Valor p: Ambos valores p son extremadamente pequeños (p<0.00000000005), por lo que en ambos casos se rechaza la hipótesis nula con alta confianza.
Respuesta: Hipótesis nula (H₀): No hay diferencias significativas en los niveles de autoestima entre los grupos de frecuencia de exposición a violencia digital. Las medias de los diferentes grupos son iguales. Hipótesis alternativa (Hₐ): Al menos uno de los grupos tiene una media diferente en los niveles de autoestima.
data$frec_exp_dig <- recode(data$poli31_c,
"1" = 'Nunca',
"2" = '1 vez',
"3" = '2 o 3 veces',
"4" = 'Al menos una vez al mes',
"5" = 'Al menos una vez a la semana',
"6" = 'Todos los dias')
# Se genera un objeto
anova_aut = aov(data$puntaje_autoestima ~ data$frec_exp_dig)
# Ahora para saber el reporte del anova usamos summary del objeto
summary(anova_aut) Df Sum Sq Mean Sq F value Pr(>F)
data$frec_exp_dig 5 25544 5109 89.39 <2e-16 ***
Residuals 17556 1003384 57
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
2122 observations deleted due to missingness
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = data$puntaje_autoestima ~ data$frec_exp_dig)
$`data$frec_exp_dig`
diff lwr
2 o 3 veces-1 vez -0.9594020 -1.9400819
Al menos una vez a la semana-1 vez -3.9918747 -5.9764575
Al menos una vez al mes-1 vez -1.9714198 -3.5630682
Nunca-1 vez 2.3136396 1.5356762
Todos los dias-1 vez -4.4302805 -7.6312347
Al menos una vez a la semana-2 o 3 veces -3.0324727 -4.9692757
Al menos una vez al mes-2 o 3 veces -1.0120178 -2.5436776
Nunca-2 o 3 veces 3.2730417 2.6266176
Todos los dias-2 o 3 veces -3.4708785 -6.6424309
Al menos una vez al mes-Al menos una vez a la semana 2.0204550 -0.2866682
Nunca-Al menos una vez a la semana 6.3055144 4.4630433
Todos los dias-Al menos una vez a la semana -0.4384058 -4.0488877
Nunca-Al menos una vez al mes 4.2850594 2.8745716
Todos los dias-Al menos una vez al mes -2.4588608 -5.8691915
Todos los dias-Nunca -6.7439202 -9.8587618
upr p adj
2 o 3 veces-1 vez 0.0212779 0.0593763
Al menos una vez a la semana-1 vez -2.0072920 0.0000002
Al menos una vez al mes-1 vez -0.3797713 0.0055729
Nunca-1 vez 3.0916031 0.0000000
Todos los dias-1 vez -1.2293264 0.0011298
Al menos una vez a la semana-2 o 3 veces -1.0956698 0.0001190
Al menos una vez al mes-2 o 3 veces 0.5196421 0.4125921
Nunca-2 o 3 veces 3.9194657 0.0000000
Todos los dias-2 o 3 veces -0.2993262 0.0224125
Al menos una vez al mes-Al menos una vez a la semana 4.3275782 0.1252470
Nunca-Al menos una vez a la semana 8.1479854 0.0000000
Todos los dias-Al menos una vez a la semana 3.1720761 0.9993494
Nunca-Al menos una vez al mes 5.6955472 0.0000000
Todos los dias-Al menos una vez al mes 0.9514700 0.3113762
Todos los dias-Nunca -3.6290786 0.0000000
Respuesta: Los grupos que presentan diferencias significativas (p < 0.05) son: - Al menos una vez a la semana - 1 vez - Al menos una vez al mes - 1 vez - Nunca - 1 vez - Todos los dias - 1 vez - Al menos una vez a la semana - 2 o 3 veces - Nunca - 2 o 3 veces - Todos los dias - 2 o 3 veces - Nunca - Al menos una vez a la semana - Nunca - Al menos una vez al mes - Todos los dias - Nunca
A continuación, compararemos los niveles de autoestima entre NNA con diferentes condiciones físicas de larga duración. Dado que algunas personas pueden presentar más de una condición (mudez, sordera y/o ceguera), se agrupará a los participantes en tres categorías:
Nuestro objetivo es responder:¿Existen diferencias significativas en los puntajes de autoestima entre los NNA sin condiciones físicas, con una sola condición física o con múltiples condiciones físicas?Para ello,
Respuesta: Hipótesis nula (H₀): No hay diferencias significativas en los puntajes de autoestima entre los tres grupos definidos según la cantidad de condiciones físicas. Hipótesis alternativa (Hₐ): Al menos uno de los grupos difiere significativamente en los puntajes de autoestima respecto a los otros.
data$condiciones_tot <- rowSums(data[, c("condiciones1", "condiciones2", "condiciones3",
"condiciones4", "condiciones5", "condiciones6")],
na.rm = TRUE)
data$condiciones_cat <- ifelse(data$condiciones_tot == 0, "sin condición física",
ifelse(data$condiciones_tot == 1, "con una sola condición",
"con múltiples condiciones")) Df Sum Sq Mean Sq F value Pr(>F)
data$condiciones_cat 2 4722 2361.0 40.45 <2e-16 ***
Residuals 17938 1047028 58.4
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
1743 observations deleted due to missingness
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = data$puntaje_autoestima ~ data$condiciones_cat)
$`data$condiciones_cat`
diff lwr upr
con una sola condición-con múltiples condiciones 3.2021517 2.359331 4.0449723
sin condición física-con múltiples condiciones 2.7690758 1.727186 3.8109652
sin condición física-con una sola condición -0.4330759 -1.076251 0.2100989
p adj
con una sola condición-con múltiples condiciones 0.0000000
sin condición física-con múltiples condiciones 0.0000000
sin condición física-con una sola condición 0.2550823
Respuesta:
La prueba ANOVA mostró diferencias estadísticamente significativas en la variable dependiente según el número de condiciones reportadas por los participantes (F(2, 17938) = 40.45, p < .001). Las pruebas post hoc indicaron que las personas con múltiples condiciones difieren significativamente tanto de quienes tienen una sola condición, como de quienes no presentan ninguna condición. En contraste, no se observaron diferencias significativas entre quienes no tienen condiciones y quienes presentan solo una. Estos resultados sugieren que la presencia de múltiples condiciones está asociada con un peor puntaje de autoestima, mientras que una sola condición no parece tener un efecto significativo.
Analizaremos cómo el año escolar cursado y la frecuencia de victimización por parte de pares (baja vs. alta exposición) afectan los niveles de depresión. Para ello,
Alta exposición Baja exposición
904 18278
Df Sum Sq Mean Sq F value Pr(>F)
data$curso 1 231 231 6.373 0.0116 *
data$cant_vic_par 1 23481 23481 647.871 <2e-16 ***
data$curso:data$cant_vic_par 1 229 229 6.316 0.0120 *
Residuals 17816 645705 36
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
1864 observations deleted due to missingness
Respuesta: El análisis ANOVA factorial mostró efectos significativos tanto para el curso (p = 0.0116) como para la cantidad de victimización de pares (p < 0.001) sobre el puntaje de depresión. Además, se identificó una interacción significativa entre ambos factores (p = 0.0120), lo que indica que el impacto de la victimización de pares en los niveles de depresión varía según el curso. Esto sugiere que no solo existen diferencias entre cursos y niveles de victimización por separado, sino que la combinación de ambos factores influye de manera diferencial en los puntajes de depresión.
En este ejercicio, analizaremos cómo varía la autoestima de los NNA en función del año escolar cursado. La variable “año escolar” es una variable politómica con múltiples categorías (de séptimo básico a tercero medio) y se utilizará como predictor en un modelo de regresión lineal. Para ello, 1. dado que “año escolar” es una variable con varias categorías, primero debes crear variables dummy. Cada categoría del año escolar se representará con una variable dummy que tomará el valor de 1 cuando el estudiante esté en ese año y 0 en caso contrario. Elige una categoría como referencia en el modelo (por ejemplo, 7º básico) y usa las demás categorías como variables dummy en la regresión.
Call:
lm(formula = puntaje_autoestima ~ dummiescurso2 + dummiescurso3 +
dummiescurso4 + dummiescurso5, data = data)
Residuals:
Min 1Q Median 3Q Max
-25.8078 -4.8078 0.3469 5.4719 15.7715
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 34.6531 0.1214 285.388 < 2e-16 ***
dummiescurso2 -0.1250 0.1714 -0.729 0.46585
dummiescurso3 -0.4246 0.1789 -2.373 0.01767 *
dummiescurso4 0.4677 0.1786 2.619 0.00883 **
dummiescurso5 1.1547 0.1814 6.367 1.97e-10 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 7.639 on 17936 degrees of freedom
(1743 observations deleted due to missingness)
Multiple R-squared: 0.00482, Adjusted R-squared: 0.004598
F-statistic: 21.72 on 4 and 17936 DF, p-value: < 2.2e-16
Respuesta: El análisis muestra que los estudiantes en curso 3 tienen una autoestima significativamente más baja que los del curso 1, mientras que los estudiantes en curso 4 y curso 5 tienen una autoestima significativamente más alta. Sin embargo, no hay diferencias significativas entre los estudiantes del curso 2 y el curso 1. En general, el año escolar tiene un efecto significativo sobre los niveles de autoestima.
Ahora analizaremos cómo el sexo y la victimización digital interactúan para influir en los niveles de depresión. Para ello,
Call:
lm(formula = data$puntaje_depresion ~ 1 + data$sexo + data$F_una_en_vida +
data$interaccion)
Residuals:
Min 1Q Median 3Q Max
-15.6619 -4.0002 -0.2977 3.7023 26.7023
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.29769 0.06858 135.568 < 2e-16 ***
data$sexo 2.70249 0.10322 26.183 < 2e-16 ***
data$F_una_en_vida 2.67985 0.14669 18.268 < 2e-16 ***
data$interaccion 0.98187 0.19013 5.164 2.44e-07 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 5.675 on 17878 degrees of freedom
(1802 observations deleted due to missingness)
Multiple R-squared: 0.1459, Adjusted R-squared: 0.1458
F-statistic: 1018 on 3 and 17878 DF, p-value: < 2.2e-16
Respuesta: Los resultados muestran que tanto ser mujer como haber experimentado victimización digital se asocian con un aumento significativo en la variable dependiente. Específicamente, las mujeres presentan puntajes más altos que los hombres, incluso en ausencia de victimización. Además, la victimización se relaciona con un incremento en los puntajes, siendo este efecto más pronunciado en las mujeres, como lo indica la interacción positiva entre sexo y victimización digital. Esto sugiere que el impacto de la victimización es mayor en mujeres que en hombres.
Analizaremos cómo los niveles de autoestima varían según el sexo (masculino vs. femenino) y el curso escolar, considerando también si existe interacción entre ambas variables. Queremos responder a las preguntas:¿El sexo y el curso predicen significativamente los niveles de autoestima? ¿Existe una interacción entre estos factores que modifique ese efecto? Para ello,
0 1
9720 9964
1 2 3 4 5
4435 4418 3706 3648 3477
Call:
lm(formula = victim_ano_cuenta ~ 1 + sexo + curso + sexo:curso,
data = data)
Residuals:
Min 1Q Median 3Q Max
-4.0762 -2.8197 -0.9479 1.8095 28.8095
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.06651 0.08208 37.362 < 2e-16 ***
sexo 0.68905 0.11578 5.952 2.70e-09 ***
curso 0.12398 0.02579 4.807 1.54e-06 ***
sexo:curso -0.05985 0.03626 -1.651 0.0988 .
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 3.595 on 19680 degrees of freedom
Multiple R-squared: 0.006681, Adjusted R-squared: 0.00653
F-statistic: 44.12 on 3 and 19680 DF, p-value: < 2.2e-16
data$sexo <- as.factor(data$sexo)
data$curso <- as.factor(data$curso)
# Agrega la predicción del modelo a tu base original
data$predicho <- predict(Regresion_mult)
library(ggplot2)
ggplot(data, aes(x = curso, y = predicho, color = sexo, group = sexo)) +
geom_point() +
geom_line(stat = "summary", fun = mean) +
labs(
title = "Victimización anual predicha según curso y sexo",
x = "Curso",
y = "Victimización (modelo ajustado)",
color = "Sexo"
)
Respuesta:
El modelo muestra que el sexo tiene un efecto significativo en la cantidad total de victimizaciones: las mujeres (sexo = 1) reportan en promedio 0.55 victimizaciones menos que los hombres (p < 0.001). En relación con el curso, solo Primero Medio (curso 3) presenta una diferencia significativa respecto de Séptimo Básico (curso 1), con un aumento promedio de 0.73 victimizaciones (p = 0.00395). Los otros cursos (Octavo, Segundo y Tercero Medio) no difieren significativamente de Séptimo Básico. Además, ninguna interacción entre sexo y curso es significativa, lo que indica que la diferencia entre hombres y mujeres en victimización se mantiene relativamente constante en todos los niveles escolares. En resumen, las mujeres reportan menos victimización en general, y el mayor aumento se observa al pasar de Séptimo Básico a Primero Medio.Por último, vamos a investigar si existe una relación significativa entre el sexo (hombres y mujeres) y el riesgo de depresión en niños y adolescentes, categorizado en dos niveles (alto y bajo) según la escala de Birleson. Para ello,
#Recordar que la variable sexo fue recodificada para 0 = HOmbre y 1 = Mujer
# Creamos una nueva variable como factor vacía para guardar los valores recodificados
data$Dep_Niveles2 <- factor(NA, levels = c("Alto", "Bajo"))
# Asignamos los valores recodificados
data$Dep_Niveles2[data$puntaje_depresion < 19] <- "Bajo"
data$Dep_Niveles2[data$puntaje_depresion >= 19] <- "Alto"
Pearson's Chi-squared test with Yates' continuity correction
data: tabla_chi
X-squared = 792.89, df = 1, p-value < 2.2e-16
Respuesta:
El resultado de la prueba chi-cuadrado (p < 0.05) sugiere que hay evidencia suficiente para rechazar la hipótesis de que no hay relación entre el sexo y el riesgo de depresión. A la luz de las observaciones, no podemos afirmar que las diferencias observadas se deban al azar. La distribución de personas sugiere que los hombres tienen menos probabilidades que las mujeres de tener alto riesgo de depresión, y más probabilidades de tener un nivel bajo en comparación con mujeres, quienes tienen menos probabilidad.
Birleson, P. (1981). The Validity of Depressive Disorder in Childhood and the Development of a Self‐Rating Scale: a Research Report. Journal of Child Psychology and Psychiatry, 22(1), 73–88. https://doi.org/10.1111/j.1469-7610.1981.tb00533.x
Birleson, P., Hudson, I., Buchanan, D. G., & Wolff, S. (1987). Clinical Evaluation of a Self‐Rating Scale for Depressive Disorder in Childhood (Depression Self‐Rating Scale). Journal of Child Psychology and Psychiatry, 28(1), 43–60. https://doi.org/10.1111/j.1469-7610.1987.tb00651.x
Finkelhor, D., Hamby, S. L., Ormrod, R., & Turner, H. (2005). The Juvenile Victimization Questionnaire: Reliability, validity, and national norms. Child Abuse and Neglect, 29(4), 383–412. https://doi.org/10.1016/j.chiabu.2004.11.001
MINSAL. (2013). Guía Clínica para el tratamiento de adolescentes de 10 a 14 años con Depresión. https://www.guiadisc.com/wp-content/pdfs/guia-clinica-tratamiento-depresion-adolescentes.pdf
Rosenberg, M. (1965). Society and the adolescent self-image. In Society and the Adolescent Self-Image. Princeton University Press.
---
title: "Polivictimización"
format:
html:
code-fold: true
code-overflow: wrap
code-tools: true
autores: Alén Amigo, Isidora Naranjo López, Izhan Maureira, Diego Carrasco y David Torres
execute:
warning: false
editor:
markdown:
wrap: 72
---
```{r, include=FALSE}
hooks = knitr::knit_hooks$get()
hook_foldable = function(type) {
force(type)
function(x, options) {
res = hooks[[type]](x, options)
if (isFALSE(options[[paste0("fold.", type)]])) return(res)
paste0(
"<details><summary>", type, "</summary>\n\n",
res,
"\n\n</details>"
)
}
}
knitr::knit_hooks$set(
output = hook_foldable("output"),
plot = hook_foldable("plot")
)
```
# Polivictimización
## Presentación del caso
La Primera Encuesta Nacional de Polivictimización en Niñas, Niños y
Adolescentes en Chile se realizó con el objetivo de medir la magnitud de
la exposición a diversas formas de violencia en la niñez y adolescencia,
a nivel nacional y regional, junto a indicadores de salud mental como la
autoestima y la depresión. Esta encuesta fue aplicada entre octubre y
diciembre de 2017, y abarcó una muestra de 19,867 estudiantes de 7º
básico a 3º medio de establecimientos educacionales de todas las
regiones del país.
En este estudio, se incluyen diferentes instrumentos para evaluar
victimización, autoestima y depresión en adolescentes. Se utilizó un
cuestionario adaptado del Cuestionario sobre victimización juvenil
(Juvenile Victimization Questionnaire, JVQ) desarrollado por Finkelhor
(Finkelhor et al., 2005), el cual se aplicó de forma auto-administrada
con la asistencia de un facilitador. A través de este cuestionario, se
estudiaron variables que permiten evaluar la prevalencia y acumulación
de experiencias traumáticas en la infancia y adolescencia, divididas en
seis dimensiones clave: delitos comunes, maltrato o negligencia por
cuidadores, victimización por pares, victimización de carácter sexual,
exposición a violencia en entornos familiares y comunitarios, y
victimización digital. En este estudio, se define como "polivíctima"
aquellos niños, niñas y adolescentes (NNA) que pertenecen al 10%
superior de la distribución de puntajes de victimizaciones en el grupo
estudiado. Este indicador es empleado para mostrar que el número de
victimizaciones acumuladas puede variar según las características de los
estudiantes, como el sexo, la edad, y otras características de sus
entornos.
Además, para complementar el análisis, se incluyeron dos escalas
psicométricas relevantes: la Escala de autoestima de Rosenberg
(Rosenberg, 1965) y la Escala de detección de depresión infantil de
Birleson (Birleson, 1981, MINSAL, 2013). Este enfoque multidimensional
permite entender cómo la acumulación de experiencias traumáticas impacta
en el desarrollo infantil y adolescente. Por ejemplo, algunas de las
preguntas que podríamos resolver con estos datos son: ¿Cómo se relaciona
el número de victimizaciones con los síntomas depresivos en niños, niñas
y adolescentes?; ¿Existen diferencias significativas entre niños y niñas
en la frecuencia y el tipo de victimización sufrida?; ¿Cuál es la
relación entre la cantidad de victimizaciones sufridas y los niveles de
autoestima en adolescentes?; y ¿Existen diferencias significativas en
los niveles de polivictimización entre distintas regiones del país? La
respuesta a estas preguntas favorece el diseño de intervenciones
tempranas y políticas públicas que prioricen la prevención de la
violencia de carácter intersectorial.
## Presentación de los datos
En esta guía se plantean una serie de actividades junto con sus resoluciones haciendo uso de los datos recolectados en el estudio. La base de datos que será utilizada en el caso posee la información recoletada en bruto.
La descripción de las variables de la base de datos se encuentra en la siguiente tabla. La primera variable corresponde a un identiifcador por participantes, las siguientes corresponden algunos de los elemantos evaluados por el cuestionario que fue aplicado, sin embargo, pueden encontrar el detalle de cada una de las variables en el libro de códigos. La base de datos contiene un total de 19.684 observaciones y 134 variables.
| | | |
|------------------|-------------------------------|-----------------------|
| **Variable** | **Descripción de la variable** | **Tipo de variable** |
| Folio | Identificador del participante | Nominal |
| Curso | Nivel que cursa el encuestado | Ordinal |
| Sexo | Sexo del encuestado | Nominal |
| Condiciones (1 a 6) | Presencia/ausencia de condiciones determinadas | Dicotómica |
| Puntaje_depresion | Puntuación cuestionario de depresión | Numérica |
| Puntaje_autoestima | Puntuación cuestionario de autoestima | Numérica |
| victim_ano_cuenta | Cantidad de victimizaciones en el último año | Numérica |
## Actividades
Para iniciar le resolución de actividades de este caso de estudio,
activamos las librería que serán utilizadas y cargamos la base de datos.
```{r}
#| code-fold: true
library(readr)
library(psych)
library(rockchalk)
library(lme4)
library(dplyr)
data <- read_csv("data/data_polivictimizacion.csv")[2:131]
```
### Clase 1
#### Modelo de datos:
- *Tendencia central y variabilidad*
Para empezar, obtengamos, a nivel general, la media, mediana, varianza y
desviación estándar de los puntajes de depresión (según la escala de
Birleson) presentados por las niñas, niños y adolescentes (NNA) de la
muestra.
| [Resolución haciendo uso de la función 'describe':]{.smallcaps}
```{r}
#| code-fold: true
# Para obtener la media, mediana y desviación estándar se puede utilizar la función 'describe'
describe(data$puntaje_depresion)
```
| [Calculo de la varianza con la función 'var':]{.smallcaps}
```{r}
#| code-fold: true
# Para obtener la varianza se puede utilizar la función 'var'
# Dado que la base de datos contiene datos perdidos (NA) se debe indicar que estos no deben ser considerados en el cálculo de la varinza
var(data$puntaje_depresion, na.rm = TRUE)
```
*Respuesta:*
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> Se observa que la muestra posee una media
de 11.72, una mediana de 11, una varianza de 37.7 y una desviación
estándar de 6.14 en los puntajes de depresión.</p>
</details>
Estudios previos sobre la escala de Birleson et al (1987) han encontrado
patrones diferentes en las respuestas de hombres y mujeres (e.g., Denda
et al, 2006). En particular, se ha encontrado mayor dispersión en los
puntajes por parte de las mujeres, y mayores puntajes totales. Calcule
los descriptivos correspondientes para mujeres y hombres, incluyendo
medias, medianas y desviación estándar.
| [Descriptivos por grupo:]{.smallcaps}
```{r}
#| code-fold: true
# Se utiliza la función 'describeBy' para obtener los descriptivos según grupo.
# El grupo '1' corresponde a mujeres y '2' a hombres.
describeBy(data$puntaje_depresion, group=data$sexo)
```
*Respuesta:*
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> Se observa un comportamiento similar a
estudios previos. La mujeres poseen mayores puntajes y mayor dispersión
(Media=13.49, DS=6.3) en comparación a los hombres (Media=9.89,
DS=5.39).</p>
</details>
El MINSAL (2013) emplea los 19 puntos en la escala de Birleson como
puntaje corte para determinar quiénes se encuentran en riesgo de
depresión. Bajo este criterio, calcula la proporción de los casos que
estaría en riesgo de depresión (19 puntos o más).
| [Proporción:]{.smallcaps}
```{r}
#| code-fold: true
# Creamos una nueva variable como factor vacía para guardar los valores recodificados
data$Dep_Niveles <- factor(NA, levels = c("En riesgo", "Sin riesgo"))
# Asignamos los valores recodificados
data$Dep_Niveles[data$puntaje_depresion < 19] <- "Sin riesgo"
data$Dep_Niveles[data$puntaje_depresion >= 19] <- "En riesgo"
```
```{r}
#| code-fold: true
prop.table(table(data$Dep_Niveles))
```
*Respuesta:*
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> Según los resultados obtenidos, un
aproximadamente 14% de la muestra se encuentra en riesgo de
depresión.</p>
</details>
Para mayor especificidad, calcula la proporción de "polivictimas" y "no
polivictimas" que se encontraría en riesgo de depresión, tomando en
consideración la polivictimización en la vida.
| [Proporción por grupo:]{.smallcaps}
```{r}
#| code-fold: true
# El grupo '1' corresponde a polivictimas y '2' a no polivitimas.
addmargins(prop.table(table(data$Dep_Niveles, data$poli_vida)
, margin = 2))
```
*Respuesta:*
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> Según los resultados obtenidos, del total
de polivictimas aproximadamente un 42.4% se encuentra en riesgo de
depresión.Del total de no polivictimas aproximadamente un 10.4% se
encuentra en riesgo de depresión.</p>
</details>
- *Modelo nulo y concepto de residuo*
Para predecir el puntaje de depresión de un individuo, podemos guiarnos
por la media de la muestra que obtuvimos anteriormente. A continuación,
crearemos un modelo nulo para los niveles de depresión en los NNA y,
luego, visualizaremos los residuos en un histograma para evaluar la
magnitud de las desviaciones de los puntajes observados respecto a la
media predicha.
| [Formulación de modelo nulo:]{.smallcaps}
```{r}
#| code-fold: true
# Modelo nulo de depresión
Mod_dep01 <- lm(data$puntaje_depresion ~ 1)
# Resumen del modelo de depresión
summary(Mod_dep01)
```
| [Histograma de residuos:]{.smallcaps}
```{r}
#| code-fold: true
# Histograma de residuos de depresión
hist(Mod_dep01$residuals,
xlab = "Residuos",
ylab = "Frecuencia",
main = "Histograma de residuos de depresión")
```
Esto mismo es factible también para predecir la cantidad total de tipo
de victimizaciones sufridas en los últimos 12 meses por los NNA de la
muestra. A continuación, crearemos un modelo nulo en base al promedio de
la cantidad total de tipos de victimizaciones sufridas y, luego,
visualizaremos los residuos.
| [Formulación de modelo nulo:]{.smallcaps}
```{r}
#| code-fold: true
# Modelo nulo de victimización
Mod_vic <- lm(data$victim_ano_cuenta ~ 1)
# Resumen del modelo de victimización
summary(Mod_vic)
```
| [Histograma de residuos:]{.smallcaps}
```{r}
#| code-fold: true
# Histograma de residuos de cantidad de victimizaciones
hist(Mod_vic$residuals,
xlab = "Residuos",
ylab = "Frecuencia",
main = "Histograma de residuos de victimizaciones")
```
### Clase 2
#### Modelo de regresión:
- *Regresión simple y sus parámetros*
Para complejizar nuestro modelo anterior, podemos introducir una
variable predictora, en este caso, la cantidad total de tipos de
victimizaciones sufridas por cada NNA en los últimos 12 meses. Queremos
responder a la pregunta ¿Cómo afecta la cantidad total de tipos de
victimizaciones sufridas a los niveles de depresión en niños y
adolescentes? Para ello, realizaremos un modelo de regresión simple en
el que la variable respuesta será la puntuación total de depresión y la
variable predictora será el total de tipos de victimizaciones sufridas.
Esto nos permitirá entender cómo cambia la puntuación de depresión en
función del número de victimizaciones sufridas.
| [Resultados de modelo de regresión simple:]{.smallcaps}
```{r}
#| code-fold: true
# Modelo ampliado de depresión
Mod_dep02 <- lm(data$puntaje_depresion ~ 1 + data$victim_ano_cuenta)
# Resumen del modelo de depresión ampliado
summary(Mod_dep02)
```
*Respuesta:*
<details>
<summary>Haz clic aquí para expandir</summary>
<p>
<strong>Respuesta:</strong>
*Intercepto (β₀ = 9.36, p \< 0.001):* Representa el puntaje de depresión
esperado cuando el total de victimizaciones en el año es 0. Es decir,
una persona que no ha sido víctima en el último año tiene un puntaje de
depresión promedio de 9.36.
*Pendiente (β₁ = 0.63, p \< 0.001):* Indica que por cada incremento de
una unidad en el total de victimizaciones en el año, el puntaje de
depresión aumenta en 0.63 puntos, en promedio. Dado que el valor-p es
menor a 0.05, este efecto es estadísticamente significativo.
*R² = 0.1377:* Indica que aproximadamente 13.77% de la variabilidad en
el puntaje de depresión es explicada por el total de victimizaciones en
el año.
*Error estándar residual = 5.703:* Muestra la desviación estándar de los
residuos. Indica que, en promedio, los valores observados de depresión
se desvían 5.7 puntos de la línea de regresión ajustada.
*F(1, 18178) = 2903, p \< 0.001:* La prueba F muestra que el modelo en
su conjunto es significativo, lo que indica que el total de
victimizaciones en el año tiene un efecto sobre el puntaje de depresión.
En conclusión, el modelo sugiere que ser víctima más veces en el último
año está positivamente asociado con un mayor puntaje de depresión.
</p>
</details>
#### Caracterizando y comparando distribuciones
- *Tendencia central, variabilidad y asimetría*
Considerando los dos grupos de la variable 'sexo', sigue las siguientes
indicaciones
1) Calcula los estadísticos descriptivos (media, mediana, desviación
estándar, etc.) para la cantidad total de tipos de victimizaciones
sufridas en los últimos 12 meses en ambos subgrupos.
| [Descriptivos por grupo:]{.smallcaps}
```{r}
#| code-fold: true
# Se utiliza la función 'describeBy' para obtener los descriptivos según grupo.
# El grupo '1' corresponde a mujeres y '2' a hombres.
describeBy(data$victim_ano_cuenta, group=data$sexo)
```
2) Visualiza las distribuciones de ambas muestras utilizando boxplots
para identificar posibles diferencias.
| [Boxplot:]{.smallcaps}
```{r}
#| code-fold: true
# Se genera un gráfico que permite comprar las dos distribuciones de datos mediante boxplots
boxplot(data$victim_ano_cuenta ~ data$sexo,
names = c("Mujeres", "Hombres"),
ylab = "Cantidad de victimizaciones al año")
```
3) Compara las proporciones de polivíctimas en el año en ambos grupos.
Utiliza la variable 'poli_año'.
| [Proporción por grupo:]{.smallcaps}
```{r}
#| code-fold: true
# El grupo '1' corresponde a polivictimas y '2' a no polivitimas.
addmargins(prop.table(table(data$poli_año, data$sexo==1)
, margin = 2))
```
*Respuesta:*
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> Según los resultados obtenidos, del total
de hombres aproximadamente 9.34% son polivictimas.Del total de mujeres
aproximadamente un 12.3% son polivitimas.</p>
</details>
### Clase 3
#### Comparación de modelos
- *Modelo base vs modelo de regresión: R2 como indicador de
comparación de ajuste*
Hasta ahora, hemos creado dos modelos para predecir los puntajes de
depresión de los NNA de la muestra. El primero de ellos (el modelo nulo
o de base) predice los puntajes en función de la media, mientras que el
segundo agrega como variable predictora la cantidad total de tipos de
victimizaciones sufridas por el sujeto en los últimos 12 meses. A
continuación, visualizaremos los residuos de ambos modelos utilizando
gráficos de dispersión o histogramas para observar cómo se distribuyen,
y los compararemos utilizando la varianza explicada (R²).
| [Comparación con histogramas:]{.smallcaps}
```{r}
# Uso mfrow para crear un lienzo con 1 fila y 2 columnas
par(mfrow=c(1,2))
# Histograma de residuos modelo nulo
hist(Mod_dep01$residuals,
xlim = c(-30,30),
ylim = c(0,7000),
xlab = "Residuos",
ylab = "Frecuencia")
# Histograma de residuos modelo ampliado
hist(Mod_dep02$residuals,
xlim = c(-30,30),
ylim = c(0,7000),
xlab = "Residuos",
ylab = "Frecuencia")
```
| [Superposición de curvas de densidad:]{.smallcaps}
```{r}
#| code-fold: true
# Se grafica la curva de densidad de la muestra residuos modelo nulo
plot(density(Mod_dep01$residuals),
main = "Gráfico de densidad",
xlab = "Residuos",
ylab = "Densidad",
col = "blue",
ylim = c(0, 0.08))
# Se añade al mismo gráfico la curva de densidad de residuos modelo ampliado
lines(density(Mod_dep02$residuals), col = "red")
```
| [Calculo de R cuadrado:]{.smallcaps}
```{r}
#| code-fold: true
# Calculamos la suma la cuadrados totales
SST = sum(resid(lm(data$puntaje_depresion ~ 1))^2)
# Calculamos la suma la cuadrados del modelo ampliado
SSEA = sum(resid(lm(data$puntaje_depresion ~ 1 + data$victim_ano_cuenta))^2)
# Calculamos la reducción en la suma la cuadrados
SSR = SST - SSEA
# Calculamos la reducción proporcional del error
R_cuadrado = (SST - SSEA)/SST
# Vemos que este equivale al Multiple R-squared en el resumen que nos brinda R en el modelo apliado.
R_cuadrado
```
Evalúa cuál de los dos modelos ofrece un mejor ajuste y discute los
resultados. ¿En qué medida mejora el modelo de regresión frente al
modelo base? ¿Qué implicaciones tiene esto para la comprensión de la
relación entre la variable predictora seleccionada y la depresión?
*Respuesta:*
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> El modelo ampliado mejora el ajuste,
explicando un 13.77% de la variabilidad de los puntajes de
depresión.</p>
</details>
#### Distribución normal
- *Puntaje z*
Para comparar cómo diferentes tipos de victimización impactan los
niveles de depresión en los NNA, selecciona dos tipos de victimización
al año del estudio, maltrato por cuidadores y por parte de pares, y
calcula la media y desviación estándar de los niveles de depresión
asociados a cada tipo de victimización.
| [Descriptivos por grupo:]{.smallcaps}
```{r}
#| code-fold: true
# Puntajes de depresion en quienes han sufrido maltrato de cuidadores
describe(data$puntaje_depresion[data$B_una_en_año == 1], na.rm = TRUE)
```
```{r}
#| code-fold: true
# Puntajes de depresion en quienes han sufrido maltrato de pares
describe(data$puntaje_depresion[data$C_una_en_año == 1], na.rm = TRUE)
```
Utilizando como valor específico los 19 puntos en la escala de Birleson,
calcula su puntaje Z para cada tipo de victimización.
| [Cálculo puntaje Z:]{.smallcaps}
```{r}
#| code-fold: true
# Maltrato de cuidadores
# Valor de referencia
valor_referencia <- 19
# Cálculo media de puntaje de depresión de
media1 <- mean(data$puntaje_depresion[data$B_una_en_año == 1], na.rm = TRUE)
# Cálculo desviación estándar
desviacion1 <- sd(data$puntaje_depresion[data$B_una_en_año == 1], na.rm =TRUE)
# Cálculo puntaje Z
z_score1 <- (valor_referencia - media1) / desviacion1
z_score1
# Maltrato de pares
# Valor de referencia
valor_referencia <- 19
# Cálculo media de puntaje de depresión de
media2 <- mean(data$puntaje_depresion[data$C_una_en_año == 1], na.rm = TRUE)
# Cálculo desviación estándar
desviacion2 <- sd(data$puntaje_depresion[data$C_una_en_año == 1], na.rm =TRUE)
# Cálculo puntaje Z
z_score2 <- (valor_referencia - media2) / desviacion2
z_score2
```
Interpreta estos puntajes en términos de cómo se compara este valor con
el promedio de cada grupo de victimización. ¿En qué tipo de
victimización el valor de depresión se encuentra más alejado de la media
(positivamente o negativamente)? ¿Qué implicaciones tienen estos
resultados para entender la relación entre diferentes formas de
victimización y la severidad de los síntomas de depresión?
*Respuesta:*
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> Los puntajes Z muestran que el valor 19
en la escala de depresión está más alejado de la media en el grupo que
sufrió maltrato por parte de pares (Z = 0.8) que en el grupo maltratado
por cuidadores (Z = 0.6). Esto indica que, en promedio, los niveles de
depresión en víctimas de pares son más bajos que en quienes sufrieron
maltrato por cuidadores.</p>
</details>
- *Simulación de datos y muestras de una distribución normal*
Simula dos muestras de 1000 datos de depresión utilizando una
distribución normal. Usa las medias y desviaciones estándar que
obtuviste para los niveles de depresión asociados a los dos tipos de
victimización utilizados en el ejercicio anterior.
| [Creación de muestras:]{.smallcaps}
```{r}
#| code-fold: true
muestra_cuidadores <- rnorm(1000, mean = 14.93, sd = 6.38)
muestra_pares <- rnorm(1000, mean = 13.79, sd = 6.49)
```
Visualiza las distribuciones de las dos muestras simuladas utilizando
histogramas y superpone una curva de densidad para comparar cómo varían
las distribuciones entre los distintos tipos de victimización.
| [Comparación de histogramas:]{.smallcaps}
```{r}
#| code-fold: true
# Uso mfrow para crear un lienzo con 1 fila y 2 columnas
par(mfrow=c(1,2))
# Histograma de primera muestra
hist(muestra_cuidadores, xlim = c(-30,70),
xlab = "Puntajes",
ylab = "Frecuencia")
# Histograma de segunda muestra
hist(muestra_pares, xlim = c(-30,70),
xlab = "Puntajes",
ylab = "Frecuencia")
```
| [Superposición de curvas de densidad:]{.smallcaps}
```{r}
#| code-fold: true
# Se grafica la curva de densidad de la muestra 1
plot(density(muestra_cuidadores),
main = "Gráfico de densidad",
xlab = "Puntajes",
ylab = "Densidad",
col = "blue",
ylim = c(0, 0.07))
# Se añade al mismo gráfico la curva de densidad de la muestra 2
lines(density(muestra_pares), col = "red")
```
Extrae una muestra aleatoria de 100 datos de cada una de las
distribuciones simuladas y calcula los estadísticos descriptivos (media,
desviación estándar, percentiles). Luego, compara los estadígrafos y la
forma de las distribuciones simuladas para los dos tipos de
victimización.
| [Creación de submuestras aletorias:]{.smallcaps}
```{r}
#| code-fold: true
# Utilizamos la función 'sample' para extraer submuestras
submuestra_cuidadores <- sample(muestra_cuidadores, size=100)
submuestra_pares <- sample(muestra_pares, size=100)
```
| [Descriptivos submuestra voctimización de cuidadores:]{.smallcaps}
```{r}
#| code-fold: true
describe(submuestra_cuidadores)
```
| [Descriptivos submuestra victimización de pares:]{.smallcaps}
```{r}
#| code-fold: true
describe(submuestra_pares)
```
Compara las distribuciones de los niveles de depresión simulados entre
NNA víctimas de cuidadores y víctimas de pares, describe también lo
observado en el gráfico de densidad. ¿Qué sugieren los resultados
obtenidos?
*Respuesta:*
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> Los resultados muestran que la media de
depresión es más alta en la submuestra simulada de NNA víctimas de
cuidadores en comparación con quienes han sido víctimas de pares.
Además, la distribución de los puntajes en ambos grupos presenta formas
similares, aunque la curva de densidad en el grupo de cuidadores parece
estar más desplazada hacia valores altos. Esto sugiere que la
victimización por cuidadores podría estar asociada a un mayor impacto
emocional, reflejado en puntajes más elevados de depresión.</p>
</details>
### Clase 4
#### Modelo de regresión y correlación
- *Interpretando la pendiente y su estandarización y Correlación de
Pearson*
Retomando el modelo de regresión simple que creamos anteriormente,
compararemos tres estimados estadísticos clave en un análisis de este
tipo: beta no estandarizado, beta estandarizado y correlación de
Pearson.
1. El primero te indica cuánto cambian los niveles de depresión por
unidad adicional de tipo de victimización sufrida dentro de los
últimos 12 meses. Ejecuta nuevamente el modelo de regresión y obtén
los coeficientes. El valor del beta no estandarizado aparecerá en la
salida del modelo como el coeficiente de la variable independiente.
```{r}
#| code-fold: true
summary(lm(data$puntaje_depresion ~ 1 + data$victim_ano_cuenta))
```
2. El beta estandarizado te permite medir la relación en unidades de
desviaciones estándar, lo que facilita la comparación de la magnitud
del efecto entre diferentes variables en una misma escala. Para
obtenerlo, estandariza el total de tipos de victimizaciones sufridas
y la puntuación total de depresión para que ambas variables tengan
una media de 0 y una desviación estándar de 1.
```{r}
#| code-fold: true
summary(lm(scale(data$puntaje_depresion) ~ 1 + scale(data$victim_ano_cuenta)))
```
3. Finalmente, calcula la correlación de Pearson entre la cantidad
total de victimizaciones sufridas dentro de los últimos 12 meses y
los niveles de depresión. Esto te permitirá conocer la dirección y
el tamaño de la relación entre las variables.
```{r}
#| code-fold: true
cor.test(data$puntaje_depresion, data$victim_ano_cuenta, use=pairwise.complete.obs)
```
Compara los tres estimados (beta no estandarizado, beta estandarizado y
correlación de Pearson) para analizar si son consistentes en cuanto a la
dirección de la relación. ¿Qué diferencias encuentras? ¿En qué
situaciones son útiles cada uno de estos estimados y qué información
adicional proporciona el beta no estandarizado respecto a la correlación
de Pearson?
*Respuesta:*
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> Los 3 coeficientes calculados son
consistentes entre si en cuanto a la relación presente. Las diferencias
que se observan son las magnitudes de el beta no estandarizado en
comparación con el coeficiente de correlación y el beta estandarizado y
se deben a que el beta no estandarizado está funcionando con la unidad
de medida de la variable, mientras que los otros dos funcionan con la
variable estandarizada, es decir, en términos de desviaciones
estandar.</p>
</details>
### Clase 5
#### Distribuciones de datos y distribuciones de probabilidad
- *Simulando distribuciones de datos*
En este ejercicio, usarás los valores de depresión reportados en el
estudio. Simularás distribuciones de 1,000 valores para cada uno de los
siguientes tipos de distribuciones: - Distribución Normal: Usa la media
y desviación estándar reales de los puntajes de estrés. - Distribución
Uniforme: Usa el mínimo y máximo de los valores. - Distribución t de
Student: Calcula los grados de libertad como GL =𝑛 − 1, donde 𝑛 es el
tamaño de la muestra.
Genera gráficos de densidad o histogramas para cada distribución
simulada y compáralos con la distribución real de los puntajes de
depresión.
1. Distribución Normal: Usa la media y desviación estándar reales de
los puntajes de depresión.
| [Descriptivos:]{.smallcaps}
```{r}
#| code-fold: true
# Calculamos la media y la desviacion estandar de la variable puntajes T del TEPSI
mean(data$puntaje_depresion, na.rm=TRUE)
sd(data$puntaje_depresion, na.rm=TRUE)
```
| Simulación de la distribución:\]{.smallcaps}
```{r}
#| code-fold: true
dist_normal <- rnorm(1000, mean = 11.72, sd = 6.14)
```
| [Histograma:]{.smallcaps}
```{r}
#| code-fold: true
# Histograma de la distribución normal
hist(dist_normal,
xlab = "Puntajes",
ylab = "Frecuencia",
main = "")
```
2. Distribución Uniforme: Usa el mínimo y máximo de los valores reales
de los puntajes de depresión.
| [Descriptivos:]{.smallcaps}
```{r}
#| code-fold: true
# Obtenemos los valores minimos y maximos de la variable
min(data$puntaje_depresion,na.rm=TRUE)
max(data$puntaje_depresion,na.rm=TRUE)
```
| Simulación de la distribución:\]{.smallcaps}
```{r}
#| code-fold: true
# Para generar una distribución uniforme señalamos este intervalo en la función 'rep'
# Se utiliza 'each=27' para aproximarnos a los 1000 casos esperados
dist_uniforme <- rep(0:36, each=27)
```
| [Gráfico de barras:]{.smallcaps}
```{r}
#| code-fold: true
# Luego, graficamos la distribución con un gráfico de barras
barplot(prop.table(table(dist_uniforme)))
```
3. Distribución t de Student: Calcula los grados de libertad como
GL=𝑛−1, donde𝑛es el tamaño de la muestra.
| Simulación de la distribución:\]{.smallcaps}
```{r}
#| code-fold: true
# Sabemos que el tamaño de la muestra es igual a 125, por lo que los grados de libertad equivalen a 124
# Para generar una distribución t utilizamos la función 'rt'
# Se especifica el número de la valores de la distribución y los grados de libertad
dist_t <- rt(1000, df = 18110)
```
| [Histograma:]{.smallcaps}
```{r}
#| code-fold: true
# Histograma de la distribución t
hist(dist_t,
xlab = "Puntajes",
ylab = "Frecuencia",
main = "")
```
¿Qué diferencias observas entre las distribuciones simuladas y la
distribución real de los datos? ¿Cómo cambia la forma entre las
distribuciones?
| [Distribución real:]{.smallcaps}
```{r}
#| code-fold: true
# Histograma de la distribución real de los datos
hist(data$puntaje_depresion,
xlab = "Puntajes",
ylab = "Frecuencia",
main = "Distribución real")
```
*Respuesta:*
<details>
<summary>Haz clic aquí para expandir</summary>
<p>
<strong>Respuesta:</strong> Se observa que la distribución real de los
puntajes de despresión es asimetrica con un sesgo postivo, es decir, que
posee un mayor concentración hacia el rango de valores más bajos y una
concentración que disminuye progresivamente hacia los valores más alto
de la distribución. En términos de semejanza a las distribuciones
simuladas, se observa que ninguna cumple con los criterios descritos.
- Se observa que la distribución normal simulada posee valores entre
-10 y 30, a diferencia de la distrbución real que solo posee valores
cero o positivos. Se observa que la moda se encuentra alrededor de
10, lo cual se considera similar a la moda de la distribución real.
- Se observa que la distribución uniforme simulada posee valores entre
0 y 36, lo cual es equivalente a la distrbución real. Sin embargo,
el tipo de distribución no es equivalente.
- Se observa que la distribución t simulada posee valores entre -3 y
4, a diferencia de la distrbución real que solo posee valores cero o
positivos y de mayor magnitud. Se observa que la moda se encuentra
alrededor de 0, lo cual se diferencia de a la moda de la
distribución real.
</p>
</details>
- *Expresando en probabilidades un resultado en una distribución de
datos*
Suponiendo que los datos de depresión siguen (o se aproximan a) una
distribución normal, usaremos la media y desviación estándar de la
muestra para calcular la probabilidad de que un NNA tenga una puntuación
de depresión mayor a 19.
| [Probabilidad simulada:]{.smallcaps}
```{r}
#| code-fold: true
# Calcular la probabilidad de que un participante tenga puntaje de depresión superior a 19
probabilidad_simulada <- 1 - pnorm(19, mean = 11.72, sd = 6.14)
probabilidad_simulada
```
Calcula el valor crítico correspondiente al percentil 95 de la
distribución. Esto nos da el valor de depresión por encima del cual se
encuentra el 5% superior de la población.
| [Percentil 95:]{.smallcaps}
```{r}
#| code-fold: true
percentil_95 <- qnorm(0.95, mean = 11.72, sd = 6.14)
percentil_95
```
¿Cuántos NNA tienen una probabilidad alta de estar por encima de una
puntuación de depresión crítica? ¿Qué implicaciones tienen estos
resultados para la identificación de casos severos?
*Respuesta:*
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> La probabilidad de que un NNA tenga una
puntuación elevada (mayor a 19) es de 11.78%. Además, el 5% de los NNA
simulados tendrían puntajes superiores a 21.82, lo que los ubica en el
extremo superior de la distribución. Estos resultados permiten estimar
cuántos casos podrían estar en riesgo elevado y, por tanto, requerir
intervención psicológica.</p>
</details>
### Clase 6
#### Distribuciones muestrales
- *Teorema del límite central y el efecto del tamaño muestral*
Simula tres muestras aleatorias de tamaño 500, 1000 y 5000 a partir de
los datos de depresión de los NNA victimizados por cuidadores. ¿Cómo
cambia la media y desviación estándar de los niveles de depresión
conforme aumenta el tamaño de la muestra?
| [Simulación de muestras y sus medias:]{.smallcaps}
```{r}
#| code-fold: true
dep_vic_cuid <- subset(data, B_una_en_año == 1, select = puntaje_depresion)
# Tamaños de las muestras
tamanos_muestra <- c(500, 1000, 5000)
# Crear un data frame vacío para almacenar los resultados
resultados <- data.frame(Tamano_Muestra = integer(), Media = numeric(), Desviacion_Estandar = numeric())
for(tamano in tamanos_muestra) {
# Tomar una muestra aleatoria de tamaño 'tamano' de la columna de depresión
muestra <- sample(dep_vic_cuid$puntaje_depresion, size = tamano, replace = TRUE)
# Calcular la media y la desviación estándar de la muestra
media_muestra <- mean(muestra, na.rm=TRUE)
sd_muestra <- sd(muestra, na.rm=TRUE)
# Guardar los resultados
resultados <- rbind(resultados, data.frame(Tamano_Muestra = tamano, Media = media_muestra, Desviacion_Estandar = sd_muestra))
}
resultados
```
*Respuesta:*
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> Sabemos que la media y la desviación
estándar poblacional equivalen a 14.93 y 6.38, respectivamente. A medida
que aumenta el tamaño de la muestra, los valores muestrales tienden a
acercarse a los valores poblacionales. Para n = 5000, tanto la media
como la desviación estándar están más cerca de los valores reales, lo
que sugiere que la estimación es más precisa.</p>
</details>
- *Intervalos de confianza*
Toma 100 muestras aleatorias de tamaño 50 de los niveles de depresión en
NNA victimizados por cuidadores. Calcula la media de depresión de cada
muestra y construye la distribución muestral del promedio. ¿Cómo es la
forma de la distribución muestral de las medias en comparación con la
distribución original de los puntajes de depresión en NNA victimizados
por cuidadores?
| [Simulación de muestras y sus medias:]{.smallcaps}
```{r}
#| code-fold: true
# Fijamos una semilla para que se reproduzcan siempre los mismos valores
set.seed(123)
# Número de muestras
n_muestras <- 100
# Tamaño de cada muestra
n <- 50
# Vector para almacenar los promedios de cada muestra
medias_muestras <- numeric(n_muestras)
# Simulación de 100 muestras y cálculo de medias
for (i in 1:n_muestras) {
muestra <- sample(dep_vic_cuid$puntaje_depresion, size = n, replace = TRUE)
medias_muestras[i] <- mean(muestra, na.rm=TRUE)
}
```
| [Histogramas de medias muestrales:]{.smallcaps}
```{r}
#| code-fold: true
# Histograma de distribución de los promedios muestrales
hist(medias_muestras,
breaks = "FD",
xlim = c(10,20),
main = "Distribución de las Medias Muestrales",
xlab = "Medias de las Muestras",
ylab = "Frecuencia")
```
| [Histogramas de medias originales:]{.smallcaps}
```{r}
#| code-fold: true
# Histograma de distribución de los promedios muestrales
hist(dep_vic_cuid$puntaje_depresion,
breaks = "FD",
xlim = c(0,40),
main = "Distribución de las Medias originales",
xlab = "Medias originales",
ylab = "Frecuencia")
```
*Respuesta:*
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> En ambos casos se asemeja la moda,
existiendo una mayor frecuencia de datos alrededor del valor 15. Sin
embargo, la dispersión de los datos es menor en el caso de las medias de
las muestras simuladas.</p>
</details>
Usando la distribución muestral de tamaño 100, calcula el intervalo de
confianza del 95% para los niveles de depresión de los NNA victimizados
por cuidadores. ¿Qué nos dice este intervalo sobre la precisión de la
estimación de la media?
| [Intervalo de confianza:]{.smallcaps}
```{r}
#| code-fold: true
# Fijamos una semilla para que se reproduzcan siempre los mismos valores
set.seed(123)
# Seleccionar una muestra aleatoria de tamaño n = 100
muestra_100 <- sample(dep_vic_cuid$puntaje_depresion, size = 100, replace = TRUE)
# Desviación estándar de la poblacion
sigma = 6.38
# Tamaño y promedio de la muestra
n = 100
x_barra <- mean(muestra_100, na.rm=TRUE)
# Calcular el valor Z para un 95%
Z <- abs( qnorm((1 - .95)/2) )
# Calcular error estándar
error_est <- sigma/sqrt(n)
# Calcular los límites
lim_inferior <- x_barra - ( Z * error_est )
lim_superior <- x_barra + ( Z * error_est )
# Intervalo de confianza al 95% redondeado
round(c(lim_inferior, lim_superior),2)
```
Ahora exploraremos cómo cambia ese intervalo si: (1) Usamos una muestra
más pequeña (n = 30) y (2) aumentamos el nivel de confianza al 99%. Esto
nos ayudará a comprender mejor la relación entre el tamaño de la
muestra, el nivel de confianza y la amplitud del intervalo.
| [Intervalo de confianza con n = 30 y 95% de confianza:]{.smallcaps}
```{r}
#| code-fold: true
# Fijamos la semilla para que los resultados sean reproducibles
set.seed(123)
# Extraer muestra aleatoria de tamaño 30
muestra_30 <- sample(dep_vic_cuid$puntaje_depresion, size = 30, replace = TRUE)
# Media de la muestra
media_30 <- mean(muestra_30, na.rm = TRUE)
# Desviación estándar poblacional conocida
sigma <- 6.38
# Tamaño muestral
n <- 30
# Valor Z para 95%
Z_95 <- abs(qnorm((1 - 0.95) / 2))
# Error estándar
error_est_30 <- sigma / sqrt(n)
# Límites del intervalo
lim_inf_30_95 <- media_30 - (Z_95 * error_est_30)
lim_sup_30_95 <- media_30 + (Z_95 * error_est_30)
# Resultado final
round(c(lim_inf_30_95, lim_sup_30_95), 2)
```
| [Intervalo de confianza con n = 100 y 99% de confianza:]{.smallcaps}
```{r}
#| code-fold: true
# Fijamos la semilla nuevamente
set.seed(123)
# Extraer muestra aleatoria de tamaño 100
muestra_100 <- sample(dep_vic_cuid$puntaje_depresion, size = 100, replace = TRUE)
# Media de la muestra
media_100 <- mean(muestra_100, na.rm = TRUE)
# Tamaño muestral
n <- 100
# Valor Z para 99%
Z_99 <- abs(qnorm((1 - 0.99) / 2))
# Error estándar
error_est_100 <- sigma / sqrt(n)
# Límites del intervalo
lim_inf_100_99 <- media_100 - (Z_99 * error_est_100)
lim_sup_100_99 <- media_100 + (Z_99 * error_est_100)
# Resultado final
round(c(lim_inf_100_99, lim_sup_100_99), 2)
```
Compara el intervalo original (IC 95% con n=100) con los dos
nuevos:¿Cuál es más amplio? ¿Qué efecto tiene usar menos datos? ¿Qué
cambia al aumentar el nivel de confianza?
*Respuesta:*
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> El intervalo original (IC 95% con n=100)
fue \[13.47, 15.97\], mientras que el nuevo con n=30 fue más amplio
(\[12.30, 16.87\]), y el de 99% con n=100 también se amplió (\[13.07,
16.36\]). Esto muestra que reducir el tamaño muestral aumenta el error
estándar y, por lo tanto, disminuye la precisión de la estimación. Por
otro lado, aumentar el nivel de confianza también ensancha el intervalo,
ya que se requiere mayor margen para estar más seguros de incluir la
media real. En ambos casos, los intervalos más amplios reflejan mayor
incertidumbre en la estimación.</p>
</details>
### Clase 7
#### La lógica del contraste de hipótesis en estadística con una media
- *El modelo de regresión base, hipótesis nula e hipótesis
alternativa*
El primer modelo base que creamos predice los niveles de depresión
utilizando la media de depresión para todos los NNA, sin incluir ninguna
otra variable como predictor. En cambio, el segundo modelo que creaste,
el modelo completo, incluía como variable predictora el total de tipos
de victimizaciones sufridas. ¿Cuál es la hipótesis que este segundo
modelo está tratando de probar? Y si la hipótesis nula es aquella que
niega los efectos de la variable predictora postulada en la hipótesis
alternativa ¿Cuál sería la hipótesis nula dentro de este contexto?
<details>
<summary>Haz clic aquí para expandir</summary>
<p>
<strong>Respuesta:</strong> Hipótesis nula (h0): La variable "cantidad
de victimizaciones" no predice los niveles de depresion de los NNA.
Hipótesis alternativa (h1): La variable "cantidad de victimizaciones"
predice los niveles de depresión de los NNA.
</p>
</details>
Calcula el valor p para el predictor que corresponde al total de tipos
de victimizaciones sufridas del segundo modelo, que nos indicará si esta
variable tiene un impacto significativo en los niveles de depresión de
los NNA.
| [Valor p para el predictor:]{.smallcaps}
```{r}
#| code-fold: true
modelo_ampliado <- lm(data$puntaje_depresion ~ 1 + data$victim_ano_cuenta)
summary(modelo_ampliado)
```
¿El valor p asociado al total de tipos de victimizaciones sufridas es
menor a 0.05? Si es así, ¿qué podemos concluir sobre la hipótesis
alternativa?
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> El valor p es \< 0.05, por lo los
análisis nos permiten rechazar la hipótesis nula a la luz de los datos y
favorecer la hipostesis alternativa. Esto nos lleva a decir que la
variable "cantidad de victimizaciones" es un predictor significativo del
puntaje de depresión de los NNA.</p>
</details>
Para simular la distribución bajo la hipótesis nula, vamos a realizar
múltiples permutaciones aleatorias de la variable de depresión. Repite
el ajuste del modelo de regresión entre el número de tipos de
victimizaciones y las puntuaciones de depresión para cada permutación
(por ejemplo, 1000 permutaciones), y guarda los valores de la pendiente
obtenidos en cada iteración. Finalmente, calcula el valor p comparando
el valor de la pendiente observado en el modelo completo original con la
distribución de pendientes obtenidas bajo la hipótesis nula.
| [Permutación de valores de la pendiente:]{.smallcaps}
```{r}
#| code-fold: true
# Pendiente original
pendiente_original <- coef(modelo_ampliado)[2]
# Realizar las permutaciones y calcular las pendientes
set.seed(123)
# Número de permutaciones
n_perm <- 1000
pendientes_permutados <- numeric(n_perm)
for (i in 1:n_perm) {
data$victim_ano_cuenta_permutada <- sample(data$victim_ano_cuenta)
modelo_permutado <- lm(puntaje_depresion ~ victim_ano_cuenta_permutada, data = data)
pendientes_permutados[i] <- coef(modelo_permutado)[2]
}
# Calcular el valor p comparando el valor observado con la distribución de pendientes
valor_p <- mean(abs(pendientes_permutados) >= abs(pendiente_original))
# Redondear el valor p a 3 decimales
valor_p_redondeado <- round(valor_p, 3)
# Resultado
cat("Valor p:", valor_p_redondeado, "\n")
valor_p
```
¿Qué representa la distribución muestral de las pendientes bajo la
hipótesis nula? ¿Cómo te ayuda a entender el valor p y su significado en
este contexto?
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> La distribución muestral de las
pendientes bajo la hipótesis nula representa cómo fluctúan las
pendientes cuando no hay una relación real entre victimización y
depresión, generalmente centrada en cero. Un valor p = 0 indica que
ninguna permutación generó una pendiente tan extrema como la observada,
lo que sugiere que la relación entre ambas variables es altamente
significativa y no producto del azar.</p>
</details>
### Clase 8
#### Comparando medias de dos grupos
- *El modelo de regresión con predictor dicotómico*
Analizaremos cómo la victimización por parte de cuidadores ("maltrato o
negligencia por cuidadores") (sí/no) influye en los niveles de depresión
de los NNA. Para ello, identifica y codifica la variable que indica si
un NNA ha sufrido victimización por parte de cuidadores (sí/no), donde 1
significa "sí ha sido victima" y 0 significa "no ha sido victima". Usa
la puntuación de depresión como la variable dependiente.
| [Recodificación:]{.smallcaps}
```{r}
#| code-fold: true
data$vic_cuid_ano <- NA
data$vic_cuid_ano <- recode(data$B_una_en_año,
"1" = 'Si',
"2" = 'No')
```
Crea un modelo de regresión lineal donde la variable dependiente sea la
puntuación de depresión y la variable independiente sea la victimización
por cuidadores (sí/no).
| [Modelo de regresión:]{.smallcaps}
```{r}
#| code-fold: true
summary(lm(data$puntaje_depresion ~ 1 + data$vic_cuid_ano))
```
Visualiza los resultados utilizando un boxplot que compare los niveles
de depresión entre NNA que han sido victimizados por cuidadores y
aquellos que no. Luego, obtén un resumen del modelo e interpreta los
resultados: la pendiente te indica cómo cambia la puntuación de
depresión entre los NNA que han sufrido victimización por parte de
cuidadores y aquellos que no, mientras que el valor p determina si la
variable victimización es un predictor significativo de los niveles de
depresión.
| [Boxplot puntaje depresión:]{.smallcaps}
```{r}
#| code-fold: true
# Boxplot de comparación de puntajes
boxplot(data$puntaje_depresion ~ data$vic_cuid_ano,
ylab = "Puntaje Depresión",
xlab = "Victimización por cuidador")
```
<details>
<summary>Haz clic aquí para expandir</summary>
<p>
<strong>Respuesta:</strong>
*Pendiente (β₁ = 4,86, p \< 0.001):* Indica que el valor en los puntajes
de depresión para quienes han sido victimizados por cuidadores es de
4,86 puntos mas que aquellos que no lo fueron. Dado que el valor-p es
menor a 0.05, este efecto es estadísticamente significativo.
</p>
</details>
### Clase 9
#### Comparando medias de dos grupos II
- *Comparación con Prueba z*
En este ejercicio queremos determinar si existen diferencias
significativas en los niveles de depresión entre los NNA que han sufrido
victimización digital y aquellos que han sufrido exposición a violencia
familiar. Usaremos la distribución muestral del estadígrafo Z para
evaluar la plausibilidad de la hipótesis nula frente a la alternativa.
Para ello, asumiendo que la desviación estándar de la muestra se puede
usar como indicador de la desviación estándar de la población,
1. Formula la hipótesis nula (H₀) y la hipótesis alternativa (Hₐ) para
comparar los niveles de depresión entre los dos grupos
(victimización digital y exposición a violencia familiar).
<details>
<summary>Haz clic aquí para expandir</summary>
<p>
<strong>Respuesta:</strong>
Hipótesis nula (H₀): No hay diferencias significativas en los niveles de
depresión entre los NNA que han sufrido victimización digital y aquellos
que han estado expuestos a violencia familiar. Hipótesis alternativa
(Hₐ): Existen diferencias significativas en los niveles de depresión
entre ambos grupos. Es decir, al menos uno de los grupos tiene una media
diferente.
</p>
</details>
2. Calcula las medias y desviaciones estándar de la puntuación de
depresión de cada grupo para realizar una prueba Z.
| [Muestras y descriptivos:]{.smallcaps}
```{r}
#| code-fold: true
# Creamos bases de victimización digital y exposición a violencia familiar
dep_vic_dig <- subset(data, F_una_en_año == 1, select = puntaje_depresion)
dep_vic_vif <- subset(data, E2_una_en_año == 1, select = puntaje_depresion)
# Calculamos la media y desviación estándar de los grupos
describe(dep_vic_dig$puntaje_depresion)
describe(dep_vic_vif$puntaje_depresion)
```
3. Calcula el valor p asociado al estadístico Z para determinar si la
diferencia en depresión entre los dos grupos es significativa.
| [Cálculo Z y p-value:]{.smallcaps}
```{r}
#| code-fold: true
# Almacenar valores relevantes
media1 <- 14.7
media2 <- 15.68
sd1 <- 6.67
sd2 <- 6.56
n1 <- 3678
n2 <- 1280
# Calcular el estadístico z
z <- (media1 - media2) / sqrt((sd1^2 / n1) + (sd2^2 / n2))
z
# Calcular el valor p (prueba bilateral)
p_valor <- 2 * (1 - pnorm(abs(z)))
p_valor
```
4. Visualiza los resultados con un boxplot que compare los niveles de
depresión entre ambos grupos.
| [Boxplot Depresión dos grupos:]{.smallcaps}
```{r}
#| code-fold: true
# Combinamos los dos datasets en un solo dataframe
datos_combinados <- data.frame(
puntaje_depresion = c(dep_vic_dig$puntaje_depresion, dep_vic_vif$puntaje_depresion),
grupo = rep(c("Victimización Digital", "Violencia Intrafamiliar"),
c(length(dep_vic_dig$puntaje_depresion), length(dep_vic_vif$puntaje_depresion)))
)
# Crear el boxplot con ambos grupos
boxplot(puntaje_depresion ~ grupo, data = datos_combinados,
main = "Comparación de Depresión en los Grupos",
ylab = "Puntaje de Depresión",
xlab = "Grupo")
```
5. Responde a la pregunta: ¿Existen diferencias significativas en los
niveles de depresión entre los NNA que han sufrido victimización
digital y los que han sufrido victimización por exposición a
violencia familiar?
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> Si existe una diferencia estadísticamente
significativa. Esto queda en evidencia si miramos el estadístico Z, el
cual tuvo un valor de -4.58 y el valor p, el cual fue menor a 0.05,
considerandose significativa la diferencia en términos estadísticos</p>
</details>
- *Comparación con prueba t*
Ahora evaluaremos si existen diferencias significativas en los niveles
de autoestima entre los NNA que han sufrido victimización por cuidadores
y aquellos que han sufrido victimización por pares. Usaremos la
distribución t para evaluar la plausibilidad de H₀ frente a Hₐ. Para
ello,
1. Formula la hipótesis nula (H₀) y la hipótesis alternativa (Hₐ)
pertinentes en este contexto.
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> Hipótesis nula (H₀): No hay diferencias
significativas en los niveles de autoestima entre los NNA que han
sufrido victimización por cuidadores y aquellos que han sufrido
victimización por pares. Hipótesis alternativa (Hₐ): Existen diferencias
significativas en los niveles de autoestima entre ambos grupos.</p>
</details>
2. realiza una prueba t de dos muestras independientes, asumiendo
varianzas iguales, para comparar los niveles de autoestima entre
ambos grupos de NNA (víctimas de cuidadores y víctimas de pares), y
| [Prueba T puntaje autoestima:]{.smallcaps}
```{r}
#| code-fold: true
# Creamos las bases de autoestima para ambas victimizaciones
aut_vic_cuid <- subset(data, B_una_en_año == 1, select = puntaje_autoestima)
aut_vic_par <- subset(data, C_una_en_año == 1, select = puntaje_autoestima)
t.test(aut_vic_par$puntaje_autoestima, aut_vic_cuid$puntaje_autoestima, var.equal = TRUE)
```
3. visualiza los resultados utilizando un boxplot que compare las
medias de ambos grupos.
| [Boxplot:]{.smallcaps}
```{r}
#| code-fold: true
datos_combinados1 <- data.frame(
puntaje_autoestima = c(aut_vic_par$puntaje_autoestima, aut_vic_cuid$puntaje_autoestima),
grupo = rep(c("Victimización de pares", "Victimización de cuidador"),
c(length(aut_vic_par$puntaje_autoestima), length(aut_vic_cuid$puntaje_autoestima)))
)
# Crear el boxplot con ambos grupos
boxplot(puntaje_autoestima ~ grupo, data = datos_combinados1,
main = "Comparación de Autoestima en los Grupos",
ylab = "Puntaje de Autoestima",
xlab = "Grupo")
```
4. ¿Qué se puede decir acerca de la diferencia observada en los niveles
de autoestima entre los NNA víctimas de cuidadores y de pares?
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> Aunque la diferencia promedio es pequeña
(aproximadamente 1 punto), la prueba t mostró una diferencia
estadísticamente significativa en los niveles de autoestima entre NNA
víctimas de cuidadores y de pares (p \< 0.001), con un intervalo de
confianza del 95% entre 0.69 y 1.28 puntos.</p>
</details>
En esta oportunidad, sin asumir varianzas iguales,
1. aplica una prueba t de dos muestras independientes para comparar los
niveles de autoestima entre NNA víctimas de cuidadores y de pares.
| [Prueba T:]{.smallcaps}
```{r}
#| code-fold: true
t.test(aut_vic_par$puntaje_autoestima, aut_vic_cuid$puntaje_autoestima, var.equal = FALSE)
```
2. Visualiza los resultados utilizando un boxplot y, fíjate en cómo
cambian los grados de libertad entre esta prueba y la del primer
ejercicio (asumiendo varianzas iguales).
| [Boxplot:]{.smallcaps}
```{r}
#| code-fold: true
datos_combinados2 <- data.frame(
puntaje_autoestima = c(aut_vic_par$puntaje_autoestima, aut_vic_cuid$puntaje_autoestima),
grupo = rep(c("Victimización de pares", "Victimización de cuidador"),
c(length(aut_vic_par$puntaje_autoestima), length(aut_vic_cuid$puntaje_autoestima)))
)
# Crear el boxplot con ambos grupos
boxplot(puntaje_autoestima ~ grupo, data = datos_combinados2,
main = "Comparación de Autoestima en los Grupos",
ylab = "Puntaje de Autoestima",
xlab = "Grupo")
```
3. Compara los resultados obtenidos en ambas pruebas y discute las
diferencias: ¿Existen diferencias en los resultados entre la prueba
t con varianzas iguales y la que no asume varianzas iguales? ¿Cómo
afectan los grados de libertad a los resultados?
<details>
<summary>Haz clic aquí para expandir</summary>
<p>
<strong>Respuesta:</strong>
Estadístico t: La prueba con varianzas iguales da t = 6.6105, mientras
que la prueba sin asumir varianzas iguales da t= 6.5893. La diferencia
es muy pequeña. Grados de libertad (df): La prueba con varianzas iguales
tiene df= 11182, mientras que la prueba sin asumir varianzas iguales
tiene df=10597. La segunda prueba ajusta los grados de libertad usando
una corrección estadistica, lo cual suele reducirlos ligeramente.
Valor p: Ambos valores p son extremadamente pequeños (p\<0.00000000005),
por lo que en ambos casos se rechaza la hipótesis nula con alta
confianza.
</p>
</details>
- *Comparación con ANOVA* A continuación, compararemos los niveles de
autoestima entre distintos grupos de frecuencia de exposición a
violencia digital (Nunca, 1 vez, 2 o 3 veces, Al menos una vez al
mes, Al menos una vez a la semana o, Todos los días) para explorar
la distribución muestral del estadígrafo F. Para ello,
1. Formula la hipótesis nula (H₀) y la hipótesis alternativa (Hₐ)
pertinentes en este contexto.
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> Hipótesis nula (H₀): No hay diferencias
significativas en los niveles de autoestima entre los grupos de
frecuencia de exposición a violencia digital. Las medias de los
diferentes grupos son iguales. Hipótesis alternativa (Hₐ): Al menos uno
de los grupos tiene una media diferente en los niveles de
autoestima.</p>
</details>
2. Realiza una prueba ANOVA para comparar las medias de autoestima
entre los distintos niveles de frecuencia de exposición a violencia
digital.
| [ANOVA:]{.smallcaps}
```{r}
#| code-fold: true
data$frec_exp_dig <- recode(data$poli31_c,
"1" = 'Nunca',
"2" = '1 vez',
"3" = '2 o 3 veces',
"4" = 'Al menos una vez al mes',
"5" = 'Al menos una vez a la semana',
"6" = 'Todos los dias')
# Se genera un objeto
anova_aut = aov(data$puntaje_autoestima ~ data$frec_exp_dig)
# Ahora para saber el reporte del anova usamos summary del objeto
summary(anova_aut)
```
3. Si el ANOVA indica diferencias significativas, realiza un análisis
post-hoc (como la prueba de Tukey) para identificar específicamente
qué grupos son significativamente diferentes.
| [Prueba post-hoc Tukey:]{.smallcaps}
```{r}
#| code-fold: true
TukeyHSD(anova_aut)
```
4. Responde: ¿Qué grupos de frecuencia de exposición a violencia
digital tienen medias de autoestima significativamente diferentes?
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> Los grupos que presentan diferencias
significativas (p \< 0.05) son: - Al menos una vez a la semana - 1 vez -
Al menos una vez al mes - 1 vez - Nunca - 1 vez - Todos los dias - 1
vez - Al menos una vez a la semana - 2 o 3 veces - Nunca - 2 o 3 veces -
Todos los dias - 2 o 3 veces - Nunca - Al menos una vez a la semana -
Nunca - Al menos una vez al mes - Todos los dias - Nunca</p>
</details>
A continuación, compararemos los niveles de autoestima entre NNA con
diferentes condiciones físicas de larga duración. Dado que algunas
personas pueden presentar más de una condición (mudez, sordera y/o
ceguera), se agrupará a los participantes en tres categorías:
- Sin condición física
- Con una sola condición
- Con múltiples condiciones.
Nuestro objetivo es responder:¿Existen diferencias significativas en los
puntajes de autoestima entre los NNA sin condiciones físicas, con una
sola condición física o con múltiples condiciones físicas?Para ello,
1. Formula la hipótesis nula (H₀) y la hipótesis alternativa (Hₐ)
pertinentes en este contexto.
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> Hipótesis nula (H₀): No hay diferencias
significativas en los puntajes de autoestima entre los tres grupos
definidos según la cantidad de condiciones físicas. Hipótesis
alternativa (Hₐ): Al menos uno de los grupos difiere significativamente
en los puntajes de autoestima respecto a los otros.</p>
</details>
2. Crea una nueva variable categórica según la cantidad de condiciones
físicas reportadas por cada NNA
| [Creación variable categórica:]{.smallcaps}
```{r}
#| code-fold: true
data$condiciones_tot <- rowSums(data[, c("condiciones1", "condiciones2", "condiciones3",
"condiciones4", "condiciones5", "condiciones6")],
na.rm = TRUE)
data$condiciones_cat <- ifelse(data$condiciones_tot == 0, "sin condición física",
ifelse(data$condiciones_tot == 1, "con una sola condición",
"con múltiples condiciones"))
```
3. Realiza un ANOVA para comparar niveles de autoestima entre los tres
grupos
| [ANOVA autoestima y condiciones:]{.smallcaps}
```{r}
#| code-fold: true
anova_aut2 = aov(data$puntaje_autoestima ~ data$condiciones_cat)
summary(anova_aut2)
```
4. Finalmente, interpreta los resultados del ANOVA y, si hay
diferencias significativas en los niveles de autoestima entre los
grupos, realiza una prueba post-hoc (como la prueba de Tukey) para
identificar qué grupos específicos tienen diferencias significativas
en los niveles de autoestima. También, puedes visualizar las
diferencias de autoestima entre los grupos utilizando un boxplot
para representar las medias de autoestima para cada condición.
| [Pruebas post-hoc:]{.smallcaps}
```{r}
#| code-fold: true
TukeyHSD(anova_aut2)
```
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
La prueba ANOVA mostró diferencias estadísticamente significativas en la variable dependiente según el número de condiciones reportadas por los participantes (F(2, 17938) = 40.45, p < .001). Las pruebas post hoc indicaron que las personas con múltiples condiciones difieren significativamente tanto de quienes tienen una sola condición, como de quienes no presentan ninguna condición. En contraste, no se observaron diferencias significativas entre quienes no tienen condiciones y quienes presentan solo una. Estos resultados sugieren que la presencia de múltiples condiciones está asociada con un peor puntaje de autoestima, mientras que una sola condición no parece tener un efecto significativo.
</p>
</details>
### Clases 10 y 11
#### Comparando medias de tres o más grupos II
- *Dicotomizando una variable politómica*
Analizaremos cómo el año escolar cursado y la frecuencia de
victimización por parte de pares (baja vs. alta exposición) afectan los
niveles de depresión. Para ello,
1. Dicotomiza la variable de frecuencia de victimización por pares en
dos grupos: baja exposición (nunca, 1 vez, 2 o 3 veces) y alta
exposición (al menos una vez al mes, al menos una vez a la semana,
todos los días).
| [Dicotomizar exposición :]{.smallcaps}
```{r}
#| code-fold: true
data$cant_vic_par <- ifelse(data$poli14_c < 4, "Baja exposición",
ifelse(data$poli14_c > 3, "Alta exposición", NA))
table(data$cant_vic_par)
```
2. Luego, realiza un ANOVA para comparar los niveles de depresión entre
los diferentes años escolares y la exposición a la victimización por
parte de pares. Posteriormente, interpreta los resultados del ANOVA
guiándote por el estadígrafo F y el valor p.
| [ANOVA para exposición a victimización de pares :]{.smallcaps}
```{r}
#| code-fold: true
anova_dep <- aov(data$puntaje_depresion ~ data$curso * data$cant_vic_par)
summary(anova_dep)
```
3. Finalmente interpreta los resultados del análisis y las conclusiones
que obtuviste a partir de éste.
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
El análisis ANOVA factorial mostró efectos significativos tanto para el curso (p = 0.0116) como para la cantidad de victimización de pares (p < 0.001) sobre el puntaje de depresión. Además, se identificó una interacción significativa entre ambos factores (p = 0.0120), lo que indica que el impacto de la victimización de pares en los niveles de depresión varía según el curso. Esto sugiere que no solo existen diferencias entre cursos y niveles de victimización por separado, sino que la combinación de ambos factores influye de manera diferencial en los puntajes de depresión.
</p>
</details>
- *El modelo de regresión con un predictor politómico*
En este ejercicio, analizaremos cómo varía la autoestima de los NNA en
función del año escolar cursado. La variable "año escolar" es una
variable politómica con múltiples categorías (de séptimo básico a
tercero medio) y se utilizará como predictor en un modelo de regresión
lineal. Para ello, 1. dado que "año escolar" es una variable con varias
categorías, primero debes crear variables dummy. Cada categoría del año
escolar se representará con una variable dummy que tomará el valor de 1
cuando el estudiante esté en ese año y 0 en caso contrario. Elige una
categoría como referencia en el modelo (por ejemplo, 7º básico) y usa
las demás categorías como variables dummy en la regresión.
| [Dummies por curso :]{.smallcaps}
```{r}
#| code-fold: true
data$dummiescurso2 <- ifelse(data$curso == 2, 1, 0)
data$dummiescurso3 <- ifelse(data$curso == 3, 1, 0)
data$dummiescurso4 <- ifelse(data$curso == 4, 1, 0)
data$dummiescurso5 <- ifelse(data$curso == 5, 1, 0)
```
2. Crea un modelo de regresión lineal donde la variable dependiente sea
el nivel de autoestima y las variables independientes sean las
dummies para cada año escolar (exceptuando la categoría de
referencia). Ejecuta el modelo y observa los coeficientes para cada
dummy. Cada coeficiente te indicará cuánto difiere el nivel de
autoestima en cada año escolar en relación con la categoría de
referencia.
| [Regresión con dummies :]{.smallcaps}
```{r}
#| code-fold: true
# Ajustar el modelo de regresión lineal
modelo_dummies <- lm(puntaje_autoestima ~ dummiescurso2 + dummiescurso3 + dummiescurso4 + dummiescurso5, data = data)
summary(modelo_dummies)
```
3. Para una comparación visual de los niveles de autoestima en cada año
escolar, usa un gráfico de barras o un boxplot que muestre las
medias de autoestima en cada grupo de año escolar.
| [Boxplots :]{.smallcaps}
```{r}
#| code-fold: true
boxplot(puntaje_autoestima ~ curso, data = data,
main = "Distribución de la Autoestima por Año Escolar",
xlab = "Año Escolar", ylab = "Puntaje de Autoestima")
```
4. Finalmente, interpreta los coeficientes de la regresión y determina
si el año escolar tiene un efecto significativo sobre la autoestima.
Examina el valor p de cada dummy para ver si hay diferencias
significativas entre la autoestima de los estudiantes en distintos
años escolares
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> El análisis muestra que los estudiantes
en curso 3 tienen una autoestima significativamente más baja que los del
curso 1, mientras que los estudiantes en curso 4 y curso 5 tienen una
autoestima significativamente más alta. Sin embargo, no hay diferencias
significativas entre los estudiantes del curso 2 y el curso 1. En
general, el año escolar tiene un efecto significativo sobre los niveles
de autoestima.</p>
</details>
### Clase 12
#### Regresión múltiple
- *Dos variables dicotómicas (e interacción)*
Ahora analizaremos cómo el sexo y la victimización digital interactúan
para influir en los niveles de depresión. Para ello,
1. dicotomiza las variables de sexo y victimización digital: codifica
como 1 para mujeres y 0 para hombres, y codifica como 1 para
víctimas de violencia digital y 0 para no víctimas.
| [Dicotomizar variables :]{.smallcaps}
```{r}
#| code-fold: true
data$sexo[data$sexo == 2] <- 0
data$F_una_en_vida[data$F_una_en_vida == 2] <- 0
```
2. Crea una variable de interacción entre el sexo y la victimización
digital.
| [Interacción :]{.smallcaps}
```{r}
#| code-fold: true
data$interaccion <- data$F_una_en_vida * data$sexo
```
3. Ajusta un modelo de regresión múltiple para predecir los niveles de
depresión a partir del sexo, la victimización digital, y la
interacción.
| [Modelo de regresión :]{.smallcaps}
```{r}
#| code-fold: true
modelo_dico <- lm(data$puntaje_depresion ~ 1 + data$sexo + data$F_una_en_vida + data$interaccion)
summary(modelo_dico)
```
4. Finalmente, interpreta los resultados de la regresión múltiple: ¿El
sexo tiene un efecto significativo sobre los niveles de depresión?
¿La victimización digital tiene un efecto significativo sobre los
niveles de depresión?¿La interacción entre sexo y victimización
digital tiene un efecto significativo en la depresión?
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong> Los resultados muestran que tanto ser
mujer como haber experimentado victimización digital se asocian con un
aumento significativo en la variable dependiente. Específicamente, las
mujeres presentan puntajes más altos que los hombres, incluso en
ausencia de victimización. Además, la victimización se relaciona con un
incremento en los puntajes, siendo este efecto más pronunciado en las
mujeres, como lo indica la interacción positiva entre sexo y
victimización digital. Esto sugiere que el impacto de la victimización
es mayor en mujeres que en hombres.</p>
</details>
### Clase 13
#### Regresión múltiple II
- *Una variable cuantitativa y una dicotómica (e interacción)*
Analizaremos cómo los niveles de autoestima varían según el sexo
(masculino vs. femenino) y el curso escolar, considerando también si
existe interacción entre ambas variables. Queremos responder a las
preguntas:¿El sexo y el curso predicen significativamente los niveles de
autoestima? ¿Existe una interacción entre estos factores que modifique
ese efecto? Para ello,
1. Crea las variables:Usa la variable sexo como dicotómica (masculino =
1, femenino = 0) y la variable de curso escolar en su forma ordinal (1 = 7mo básico, 2 = 8vo básico, etc).
| [Creación de variables :]{.smallcaps}
```{r}
#| code-fold: true
# Las variables ya están codificadas de esa manera
table(data$sexo)
table(data$curso)
```
2. Crea un modelo de regresión múltiple en el que la variable
dependiente sea la cantidad de victimizaciones sufridas y las
variables independientes sean el año escolar y el sexo. Incluye una
interacción entre ambas variables para evaluar si la combinación de
año escolar y sexo afecta la cantidad de victimizaciones.
| [Ajustar regresión múltiple :]{.smallcaps}
```{r}
#| code-fold: true
Regresion_mult <- lm(victim_ano_cuenta ~ 1 + sexo + curso + sexo:curso, data = data )
summary(Regresion_mult)
```
3. Usa un gráfico de líneas o regresión que muestre cómo cambia la
autoestima según curso, diferenciando por sexo.
| [Gráfico regresión :]{.smallcaps}
```{r}
#| code-fold: true
data$sexo <- as.factor(data$sexo)
data$curso <- as.factor(data$curso)
# Agrega la predicción del modelo a tu base original
data$predicho <- predict(Regresion_mult)
library(ggplot2)
ggplot(data, aes(x = curso, y = predicho, color = sexo, group = sexo)) +
geom_point() +
geom_line(stat = "summary", fun = mean) +
labs(
title = "Victimización anual predicha según curso y sexo",
x = "Curso",
y = "Victimización (modelo ajustado)",
color = "Sexo"
)
```
4. Interpreta los resultados: ¿Cómo afectan el año escolar y el sexo la
cantidad total de victimizaciones? ¿Es significativo el coeficiente
de interacción?
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
El modelo muestra que el sexo tiene un efecto significativo en la cantidad total de victimizaciones: las mujeres (sexo = 1) reportan en promedio 0.55 victimizaciones menos que los hombres (p < 0.001). En relación con el curso, solo Primero Medio (curso 3) presenta una diferencia significativa respecto de Séptimo Básico (curso 1), con un aumento promedio de 0.73 victimizaciones (p = 0.00395). Los otros cursos (Octavo, Segundo y Tercero Medio) no difieren significativamente de Séptimo Básico. Además, ninguna interacción entre sexo y curso es significativa, lo que indica que la diferencia entre hombres y mujeres en victimización se mantiene relativamente constante en todos los niveles escolares. En resumen, las mujeres reportan menos victimización en general, y el mayor aumento se observa al pasar de Séptimo Básico a Primero Medio.
</p>
</details>
### Clase 14
#### Medidas de asociación de dos variables categóricas
- *Chi-cuadrado*
Por último, vamos a investigar si existe una relación significativa
entre el sexo (hombres y mujeres) y el riesgo de depresión en niños y
adolescentes, categorizado en dos niveles (alto y bajo) según la escala
de Birleson. Para ello,
1. clasifica el nivel de depresión en dos categorías: "Alto" si la
puntuación de depresión en la escala de Birleson es 19 o más, y
"Bajo" si es menor a 19.
| [Recodificación Depresión:]{.smallcaps}
```{r}
#| code-fold: true
#Recordar que la variable sexo fue recodificada para 0 = HOmbre y 1 = Mujer
# Creamos una nueva variable como factor vacía para guardar los valores recodificados
data$Dep_Niveles2 <- factor(NA, levels = c("Alto", "Bajo"))
# Asignamos los valores recodificados
data$Dep_Niveles2[data$puntaje_depresion < 19] <- "Bajo"
data$Dep_Niveles2[data$puntaje_depresion >= 19] <- "Alto"
```
2. Crea una tabla de frecuencia cruzada que muestre el número de
individuos en cada combinación de sexo y riesgo de depresión (alto y
bajo).
| [Tabla de frecuencia :]{.smallcaps}
```{r}
#| code-fold: true
# Creamos una tabla de frecuencia para sexo y riesgo de depresión
tabla_chi <- table(data$sexo, data$Dep_Niveles2)
```
3. Realiza una prueba de chi-cuadrado sobre la tabla de frecuencia
cruzada para determinar si existe una asociación significativa entre
el sexo y el riesgo de depresión.
| [Prueba Chi-cuadrado :]{.smallcaps}
```{r}
#| code-fold: true
# Ahora ejecutamos la prueba Chi-cuadrado sobre la tabla de frecuencia
chisq.test(tabla_chi)
```
4. Crea un gráfico de barras que compare la frecuencia de riesgo de
depresión (alto y bajo) entre hombres y mujeres.
| [Barplot :]{.smallcaps}
```{r}
#| code-fold: true
#Creamos barplot para la comparación
barplot(tabla_chi,
beside = TRUE, # Para que las barras estén lado a lado
col = c("blue", "red"), # Colores para hombres y mujeres
legend = TRUE,
main = "Riesgo de depresión por sexo",
xlab = "Riesgo de depresión",
ylab = "Frecuencia")
```
5. Interpreta los resultados: ¿El valor p obtenido en la prueba de
chi-cuadrado es menor a 0.05? Si es así, ¿qué nos sugiere esto sobre
la relación entre el sexo y el riesgo de depresión? ¿Qué observas en
la comparación de frecuencias de riesgo de depresión entre hombres y
mujeres en el gráfico de barras? ¿Hay diferencias notables?
<details>
<summary>Haz clic aquí para expandir</summary>
<p>
<strong>Respuesta:</strong>
El resultado de la prueba chi-cuadrado (p \< 0.05) sugiere que hay
evidencia suficiente para rechazar la hipótesis de que no hay relación
entre el sexo y el riesgo de depresión. A la luz de las observaciones,
no podemos afirmar que las diferencias observadas se deban al azar. La
distribución de personas sugiere que los hombres tienen menos
probabilidades que las mujeres de tener alto riesgo de depresión, y más
probabilidades de tener un nivel bajo en comparación con mujeres,
quienes tienen menos probabilidad.
</p>
</details>
## **Referencias**
Birleson, P. (1981). The Validity of Depressive Disorder in Childhood
and the Development of a Self‐Rating Scale: a Research Report. Journal
of Child Psychology and Psychiatry, 22(1), 73--88.
https://doi.org/10.1111/j.1469-7610.1981.tb00533.x
Birleson, P., Hudson, I., Buchanan, D. G., & Wolff, S. (1987). Clinical
Evaluation of a Self‐Rating Scale for Depressive Disorder in Childhood
(Depression Self‐Rating Scale). Journal of Child Psychology and
Psychiatry, 28(1), 43--60.
https://doi.org/10.1111/j.1469-7610.1987.tb00651.x
Finkelhor, D., Hamby, S. L., Ormrod, R., & Turner, H. (2005). The
Juvenile Victimization Questionnaire: Reliability, validity, and
national norms. Child Abuse and Neglect, 29(4), 383--412.
https://doi.org/10.1016/j.chiabu.2004.11.001
MINSAL. (2013). Guía Clínica para el tratamiento de adolescentes de 10 a
14 años con Depresión.
https://www.guiadisc.com/wp-content/pdfs/guia-clinica-tratamiento-depresion-adolescentes.pdf
Rosenberg, M. (1965). Society and the adolescent self-image. In Society
and the Adolescent Self-Image. Princeton University Press.