---
title: "Caso Redes y Depresión"
format:
html:
code-fold: true
code-overflow: wrap
toc: true #table of contents
code-tools: true
autores: Alén Amigo, Izhan Maureira, Isidora Naranjo López, Diego Carrasco y David Torres
execute:
warning: false
---
```{r, include=FALSE}
hooks = knitr::knit_hooks$get()
hook_foldable = function(type) {
force(type)
function(x, options) {
res = hooks[[type]](x, options)
if (isFALSE(options[[paste0("fold.", type)]])) return(res)
paste0(
"<details><summary>", type, "</summary>\n\n",
res,
"\n\n</details>"
)
}
}
knitr::knit_hooks$set(
output = hook_foldable("output"),
plot = hook_foldable("plot")
)
```
# Social Media and Depression Symptoms
## Presentación del caso
La investigación "Redes sociales y síntomas de depresión: Una perspectiva de red" (en inglés, *Social Media and Depression Symptoms: A Network Perspective*) examina el impacto del uso pasivo de redes sociales (PSMU, por sus siglas en inglés) en los síntomas de depresión entre estudiantes universitarios. El PSMU refiere a la práctica de desplazarse sin interactuar activamente con el contenido, como ver publicaciones o fotos de las personas que sigues. Este tipo de uso ha sido asociado con efectos adversos en la salud mental, incluyendo un aumento en los niveles de soledad y síntomas de depresión (Verduyn et al., 2015; Frison & Eggermont, 2016). El objetivo de este estudio fue esclarecer la relación bidireccional entre el PSMU y los síntomas de depresión, así como el estrés, mediante un enfoque de red (*network perspective*). Esta perspectiva de la psicopatología sugiere que los síntomas de depresión no son meras consecuencias de un trastorno, sino que forman un sistema complejo y dinámico en el que los síntomas se influyen mutuamente (Borsboom, 2017). De este modo, el PSMU podría considerarse un factor de riesgo para la depresión si provoca síntomas individuales (como un estado de ánimo deprimido) o condiciones (como el estrés) que desencadenan otros síntomas depresivos (Fried et al., 2015).
Se reclutaron 132 estudiantes de psicología (91 mujeres, 41 hombres) a través de una plataforma en línea, de los cuales 125 completaron el seguimiento. Los participantes informaron sobre su uso pasivo de redes sociales (PSMU), síntomas de depresión y niveles de estrés siete veces al día durante 14 días utilizando el método de muestreo intensivo en el tiempo (ESM, por sus siglas en inglés), que permite capturar experiencias en tiempo real y reducir sesgos de memoria. Se diseñó un cuestionario de 12 ítems que evaluaba el estado de ánimo, la pérdida de interés, la fatiga, la soledad y el estrés, utilizando una escala analógica visual (0 = nada; 100 = mucho) para obtener respuestas matizadas. Las mediciones se separaron por intervalos breves (aproximadamente 2 horas) y se utilizó la aplicación RealLife Exp de LifeData Company para recopilar los datos. Este procedimiento fue aprobado por la Junta de Revisión Institucional de la Universidad de Ámsterdam.
Este estudio plantea preguntas significativas sobre el efecto del uso de redes sociales en la salud mental de los jóvenes. Entre las interrogantes que podrían explorarse se incluyen: ¿Cuál es la relación entre el PSMU y los síntomas de depresión? ¿Cómo influye el PSMU en la sensación de soledad? ¿Existen diferencias significativas en los síntomas de depresión entre quienes practican el PSMU y aquellos que utilizan redes sociales de manera activa? ¿Cómo afectan el estrés y la fatiga al PSMU y a los síntomas depresivos? Los autores señalan que responder estas preguntas no solo contribuye a una comprensión más profunda de las dinámicas entre el uso de redes sociales y la salud mental, sino que también puede guiar el desarrollo de intervenciones y políticas destinadas a mejorar el bienestar emocional de los estudiantes.
## Presentación de los datos
En esta guía se plantean una serie de actividades junto con sus resoluciones haciendo uso de los datos recolectados en el estudio. La base de datos que será utilizada en el caso no posee la información recoletada en bruto durante los 14 días, sino que corresponde a la información agregada por cada persona en los distintos elementos evaluados.
La descripción de las variables de la base de datos se encuentra en la siguiente tabla. La primera variable corresponde a un identiifcador por participantes, las siguientes ocho corresponden a los elemantos evaluados por el cuestionario que fue aplicado y las últimas dos al tipo de uso de redes sociales. La base de datos contiene un total de 125 observaciones y 12 variables.
| | | |
|------------------|-------------------------------|-----------------------|
| **Variable** | **Descripción de la variable** | **Tipo de variable** |
| Participant | Identificador del participante | Nominal |
| mean_Fatigue | Promedio de fatiga | Numérica |
| mean_DeprMood | Promedio de estado de ánimo deprimido | Numérica |
| mean_Loneliness | Promedio de soledad | Numérica |
| mean_Concentrat | Promedio de problema de concentración | Numérica |
| mean_LossOfInt | Promedio de pérdida de interés | Numérica |
| mean_Inferior | Promedio de sentimiento de inferioridad | Numérica |
| mean_Hopeless | Promedio de sentimiento de desesperanza | Numérica |
| mean_Stress | Promedio de estrés | Numérica |
| mean_PSMU | Promedio de uso pasivo de redes sociales | Numérica |
| mean_ASMU | Promedio de uso activo de redes sociales | Numérica |
## Actividades
Para iniciar le resolución de actividades de este caso de estudio, activamos las librería que serán utilizadas y cargamos la base de datos.
```{r}
#| code-fold: true
library(readr)
library(psych)
library(rockchalk)
library(lme4)
data <- read_csv("data/data_redes_depresion_promedio.csv")[2:12]
```
### Clase 1
#### Modelo de datos
- *Tendencia central y variabilidad*
En este estudio, los participantes reportaron varias veces al día variables como el estado de ánimo deprimido, estrés, soledad y fatiga, junto con el uso pasivo de redes sociales (PSMU). La base de datos contiene la media de cada persona en cada variable. A continuación, debes calcular la media y desviación estándar de estas variables para el total de la muestra.
| [Resolución haciendo uso de la función 'summary':]{.smallcaps}
```{r}
#| code-fold: true
# Para obtener la media de las variables de interés se puede utilizar la función 'summary', indicando el uso de las columnas 2 a 11.
# Se excluye la columna 1 porque corresponde al identificador de cada participante.
summary(data[2:11])
```
| [Resolución haciendo uso de la función 'mean':]{.smallcaps}
```{r}
#| code-fold: true
# También es posible hacer uso de la función 'mean' para obtener la media de cada variable.
# Utilizamos la función 'sapply' que permite aplicar una función a un conjunto de columas de la base de datos.
sapply(data[2:11], mean)
```
| [Resolución haciendo uso de la función 'sd':]{.smallcaps}
```{r}
#| code-fold: true
# Para obtener la desviación estándar se utilizará la función 'sd'.
# Utilizamos la función 'sapply' que permite aplicar una función a un conjunto de columas de la base de datos.
sapply(data[2:11], sd)
```
Finalmente, responde ¿Qué nos dicen estos estadígrafos acerca de las variables de interés?
*Respuesta:*
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
Se observa que la muestra posee unas medias y desviación estandar de (respectivamente):
1. Fatigue: 37.07 y 17.37
2. Inferior: 10.36 y 10.53
3. Depr_mood: 13.02 y 11.23
4. Hopeless: 11.85 y 10.89
5. Loneliness: 11.90 y 11.07
6. Stress: 20.56 y 14.53
7. Concentrat: 26.56 y 14.38
8. PSMU: 31.27 y 14.08
9. LossOfInt: 25.18 y 14.71
10. ASMU: 21.27 y 15.39
</p>
</details>
- *Modelo nulo y residuos*
Con la información de la base de datos podemos predecir los puntajes que obtendrá un sujeto en cada una de las variables en función de la media a nivel muestral, esto es lo que llamamos modelo nulo. A continuación, formularemos un modelo nulo para la variable fatiga. Luego, visualizaremos los residuos en un histograma para evaluar la magnitud de las desviaciones de los puntajes observados respecto a la media predicha.
| [Formulación de modelo nulo:]{.smallcaps}
```{r}
#| code-fold: true
# Modelo nulo de fatiga
Fatigue1 <- lm(data$mean_Fatigue ~ 1)
# Resumen del modelo de fatiga
summary(Fatigue1)
```
| [Histograma de residuos:]{.smallcaps}
```{r}
#| code-fold: true
# Histograma de residuos de fatiga
hist(Fatigue1$residuals,
xlab = "Residuos",
ylab = "Frecuencia",
main = "Histograma de residuos de fatiga")
```
### Clase 2
#### Modelo de regresión
- *Regresión simple y sus parámetros*
Para complejizar el modelo anterior, podemos asumir una de las variables como predictora de otra. En este ejercicio, formularemos un modelo de regresión simple para explorar la relación entre los niveles de fatiga (variable respuesta) y PSMU (variable predictora), es decir, cómo cambian los puntajes de soledad en la medida que aumenta o decrece el PSMU. Posteriormente, obtendremos los resultados del modelo e interpretaremos los parámetros (pendiente e intersección).
| [Resultados de modelo de regresión simple:]{.smallcaps}
```{r}
#| code-fold: true
summary(lm(data$mean_Fatigue ~ 1 + data$mean_PSMU))
```
¿Cómo se relaciona el PSMU con los niveles de fatiga?
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
Intercepto: 30.9455
Pendiente (coeficiente de mean_PSMU): 0.1959
Esto significa que por cada unidad que aumenta el PSMU, la fatiga promedio aumenta en 0.1959 unidades.
</p>
</details>
#### Caracterizando y comparando distribuciones
- *Tendencia central, variabilidad y asimetría*
Para conocer cómo se distribuyen los puntajes de fatiga según el nivel de exposición al PSMU, vamos a dividir a los participantes en tres grupos:
- **Bajo uso:** participantes con puntajes hasta el primer tercil de PSMU.
- **Medio uso:** participantes con puntajes hasta el segundo tercil de PSMU.
- **Alto uso:** participantes con puntajes por sobre el segundo tercil de PSMU.
| [Cálculo de terciles:]{.smallcaps}
```{r}
#| code-fold: true
# Si queremos ver terciles dividimos la distribución en 3 partes iguales, indicando dos puntos de corte.
# Se guarda el valor del primer tercil.
primer_tercil <- quantile(data$mean_PSMU
, probs = c(.33), na.rm = TRUE)
# Se guarda el valor del segundo tercil.
segundo_tercil <- quantile(data$mean_PSMU
, probs = c(.66), na.rm = TRUE)
```
| [Recodificación de PSMU:]{.smallcaps}
```{r}
#| code-fold: true
# Creamos una nueva variable como factor vacía para guardar los valores recodificados
data$PSMU_Niveles <- factor(NA, levels = c("Bajo uso", "Medio uso", "Alto uso"))
# Asignamos los valores recodificados
data$PSMU_Niveles[data$mean_PSMU <= primer_tercil] <- "Bajo uso"
data$PSMU_Niveles[data$mean_PSMU > primer_tercil & data$mean_PSMU <= segundo_tercil] <- "Medio uso"
data$PSMU_Niveles[data$mean_PSMU > segundo_tercil] <- "Alto uso"
```
A continuación, calcula las medidas de tendencia central (media y mediana), variabilidad (desviación estándar y rango) y asimetría para cada uno de los grupos respecto a los puntajes de fatiga.
| [Descriptivos por grupo:]{.smallcaps}
```{r}
#| code-fold: true
# Se utiliza la función 'describeBy' para obtener los descriptivos según grupo.
describeBy(data$mean_Fatigue, group=data$PSMU_Niveles)
```
Visualiza las distribuciones de cada grupo utilizando histogramas o boxplots para identificar posibles diferencias.
| [Boxplot:]{.smallcaps}
```{r}
#| code-fold: true
# Se genera un gráfico que permite comprar las tres distribuciones de datos mediante boxplots
boxplot(data$mean_Fatigue ~ data$PSMU_Niveles,
ylab = "Fatiga",
xlab = "Niveles de PSMU")
```
Finalmente, compara los resultados entre los tres grupos y reporta las diferencias o similitudes que encuentres en la distribución de puntajes de fatiga según la exposición al PSMU.
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
El gráfico muestra la distribución de los puntajes de fatiga según tres niveles de uso problemático de redes sociales (PSMU): bajo, medio y alto. En general, los tres grupos presentan rangos amplios y similares de fatiga, sin valores atípicos evidentes. Sin embargo, se observan diferencias importantes. Primero, la mediana de fatiga es notablemente más baja en el grupo de bajo uso (~30), mientras que en los grupos de uso medio y alto es mayor (~40 y ~38 respectivamente), lo que sugiere una tendencia creciente en los niveles de fatiga a medida que aumenta el PSMU. Segundo, el grupo de uso medio muestra la mayor variabilidad interna, con un rango intercuartílico más amplio, indicando mayor heterogeneidad en la experiencia de fatiga. Tercero, el grupo de bajo uso presenta tanto los niveles más bajos de fatiga como la menor dispersión, lo que podría reflejar una relación negativa entre el uso problemático de redes sociales y el bienestar percibido. En conjunto, los resultados sugieren que a mayor nivel de PSMU, tiende a aumentar la fatiga, aunque la diferencia entre los grupos de uso medio y alto es menor que respecto al grupo de bajo uso.
</p>
</details>
### Clase 3
#### Comparación de modelos
- *Modelo base vs modelo de regresión y R2 como indicador de comparación de ajuste*
Vuelve sobre dos de los modelos que creaste en ejercicios anteriores: aquel que predice el nivel de fatiga a partir del promedio de la muestra (modelo nulo o base) y aquel que introduce como variable predictora el PSMU (modelo de regresión). Queremos saber cuánto mejora el ajuste del modelo al incluir el efecto de esta última variable. Para ello, calcula el R² de ambos modelos e interpreta qué proporción de la variabilidad en los puntajes de fatiga explica el uso pasivo de redes sociales.
| [Modelo base:]{.smallcaps}
```{r}
#| code-fold: true
# Calculamos la suma la cuadrados totales
SST = sum(resid(lm(data$mean_Fatigue ~ 1))^2)
```
| [Modelo ampliado:]{.smallcaps}
```{r}
#| code-fold: true
# Calculamos la suma la cuadrados del modelo ampliado
SSEA = sum(resid(lm(data$mean_Fatigue ~ 1 + data$mean_PSMU))^2)
```
| [Comparación de ajuste:]{.smallcaps}
```{r}
#| code-fold: true
# Calculamos la reducción en la suma la cuadrados
SSR = SST - SSEA
# Calculamos la reducción proporcional del error
R_cuadrado = (SST - SSEA)/SST
# Vemos que este equivale al Multiple R-squared en el resumen que nos brinda R en el modelo apliado.
# En este caso vemos que el error cambia un 2.5% entre los dos modelos.
R_cuadrado
```
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
El SST es 37432.9171872
El SSR es 942.565531261469
El SSEA es 36490.3516559385
El R2 es 0.025, lo cual significa que explica un 2,5% más el modelo ampliado que el base.
</p>
</details>
#### La distribución normal
- *Puntaje Z*
A continuación, utilizaremos la distribución de los puntajes de estado de ánimo depresivo para calcular puntajes z y, con ello, interpretar la posición de cada individuo en relación con la media de la muestra. Este análisis nos permitirá determinar cómo se distribuyen los puntajes de estado de ánimo depresivo en la muestra, y observar cuántos participantes presentan niveles superiores o inferiores al promedio. Para ello,
1. Con base en la media y desviación estándar del estado de ánimo depresivo, calcula el puntaje z de cada participante en esta variable.
| [Calcular puntaje Z:]{.smallcaps}
```{r}
#| code-fold: true
# Usamos la función 'scale' que automáticamente estandariza los valores
Puntajes_Z <- scale(data$mean_DeprMood)
```
2. Identifica cuántos participantes se encuentran por encima de 1 y 2 desviaciones estándar de la media, interpretando así los niveles de estado de ánimo depresivo altos en la muestra.
| [Número de participantes según desviaciones estándar:]{.smallcaps}
```{r}
#| code-fold: true
# Usamos la función 'sum' para identificar el número de participantes por sobre 1 desviación estándar.
sum(Puntajes_Z > 1)
# Usamos la función 'sum' para identificar el número de participantes por sobre 2 desviación estándar.
sum(Puntajes_Z > 2)
```
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
22 personas se encuentran sobre 1 desviación estándar y 3 personas se encuentran por sobre 2 desviaciones estándar.
</p>
</details>
- *Simulación de datos y muestras de una distribución normal*
En esta ocasión, simularemos datos para explorar cómo podrían distribuirse los puntajes de estrés de este estudio en una muestra más amplia y evaluaremos si estos resultados simulados reflejan patrones similares a los observados en los datos originales. Para ello,
1. Usa las medias y desviaciones estándar obtenidas previamente para simular dos nuevas muestras de puntajes de estrés, asumiendo una distribución normal en ambas. Genera 1000 datos simulados para cada muestra.
| [Creación de muestras:]{.smallcaps}
```{r}
#| code-fold: true
muestra01 <- rnorm(1000, mean = 20.56, sd = 14.53)
muestra02 <- rnorm(1000, mean = 20.56, sd = 14.53)
```
2. Visualiza las distribuciones simuladas de las dos muestras con histogramas y superpón curvas de densidad para comparar las distribuciones.
| [Comparación con histogramas:]{.smallcaps}
```{r}
#| code-fold: true
# Uso mfrow para crear un lienzo con 1 fila y 2 columnas
par(mfrow=c(1,2))
# Histograma de primera muestra
hist(muestra01, xlim = c(-30,70),
xlab = "Puntajes",
ylab = "Frecuencia")
# Histograma de segunda muestra
hist(muestra02, xlim = c(-30,70),
xlab = "Puntajes",
ylab = "Frecuencia")
```
| [Superposición de curvas de densidad:]{.smallcaps}
```{r}
#| code-fold: true
# Hay que correr ambos códigos al mismo tiempo o el gráfico completo no se mostrará. Selecciona todo y correlo junto.
# Se grafica la curva de densidad de la muestra 1.
plot(density(muestra01),
main = "Gráfico de densidad",
xlab = "Puntajes",
ylab = "Densidad",
col = "blue",
ylim = c(0, 0.03))
# Se añade al mismo gráfico la curva de densidad de la muestra 2
lines(density(muestra02), col = "red")
```
3. Extrae una muestra aleatoria de 100 datos de cada una de las distribuciones simuladas y calcula sus estadísticos descriptivos (media, desviación estándar, quintiles).
| [Creación de submuestras aletorias:]{.smallcaps}
```{r}
#| code-fold: true
# Utilizamos la función 'sample' para extraer submuestras
submuestra01 <- sample(muestra01, size=100)
submuestra02 <- sample(muestra02, size=100)
```
| [Descriptivos submuestra 1:]{.smallcaps}
```{r}
#| code-fold: true
# Utilizamos la función 'summary' para obtener información de los quintiles
summary(submuestra01)
# Utilizamos la función 'describe' para completar el resto de descriptivos
describe(submuestra01)
```
| [Descriptivos submuestra 2:]{.smallcaps}
```{r}
#| code-fold: true
# Utilizamos la función 'summary' para obtener información de los quintiles
summary(submuestra02)
# Utilizamos la función 'describe' para completar el resto de descriptivos
describe(submuestra02)
```
¿Qué diferencias se observan en las distribuciones simuladas de los puntajes de estrés? ¿Qué implicaciones podrían tener estas diferencias para la comprensión del impacto del uso de redes sociales en los síntomas depresivos y posibles intervenciones?
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
Al comparar las distribuciones simuladas de los puntajes de estrés, se observa que la submuestra 01 presenta una media de 23.45, mientras que la submuestra 02 tiene una media menor de 18.04, lo que indica una diferencia de 5.41 puntos. La mediana también es mayor en la submuestra 01 (24.64) frente a 18.08 en la submuestra 02, lo que confirma un desplazamiento de toda la distribución hacia valores más altos en la primera. Ambas submuestras muestran una dispersión similar: la desviación estándar en la submuestra 01 es 14.33 y en la submuestra 02 es 13.27, mientras que la mad (desviación absoluta mediana) es 13.62 y 13.42 respectivamente. Los valores mínimos y máximos también son comparables: la submuestra 01 va de -19.43 a 54.03, y la submuestra 02 de -21.35 a 52.17. En conjunto, los datos muestran que la submuestra 01 tiene una distribución más desplazada hacia el estrés elevado, aunque con una variabilidad similar. Estas diferencias podrían reflejar condiciones o factores que aumentan el estrés en una de las poblaciones simuladas, lo que sería relevante al evaluar los efectos de distintas exposiciones o contexto
</p>
</details>
### Clase 4
#### Modelo de regresión y correlación
- *Interpretando la pendiente y su estandarización y Correlación de Pearson*
Retomando el análisis de regresión simple, exploraremos la relación entre los niveles de soledad y el PSMU, pero esta vez usando la soledad como variable predictora y el PSMU como variable respuesta. Utilizaremos tres estimados estadísticos clave: beta no estandarizado, beta estandarizado, y correlación de Pearson.
El primero indica cuánto cambia el PSMU por cada unidad adicional en el puntaje de soledad. Para obtener este valor, ajusta el modelo de regresión con las modificaciones correspondientes. Ejecuta el modelo de regresión y revisa la salida del modelo, donde el coeficiente del nivel de soledad será el valor de beta no estandarizado.
| [Modelo de regresión:]{.smallcaps}
```{r}
#| code-fold: true
summary(lm(data$mean_PSMU ~ 1 + data$mean_Loneliness))
```
El segundo, el beta estandarizado, permite medir la relación en términos de desviaciones estándar, lo cual facilita la comparación de la magnitud del efecto. Para obtener este valor, estandariza tanto los puntajes de soledad como el puntaje de PSMU para que ambas variables tengan una media de 0 y una desviación estándar de 1. Luego, ajusta nuevamente el modelo de regresión con estas variables estandarizadas.
| [Modelo de regresión estandarizado:]{.smallcaps}
```{r}
#| code-fold: true
summary(lm(scale(data$mean_PSMU) ~ 1 + scale(data$mean_Loneliness)))
```
El tercero, la correlación de Pearson, te permitirá conocer la dirección y el tamaño de la relación entre la soledad y el PSMU en términos de asociación lineal. Calcula la correlación de Pearson entre ambas variables estandarizadas.
| [Correlación:]{.smallcaps}
```{r}
#| code-fold: true
cor.test(data$mean_PSMU, data$mean_Loneliness, use=pairwise.complete.obs)
```
Finalmente, compara los tres estimados (beta no estandarizado, beta estandarizado, y correlación de Pearson) para analizar si son consistentes en cuanto a la dirección de la relación. ¿Qué diferencias observas entre ellos? Discute en qué situaciones cada uno de estos estimados es útil y qué información adicional proporciona el beta no estandarizado en comparación con la correlación de Pearson.
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
Los tres estimados —beta no estandarizado, beta estandarizado y correlación de Pearson— son consistentes en cuanto a la dirección positiva y significancia de la relación entre soledad y uso problemático de redes sociales (PSMU), con p < 0.001 en todos los casos. El modelo con variables originales muestra un beta no estandarizado de 0.3765, un intercepto de 26.7866, y un R² de 0.08764, lo que indica que la soledad explica cerca del 8.8% de la varianza en PSMU. Al estandarizar, el beta estandarizado es 0.296, mismo valor que la correlación de Pearson (r = 0.296), ya que en regresión simple ambos coinciden.
El beta no estandarizado es útil para interpretar efectos en unidades reales; el estandarizado permite comparar la magnitud del efecto con otras variables; y la correlación de Pearson muestra la fuerza de la asociación sin asumir causalidad. En conjunto, ofrecen una visión clara y complementaria de la relación entre las variables.
</p>
</details>
### Clase 5
#### Distribuciones de datos y distribuciones de probabilidad
- *Simulando distribuciones de datos (Normal, uniforme, t, F)*
En este ejercicio, usarás los valores de estado de estrés reportados en el estudio. Simularás distribuciones de 1000 valores para cada uno de los siguientes tipos de distribuciones. Genera gráficos de densidad o histogramas para cada distribución simulada y compáralos con la distribución real de los puntajes de estrés.
1. Distribución Normal: Usa la media y desviación estándar reales de los puntajes de estrés.
```{r}
#| code-fold: true
# Sabemos que la media de la variable estrés es 20.56 y la desviación estándar es 14.53
dist_normal <- rnorm(1000, mean = 20.56, sd = 14.53)
# Histograma de la distribución normal
hist(dist_normal,
xlab = "Puntajes",
ylab = "Frecuencia",
main = "Distribución normal")
```
2. Distribución Uniforme: Usa el mínimo y máximo de los valores reales de los puntajes de estrés.
```{r}
#| code-fold: true
# Sabemos que el valor mínimo de la variable estrés es 0.18 y el valor máximo es 61.48
# Para generar una distribución uniforme señalamos este intervalo en la función 'rep'
# Se utiliza 'each=16' para aproximarnos a los 1000 casos esperados
dist_uniforme <- rep(0.18:61.48, each=16)
# Luego, graficamos la distribución con un gráfico de barras
barplot(prop.table(table(dist_uniforme)),
main = "Distribución uniforme")
```
3. Distribución t de Student: Calcula los grados de libertad como GL=𝑛−1, donde 𝑛 es el tamaño de la muestra.
```{r}
#| code-fold: true
# Sabemos que el tamaño de la muestra es igual a 125, por lo que los grados de libertad equivalen a 124
# Para generar una distribución t utilizamos la función 'rt'
# Se especifica el número de la valores de la distribución y los grados de libertad
dist_t <- rt(1000, df = 124)
# Histograma de la distribución t
hist(dist_t,
xlab = "Puntajes",
ylab = "Frecuencia",
main = "Distribución t")
```
4. Distribución F: Asumela presencia de dos grupos para el cálculo de los grados de libertad
```{r}
#| code-fold: true
# df1 es el número de grupos menos 1 (𝑘−1)
# df2 es el total de observaciones menos el número de grupos (𝑁−𝑘)
# df1 = 2-1 = 1
# df2 = 125-2 = 123
# Para generar una distribución t utilizamos la función 'rf'
# Se especifica el número de la valores de la distribución y los grados de libertad
dist_f <- rf(n = 1000, df1 = 1, df2 = 123)
# Histograma de la distribución t
hist(dist_f,
xlab = "Puntajes",
ylab = "Frecuencia",
main = "Distribución F")
```
| [Distribución real:]{.smallcaps}
```{r}
#| code-fold: true
# Histograma de la distribución real de los datos
hist(data$mean_Stress,
xlab = "Puntajes",
ylab = "Frecuencia",
main = "Distribución real")
```
¿Qué diferencias observas entre las distribuciones simuladas y la distribución real de los datos? ¿Cómo cambia la forma entre las distribuciones?
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
Al comparar las distribuciones simuladas con la distribución real, se observa que la distribución normal, simétrica y con un rango de -20 a 80, tiene una dispersión mayor que la real y no captura su asimetría, ya que esta última tiene una cola larga hacia la derecha (de 0 a 70); la distribución t, también simétrica pero con colas más pesadas y un rango de -3 a 4, no se alinea con la escala ni la forma asimétrica de la real; mientras que la distribución F, asimétrica y sesgada hacia valores bajos (0 a 15), se asemeja más a la real en su forma (cola larga a la derecha), aunque difiere en escala y concentración de datos, ya que la real tiene un pico más amplio entre 0 y 30; así, la forma cambia principalmente en la simetría y las colas, siendo la F la más cercana a la real, pero ninguna logra replicar exactamente su dispersión y escala.
</p>
</details>
- *Expresando en probabilidades un resultado en una distribución de datos*
Usando la primera distribución simulada (distribución normal con media y desviación estándar reales de los síntomas de estrés), calcula la probabilidad de que un participante tenga un nivel de estrés superior a al tercer quartil. Compara este resultado con los datos reales.
| [Distribución simulada:]{.smallcaps}
```{r}
#| code-fold: true
# Se guarda el valor del tercer quartil
Q3_simulada <- quantile(dist_normal
, probs = c(.75), na.rm = TRUE)
# Calcular la probabilidad de que un participante tenga estrés superior a Q3
probabilidad_simulada <- 1 - pnorm(Q3_simulada, mean = 20.56, sd = 14.53)
probabilidad_simulada
```
| [Distribución real:]{.smallcaps}
```{r}
#| code-fold: true
# Se guarda el valor del tercer quartil
Q3_real<- quantile(data$mean_Stress
, probs = c(.75), na.rm = TRUE)
# Calcular la probabilidad de que un participante tenga estrés superior a Q3
probabilidad_real <- sum(data$mean_Stress > Q3_real) / length(data$mean_Stress)
probabilidad_real
```
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
En la distribución simulada, basada en una normal con media 20.56 y desviación estándar 14.53, la probabilidad de que un participante presente un nivel de estrés superior al tercer cuartil fue de 22.9%. En cambio, en los datos reales, esta probabilidad fue de 24.8%, indicando una ligera mayor proporción de casos extremos en la muestra empírica. Esta diferencia sugiere que, aunque la distribución real se aproxima a una normal, presenta una leve asimetría o cola más pesada a la derecha, lo que podría reflejar la presencia de algunos individuos con niveles particularmente altos de estrés.
</p>
</details>
- Distribuciones de probabilidad
Ahora, queremos comparar los puntajes de estrés entre dos grupos de participantes, uno con alto uso pasivo de redes sociales y otro con bajo uso, utilizando las distribuciones de probabilidad t de Student y F. Para ello, genera dos grupos según el uso pasivo de redes sociales (alto y bajo), y calcula la media y varianza para cada grupo. Luego, aplica una prueba t para comparar las medias de los dos grupos y una prueba ANOVA para comparar las varianzas entre los grupos. ¿Existen diferencias significativas entre las medias y varianzas de los puntajes de estrés para los grupos con alto y bajo uso de redes sociales?
| [Creación de cada grupo:]{.smallcaps}
```{r}
#| code-fold: true
# Utilizamos la clasificación realizada anteriormente, almacenada en la variable 'PSMU_Niveles'
# Para crear los grupos filtramos la filas de la base de datos según su información en la variable 'PSMU_Niveles'
bajo_PSMU <- data[data$PSMU_Niveles=="Bajo uso",]
alto_PSMU <- data[data$PSMU_Niveles=="Alto uso",]
```
| [Media y varianza de estrés del grupo de bajo uso:]{.smallcaps}
```{r}
#| code-fold: true
mean(bajo_PSMU$mean_Stress)
var(bajo_PSMU$mean_Stress)
```
| [Media y varianza de estrés del grupo de alto uso:]{.smallcaps}
```{r}
#| code-fold: true
mean(alto_PSMU$mean_Stress)
var(alto_PSMU$mean_Stress)
```
| [Prueba t:]{.smallcaps}
```{r}
#| code-fold: true
t.test(bajo_PSMU$mean_Stress, alto_PSMU$mean_Stress)
```
| [Prueba ANOVA:]{.smallcaps}
```{r}
#| code-fold: true
# Se crea un data frame combinado
data_anova <- data.frame(
mean_Stress = c(bajo_PSMU$mean_Stress, alto_PSMU$mean_Stress),
grupo = rep(c("bajo", "alto"), times = c(length(bajo_PSMU$mean_Stress), length(alto_PSMU$mean_Stress)))
)
# Se realiza el ANOVA haciendo uso del data frame antes creado
anova1 <- aov(mean_Stress ~ grupo, data = data_anova)
# Se obtiene un resumen de los resultados del ANOVA
summary(anova1)
```
¿Existen diferencias significativas entre las medias y varianzas de los puntajes de estrés para los grupos con alto y bajo uso de redes sociales?
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
Se observaron diferencias significativas en los puntajes de estrés entre los grupos de alto y bajo uso de redes sociales. El test t de Welch mostró que la media del grupo con bajo uso fue de 16.51, mientras que la del grupo con alto uso fue de 23.70, con un valor t = -2.297, gl ≈ 80.82 y un valor p = 0.02421, indicando una diferencia estadísticamente significativa entre ambos grupos. Además, el intervalo de confianza del 95% para la diferencia de medias fue [-13.42, -0.96], lo que confirma que el grupo de alto uso de redes sociales presenta, en promedio, un mayor nivel de estrés. Esta diferencia fue respaldada por el análisis de varianza (ANOVA), el cual arrojó un valor F = 5.279, con un valor p = 0.0242, evidenciando que el uso de redes sociales tiene un efecto significativo en la variabilidad de los puntajes de estrés. En conjunto, estos resultados sugieren que el alto uso de redes sociales se asocia con niveles más elevados de estrés percibido.
</p>
</details>
### Clase 6
#### Distribuciones muestrales
- *Simulación de muestras de una población y construcción de la distribución muestral del promedio*
En este ejercicio, usarás los puntajes de pérdida de interés como la problación de la cual se tomarán muestras. Simula 1000 muestras de tamaño n=30 y calcula el promedio de cada muestra. Visualiza la distribución de los promedios muestrales en un histograma y responde: ¿Cómo se distribuyen los promedios de las muestras simuladas? ¿Qué observas sobre la forma de la distribución?
| [Simulación de muestras y sus medias:]{.smallcaps}
```{r}
#| code-fold: true
# Fijamos una semilla para que se reproduzcan siempre los mismos valores
set.seed(123)
# Número de muestras
n_muestras <- 1000
# Tamaño de cada muestra
n <- 30
# Vector para almacenar los promedios de cada muestra
medias_muestras <- numeric(n_muestras)
# Simulación de 1000 muestras y cálculo de medias
for (i in 1:n_muestras) {
muestra <- sample(data$mean_LossOfInt, size = n, replace = TRUE)
medias_muestras[i] <- mean(muestra)
}
```
| [Histogramas de medias muestrales:]{.smallcaps}
```{r}
#| code-fold: true
# Histograma de distribución de los promedios muestrales
hist(medias_muestras,
breaks = 30,
main = "Distribución de las Medias Muestrales",
xlab = "Medias de las Muestras",
ylab = "Frecuencia")
```
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
Se distribuye de una forma similar a una distribución normal.
</p>
</details>
- *El teorema del límite central y el efecto del tamaño muestral en la distribución muestral*
Para observar cómo cambia la distribución muestral a medida que aumenta el tamaño de muestra, utiliza las simulaciones previas y agrega 1000 muestras de tamaño n=10, n= 50, y n=100. Calcula el promedio y desviación estándar de cada muestra y visualiza en un histograma las distribuciones muestrales del promedio para cada tamaño muestral. Luego, responde: ¿Cómo cambia la distribución muestral del promedio conforme aumenta el tamaño de la muestra? ¿Qué sucede con la variabilidad de los promedios?
| [Simulación de muestras y sus medias:]{.smallcaps}
```{r}
#| code-fold: true
# Fijamos una semilla para que se reproduzcan siempre los mismos valores
set.seed(123)
# Número de muestras
n_muestras <- 1000
# Tamaños adicionales de cada muestra
tamano_muestras <- c(10, 50, 100)
# Creamos una lista de resultados e incluimos directamente las medias simuladas anteriormente para n=30
resultados <- list("30" = list(medias = medias_muestras))
# Generar nuevas muestras para n = 10, 50 y 100
for (n in tamano_muestras) {
medias <- numeric(n_muestras)
for (i in 1:n_muestras) {
muestra <- sample(data$mean_LossOfInt, size = n, replace = TRUE)
medias[i] <- mean(muestra)
}
resultados[[as.character(n)]] <- list(medias = medias)
}
```
| [Histogramas de medias muestrales:]{.smallcaps}
```{r}
#| code-fold: true
# Uso mfrow para crear un lienzo con 2 filas y 2 columnas
par(mfrow = c(2, 2))
for (n in c(10, 30, 50, 100)) { #
hist(resultados[[as.character(n)]]$medias, breaks = 30,
main = paste("Distribución de Medias (n =", n, ")"),
xlab = "Medias de las Muestras",
ylab = "Frecuencia")
}
```
| [Descriptivos de medias muestrales:]{.smallcaps}
```{r}
#| code-fold: true
# Estadísticas de cada tamaño muestral
for (n in c(10, 30, 50, 100)) {
cat("\nTamaño de muestra:", n)
cat("\n Media de medias:", mean(resultados[[as.character(n)]]$medias))
cat("\n Desviación estándar de medias:", sd(resultados[[as.character(n)]]$medias), "\n")
}
```
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
La distribución muestral del promedio se mantiene en una distribución relativamente normal al aumentar el n, pero la dispersión va disminuyendo al verse una desviación estándar menor al aumentar el n.
</p>
</details>
- *Intervalos de confianza*
A continuación, construiremos intervalos de confianza para el promedio poblacional de los puntajes de pérdida de interés basados en las muestras simuladas. Para ello, elige una muestra simulada de tamaño n=50 y calcula el promedio y el intervalo de confianza al 95%. Finalmente, responde: ¿Qué significa el intervalo de confianza en términos de la estimación del promedio poblacional?
| [Cálculo de intervalo de confianza:]{.smallcaps}
```{r}
#| code-fold: true
# Fijamos una semilla para que se reproduzcan siempre los mismos valores
set.seed(123)
# Seleccionar una muestra aleatoria de tamaño n = 50
muestra_50 <- sample(data$mean_LossOfInt, size = 50, replace = TRUE)
# Desviación estándar de la pobelacion
sigma = 14.7
# Tamaño y promedio de la muestra
n = 50
x_barra <- mean(muestra_50)
# Calcular el valor Z para un 95%
Z <- abs( qnorm((1 - .95)/2) )
# Calcular error estándar
error_est <- sigma/sqrt(n)
# Calcular los límites
lim_inferior <- x_barra - ( Z * error_est )
lim_superior <- x_barra + ( Z * error_est )
# Intervalo de confianza al 95% redondeado
round(c(lim_inferior, lim_superior),2)
```
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
El intervalo de confianza quiere decir que con un 95% de confianza el verdadero promedio poblacional está entre 23,50 y 31.65 puntos.
</p>
</details>
### Clase 7
#### La lógica del contraste de hipótesis en estadística con una media
- *El modelo de regresión base, hipótesis nula, hipótesis alternativa y valor p*
En primer lugar, crea un modelo nulo para predecir los puntajes de estado de ánimo deprimido en función del promedio de la muestra.
| [Formulación de modelo nulo:]{.smallcaps}
```{r}
#| code-fold: true
# Modelo nulo de estado de ánimo deprimido
Dep1 <- lm(data$mean_DeprMood ~ 1)
# Resumen del modelo de estado de ánimo deprimido
summary(Dep1)
```
A continuación, complejizaremos este modelo introduciendo como variable predictora el puntaje de PSMU. ¿Qué hipótesis queremos probar al sumar este efecto? Y si la hipótesis nula es aquella que niega los efectos de la variable predictora postulada en la hipótesis alternativa ¿Cuál sería la hipótesis nula dentro de este contexto?
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
Hipótesis nula (h0): La variable “PSMU” no predice los niveles de estado de ánimo deprimido de los estudiantes.
Hipótesis alternativa (h1): La variable “PSMU” predice los niveles de estado de ánimo deprimido de los estudiantes.
</p>
</details>
Calcula el valor p para el predictor PSMU del segundo modelo, que nos indicará si esta variable tiene un impacto significativo en los niveles de estado de ánimo deprimido.
| [Resultados de modelo de regresión simple:]{.smallcaps}
```{r}
#| code-fold: true
summary(lm(data$mean_DeprMood ~ 1 + data$mean_PSMU))
```
¿El valor p asociado al PSMU es menor a 0.05? Si es así, ¿qué podemos concluir sobre la hipótesis alternativa?
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
El valor p es < 0.05, por lo los análisis nos permiten rechazar la hipótesis nula a la luz de los datos y favorecer la hipostesis alternativa. Esto nos lleva a decir que la variable “PSMU” es un predictor significativo del puntaje de estado de ánimo deprimido.
</p>
</details>
### Clase 8
#### Comparando medias de dos grupos I
- *El modelo de regresión con predictor dicotómico*
En este ejercicio, aplicarás un modelo de regresión lineal para analizar el efecto de un alto o bajo uso pasivo de redes sociales (PSMU) en los niveles de fatiga reportados por los participantes. Para ello,
1. Divide los puntajes de PSMU en dos grupos:
- Alto uso: si el puntaje de PSMU está por encima de la media de la muestra.
- Bajo uso: si el puntaje de PSMU está por debajo o igual a la media.
| [Recodificación de PSMU:]{.smallcaps}
```{r}
#| code-fold: true
# Creamos una nueva variable como factor vacía para guardar los valores recodificados
data$PSMU_Niveles2 <- factor(NA, levels = c("Bajo uso", "Alto uso"))
# Asignamos los valores recodificados
data$PSMU_Niveles2[data$mean_PSMU <= mean(data$mean_PSMU)] <- "Bajo uso"
data$PSMU_Niveles2[data$mean_PSMU > mean(data$mean_PSMU)] <- "Alto uso"
```
2. Crea una variable dicotómica (PSMU_dicotomico) que tome el valor de 1 para el grupo de alto uso y 0 para el grupo de bajo uso.
| [Creación de variable dummy:]{.smallcaps}
```{r}
#| code-fold: true
data$PSMU_dicotomico <- as.numeric(data$PSMU_Niveles2 == "Alto uso")
```
3. Ajusa un modelo de regresión lineal, usando la variable dicotómica como predictor y los niveles de fatiga como variable de respuesta, para evaluar si el alto uso pasivo de redes sociales predice mayores niveles de fatiga.
| [Modelo de regresión lineal:]{.smallcaps}
```{r}
#| code-fold: true
# Generamos la regresión lineal
summary(lm(data$mean_Fatigue ~ data$PSMU_dicotomico))
```
4. Analiza los coeficientes del modelo y el valor p asociado al predictor PSMU_dicotomico para responder las siguientes preguntas: ¿Es estadísticamente significativo el efecto de un alto PSMU sobre la fatiga? ¿Cómo interpretas la relación entre el uso pasivo de redes y los síntomas de fatiga según el coeficiente de PSMU_dicotomico?
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
Intercepto (β₀ = 34.23): Representa el puntaje promedio de fatiga en el grupo de bajo uso pasivo de redes sociales. Es el punto de referencia con el que se compara el grupo de alto uso pasivo.
Pendiente (β₁ = 5.91, p = 0.057): Indica que las personas con alto uso pasivo de redes sociales puntúan, en promedio, 5.91 puntos más en fatiga que aquellas con uso pasivo bajo. Sin embargo, el valor p es 0.057, ligeramente mayor al umbral de 0.05, por lo que no se considera estadísticamente significativo. Esto significa que no se puede afirmar con certeza que el uso pasivo alto tenga un efecto real sobre los niveles de fatiga.
</p>
</details>
### Clase 9
#### Comparando medias de dos grupos II
- *Comparación con Prueba z*
El estudio sugiere una relación entre el uso pasivo de redes sociales y problemas de concentración. En este ejercicio, compararemos los niveles de concentración entre los participantes con alto y bajo uso pasivo de redes sociales (PSMU), asumiendo que la desviación estándar de la muestra puede representar la desviación estándar de la población.
1. Calcula la media y desviación estándar de los puntajes de concentración para los grupos de alto y bajo uso de PSMU (usa la variable dicotómica que creaste para el ejercicio anterior).
| [Descriptivos según grupo:]{.smallcaps}
```{r}
#| code-fold: true
# Se utiliza la función 'describeBy' para obtener los descriptivos según grupo.
describeBy(data$mean_Concentrat, group=data$PSMU_dicotomico)
```
2. Realiza una prueba z para comparar las medias de concentración entre los dos grupos.
| [Prueba Z:]{.smallcaps}
```{r}
#| code-fold: true
# Almacenar valores relevantes
media1 <- 24.52
media2 <- 28.78
sd1 <- 14.61
sd2 <- 13.9
n1 <- 65
n2 <- 60
# Calcular el estadístico z
z <- (media1 - media2) / sqrt((sd1^2 / n1) + (sd2^2 / n2))
z
# Calcular el valor p (prueba bilateral)
p_valor <- 2 * (1 - pnorm(abs(z)))
p_valor
```
3. Utiliza un boxplot para visualizar los resultados y evalúa si hay diferencias significativas entre los grupos de alto y bajo uso.
| [Boxplot:]{.smallcaps}
```{r}
#| code-fold: true
boxplot(data$mean_Concentrat ~ data$PSMU_dicotomico,
names = c("Bajo", "Alto"),
main = "Comparacion de niveles de concentración según PSMU",
xlab = "PSMU",
ylab = "Puntajes de concentración")
```
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
No existe una diferencia estadísticamente significativa. Esto queda en evidencia si miramos el estadístico Z, el cual tuvo un valor de -1.67 y el valor p, el cual fue mayor a 0.05, considerándose no significativa la diferencia en términos estadísticos.
</p>
</details>
- *Comparación con prueba t*
En este ejercicio, compararemos los niveles de fatiga entre los participantes con alto uso pasivo (PSMU) y aquellos con alto uso activo (ASMU). Para ello:
1. Clasifica a los participantes en dos grupos según su tipo de uso de redes sociales:
- Uso Pasivo Predominante (PSMU): Participantes con un puntaje de PSMU más alto que ASMU.
- Uso Activo Predominante (ASMU): Participantes con un puntaje de ASMU más alto que PSMU.
| [Creación de nueva variable:]{.smallcaps}
```{r}
#| code-fold: true
# Creamos una nueva variable como factor vacía para guardar los valores recodificados
data$Uso_Predominante <- factor(NA, levels = c("Pasivo", "Activo"))
# Asignamos los valores recodificados
data$Uso_Predominante[data$mean_PSMU > data$mean_ASMU] <- "Pasivo"
data$Uso_Predominante[data$mean_PSMU < data$mean_ASMU] <- "Activo"
```
2. Realiza una prueba t de Student para comparar las medias de fatiga entre el grupo de uso pasivo predominante (PSMU) y el de uso activo predominante (ASMU), asumiendo varianzas iguales.
| [Prueba t:]{.smallcaps}
```{r}
#| code-fold: true
t.test(data$mean_Fatigue ~ data$Uso_Predominante, var.equal = TRUE)
```
3. Ahora, vuelve a realizar una prueba t de dos muestras independientes para comparar los niveles de fatiga entre el grupo de alto uso pasivo y el grupo de alto uso activo de redes sociales, esta vez sin asumir varianzas iguales.
| [Prueba t:]{.smallcaps}
```{r}
#| code-fold: true
t.test(data$mean_Fatigue ~ data$Uso_Predominante, var.equal = FALSE)
```
4. Realiza un boxplot para visualizar los resultados y evaluar si hay diferencias significativas en el nivel de fatiga entre los dos grupos.
| [Boxplot:]{.smallcaps}
```{r}
#| code-fold: true
boxplot(data$mean_Fatigue ~ data$Uso_Predominante,
names=c("Pasivo", "Activo"),
main = "Comparacion de niveles de fatiga según uso predominante",
xlab = "Tipo de uso predominante",
ylab = "Puntajes de fatiga")
```
¿Existen diferencias en los resultados entre la prueba t con varianzas iguales y la que no asume varianzas iguales? ¿Cómo afectan los grados de libertad a los resultados? ¿Proporcionan ambos enfoques resultados consistentes sobre el efecto de fatiga en los distintos tipos de uso de redes?
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
Estadístico t: La prueba con varianzas iguales da t = -0.59365, mientras que la prueba sin asumir varianzas iguales da t= -0.61539. La diferencia es muy pequeña. Grados de libertad (df): La prueba con varianzas iguales tiene df= 123, mientras que la prueba sin asumir varianzas iguales tiene df= 51.726. La segunda prueba ajusta los grados de libertad usando una corrección estadística, lo cual suele reducirlos en parte.
A pesar de las diferencias en los grados de libertad y el método de cálculo, ambas pruebas muestran que la diferencia entre los grupos no es estadísticamente significativa. Esto indica que los dos enfoques proporcionan resultados consistentes y que el tipo de uso predominante de redes sociales (activo o pasivo) no está asociado con niveles significativamente distintos de fatiga en este caso.
</p>
</details>
- *Comparación con ANOVA*
En este ejercicio, compararemos los niveles de sentimiento de inferioridad entre los participantes con alto uso pasivo (PSMU) y aquellos con alto uso activo (ASMU). Para ello, utiliza la misma variable creada en el ejercicio anterior.
1. Realiza un ANOVA para comparar las medias de sentimiento de inferioridad entre los grupos de bajo y alto uso de PSMU y ASMU.
| [ANOVA:]{.smallcaps}
```{r}
#| code-fold: true
# Se genera un objeto
anova_loss = aov(data$mean_LossOfInt ~ data$Uso_Predominante)
# Ahora para saber el reporte del anova usamos summary del objeto
summary(anova_loss)
```
2. Genera un boxplot para visualizar las diferencias en los niveles de sentimiento de inferioridad entre los grupos de bajo y alto uso de PSMU y ASMU.
| [Boxplot:]{.smallcaps}
```{r}
#| code-fold: true
boxplot(data$mean_LossOfInt ~ data$Uso_Predominante,
names=c("Pasivo", "Activo"),
main = "Comparacion de niveles de pérdida de interés según uso predominante",
xlab = "Tipo de uso predominante",
ylab = "Puntajes de pérdida de interés")
```
3. Evalúa si existen diferencias significativas en los niveles de sentimiento de inferioridad entre los grupos de uso pasivo y activo de redes sociales. Interpreta el valor p y discute si el uso de redes sociales (activo o pasivo) está asociado con los sentimientos de inferioridad.
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
La prueba ANOVA no mostró diferencias estadísticamente significativas en los niveles de sentimiento de inferioridad según el tipo de uso predominante de redes sociales (F(1, 123) = 0.24, p = .623). Esto indica que no existen diferencias significativas entre quienes usan redes sociales de forma pasiva y quienes lo hacen de forma activa en relación con sus niveles de sentimiento de inferioridad. Estos resultados sugieren que el tipo de uso predominante de redes sociales no está asociado de manera significativa con el sentimiento de inferioridad reportado por los participantes.
</p>
</details>
### Clase 10 y 11
#### Comparando medias de tres o más grupos
- *El modelo de regresión con un predictor politómico*
El nivel de uso activo de redes sociales (ASMU) podría estar relacionado con la pérdida de interés, ya que una mayor interacción podría asociarse con sobrecarga informativa. En este ejercicio, analizaremos si existen diferencias significativas en los niveles de fatiga en función del nivel de ASMU. Para ello,
1. Clasifica ASMU en tres niveles (bajo, medio y alto).
2. Crea variables dummy para representar los tres niveles de ASMU (seleccionando uno como categoría de referencia).
3. Evalúa los coeficientes de las variables dummy en la regresión para determinar si existen diferencias significativas en los niveles de pérdida de interés según el nivel de uso activo de redes sociales (ASMU). Además, interpreta cada coeficiente de regresión para ver cómo cambia la pérdida de interés en comparación con el nivel de referencia de ASMU.
```{r}
#| code-fold: true
#evaluación:
data$ASMU_TresNiveles <- cut(data$mean_ASMU,
breaks = quantile(data$mean_ASMU, probs = c(0, 1/3, 2/3, 1), na.rm = TRUE),
labels = c("Bajo", "Medio", "Alto"),
include.lowest = TRUE)
table(data$ASMU_TresNiveles)
#| code-fold: true
# Creamos las variables dummy con el nivel "bajo" como referencia
data$dummy_ASMU_Medio <- ifelse(data$ASMU_TresNiveles == "Medio", 1, 0)
data$dummy_ASMU_Alto <- ifelse(data$ASMU_TresNiveles == "Alto", 1, 0)
#evaluamos los coeficientes:
#| code-fold: true
modelo_lossint <- lm(mean_LossOfInt ~ dummy_ASMU_Medio + dummy_ASMU_Alto, data = data)
summary(modelo_lossint)
```
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
El análisis muestra que los individuos con un nivel medio de uso activo de redes sociales (ASMU) presentan una pérdida de interés significativamente mayor (β = 6.98, p = 0.030) en comparación con aquellos con un nivel bajo. Por otro lado, quienes tienen un nivel alto de ASMU también presentan un mayor nivel de pérdida de interés (β = 6.22), pero esta diferencia no resulta estadísticamente significativa (p = 0.051).
En conjunto, los resultados sugieren que el nivel de uso activo de redes sociales influye en los síntomas de pérdida de interés, siendo el nivel medio el que muestra diferencias significativas respecto del nivel bajo.
</p>
</details>
- *Dicotomizando una variable politómica*
En este ejercicio, analizaremos cómo los niveles de estrés afectan el uso activo de redes sociales (ASMU). Para ello, se trabajará con la variable estrés recodificada en grupos.
1. Calcula los cuartiles de la variable estrés y crea una nueva variable dicotómica agrupando los dos cuartiles inferiores como "bajo estrés" y los dos superiores como "alto estrés".
```{r}
#| code-fold: true
# Se utiliza la función 'describeBy' para obtener los descriptivos según grupo.
describeBy(data$mean_Fatigue, group=data$PSMU_Niveles)
```
2. Compara los niveles promedio de ASMU entre los grupos de estrés (bajo vs. alto).
3. Representa las diferencias en el uso activo de redes sociales mediante un gráfico de caja y bigotes (boxplot).
4. Si el ANOVA muestra diferencias significativas, realiza una prueba post-hoc (como Tukey) para identificar qué niveles específicos de estrés afectan el uso activo de redes sociales.
5. Interpreta los resultados: ¿Existe una relación significativa entre el nivel de estrés y el uso activo de redes sociales?
```{r}
#| code-fold: true
#Calcula los cuartiles de la variable estrés y crea una nueva variable dicotómica agrupando los dos cuartiles inferiores como "bajo estrés" y los dos superiores como "alto estrés".
#Primero, calculamos los cuartiles
cuartiles <- quantile(data$mean_Stress, probs = c(0.25, 0.5, 0.75), na.rm = TRUE)
#Luego creamos la variable dicotómica, con el segundo cuartil como corte
data$estres_dicotomico <- ifelse(data$mean_Stress <= cuartiles[2],
"Bajo estrés",
"Alto estrés")
```
2. Compara los niveles promedio de ASMU entre los grupos de estrés (bajo vs. alto).
```{r}
#| code-fold: true
anova_estres <- aov(mean_ASMU ~ estres_dicotomico, data = data)
summary(anova_estres)
```
3. Representa las diferencias en el uso activo de redes sociales mediante un gráfico de caja y bigotes (boxplot).
```{r}
#| code-fold: true
boxplot(mean_ASMU ~ estres_dicotomico,
data = data,
main = "Uso activo de redes sociales según nivel de estrés",
xlab = "Nivel de estrés",
ylab = "Uso activo de redes sociales (ASMU)")
```
4. Si el ANOVA muestra diferencias significativas, realiza una prueba post-hoc (como Tukey) para identificar qué niveles específicos de estrés afectan el uso activo de redes sociales.
```{r}
#| code-fold: true
TukeyHSD(anova_estres)
```
5. Interpreta los resultados: ¿Existe una relación significativa entre el nivel de estrés y el uso activo de redes sociales?
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
La prueba ANOVA mostró diferencias estadísticamente significativas en el uso activo de redes sociales (ASMU) según el nivel de estrés reportado por los participantes (F(1, 123) = 17.25, p < .001). Asimismo, la prueba post hoc de Tukey indicó que las personas con alto estrés difieren significativamente de quienes presentan bajo estrés. Estos resultados sugieren que un mayor nivel de estrés está asociado con un mayor uso activo de redes sociales.
</p>
</details>
### Clase 12
#### Regresión múltiple I
- *Dos variables dicotómicas (e interacción)*
El nivel de uso activo de redes sociales (ASMU) y los niveles de soledad pueden influir conjuntamente en los niveles de fatiga de los participantes. Este ejercicio tiene como objetivo explorar cómo la combinación de estos factores afecta la percepción de fatiga. Para ello,
1. Dicotomiza las variables:
- Codifica ASMU en dos niveles: alto (1) y bajo (0).
- Codifica soledad en dos niveles: alto (1) y bajo (0).
2. Genera una variable de interacción entre ASMU y soledad.
3. Ajusta un modelo de regresión múltiple en el que fatiga sea la variable dependiente, y ASMU, soledad, y la interacción entre ambas sean las variables independientes.
4. Evalúa los coeficientes de las variables y de la interacción para determinar: (1) Si el uso activo de redes sociales tiene un efecto significativo sobre los niveles de fatiga, (2) si los niveles de soledad afectan significativamente los niveles de fatiga, y (3) si la interacción entre el uso activo de redes y la soledad tiene un efecto significativo sobre la fatiga.
```{r}
#| code-fold: true
# Calcular las medianas de cada variable
mediana_ASMU <- median(data$mean_ASMU, na.rm = TRUE)
mediana_Soledad <- median(data$mean_Loneliness, na.rm = TRUE)
# Crear variable dicotómica para ASMU
data$ASMU_dicotomico2 <- ifelse(data$mean_ASMU >= mediana_ASMU, 1, 0)
# Crear variable dicotómica para Soledad
data$Soledad_dicotomico <- ifelse(data$mean_Loneliness >= mediana_Soledad, 1, 0)
```
2. Genera una variable de interacción entre ASMU y soledad.
```{r}
#| code-fold: true
data$interaccion_ASMU_Soledad <- data$ASMU_dicotomico2 * data$Soledad_dicotomico
```
3. Ajusta un modelo de regresión múltiple en el que fatiga sea la variable dependiente, y ASMU, soledad, y la interacción entre ambas sean las variables independientes.
```{r}
#| code-fold: true
modelo_fatiga <- lm(mean_Fatigue ~ ASMU_dicotomico2 + Soledad_dicotomico + interaccion_ASMU_Soledad, data = data)
summary(modelo_fatiga)
```
4. Evalúa los coeficientes de las variables y de la interacción para determinar: (1) Si el uso activo de redes sociales tiene un efecto significativo sobre los niveles de fatiga, (2) si los niveles de soledad afectan significativamente los niveles de fatiga, y (3) si la interacción entre el uso activo de redes y la soledad tiene un efecto significativo sobre la fatiga.
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
El modelo muestra que el uso activo de redes sociales (ASMU) no tiene un efecto significativo en los niveles de fatiga (p = 0.692). En cambio, los niveles altos de soledad sí afectan significativamente la fatiga, ya que quienes presentan alta soledad reportan en promedio 15.18 puntos más de fatiga que quienes tienen baja soledad (p < 0.001). La interacción entre ASMU y soledad no es significativa (p = 0.461), lo que indica que el efecto de la soledad sobre la fatiga no varía según el nivel de uso activo de redes sociales. En resumen, la fatiga está significativamente asociada con la soledad, pero ni el uso activo de redes sociales ni su interacción con la soledad tienen un impacto significativo en la fatiga.
</p>
</details>
### Clase 13
#### Regresión múltiple II
- *Una variable cuantitativa y una dicotómica (e interacción)*
Queremos analizar cómo los sentimientos de inferioridad pueden variar en función de la frecuencia de uso pasivo de redes sociales (PSMU) y los niveles de fatiga. Para ello,
1. Dicotomiza la Variable Fatiga: Codifica fatiga como alto (1) y bajo (0) según la mediana como punto de corte.
```{r}
#| code-fold: true
# Creamos una nueva variable vacía para guardar los valores recodificados
data$Fatiga_dicotomico <- NA
# Asignamos los valores recodificados
data$Fatiga_dicotomico[data$mean_Fatigue <= median(data$mean_Fatigue)] <- 0
data$Fatiga_dicotomico[data$mean_Fatigue > median(data$mean_Fatigue)] <- 1
```
2. Ajusta un modelo de regresión múltiple donde la variable respuesta es sentimientos de inferioridad y las variables predictoras son PSMU (cuantitativa), nivel de fatiga (dicotómica), y su interacción.
```{r}
#| code-fold: true
Modelo_inf <- lm(mean_Inferior ~ 1 + mean_PSMU + Fatiga_dicotomico + mean_PSMU:Fatiga_dicotomico, data = data)
summary((Modelo_inf))
```
3. Crea un gráfico que permita visualizar cómo los niveles de sentimientos de inferioridad varían en función de la frecuencia de PSMU y los niveles de fatiga.
```{r}
#| code-fold: true
plotSlopes(Modelo_inf,
plotx = "mean_PSMU",
modx = "Fatiga_dicotomico",
interval = "conf"
)
```
4. Evalúa los coeficientes de las variables y de la interacción para describir: (1) Si el uso pasivo de redes sociales tiene un efecto significativo sobre los sentimientos de inferioridad, (2) si los niveles de fatiga afectan significativamente los sentimientos de inferioridad, y (3) si la interacción entre el uso pasivo de redes y la fatiga es significativa en la predicción de los sentimientos de inferioridad.
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
(1) El uso pasivo de redes sociales sí tiene un efecto significativo sobre los sentimientos de inferioridad. El coeficiente para "mean_PSMU" es 0.2239, con un valor p = 0.00373, lo que indica que el uso pasivo de redes sociales predice significativamente mayores niveles de sentimiento de inferioridad. Específicamente, por cada unidad de aumento en el uso pasivo, el sentimiento de inferioridad aumenta en promedio 0.22 puntos, manteniendo constantes los otros factores.
(2) Los niveles de fatiga no afectan significativamente los sentimientos de inferioridad. El coeficiente de "Fatiga_dicotomico" es 5.291, pero su valor p = 0.24403, lo cual no es estadísticamente significativo (p > 0.05). Esto significa que, considerando el resto del modelo, el hecho de estar fatigado o no no predice de manera significativa el nivel de sentimiento de inferioridad.
(3) La interacción entre el uso pasivo de redes y la fativa no es significativa para predecir sentimientos de inferioridad, dado que el coeficiente de la interacción ("mean_PSMU:Fatiga_dicotomico") es 0.00915, con un valor p = 0.94465 (p > 0.05). Esto indica que el efecto del uso pasivo sobre el sentimiento de inferioridad no depende del nivel de fatiga.
</p>
</details>
### Clase 14
#### Medidas de asociación de dos variables categóricas
- *Chi-cuadrado*
A continuación responderemos a la pregunta ¿Existe una asociación significativa entre el nivel de uso activo de redes sociales (ASMU) y el estado de ánimo depresivo? Para ello:
1. Construye una tabla que muestre la frecuencia de las diferentes combinaciones entre el nivel de uso activo de redes sociales (ASMU) y el nivel de estado de ánimo depresivo
- Clasifica ASMU en dos niveles (bajo y alto) según el promedio de la muestra.
- Clasifica el estado de ánimo depresivo en dos niveles (bajo y alto) usando la mediana como punto de corte.
```{r}
#| code-fold: true
# Creamos dos nuevas variables vacías como factor para guardar los valores recodificados
data$ASMU_Niveles <- factor(NA, levels = c("Bajo", "Alto"))
data$Dep_Niveles <- factor(NA, levels = c("Bajo", "Alto"))
# Asignamos los valores recodificados
data$ASMU_Niveles[data$mean_ASMU <= mean(data$mean_ASMU)] <- "Bajo"
data$ASMU_Niveles[data$mean_ASMU > mean(data$mean_ASMU)] <- "Alto"
data$Dep_Niveles[data$mean_DeprMood <= median(data$mean_DeprMood)] <- "Bajo"
data$Dep_Niveles[data$mean_DeprMood > median(data$mean_DeprMood)] <- "Alto"
```
2. Luego, realiza la prueba de chi-cuadrado para analizar si hay una asociación significativa entre ambas variables categóricas.
```{r}
#| code-fold: true
# Guardamos la table de contingencia
Tabla_contingencia <- table(data$ASMU_Niveles, data$Dep_Niveles)
# Y realizamos un análisis de Chi cuadrado sobre esta tabla
chisq.test(Tabla_contingencia)
```
3. Finalmente, evalúa el valor p de la prueba y determina si existe una asociación significativa entre el nivel de uso activo de redes sociales y el estado de ánimo deprimido.
**Respuesta:**
<details>
<summary>Haz clic aquí para expandir</summary>
<p><strong>Respuesta:</strong>
El resultado de la prueba chi-cuadrado (p < 0.05) sugiere que hay evidencia suficiente para rechazar la hipótesis de que no hay relación entre el nivel de uso activo de redes sociales y el estado de ánimo deprimido. A la luz de las observaciones, no podemos afirmar que las diferencias observadas se deban al azar. La distribución de personas sugiere que quienes tienen un uso activo alto de redes sociales presentan más probabilidades de tener un nivel alto de estado de ánimo deprimido, en comparación con quienes tienen un uso activo bajo.
</p>
</details>
Social Media and Depression Symptoms
Presentación del caso
La investigación “Redes sociales y síntomas de depresión: Una perspectiva de red” (en inglés, Social Media and Depression Symptoms: A Network Perspective) examina el impacto del uso pasivo de redes sociales (PSMU, por sus siglas en inglés) en los síntomas de depresión entre estudiantes universitarios. El PSMU refiere a la práctica de desplazarse sin interactuar activamente con el contenido, como ver publicaciones o fotos de las personas que sigues. Este tipo de uso ha sido asociado con efectos adversos en la salud mental, incluyendo un aumento en los niveles de soledad y síntomas de depresión (Verduyn et al., 2015; Frison & Eggermont, 2016). El objetivo de este estudio fue esclarecer la relación bidireccional entre el PSMU y los síntomas de depresión, así como el estrés, mediante un enfoque de red (network perspective). Esta perspectiva de la psicopatología sugiere que los síntomas de depresión no son meras consecuencias de un trastorno, sino que forman un sistema complejo y dinámico en el que los síntomas se influyen mutuamente (Borsboom, 2017). De este modo, el PSMU podría considerarse un factor de riesgo para la depresión si provoca síntomas individuales (como un estado de ánimo deprimido) o condiciones (como el estrés) que desencadenan otros síntomas depresivos (Fried et al., 2015).
Se reclutaron 132 estudiantes de psicología (91 mujeres, 41 hombres) a través de una plataforma en línea, de los cuales 125 completaron el seguimiento. Los participantes informaron sobre su uso pasivo de redes sociales (PSMU), síntomas de depresión y niveles de estrés siete veces al día durante 14 días utilizando el método de muestreo intensivo en el tiempo (ESM, por sus siglas en inglés), que permite capturar experiencias en tiempo real y reducir sesgos de memoria. Se diseñó un cuestionario de 12 ítems que evaluaba el estado de ánimo, la pérdida de interés, la fatiga, la soledad y el estrés, utilizando una escala analógica visual (0 = nada; 100 = mucho) para obtener respuestas matizadas. Las mediciones se separaron por intervalos breves (aproximadamente 2 horas) y se utilizó la aplicación RealLife Exp de LifeData Company para recopilar los datos. Este procedimiento fue aprobado por la Junta de Revisión Institucional de la Universidad de Ámsterdam.
Este estudio plantea preguntas significativas sobre el efecto del uso de redes sociales en la salud mental de los jóvenes. Entre las interrogantes que podrían explorarse se incluyen: ¿Cuál es la relación entre el PSMU y los síntomas de depresión? ¿Cómo influye el PSMU en la sensación de soledad? ¿Existen diferencias significativas en los síntomas de depresión entre quienes practican el PSMU y aquellos que utilizan redes sociales de manera activa? ¿Cómo afectan el estrés y la fatiga al PSMU y a los síntomas depresivos? Los autores señalan que responder estas preguntas no solo contribuye a una comprensión más profunda de las dinámicas entre el uso de redes sociales y la salud mental, sino que también puede guiar el desarrollo de intervenciones y políticas destinadas a mejorar el bienestar emocional de los estudiantes.
Presentación de los datos
En esta guía se plantean una serie de actividades junto con sus resoluciones haciendo uso de los datos recolectados en el estudio. La base de datos que será utilizada en el caso no posee la información recoletada en bruto durante los 14 días, sino que corresponde a la información agregada por cada persona en los distintos elementos evaluados.
La descripción de las variables de la base de datos se encuentra en la siguiente tabla. La primera variable corresponde a un identiifcador por participantes, las siguientes ocho corresponden a los elemantos evaluados por el cuestionario que fue aplicado y las últimas dos al tipo de uso de redes sociales. La base de datos contiene un total de 125 observaciones y 12 variables.
Actividades
Para iniciar le resolución de actividades de este caso de estudio, activamos las librería que serán utilizadas y cargamos la base de datos.
Code
Clase 1
Modelo de datos
En este estudio, los participantes reportaron varias veces al día variables como el estado de ánimo deprimido, estrés, soledad y fatiga, junto con el uso pasivo de redes sociales (PSMU). La base de datos contiene la media de cada persona en cada variable. A continuación, debes calcular la media y desviación estándar de estas variables para el total de la muestra.
Code
output
Code
output
Code
output
Finalmente, responde ¿Qué nos dicen estos estadígrafos acerca de las variables de interés?
Respuesta:
Haz clic aquí para expandir
Respuesta:
Se observa que la muestra posee unas medias y desviación estandar de (respectivamente): 1. Fatigue: 37.07 y 17.37
2. Inferior: 10.36 y 10.53 3. Depr_mood: 13.02 y 11.23 4. Hopeless: 11.85 y 10.89 5. Loneliness: 11.90 y 11.07 6. Stress: 20.56 y 14.53 7. Concentrat: 26.56 y 14.38 8. PSMU: 31.27 y 14.08 9. LossOfInt: 25.18 y 14.71 10. ASMU: 21.27 y 15.39
Con la información de la base de datos podemos predecir los puntajes que obtendrá un sujeto en cada una de las variables en función de la media a nivel muestral, esto es lo que llamamos modelo nulo. A continuación, formularemos un modelo nulo para la variable fatiga. Luego, visualizaremos los residuos en un histograma para evaluar la magnitud de las desviaciones de los puntajes observados respecto a la media predicha.
Code
output
Code
plot
Clase 2
Modelo de regresión
Para complejizar el modelo anterior, podemos asumir una de las variables como predictora de otra. En este ejercicio, formularemos un modelo de regresión simple para explorar la relación entre los niveles de fatiga (variable respuesta) y PSMU (variable predictora), es decir, cómo cambian los puntajes de soledad en la medida que aumenta o decrece el PSMU. Posteriormente, obtendremos los resultados del modelo e interpretaremos los parámetros (pendiente e intersección).
Code
output
¿Cómo se relaciona el PSMU con los niveles de fatiga?
Respuesta:
Haz clic aquí para expandir
Respuesta:
Intercepto: 30.9455
Pendiente (coeficiente de mean_PSMU): 0.1959
Esto significa que por cada unidad que aumenta el PSMU, la fatiga promedio aumenta en 0.1959 unidades.
Caracterizando y comparando distribuciones
Para conocer cómo se distribuyen los puntajes de fatiga según el nivel de exposición al PSMU, vamos a dividir a los participantes en tres grupos:
Bajo uso: participantes con puntajes hasta el primer tercil de PSMU.
Medio uso: participantes con puntajes hasta el segundo tercil de PSMU.
Alto uso: participantes con puntajes por sobre el segundo tercil de PSMU.
Code
Code
A continuación, calcula las medidas de tendencia central (media y mediana), variabilidad (desviación estándar y rango) y asimetría para cada uno de los grupos respecto a los puntajes de fatiga.
Code
output
Visualiza las distribuciones de cada grupo utilizando histogramas o boxplots para identificar posibles diferencias.
Code
plot
Finalmente, compara los resultados entre los tres grupos y reporta las diferencias o similitudes que encuentres en la distribución de puntajes de fatiga según la exposición al PSMU.
Respuesta:
Haz clic aquí para expandir
Respuesta:
El gráfico muestra la distribución de los puntajes de fatiga según tres niveles de uso problemático de redes sociales (PSMU): bajo, medio y alto. En general, los tres grupos presentan rangos amplios y similares de fatiga, sin valores atípicos evidentes. Sin embargo, se observan diferencias importantes. Primero, la mediana de fatiga es notablemente más baja en el grupo de bajo uso (~30), mientras que en los grupos de uso medio y alto es mayor (~40 y ~38 respectivamente), lo que sugiere una tendencia creciente en los niveles de fatiga a medida que aumenta el PSMU. Segundo, el grupo de uso medio muestra la mayor variabilidad interna, con un rango intercuartílico más amplio, indicando mayor heterogeneidad en la experiencia de fatiga. Tercero, el grupo de bajo uso presenta tanto los niveles más bajos de fatiga como la menor dispersión, lo que podría reflejar una relación negativa entre el uso problemático de redes sociales y el bienestar percibido. En conjunto, los resultados sugieren que a mayor nivel de PSMU, tiende a aumentar la fatiga, aunque la diferencia entre los grupos de uso medio y alto es menor que respecto al grupo de bajo uso.
Clase 3
Comparación de modelos
Vuelve sobre dos de los modelos que creaste en ejercicios anteriores: aquel que predice el nivel de fatiga a partir del promedio de la muestra (modelo nulo o base) y aquel que introduce como variable predictora el PSMU (modelo de regresión). Queremos saber cuánto mejora el ajuste del modelo al incluir el efecto de esta última variable. Para ello, calcula el R² de ambos modelos e interpreta qué proporción de la variabilidad en los puntajes de fatiga explica el uso pasivo de redes sociales.
Code
Code
Code
output
Respuesta:
Haz clic aquí para expandir
Respuesta:
El SST es 37432.9171872 El SSR es 942.565531261469 El SSEA es 36490.3516559385 El R2 es 0.025, lo cual significa que explica un 2,5% más el modelo ampliado que el base.La distribución normal
A continuación, utilizaremos la distribución de los puntajes de estado de ánimo depresivo para calcular puntajes z y, con ello, interpretar la posición de cada individuo en relación con la media de la muestra. Este análisis nos permitirá determinar cómo se distribuyen los puntajes de estado de ánimo depresivo en la muestra, y observar cuántos participantes presentan niveles superiores o inferiores al promedio. Para ello,
Code
Code
output
Code
output
Respuesta:
Haz clic aquí para expandir
Respuesta:
22 personas se encuentran sobre 1 desviación estándar y 3 personas se encuentran por sobre 2 desviaciones estándar.
En esta ocasión, simularemos datos para explorar cómo podrían distribuirse los puntajes de estrés de este estudio en una muestra más amplia y evaluaremos si estos resultados simulados reflejan patrones similares a los observados en los datos originales. Para ello,
Code
Code
plot
Code
plot
Code
Code
output
Code
output
Code
output
Code
output
¿Qué diferencias se observan en las distribuciones simuladas de los puntajes de estrés? ¿Qué implicaciones podrían tener estas diferencias para la comprensión del impacto del uso de redes sociales en los síntomas depresivos y posibles intervenciones?
Respuesta:
Haz clic aquí para expandir
Respuesta:
Al comparar las distribuciones simuladas de los puntajes de estrés, se observa que la submuestra 01 presenta una media de 23.45, mientras que la submuestra 02 tiene una media menor de 18.04, lo que indica una diferencia de 5.41 puntos. La mediana también es mayor en la submuestra 01 (24.64) frente a 18.08 en la submuestra 02, lo que confirma un desplazamiento de toda la distribución hacia valores más altos en la primera. Ambas submuestras muestran una dispersión similar: la desviación estándar en la submuestra 01 es 14.33 y en la submuestra 02 es 13.27, mientras que la mad (desviación absoluta mediana) es 13.62 y 13.42 respectivamente. Los valores mínimos y máximos también son comparables: la submuestra 01 va de -19.43 a 54.03, y la submuestra 02 de -21.35 a 52.17. En conjunto, los datos muestran que la submuestra 01 tiene una distribución más desplazada hacia el estrés elevado, aunque con una variabilidad similar. Estas diferencias podrían reflejar condiciones o factores que aumentan el estrés en una de las poblaciones simuladas, lo que sería relevante al evaluar los efectos de distintas exposiciones o contexto
Clase 4
Modelo de regresión y correlación
Retomando el análisis de regresión simple, exploraremos la relación entre los niveles de soledad y el PSMU, pero esta vez usando la soledad como variable predictora y el PSMU como variable respuesta. Utilizaremos tres estimados estadísticos clave: beta no estandarizado, beta estandarizado, y correlación de Pearson.
El primero indica cuánto cambia el PSMU por cada unidad adicional en el puntaje de soledad. Para obtener este valor, ajusta el modelo de regresión con las modificaciones correspondientes. Ejecuta el modelo de regresión y revisa la salida del modelo, donde el coeficiente del nivel de soledad será el valor de beta no estandarizado.
Code
output
El segundo, el beta estandarizado, permite medir la relación en términos de desviaciones estándar, lo cual facilita la comparación de la magnitud del efecto. Para obtener este valor, estandariza tanto los puntajes de soledad como el puntaje de PSMU para que ambas variables tengan una media de 0 y una desviación estándar de 1. Luego, ajusta nuevamente el modelo de regresión con estas variables estandarizadas.
Code
output
El tercero, la correlación de Pearson, te permitirá conocer la dirección y el tamaño de la relación entre la soledad y el PSMU en términos de asociación lineal. Calcula la correlación de Pearson entre ambas variables estandarizadas.
Code
output
Finalmente, compara los tres estimados (beta no estandarizado, beta estandarizado, y correlación de Pearson) para analizar si son consistentes en cuanto a la dirección de la relación. ¿Qué diferencias observas entre ellos? Discute en qué situaciones cada uno de estos estimados es útil y qué información adicional proporciona el beta no estandarizado en comparación con la correlación de Pearson.
Respuesta:
Haz clic aquí para expandir
Respuesta:
Los tres estimados —beta no estandarizado, beta estandarizado y correlación de Pearson— son consistentes en cuanto a la dirección positiva y significancia de la relación entre soledad y uso problemático de redes sociales (PSMU), con p < 0.001 en todos los casos. El modelo con variables originales muestra un beta no estandarizado de 0.3765, un intercepto de 26.7866, y un R² de 0.08764, lo que indica que la soledad explica cerca del 8.8% de la varianza en PSMU. Al estandarizar, el beta estandarizado es 0.296, mismo valor que la correlación de Pearson (r = 0.296), ya que en regresión simple ambos coinciden.
El beta no estandarizado es útil para interpretar efectos en unidades reales; el estandarizado permite comparar la magnitud del efecto con otras variables; y la correlación de Pearson muestra la fuerza de la asociación sin asumir causalidad. En conjunto, ofrecen una visión clara y complementaria de la relación entre las variables.
Clase 5
Distribuciones de datos y distribuciones de probabilidad
En este ejercicio, usarás los valores de estado de estrés reportados en el estudio. Simularás distribuciones de 1000 valores para cada uno de los siguientes tipos de distribuciones. Genera gráficos de densidad o histogramas para cada distribución simulada y compáralos con la distribución real de los puntajes de estrés.
Code
plot
Code
plot
Code
plot
Code
plot
Code
plot
¿Qué diferencias observas entre las distribuciones simuladas y la distribución real de los datos? ¿Cómo cambia la forma entre las distribuciones?
Respuesta:
Haz clic aquí para expandir
Respuesta:
Al comparar las distribuciones simuladas con la distribución real, se observa que la distribución normal, simétrica y con un rango de -20 a 80, tiene una dispersión mayor que la real y no captura su asimetría, ya que esta última tiene una cola larga hacia la derecha (de 0 a 70); la distribución t, también simétrica pero con colas más pesadas y un rango de -3 a 4, no se alinea con la escala ni la forma asimétrica de la real; mientras que la distribución F, asimétrica y sesgada hacia valores bajos (0 a 15), se asemeja más a la real en su forma (cola larga a la derecha), aunque difiere en escala y concentración de datos, ya que la real tiene un pico más amplio entre 0 y 30; así, la forma cambia principalmente en la simetría y las colas, siendo la F la más cercana a la real, pero ninguna logra replicar exactamente su dispersión y escala.
Usando la primera distribución simulada (distribución normal con media y desviación estándar reales de los síntomas de estrés), calcula la probabilidad de que un participante tenga un nivel de estrés superior a al tercer quartil. Compara este resultado con los datos reales.
Code
output
Code
output
Respuesta:
Haz clic aquí para expandir
Respuesta:
En la distribución simulada, basada en una normal con media 20.56 y desviación estándar 14.53, la probabilidad de que un participante presente un nivel de estrés superior al tercer cuartil fue de 22.9%. En cambio, en los datos reales, esta probabilidad fue de 24.8%, indicando una ligera mayor proporción de casos extremos en la muestra empírica. Esta diferencia sugiere que, aunque la distribución real se aproxima a una normal, presenta una leve asimetría o cola más pesada a la derecha, lo que podría reflejar la presencia de algunos individuos con niveles particularmente altos de estrés.
Ahora, queremos comparar los puntajes de estrés entre dos grupos de participantes, uno con alto uso pasivo de redes sociales y otro con bajo uso, utilizando las distribuciones de probabilidad t de Student y F. Para ello, genera dos grupos según el uso pasivo de redes sociales (alto y bajo), y calcula la media y varianza para cada grupo. Luego, aplica una prueba t para comparar las medias de los dos grupos y una prueba ANOVA para comparar las varianzas entre los grupos. ¿Existen diferencias significativas entre las medias y varianzas de los puntajes de estrés para los grupos con alto y bajo uso de redes sociales?
Code
Code
output
Code
output
Code
output
Code
output
Code
output
Code
output
¿Existen diferencias significativas entre las medias y varianzas de los puntajes de estrés para los grupos con alto y bajo uso de redes sociales?
Respuesta:Haz clic aquí para expandir
Respuesta:
Se observaron diferencias significativas en los puntajes de estrés entre los grupos de alto y bajo uso de redes sociales. El test t de Welch mostró que la media del grupo con bajo uso fue de 16.51, mientras que la del grupo con alto uso fue de 23.70, con un valor t = -2.297, gl ≈ 80.82 y un valor p = 0.02421, indicando una diferencia estadísticamente significativa entre ambos grupos. Además, el intervalo de confianza del 95% para la diferencia de medias fue [-13.42, -0.96], lo que confirma que el grupo de alto uso de redes sociales presenta, en promedio, un mayor nivel de estrés. Esta diferencia fue respaldada por el análisis de varianza (ANOVA), el cual arrojó un valor F = 5.279, con un valor p = 0.0242, evidenciando que el uso de redes sociales tiene un efecto significativo en la variabilidad de los puntajes de estrés. En conjunto, estos resultados sugieren que el alto uso de redes sociales se asocia con niveles más elevados de estrés percibido.
Clase 6
Distribuciones muestrales
En este ejercicio, usarás los puntajes de pérdida de interés como la problación de la cual se tomarán muestras. Simula 1000 muestras de tamaño n=30 y calcula el promedio de cada muestra. Visualiza la distribución de los promedios muestrales en un histograma y responde: ¿Cómo se distribuyen los promedios de las muestras simuladas? ¿Qué observas sobre la forma de la distribución?
Code
Code
plot
Respuesta:
Haz clic aquí para expandir
Respuesta:
Se distribuye de una forma similar a una distribución normal.
Para observar cómo cambia la distribución muestral a medida que aumenta el tamaño de muestra, utiliza las simulaciones previas y agrega 1000 muestras de tamaño n=10, n= 50, y n=100. Calcula el promedio y desviación estándar de cada muestra y visualiza en un histograma las distribuciones muestrales del promedio para cada tamaño muestral. Luego, responde: ¿Cómo cambia la distribución muestral del promedio conforme aumenta el tamaño de la muestra? ¿Qué sucede con la variabilidad de los promedios?
Code
Code
plot
Code
output
Respuesta:
Haz clic aquí para expandir
Respuesta:
La distribución muestral del promedio se mantiene en una distribución relativamente normal al aumentar el n, pero la dispersión va disminuyendo al verse una desviación estándar menor al aumentar el n.
A continuación, construiremos intervalos de confianza para el promedio poblacional de los puntajes de pérdida de interés basados en las muestras simuladas. Para ello, elige una muestra simulada de tamaño n=50 y calcula el promedio y el intervalo de confianza al 95%. Finalmente, responde: ¿Qué significa el intervalo de confianza en términos de la estimación del promedio poblacional?
Code
output
Respuesta:
Haz clic aquí para expandir
Respuesta:
El intervalo de confianza quiere decir que con un 95% de confianza el verdadero promedio poblacional está entre 23,50 y 31.65 puntos.
Clase 7
La lógica del contraste de hipótesis en estadística con una media
En primer lugar, crea un modelo nulo para predecir los puntajes de estado de ánimo deprimido en función del promedio de la muestra.
Code
output
A continuación, complejizaremos este modelo introduciendo como variable predictora el puntaje de PSMU. ¿Qué hipótesis queremos probar al sumar este efecto? Y si la hipótesis nula es aquella que niega los efectos de la variable predictora postulada en la hipótesis alternativa ¿Cuál sería la hipótesis nula dentro de este contexto?
Respuesta:
Haz clic aquí para expandir
Respuesta:
Hipótesis nula (h0): La variable “PSMU” no predice los niveles de estado de ánimo deprimido de los estudiantes.
Hipótesis alternativa (h1): La variable “PSMU” predice los niveles de estado de ánimo deprimido de los estudiantes.
Calcula el valor p para el predictor PSMU del segundo modelo, que nos indicará si esta variable tiene un impacto significativo en los niveles de estado de ánimo deprimido.
Code
output
¿El valor p asociado al PSMU es menor a 0.05? Si es así, ¿qué podemos concluir sobre la hipótesis alternativa?
Respuesta:
Haz clic aquí para expandir
Respuesta:
El valor p es < 0.05, por lo los análisis nos permiten rechazar la hipótesis nula a la luz de los datos y favorecer la hipostesis alternativa. Esto nos lleva a decir que la variable “PSMU” es un predictor significativo del puntaje de estado de ánimo deprimido.
Clase 8
Comparando medias de dos grupos I
En este ejercicio, aplicarás un modelo de regresión lineal para analizar el efecto de un alto o bajo uso pasivo de redes sociales (PSMU) en los niveles de fatiga reportados por los participantes. Para ello,
Divide los puntajes de PSMU en dos grupos:
Alto uso: si el puntaje de PSMU está por encima de la media de la muestra.
Bajo uso: si el puntaje de PSMU está por debajo o igual a la media.
Code
Code
Code
output
Respuesta:
Haz clic aquí para expandir
Respuesta:
Intercepto (β₀ = 34.23): Representa el puntaje promedio de fatiga en el grupo de bajo uso pasivo de redes sociales. Es el punto de referencia con el que se compara el grupo de alto uso pasivo. Pendiente (β₁ = 5.91, p = 0.057): Indica que las personas con alto uso pasivo de redes sociales puntúan, en promedio, 5.91 puntos más en fatiga que aquellas con uso pasivo bajo. Sin embargo, el valor p es 0.057, ligeramente mayor al umbral de 0.05, por lo que no se considera estadísticamente significativo. Esto significa que no se puede afirmar con certeza que el uso pasivo alto tenga un efecto real sobre los niveles de fatiga.
Clase 9
Comparando medias de dos grupos II
El estudio sugiere una relación entre el uso pasivo de redes sociales y problemas de concentración. En este ejercicio, compararemos los niveles de concentración entre los participantes con alto y bajo uso pasivo de redes sociales (PSMU), asumiendo que la desviación estándar de la muestra puede representar la desviación estándar de la población.
Code
output
Code
output
Code
output
Code
plot
Respuesta:
Haz clic aquí para expandir
Respuesta:
No existe una diferencia estadísticamente significativa. Esto queda en evidencia si miramos el estadístico Z, el cual tuvo un valor de -1.67 y el valor p, el cual fue mayor a 0.05, considerándose no significativa la diferencia en términos estadísticos.
En este ejercicio, compararemos los niveles de fatiga entre los participantes con alto uso pasivo (PSMU) y aquellos con alto uso activo (ASMU). Para ello:
Clasifica a los participantes en dos grupos según su tipo de uso de redes sociales:
Uso Pasivo Predominante (PSMU): Participantes con un puntaje de PSMU más alto que ASMU.
Uso Activo Predominante (ASMU): Participantes con un puntaje de ASMU más alto que PSMU.
Code
Code
output
Code
output
Code
plot
¿Existen diferencias en los resultados entre la prueba t con varianzas iguales y la que no asume varianzas iguales? ¿Cómo afectan los grados de libertad a los resultados? ¿Proporcionan ambos enfoques resultados consistentes sobre el efecto de fatiga en los distintos tipos de uso de redes?
Respuesta:
Haz clic aquí para expandir
Respuesta:
Estadístico t: La prueba con varianzas iguales da t = -0.59365, mientras que la prueba sin asumir varianzas iguales da t= -0.61539. La diferencia es muy pequeña. Grados de libertad (df): La prueba con varianzas iguales tiene df= 123, mientras que la prueba sin asumir varianzas iguales tiene df= 51.726. La segunda prueba ajusta los grados de libertad usando una corrección estadística, lo cual suele reducirlos en parte. A pesar de las diferencias en los grados de libertad y el método de cálculo, ambas pruebas muestran que la diferencia entre los grupos no es estadísticamente significativa. Esto indica que los dos enfoques proporcionan resultados consistentes y que el tipo de uso predominante de redes sociales (activo o pasivo) no está asociado con niveles significativamente distintos de fatiga en este caso.
En este ejercicio, compararemos los niveles de sentimiento de inferioridad entre los participantes con alto uso pasivo (PSMU) y aquellos con alto uso activo (ASMU). Para ello, utiliza la misma variable creada en el ejercicio anterior.
Code
output
Code
plot
Respuesta:
Haz clic aquí para expandir
Respuesta:
La prueba ANOVA no mostró diferencias estadísticamente significativas en los niveles de sentimiento de inferioridad según el tipo de uso predominante de redes sociales (F(1, 123) = 0.24, p = .623). Esto indica que no existen diferencias significativas entre quienes usan redes sociales de forma pasiva y quienes lo hacen de forma activa en relación con sus niveles de sentimiento de inferioridad. Estos resultados sugieren que el tipo de uso predominante de redes sociales no está asociado de manera significativa con el sentimiento de inferioridad reportado por los participantes.
Clase 10 y 11
Comparando medias de tres o más grupos
El nivel de uso activo de redes sociales (ASMU) podría estar relacionado con la pérdida de interés, ya que una mayor interacción podría asociarse con sobrecarga informativa. En este ejercicio, analizaremos si existen diferencias significativas en los niveles de fatiga en función del nivel de ASMU. Para ello,
Clasifica ASMU en tres niveles (bajo, medio y alto).
Crea variables dummy para representar los tres niveles de ASMU (seleccionando uno como categoría de referencia).
Evalúa los coeficientes de las variables dummy en la regresión para determinar si existen diferencias significativas en los niveles de pérdida de interés según el nivel de uso activo de redes sociales (ASMU). Además, interpreta cada coeficiente de regresión para ver cómo cambia la pérdida de interés en comparación con el nivel de referencia de ASMU.
Code
output
Code
output
Respuesta:
Haz clic aquí para expandir
Respuesta:
El análisis muestra que los individuos con un nivel medio de uso activo de redes sociales (ASMU) presentan una pérdida de interés significativamente mayor (β = 6.98, p = 0.030) en comparación con aquellos con un nivel bajo. Por otro lado, quienes tienen un nivel alto de ASMU también presentan un mayor nivel de pérdida de interés (β = 6.22), pero esta diferencia no resulta estadísticamente significativa (p = 0.051). En conjunto, los resultados sugieren que el nivel de uso activo de redes sociales influye en los síntomas de pérdida de interés, siendo el nivel medio el que muestra diferencias significativas respecto del nivel bajo.
En este ejercicio, analizaremos cómo los niveles de estrés afectan el uso activo de redes sociales (ASMU). Para ello, se trabajará con la variable estrés recodificada en grupos.
Code
output
Compara los niveles promedio de ASMU entre los grupos de estrés (bajo vs. alto).
Representa las diferencias en el uso activo de redes sociales mediante un gráfico de caja y bigotes (boxplot).
Si el ANOVA muestra diferencias significativas, realiza una prueba post-hoc (como Tukey) para identificar qué niveles específicos de estrés afectan el uso activo de redes sociales.
Interpreta los resultados: ¿Existe una relación significativa entre el nivel de estrés y el uso activo de redes sociales?
Code
Code
output
Code
plot
Code
output
Respuesta:
Haz clic aquí para expandir
Respuesta:
La prueba ANOVA mostró diferencias estadísticamente significativas en el uso activo de redes sociales (ASMU) según el nivel de estrés reportado por los participantes (F(1, 123) = 17.25, p < .001). Asimismo, la prueba post hoc de Tukey indicó que las personas con alto estrés difieren significativamente de quienes presentan bajo estrés. Estos resultados sugieren que un mayor nivel de estrés está asociado con un mayor uso activo de redes sociales.
Clase 12
Regresión múltiple I
El nivel de uso activo de redes sociales (ASMU) y los niveles de soledad pueden influir conjuntamente en los niveles de fatiga de los participantes. Este ejercicio tiene como objetivo explorar cómo la combinación de estos factores afecta la percepción de fatiga. Para ello,
Dicotomiza las variables:
Codifica ASMU en dos niveles: alto (1) y bajo (0).
Codifica soledad en dos niveles: alto (1) y bajo (0).
Genera una variable de interacción entre ASMU y soledad.
Ajusta un modelo de regresión múltiple en el que fatiga sea la variable dependiente, y ASMU, soledad, y la interacción entre ambas sean las variables independientes.
Evalúa los coeficientes de las variables y de la interacción para determinar: (1) Si el uso activo de redes sociales tiene un efecto significativo sobre los niveles de fatiga, (2) si los niveles de soledad afectan significativamente los niveles de fatiga, y (3) si la interacción entre el uso activo de redes y la soledad tiene un efecto significativo sobre la fatiga.
Code
Code
Code
output
Respuesta:
Haz clic aquí para expandir
Respuesta:
El modelo muestra que el uso activo de redes sociales (ASMU) no tiene un efecto significativo en los niveles de fatiga (p = 0.692). En cambio, los niveles altos de soledad sí afectan significativamente la fatiga, ya que quienes presentan alta soledad reportan en promedio 15.18 puntos más de fatiga que quienes tienen baja soledad (p < 0.001). La interacción entre ASMU y soledad no es significativa (p = 0.461), lo que indica que el efecto de la soledad sobre la fatiga no varía según el nivel de uso activo de redes sociales. En resumen, la fatiga está significativamente asociada con la soledad, pero ni el uso activo de redes sociales ni su interacción con la soledad tienen un impacto significativo en la fatiga.
Clase 13
Regresión múltiple II
Queremos analizar cómo los sentimientos de inferioridad pueden variar en función de la frecuencia de uso pasivo de redes sociales (PSMU) y los niveles de fatiga. Para ello,
Code
Code
output
Code
plot
Respuesta:
Haz clic aquí para expandir
Respuesta:
Clase 14
Medidas de asociación de dos variables categóricas
A continuación responderemos a la pregunta ¿Existe una asociación significativa entre el nivel de uso activo de redes sociales (ASMU) y el estado de ánimo depresivo? Para ello:
Construye una tabla que muestre la frecuencia de las diferentes combinaciones entre el nivel de uso activo de redes sociales (ASMU) y el nivel de estado de ánimo depresivo
Clasifica ASMU en dos niveles (bajo y alto) según el promedio de la muestra.
Clasifica el estado de ánimo depresivo en dos niveles (bajo y alto) usando la mediana como punto de corte.
Code
Code
output
Respuesta:
Haz clic aquí para expandir
Respuesta:
El resultado de la prueba chi-cuadrado (p < 0.05) sugiere que hay evidencia suficiente para rechazar la hipótesis de que no hay relación entre el nivel de uso activo de redes sociales y el estado de ánimo deprimido. A la luz de las observaciones, no podemos afirmar que las diferencias observadas se deban al azar. La distribución de personas sugiere que quienes tienen un uso activo alto de redes sociales presentan más probabilidades de tener un nivel alto de estado de ánimo deprimido, en comparación con quienes tienen un uso activo bajo.