Caso Redes y Depresión

Social Media and Depression Symptoms

Presentación del caso

La investigación “Redes sociales y síntomas de depresión: Una perspectiva de red” (en inglés, Social Media and Depression Symptoms: A Network Perspective) examina el impacto del uso pasivo de redes sociales (PSMU, por sus siglas en inglés) en los síntomas de depresión entre estudiantes universitarios. El PSMU refiere a la práctica de desplazarse sin interactuar activamente con el contenido, como ver publicaciones o fotos de las personas que sigues. Este tipo de uso ha sido asociado con efectos adversos en la salud mental, incluyendo un aumento en los niveles de soledad y síntomas de depresión (Verduyn et al., 2015; Frison & Eggermont, 2016). El objetivo de este estudio fue esclarecer la relación bidireccional entre el PSMU y los síntomas de depresión, así como el estrés, mediante un enfoque de red (network perspective). Esta perspectiva de la psicopatología sugiere que los síntomas de depresión no son meras consecuencias de un trastorno, sino que forman un sistema complejo y dinámico en el que los síntomas se influyen mutuamente (Borsboom, 2017). De este modo, el PSMU podría considerarse un factor de riesgo para la depresión si provoca síntomas individuales (como un estado de ánimo deprimido) o condiciones (como el estrés) que desencadenan otros síntomas depresivos (Fried et al., 2015).

Se reclutaron 132 estudiantes de psicología (91 mujeres, 41 hombres) a través de una plataforma en línea, de los cuales 125 completaron el seguimiento. Los participantes informaron sobre su uso pasivo de redes sociales (PSMU), síntomas de depresión y niveles de estrés siete veces al día durante 14 días utilizando el método de muestreo intensivo en el tiempo (ESM, por sus siglas en inglés), que permite capturar experiencias en tiempo real y reducir sesgos de memoria. Se diseñó un cuestionario de 12 ítems que evaluaba el estado de ánimo, la pérdida de interés, la fatiga, la soledad y el estrés, utilizando una escala analógica visual (0 = nada; 100 = mucho) para obtener respuestas matizadas. Las mediciones se separaron por intervalos breves (aproximadamente 2 horas) y se utilizó la aplicación RealLife Exp de LifeData Company para recopilar los datos. Este procedimiento fue aprobado por la Junta de Revisión Institucional de la Universidad de Ámsterdam.

Este estudio plantea preguntas significativas sobre el efecto del uso de redes sociales en la salud mental de los jóvenes. Entre las interrogantes que podrían explorarse se incluyen: ¿Cuál es la relación entre el PSMU y los síntomas de depresión? ¿Cómo influye el PSMU en la sensación de soledad? ¿Existen diferencias significativas en los síntomas de depresión entre quienes practican el PSMU y aquellos que utilizan redes sociales de manera activa? ¿Cómo afectan el estrés y la fatiga al PSMU y a los síntomas depresivos? Los autores señalan que responder estas preguntas no solo contribuye a una comprensión más profunda de las dinámicas entre el uso de redes sociales y la salud mental, sino que también puede guiar el desarrollo de intervenciones y políticas destinadas a mejorar el bienestar emocional de los estudiantes.

Presentación de los datos

En esta guía se plantean una serie de actividades junto con sus resoluciones haciendo uso de los datos recolectados en el estudio. La base de datos que será utilizada en el caso no posee la información recoletada en bruto durante los 14 días, sino que corresponde a la información agregada por cada persona en los distintos elementos evaluados.

La descripción de las variables de la base de datos se encuentra en la siguiente tabla. La primera variable corresponde a un identiifcador por participantes, las siguientes ocho corresponden a los elemantos evaluados por el cuestionario que fue aplicado y las últimas dos al tipo de uso de redes sociales. La base de datos contiene un total de 125 observaciones y 12 variables.

Variable	Descripción de la variable	Tipo de variable
Participant	Identificador del participante	Nominal
mean_Fatigue	Promedio de fatiga	Numérica
mean_DeprMood	Promedio de estado de ánimo deprimido	Numérica
mean_Loneliness	Promedio de soledad	Numérica
mean_Concentrat	Promedio de problema de concentración	Numérica
mean_LossOfInt	Promedio de pérdida de interés	Numérica
mean_Inferior	Promedio de sentimiento de inferioridad	Numérica
mean_Hopeless	Promedio de sentimiento de desesperanza	Numérica
mean_Stress	Promedio de estrés	Numérica
mean_PSMU	Promedio de uso pasivo de redes sociales	Numérica
mean_ASMU	Promedio de uso activo de redes sociales	Numérica

Actividades

Para iniciar le resolución de actividades de este caso de estudio, activamos las librería que serán utilizadas y cargamos la base de datos.

Code

library(readr)
library(psych)
library(rockchalk)
library(lme4)

data <- read_csv("data/data_redes_depresion_promedio.csv")[2:12]

Clase 1

Modelo de datos

Tendencia central y variabilidad

En este estudio, los participantes reportaron varias veces al día variables como el estado de ánimo deprimido, estrés, soledad y fatiga, junto con el uso pasivo de redes sociales (PSMU). La base de datos contiene la media de cada persona en cada variable. A continuación, debes calcular la media y desviación estándar de estas variables para el total de la muestra.

Resolución haciendo uso de la función ‘summary’:

Code

# Para obtener la media de las variables de interés se puede utilizar la función 'summary', indicando el uso de las columnas 2 a 11. 
# Se excluye la columna 1 porque corresponde al identificador de cada participante.

summary(data[2:11])

output

  mean_Fatigue   mean_DeprMood   mean_Loneliness mean_Concentrat
 Min.   : 0.80   Min.   : 0.00   Min.   : 0.00   Min.   : 0.47  
 1st Qu.:24.20   1st Qu.: 3.23   1st Qu.: 2.18   1st Qu.:15.57  
 Median :38.15   Median :11.19   Median : 9.14   Median :25.81  
 Mean   :37.07   Mean   :13.02   Mean   :11.90   Mean   :26.56  
 3rd Qu.:49.24   3rd Qu.:21.17   3rd Qu.:19.06   3rd Qu.:35.33  
 Max.   :78.38   Max.   :54.14   Max.   :53.79   Max.   :70.56  
 mean_LossOfInt  mean_Inferior   mean_Hopeless    mean_Stress   
 Min.   : 0.41   Min.   : 0.00   Min.   : 0.00   Min.   : 0.18  
 1st Qu.:13.00   1st Qu.: 1.32   1st Qu.: 2.95   1st Qu.: 8.22  
 Median :24.54   Median : 6.45   Median : 8.69   Median :19.63  
 Mean   :25.18   Mean   :10.36   Mean   :11.85   Mean   :20.56  
 3rd Qu.:34.87   3rd Qu.:17.23   3rd Qu.:18.05   3rd Qu.:32.28  
 Max.   :70.22   Max.   :52.66   Max.   :52.95   Max.   :61.48  
   mean_PSMU       mean_ASMU    
 Min.   : 3.34   Min.   : 0.31  
 1st Qu.:21.04   1st Qu.: 9.19  
 Median :30.16   Median :20.87  
 Mean   :31.27   Mean   :21.27  
 3rd Qu.:38.92   3rd Qu.:28.97  
 Max.   :75.41   Max.   :77.86

Resolución haciendo uso de la función ‘mean’:

Code

# También es posible hacer uso de la función 'mean' para obtener la media de cada variable.
# Utilizamos la función 'sapply' que permite aplicar una función a un conjunto de columas de la base de datos.

sapply(data[2:11], mean)

output

   mean_Fatigue   mean_DeprMood mean_Loneliness mean_Concentrat  mean_LossOfInt 
       37.06968        13.01512        11.90080        26.56408        25.17504 
  mean_Inferior   mean_Hopeless     mean_Stress       mean_PSMU       mean_ASMU 
       10.36064        11.85232        20.55936        31.26760        21.26544

Resolución haciendo uso de la función ‘sd’:

Code

# Para obtener la desviación estándar se utilizará la función 'sd'. 
# Utilizamos la función 'sapply' que permite aplicar una función a un conjunto de columas de la base de datos.

sapply(data[2:11], sd)

output

   mean_Fatigue   mean_DeprMood mean_Loneliness mean_Concentrat  mean_LossOfInt 
       17.37465        11.22716        11.06712        14.37703        14.70510 
  mean_Inferior   mean_Hopeless     mean_Stress       mean_PSMU       mean_ASMU 
       10.52758        10.88960        14.53116        14.07629        15.38781

Finalmente, responde ¿Qué nos dicen estos estadígrafos acerca de las variables de interés?

Respuesta:

Haz clic aquí para expandir

Respuesta:

Se observa que la muestra posee unas medias y desviación estandar de (respectivamente): 1. Fatigue: 37.07 y 17.37
2. Inferior: 10.36 y 10.53 3. Depr_mood: 13.02 y 11.23 4. Hopeless: 11.85 y 10.89 5. Loneliness: 11.90 y 11.07 6. Stress: 20.56 y 14.53 7. Concentrat: 26.56 y 14.38 8. PSMU: 31.27 y 14.08 9. LossOfInt: 25.18 y 14.71 10. ASMU: 21.27 y 15.39

Modelo nulo y residuos

Con la información de la base de datos podemos predecir los puntajes que obtendrá un sujeto en cada una de las variables en función de la media a nivel muestral, esto es lo que llamamos modelo nulo. A continuación, formularemos un modelo nulo para la variable fatiga. Luego, visualizaremos los residuos en un histograma para evaluar la magnitud de las desviaciones de los puntajes observados respecto a la media predicha.

Formulación de modelo nulo:

Code

# Modelo nulo de fatiga
Fatigue1 <- lm(data$mean_Fatigue ~ 1)

# Resumen del modelo de fatiga
summary(Fatigue1)

output


Call:
lm(formula = data$mean_Fatigue ~ 1)

Residuals:
   Min     1Q Median     3Q    Max 
-36.27 -12.87   1.08  12.17  41.31 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   37.070      1.554   23.85   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 17.37 on 124 degrees of freedom

Histograma de residuos:

Code

# Histograma de residuos de fatiga
hist(Fatigue1$residuals,
     xlab = "Residuos",
     ylab = "Frecuencia",
     main = "Histograma de residuos de fatiga")

plot

Clase 2

Modelo de regresión

Regresión simple y sus parámetros

Para complejizar el modelo anterior, podemos asumir una de las variables como predictora de otra. En este ejercicio, formularemos un modelo de regresión simple para explorar la relación entre los niveles de fatiga (variable respuesta) y PSMU (variable predictora), es decir, cómo cambian los puntajes de soledad en la medida que aumenta o decrece el PSMU. Posteriormente, obtendremos los resultados del modelo e interpretaremos los parámetros (pendiente e intersección).

Resultados de modelo de regresión simple:

Code

summary(lm(data$mean_Fatigue ~ 1 + data$mean_PSMU))

output


Call:
lm(formula = data$mean_Fatigue ~ 1 + data$mean_PSMU)

Residuals:
    Min      1Q  Median      3Q     Max 
-34.519 -13.012   0.358  11.359  43.098 

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)     30.9455     3.7654   8.218 2.43e-13 ***
data$mean_PSMU   0.1959     0.1099   1.782   0.0771 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 17.22 on 123 degrees of freedom
Multiple R-squared:  0.02518,   Adjusted R-squared:  0.01725 
F-statistic: 3.177 on 1 and 123 DF,  p-value: 0.07714

¿Cómo se relaciona el PSMU con los niveles de fatiga?

Respuesta:

Haz clic aquí para expandir

Respuesta:

Intercepto: 30.9455

Pendiente (coeficiente de mean_PSMU): 0.1959

Esto significa que por cada unidad que aumenta el PSMU, la fatiga promedio aumenta en 0.1959 unidades.

Caracterizando y comparando distribuciones

Tendencia central, variabilidad y asimetría

Para conocer cómo se distribuyen los puntajes de fatiga según el nivel de exposición al PSMU, vamos a dividir a los participantes en tres grupos:

Bajo uso: participantes con puntajes hasta el primer tercil de PSMU.
Medio uso: participantes con puntajes hasta el segundo tercil de PSMU.
Alto uso: participantes con puntajes por sobre el segundo tercil de PSMU.

Cálculo de terciles:

Code

# Si queremos ver terciles dividimos la distribución en 3 partes iguales, indicando dos puntos de corte.

# Se guarda el valor del primer tercil.
primer_tercil <- quantile(data$mean_PSMU
  , probs = c(.33), na.rm = TRUE)

# Se guarda el valor del segundo tercil. 
segundo_tercil <- quantile(data$mean_PSMU
  , probs = c(.66), na.rm = TRUE)

Recodificación de PSMU:

Code

# Creamos una nueva variable como factor vacía para guardar los valores recodificados
data$PSMU_Niveles <- factor(NA, levels = c("Bajo uso", "Medio uso", "Alto uso"))

# Asignamos los valores recodificados
data$PSMU_Niveles[data$mean_PSMU <= primer_tercil] <- "Bajo uso"
data$PSMU_Niveles[data$mean_PSMU > primer_tercil & data$mean_PSMU <= segundo_tercil] <- "Medio uso"
data$PSMU_Niveles[data$mean_PSMU > segundo_tercil] <- "Alto uso"

A continuación, calcula las medidas de tendencia central (media y mediana), variabilidad (desviación estándar y rango) y asimetría para cada uno de los grupos respecto a los puntajes de fatiga.

Descriptivos por grupo:

Code

# Se utiliza la función 'describeBy' para obtener los descriptivos según grupo.
describeBy(data$mean_Fatigue, group=data$PSMU_Niveles)

output


 Descriptive statistics by group 
group: Bajo uso
    vars  n mean    sd median trimmed   mad min max range skew kurtosis   se
X1*    1 41   21 11.98     21      21 14.83   1  41    40    0    -1.29 1.87
------------------------------------------------------------ 
group: Medio uso
    vars  n mean    sd median trimmed   mad min max range skew kurtosis   se
X1*    1 42 21.5 12.27   21.5    21.5 15.57   1  42    41    0    -1.29 1.89
------------------------------------------------------------ 
group: Alto uso
    vars  n mean    sd median trimmed   mad min max range skew kurtosis   se
X1*    1 42 21.5 12.27   21.5    21.5 15.57   1  42    41    0    -1.29 1.89

Visualiza las distribuciones de cada grupo utilizando histogramas o boxplots para identificar posibles diferencias.

Boxplot:

Code

# Se genera un gráfico que permite comprar las tres distribuciones de datos mediante boxplots
boxplot(data$mean_Fatigue ~ data$PSMU_Niveles,
        ylab = "Fatiga",
        xlab = "Niveles de PSMU")

plot

Finalmente, compara los resultados entre los tres grupos y reporta las diferencias o similitudes que encuentres en la distribución de puntajes de fatiga según la exposición al PSMU.

Respuesta:

Haz clic aquí para expandir

Respuesta:

El gráfico muestra la distribución de los puntajes de fatiga según tres niveles de uso problemático de redes sociales (PSMU): bajo, medio y alto. En general, los tres grupos presentan rangos amplios y similares de fatiga, sin valores atípicos evidentes. Sin embargo, se observan diferencias importantes. Primero, la mediana de fatiga es notablemente más baja en el grupo de bajo uso (~30), mientras que en los grupos de uso medio y alto es mayor (~40 y ~38 respectivamente), lo que sugiere una tendencia creciente en los niveles de fatiga a medida que aumenta el PSMU. Segundo, el grupo de uso medio muestra la mayor variabilidad interna, con un rango intercuartílico más amplio, indicando mayor heterogeneidad en la experiencia de fatiga. Tercero, el grupo de bajo uso presenta tanto los niveles más bajos de fatiga como la menor dispersión, lo que podría reflejar una relación negativa entre el uso problemático de redes sociales y el bienestar percibido. En conjunto, los resultados sugieren que a mayor nivel de PSMU, tiende a aumentar la fatiga, aunque la diferencia entre los grupos de uso medio y alto es menor que respecto al grupo de bajo uso.

Clase 3

Comparación de modelos

Modelo base vs modelo de regresión y R2 como indicador de comparación de ajuste

Vuelve sobre dos de los modelos que creaste en ejercicios anteriores: aquel que predice el nivel de fatiga a partir del promedio de la muestra (modelo nulo o base) y aquel que introduce como variable predictora el PSMU (modelo de regresión). Queremos saber cuánto mejora el ajuste del modelo al incluir el efecto de esta última variable. Para ello, calcula el R² de ambos modelos e interpreta qué proporción de la variabilidad en los puntajes de fatiga explica el uso pasivo de redes sociales.

Modelo base:

Code

# Calculamos la suma la cuadrados totales
SST = sum(resid(lm(data$mean_Fatigue ~ 1))^2)

Modelo ampliado:

Code

# Calculamos la suma la cuadrados del modelo ampliado
SSEA = sum(resid(lm(data$mean_Fatigue ~ 1 + data$mean_PSMU))^2)

Comparación de ajuste:

Code

# Calculamos la reducción en la suma la cuadrados
SSR = SST - SSEA

# Calculamos la reducción proporcional del error
R_cuadrado = (SST - SSEA)/SST

# Vemos que este equivale al Multiple R-squared en el resumen que nos brinda R en el modelo apliado.
# En este caso vemos que el error cambia un 2.5% entre los dos modelos.
R_cuadrado

output

[1] 0.02518012

Respuesta:

Haz clic aquí para expandir

Respuesta:

El SST es 37432.9171872 El SSR es 942.565531261469 El SSEA es 36490.3516559385 El R2 es 0.025, lo cual significa que explica un 2,5% más el modelo ampliado que el base.

La distribución normal

Puntaje Z

A continuación, utilizaremos la distribución de los puntajes de estado de ánimo depresivo para calcular puntajes z y, con ello, interpretar la posición de cada individuo en relación con la media de la muestra. Este análisis nos permitirá determinar cómo se distribuyen los puntajes de estado de ánimo depresivo en la muestra, y observar cuántos participantes presentan niveles superiores o inferiores al promedio. Para ello,

Con base en la media y desviación estándar del estado de ánimo depresivo, calcula el puntaje z de cada participante en esta variable.

Calcular puntaje Z:

Code

# Usamos la función 'scale' que automáticamente estandariza los valores
Puntajes_Z <- scale(data$mean_DeprMood)

Identifica cuántos participantes se encuentran por encima de 1 y 2 desviaciones estándar de la media, interpretando así los niveles de estado de ánimo depresivo altos en la muestra.

Número de participantes según desviaciones estándar:

Code

# Usamos la función 'sum' para identificar el número de participantes por sobre 1 desviación estándar.
sum(Puntajes_Z > 1)

output

[1] 22

Code

# Usamos la función 'sum' para identificar el número de participantes por sobre 2 desviación estándar.
sum(Puntajes_Z > 2)

output

[1] 3

Respuesta:

Haz clic aquí para expandir

Respuesta:

22 personas se encuentran sobre 1 desviación estándar y 3 personas se encuentran por sobre 2 desviaciones estándar.

Simulación de datos y muestras de una distribución normal

En esta ocasión, simularemos datos para explorar cómo podrían distribuirse los puntajes de estrés de este estudio en una muestra más amplia y evaluaremos si estos resultados simulados reflejan patrones similares a los observados en los datos originales. Para ello,

Usa las medias y desviaciones estándar obtenidas previamente para simular dos nuevas muestras de puntajes de estrés, asumiendo una distribución normal en ambas. Genera 1000 datos simulados para cada muestra.

Creación de muestras:

Code

muestra01 <- rnorm(1000, mean = 20.56, sd = 14.53)

muestra02 <- rnorm(1000, mean = 20.56, sd = 14.53)

Visualiza las distribuciones simuladas de las dos muestras con histogramas y superpón curvas de densidad para comparar las distribuciones.

Comparación con histogramas:

Code

# Uso mfrow para crear un lienzo con 1 fila y 2 columnas
par(mfrow=c(1,2))

# Histograma de primera muestra
hist(muestra01, xlim = c(-30,70),
     xlab = "Puntajes",
     ylab = "Frecuencia")

# Histograma de segunda muestra
hist(muestra02, xlim = c(-30,70),
     xlab = "Puntajes",
     ylab = "Frecuencia")

plot

Superposición de curvas de densidad:

Code

# Hay que correr ambos códigos al mismo tiempo o el gráfico completo no se mostrará. Selecciona todo y correlo junto. 
# Se grafica la curva de densidad de la muestra 1.
plot(density(muestra01),
     main = "Gráfico de densidad",
     xlab = "Puntajes",
     ylab = "Densidad",
     col = "blue",
     ylim = c(0, 0.03))

# Se añade al mismo gráfico la curva de densidad de la muestra 2
lines(density(muestra02), col = "red")

plot

Extrae una muestra aleatoria de 100 datos de cada una de las distribuciones simuladas y calcula sus estadísticos descriptivos (media, desviación estándar, quintiles).

Creación de submuestras aletorias:

Code

# Utilizamos la función 'sample' para extraer submuestras
submuestra01 <- sample(muestra01, size=100)

submuestra02 <- sample(muestra02, size=100)

Descriptivos submuestra 1:

Code

# Utilizamos la función 'summary' para obtener información de los quintiles
summary(submuestra01)

output

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 -17.75   12.44   20.09   19.84   28.81   60.54

Code

# Utilizamos la función 'describe' para completar el resto de descriptivos
describe(submuestra01)

output

   vars   n  mean    sd median trimmed   mad    min   max range  skew kurtosis
X1    1 100 19.84 15.21  20.09   20.17 12.47 -17.75 60.54 78.29 -0.17     0.34
     se
X1 1.52

Descriptivos submuestra 2:

Code

# Utilizamos la función 'summary' para obtener información de los quintiles
summary(submuestra02)

output

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
 -22.32   10.03   17.00   17.49   27.58   51.84

Code

# Utilizamos la función 'describe' para completar el resto de descriptivos
describe(submuestra02)

output

   vars   n  mean    sd median trimmed   mad    min   max range  skew kurtosis
X1    1 100 17.49 14.72     17   18.01 13.85 -22.32 51.84 74.16 -0.34     0.15
     se
X1 1.47

¿Qué diferencias se observan en las distribuciones simuladas de los puntajes de estrés? ¿Qué implicaciones podrían tener estas diferencias para la comprensión del impacto del uso de redes sociales en los síntomas depresivos y posibles intervenciones?

Respuesta:

Haz clic aquí para expandir

Respuesta:

Al comparar las distribuciones simuladas de los puntajes de estrés, se observa que la submuestra 01 presenta una media de 23.45, mientras que la submuestra 02 tiene una media menor de 18.04, lo que indica una diferencia de 5.41 puntos. La mediana también es mayor en la submuestra 01 (24.64) frente a 18.08 en la submuestra 02, lo que confirma un desplazamiento de toda la distribución hacia valores más altos en la primera. Ambas submuestras muestran una dispersión similar: la desviación estándar en la submuestra 01 es 14.33 y en la submuestra 02 es 13.27, mientras que la mad (desviación absoluta mediana) es 13.62 y 13.42 respectivamente. Los valores mínimos y máximos también son comparables: la submuestra 01 va de -19.43 a 54.03, y la submuestra 02 de -21.35 a 52.17. En conjunto, los datos muestran que la submuestra 01 tiene una distribución más desplazada hacia el estrés elevado, aunque con una variabilidad similar. Estas diferencias podrían reflejar condiciones o factores que aumentan el estrés en una de las poblaciones simuladas, lo que sería relevante al evaluar los efectos de distintas exposiciones o contexto

Clase 4

Modelo de regresión y correlación

Interpretando la pendiente y su estandarización y Correlación de Pearson

Retomando el análisis de regresión simple, exploraremos la relación entre los niveles de soledad y el PSMU, pero esta vez usando la soledad como variable predictora y el PSMU como variable respuesta. Utilizaremos tres estimados estadísticos clave: beta no estandarizado, beta estandarizado, y correlación de Pearson.

El primero indica cuánto cambia el PSMU por cada unidad adicional en el puntaje de soledad. Para obtener este valor, ajusta el modelo de regresión con las modificaciones correspondientes. Ejecuta el modelo de regresión y revisa la salida del modelo, donde el coeficiente del nivel de soledad será el valor de beta no estandarizado.

Modelo de regresión:

Code

summary(lm(data$mean_PSMU ~ 1 + data$mean_Loneliness))

output


Call:
lm(formula = data$mean_PSMU ~ 1 + data$mean_Loneliness)

Residuals:
    Min      1Q  Median      3Q     Max 
-28.074  -9.413  -1.721   8.113  40.076 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)           26.7866     1.7769  15.075  < 2e-16 ***
data$mean_Loneliness   0.3765     0.1095   3.437 0.000802 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 13.5 on 123 degrees of freedom
Multiple R-squared:  0.08764,   Adjusted R-squared:  0.08022 
F-statistic: 11.81 on 1 and 123 DF,  p-value: 0.0008023

El segundo, el beta estandarizado, permite medir la relación en términos de desviaciones estándar, lo cual facilita la comparación de la magnitud del efecto. Para obtener este valor, estandariza tanto los puntajes de soledad como el puntaje de PSMU para que ambas variables tengan una media de 0 y una desviación estándar de 1. Luego, ajusta nuevamente el modelo de regresión con estas variables estandarizadas.

Modelo de regresión estandarizado:

Code

summary(lm(scale(data$mean_PSMU) ~ 1 + scale(data$mean_Loneliness)))

output


Call:
lm(formula = scale(data$mean_PSMU) ~ 1 + scale(data$mean_Loneliness))

Residuals:
    Min      1Q  Median      3Q     Max 
-1.9944 -0.6687 -0.1223  0.5763  2.8471 

Coefficients:
                              Estimate Std. Error t value Pr(>|t|)    
(Intercept)                 -1.061e-16  8.578e-02   0.000 1.000000    
scale(data$mean_Loneliness)  2.960e-01  8.613e-02   3.437 0.000802 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.9591 on 123 degrees of freedom
Multiple R-squared:  0.08764,   Adjusted R-squared:  0.08022 
F-statistic: 11.81 on 1 and 123 DF,  p-value: 0.0008023

El tercero, la correlación de Pearson, te permitirá conocer la dirección y el tamaño de la relación entre la soledad y el PSMU en términos de asociación lineal. Calcula la correlación de Pearson entre ambas variables estandarizadas.

Correlación:

Code

cor.test(data$mean_PSMU, data$mean_Loneliness, use=pairwise.complete.obs)

output


    Pearson's product-moment correlation

data:  data$mean_PSMU and data$mean_Loneliness
t = 3.4373, df = 123, p-value = 0.0008023
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.1270326 0.4483364
sample estimates:
      cor 
0.2960362

Finalmente, compara los tres estimados (beta no estandarizado, beta estandarizado, y correlación de Pearson) para analizar si son consistentes en cuanto a la dirección de la relación. ¿Qué diferencias observas entre ellos? Discute en qué situaciones cada uno de estos estimados es útil y qué información adicional proporciona el beta no estandarizado en comparación con la correlación de Pearson.

Respuesta:

Haz clic aquí para expandir

Respuesta:

Los tres estimados —beta no estandarizado, beta estandarizado y correlación de Pearson— son consistentes en cuanto a la dirección positiva y significancia de la relación entre soledad y uso problemático de redes sociales (PSMU), con p < 0.001 en todos los casos. El modelo con variables originales muestra un beta no estandarizado de 0.3765, un intercepto de 26.7866, y un R² de 0.08764, lo que indica que la soledad explica cerca del 8.8% de la varianza en PSMU. Al estandarizar, el beta estandarizado es 0.296, mismo valor que la correlación de Pearson (r = 0.296), ya que en regresión simple ambos coinciden.

El beta no estandarizado es útil para interpretar efectos en unidades reales; el estandarizado permite comparar la magnitud del efecto con otras variables; y la correlación de Pearson muestra la fuerza de la asociación sin asumir causalidad. En conjunto, ofrecen una visión clara y complementaria de la relación entre las variables.

Clase 5

Distribuciones de datos y distribuciones de probabilidad

Simulando distribuciones de datos (Normal, uniforme, t, F)

En este ejercicio, usarás los valores de estado de estrés reportados en el estudio. Simularás distribuciones de 1000 valores para cada uno de los siguientes tipos de distribuciones. Genera gráficos de densidad o histogramas para cada distribución simulada y compáralos con la distribución real de los puntajes de estrés.

Distribución Normal: Usa la media y desviación estándar reales de los puntajes de estrés.

Code

# Sabemos que la media de la variable estrés es 20.56 y la desviación estándar es 14.53
dist_normal <- rnorm(1000, mean = 20.56, sd = 14.53)

# Histograma de la distribución normal
hist(dist_normal,
     xlab = "Puntajes",
     ylab = "Frecuencia",
     main = "Distribución normal")

plot

Distribución Uniforme: Usa el mínimo y máximo de los valores reales de los puntajes de estrés.

Code

# Sabemos que el valor mínimo de la variable estrés es 0.18 y el valor máximo es 61.48

# Para generar una distribución uniforme señalamos este intervalo en la función 'rep'
# Se utiliza 'each=16' para aproximarnos a los 1000 casos esperados
dist_uniforme <- rep(0.18:61.48, each=16)

# Luego, graficamos la distribución con un gráfico de barras
barplot(prop.table(table(dist_uniforme)),
        main = "Distribución uniforme")

plot

Distribución t de Student: Calcula los grados de libertad como GL=𝑛−1, donde 𝑛 es el tamaño de la muestra.

Code

# Sabemos que el tamaño de la muestra es igual a 125, por lo que los grados de libertad equivalen a 124

# Para generar una distribución t utilizamos la función 'rt'
# Se especifica el número de la valores de la distribución y los grados de libertad
dist_t <- rt(1000, df = 124)

# Histograma de la distribución t
hist(dist_t,
     xlab = "Puntajes",
     ylab = "Frecuencia",
     main = "Distribución t")

plot

Distribución F: Asumela presencia de dos grupos para el cálculo de los grados de libertad

Code

# df1 es el número de grupos menos 1 (𝑘−1)
# df2 es el total de observaciones menos el número de grupos (𝑁−𝑘)

# df1 = 2-1 = 1
# df2 = 125-2 = 123

# Para generar una distribución t utilizamos la función 'rf'
# Se especifica el número de la valores de la distribución y los grados de libertad
dist_f <- rf(n = 1000, df1 = 1, df2 = 123) 

# Histograma de la distribución t
hist(dist_f,
     xlab = "Puntajes",
     ylab = "Frecuencia",
     main = "Distribución F")

plot

Distribución real:

Code

# Histograma de la distribución real de los datos
hist(data$mean_Stress,
     xlab = "Puntajes",
     ylab = "Frecuencia",
     main = "Distribución real")

plot

¿Qué diferencias observas entre las distribuciones simuladas y la distribución real de los datos? ¿Cómo cambia la forma entre las distribuciones?

Respuesta:

Haz clic aquí para expandir

Respuesta:

Al comparar las distribuciones simuladas con la distribución real, se observa que la distribución normal, simétrica y con un rango de -20 a 80, tiene una dispersión mayor que la real y no captura su asimetría, ya que esta última tiene una cola larga hacia la derecha (de 0 a 70); la distribución t, también simétrica pero con colas más pesadas y un rango de -3 a 4, no se alinea con la escala ni la forma asimétrica de la real; mientras que la distribución F, asimétrica y sesgada hacia valores bajos (0 a 15), se asemeja más a la real en su forma (cola larga a la derecha), aunque difiere en escala y concentración de datos, ya que la real tiene un pico más amplio entre 0 y 30; así, la forma cambia principalmente en la simetría y las colas, siendo la F la más cercana a la real, pero ninguna logra replicar exactamente su dispersión y escala.

Expresando en probabilidades un resultado en una distribución de datos

Usando la primera distribución simulada (distribución normal con media y desviación estándar reales de los síntomas de estrés), calcula la probabilidad de que un participante tenga un nivel de estrés superior a al tercer quartil. Compara este resultado con los datos reales.

Distribución simulada:

Code

# Se guarda el valor del tercer quartil
Q3_simulada <- quantile(dist_normal
  , probs = c(.75), na.rm = TRUE)

# Calcular la probabilidad de que un participante tenga estrés superior a Q3
probabilidad_simulada <- 1 - pnorm(Q3_simulada, mean = 20.56, sd = 14.53)

probabilidad_simulada

output

     75% 
0.257922

Distribución real:

Code

# Se guarda el valor del tercer quartil
Q3_real<- quantile(data$mean_Stress
  , probs = c(.75), na.rm = TRUE)

# Calcular la probabilidad de que un participante tenga estrés superior a Q3
probabilidad_real <- sum(data$mean_Stress > Q3_real) / length(data$mean_Stress)

probabilidad_real

output

[1] 0.248

Respuesta:

Haz clic aquí para expandir

Respuesta:

En la distribución simulada, basada en una normal con media 20.56 y desviación estándar 14.53, la probabilidad de que un participante presente un nivel de estrés superior al tercer cuartil fue de 22.9%. En cambio, en los datos reales, esta probabilidad fue de 24.8%, indicando una ligera mayor proporción de casos extremos en la muestra empírica. Esta diferencia sugiere que, aunque la distribución real se aproxima a una normal, presenta una leve asimetría o cola más pesada a la derecha, lo que podría reflejar la presencia de algunos individuos con niveles particularmente altos de estrés.

Distribuciones de probabilidad

Ahora, queremos comparar los puntajes de estrés entre dos grupos de participantes, uno con alto uso pasivo de redes sociales y otro con bajo uso, utilizando las distribuciones de probabilidad t de Student y F. Para ello, genera dos grupos según el uso pasivo de redes sociales (alto y bajo), y calcula la media y varianza para cada grupo. Luego, aplica una prueba t para comparar las medias de los dos grupos y una prueba ANOVA para comparar las varianzas entre los grupos. ¿Existen diferencias significativas entre las medias y varianzas de los puntajes de estrés para los grupos con alto y bajo uso de redes sociales?

Creación de cada grupo:

Code

# Utilizamos la clasificación realizada anteriormente, almacenada en la variable 'PSMU_Niveles'
# Para crear los grupos filtramos la filas de la base de datos según su información en la variable 'PSMU_Niveles'

bajo_PSMU <- data[data$PSMU_Niveles=="Bajo uso",]

alto_PSMU <- data[data$PSMU_Niveles=="Alto uso",]

Media y varianza de estrés del grupo de bajo uso:

Code

mean(bajo_PSMU$mean_Stress)

output

[1] 16.50732

Code

var(bajo_PSMU$mean_Stress)

output

[1] 207.9784

Media y varianza de estrés del grupo de alto uso:

Code

mean(alto_PSMU$mean_Stress)

output

[1] 23.69786

Code

var(alto_PSMU$mean_Stress)

output

[1] 198.5213

Prueba t:

Code

t.test(bajo_PSMU$mean_Stress, alto_PSMU$mean_Stress)

output


    Welch Two Sample t-test

data:  bajo_PSMU$mean_Stress and alto_PSMU$mean_Stress
t = -2.297, df = 80.816, p-value = 0.02421
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -13.4192484  -0.9618317
sample estimates:
mean of x mean of y 
 16.50732  23.69786

Prueba ANOVA:

Code

# Se crea un data frame combinado
data_anova <- data.frame(
  mean_Stress = c(bajo_PSMU$mean_Stress, alto_PSMU$mean_Stress),
  grupo = rep(c("bajo", "alto"), times = c(length(bajo_PSMU$mean_Stress), length(alto_PSMU$mean_Stress)))
)

# Se realiza el ANOVA haciendo uso del data frame antes creado
anova1 <- aov(mean_Stress ~ grupo, data = data_anova)

# Se obtiene un resumen de los resultados del ANOVA
summary(anova1)

output

            Df Sum Sq Mean Sq F value Pr(>F)  
grupo        1   1073  1072.7   5.279 0.0242 *
Residuals   81  16459   203.2                 
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

¿Existen diferencias significativas entre las medias y varianzas de los puntajes de estrés para los grupos con alto y bajo uso de redes sociales?

Respuesta:

Haz clic aquí para expandir

Respuesta:

Se observaron diferencias significativas en los puntajes de estrés entre los grupos de alto y bajo uso de redes sociales. El test t de Welch mostró que la media del grupo con bajo uso fue de 16.51, mientras que la del grupo con alto uso fue de 23.70, con un valor t = -2.297, gl ≈ 80.82 y un valor p = 0.02421, indicando una diferencia estadísticamente significativa entre ambos grupos. Además, el intervalo de confianza del 95% para la diferencia de medias fue [-13.42, -0.96], lo que confirma que el grupo de alto uso de redes sociales presenta, en promedio, un mayor nivel de estrés. Esta diferencia fue respaldada por el análisis de varianza (ANOVA), el cual arrojó un valor F = 5.279, con un valor p = 0.0242, evidenciando que el uso de redes sociales tiene un efecto significativo en la variabilidad de los puntajes de estrés. En conjunto, estos resultados sugieren que el alto uso de redes sociales se asocia con niveles más elevados de estrés percibido.

Clase 6

Distribuciones muestrales

Simulación de muestras de una población y construcción de la distribución muestral del promedio

En este ejercicio, usarás los puntajes de pérdida de interés como la problación de la cual se tomarán muestras. Simula 1000 muestras de tamaño n=30 y calcula el promedio de cada muestra. Visualiza la distribución de los promedios muestrales en un histograma y responde: ¿Cómo se distribuyen los promedios de las muestras simuladas? ¿Qué observas sobre la forma de la distribución?

Simulación de muestras y sus medias:

Code

# Fijamos una semilla para que se reproduzcan siempre los mismos valores
set.seed(123)  

# Número de muestras
n_muestras <- 1000  

# Tamaño de cada muestra
n <- 30 

# Vector para almacenar los promedios de cada muestra
medias_muestras <- numeric(n_muestras)

# Simulación de 1000 muestras y cálculo de medias
for (i in 1:n_muestras) {
  muestra <- sample(data$mean_LossOfInt, size = n, replace = TRUE) 
  medias_muestras[i] <- mean(muestra)  
}

Histogramas de medias muestrales:

Code

# Histograma de distribución de los promedios muestrales
hist(medias_muestras, 
     breaks = 30, 
     main = "Distribución de las Medias Muestrales",
     xlab = "Medias de las Muestras",
     ylab = "Frecuencia")

plot

Respuesta:

Haz clic aquí para expandir

Respuesta:

Se distribuye de una forma similar a una distribución normal.

El teorema del límite central y el efecto del tamaño muestral en la distribución muestral

Para observar cómo cambia la distribución muestral a medida que aumenta el tamaño de muestra, utiliza las simulaciones previas y agrega 1000 muestras de tamaño n=10, n= 50, y n=100. Calcula el promedio y desviación estándar de cada muestra y visualiza en un histograma las distribuciones muestrales del promedio para cada tamaño muestral. Luego, responde: ¿Cómo cambia la distribución muestral del promedio conforme aumenta el tamaño de la muestra? ¿Qué sucede con la variabilidad de los promedios?

Simulación de muestras y sus medias:

Code

# Fijamos una semilla para que se reproduzcan siempre los mismos valores
set.seed(123)  

# Número de muestras
n_muestras <- 1000  

# Tamaños adicionales de cada muestra
tamano_muestras <- c(10, 50, 100)  

# Creamos una lista de resultados e incluimos directamente las medias simuladas anteriormente para n=30
resultados <- list("30" = list(medias = medias_muestras))  

# Generar nuevas muestras para n = 10, 50 y 100
for (n in tamano_muestras) {
  medias <- numeric(n_muestras)  
  
  for (i in 1:n_muestras) {
    muestra <- sample(data$mean_LossOfInt, size = n, replace = TRUE) 
    medias[i] <- mean(muestra) 
  }
  
  resultados[[as.character(n)]] <- list(medias = medias)
}

Histogramas de medias muestrales:

Code

# Uso mfrow para crear un lienzo con 2 filas y 2 columnas
par(mfrow = c(2, 2)) 

for (n in c(10, 30, 50, 100)) {  #
  hist(resultados[[as.character(n)]]$medias, breaks = 30, 
       main = paste("Distribución de Medias (n =", n, ")"),
       xlab = "Medias de las Muestras", 
       ylab = "Frecuencia")
}

plot

Descriptivos de medias muestrales:

Code

# Estadísticas de cada tamaño muestral
for (n in c(10, 30, 50, 100)) {
  cat("\nTamaño de muestra:", n)
  cat("\n  Media de medias:", mean(resultados[[as.character(n)]]$medias))
  cat("\n  Desviación estándar de medias:", sd(resultados[[as.character(n)]]$medias), "\n")
}

output


Tamaño de muestra: 10
  Media de medias: 25.04319
  Desviación estándar de medias: 4.469727 

Tamaño de muestra: 30
  Media de medias: 25.03424
  Desviación estándar de medias: 2.567227 

Tamaño de muestra: 50
  Media de medias: 25.0561
  Desviación estándar de medias: 2.036838 

Tamaño de muestra: 100
  Media de medias: 25.18631
  Desviación estándar de medias: 1.434738

Respuesta:

Haz clic aquí para expandir

Respuesta:

La distribución muestral del promedio se mantiene en una distribución relativamente normal al aumentar el n, pero la dispersión va disminuyendo al verse una desviación estándar menor al aumentar el n.

Intervalos de confianza

A continuación, construiremos intervalos de confianza para el promedio poblacional de los puntajes de pérdida de interés basados en las muestras simuladas. Para ello, elige una muestra simulada de tamaño n=50 y calcula el promedio y el intervalo de confianza al 95%. Finalmente, responde: ¿Qué significa el intervalo de confianza en términos de la estimación del promedio poblacional?

Cálculo de intervalo de confianza:

Code

# Fijamos una semilla para que se reproduzcan siempre los mismos valores
set.seed(123)  

# Seleccionar una muestra aleatoria de tamaño n = 50
muestra_50 <- sample(data$mean_LossOfInt, size = 50, replace = TRUE) 

# Desviación estándar de la pobelacion
sigma = 14.7

# Tamaño y promedio de la muestra
n = 50
x_barra <- mean(muestra_50)

# Calcular el valor Z para un 95%
Z <- abs( qnorm((1 - .95)/2) )

# Calcular error estándar
error_est <- sigma/sqrt(n)

# Calcular los límites
lim_inferior <- x_barra - ( Z * error_est )
lim_superior <- x_barra + ( Z * error_est )

# Intervalo de confianza al 95% redondeado
round(c(lim_inferior, lim_superior),2)

output

[1] 23.50 31.65

Respuesta:

Haz clic aquí para expandir

Respuesta:

El intervalo de confianza quiere decir que con un 95% de confianza el verdadero promedio poblacional está entre 23,50 y 31.65 puntos.

Clase 7

La lógica del contraste de hipótesis en estadística con una media

El modelo de regresión base, hipótesis nula, hipótesis alternativa y valor p

En primer lugar, crea un modelo nulo para predecir los puntajes de estado de ánimo deprimido en función del promedio de la muestra.

Formulación de modelo nulo:

Code

# Modelo nulo de estado de ánimo deprimido
Dep1 <- lm(data$mean_DeprMood ~ 1)

# Resumen del modelo de estado de ánimo deprimido
summary(Dep1)

output


Call:
lm(formula = data$mean_DeprMood ~ 1)

Residuals:
    Min      1Q  Median      3Q     Max 
-13.015  -9.785  -1.825   8.155  41.125 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   13.015      1.004   12.96   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 11.23 on 124 degrees of freedom

A continuación, complejizaremos este modelo introduciendo como variable predictora el puntaje de PSMU. ¿Qué hipótesis queremos probar al sumar este efecto? Y si la hipótesis nula es aquella que niega los efectos de la variable predictora postulada en la hipótesis alternativa ¿Cuál sería la hipótesis nula dentro de este contexto?

Respuesta:

Haz clic aquí para expandir

Respuesta:

Hipótesis nula (h0): La variable “PSMU” no predice los niveles de estado de ánimo deprimido de los estudiantes.

Hipótesis alternativa (h1): La variable “PSMU” predice los niveles de estado de ánimo deprimido de los estudiantes.

Calcula el valor p para el predictor PSMU del segundo modelo, que nos indicará si esta variable tiene un impacto significativo en los niveles de estado de ánimo deprimido.

Resultados de modelo de regresión simple:

Code

summary(lm(data$mean_DeprMood ~ 1 + data$mean_PSMU))

output


Call:
lm(formula = data$mean_DeprMood ~ 1 + data$mean_PSMU)

Residuals:
    Min      1Q  Median      3Q     Max 
-20.480  -8.147  -2.040   7.031  39.321 

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)     5.17479    2.33941   2.212 0.028813 *  
data$mean_PSMU  0.25075    0.06827   3.673 0.000356 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 10.7 on 123 degrees of freedom
Multiple R-squared:  0.09884,   Adjusted R-squared:  0.09151 
F-statistic: 13.49 on 1 and 123 DF,  p-value: 0.0003562

¿El valor p asociado al PSMU es menor a 0.05? Si es así, ¿qué podemos concluir sobre la hipótesis alternativa?

Respuesta:

Haz clic aquí para expandir

Respuesta:

El valor p es < 0.05, por lo los análisis nos permiten rechazar la hipótesis nula a la luz de los datos y favorecer la hipostesis alternativa. Esto nos lleva a decir que la variable “PSMU” es un predictor significativo del puntaje de estado de ánimo deprimido.

Clase 8

Comparando medias de dos grupos I

El modelo de regresión con predictor dicotómico

En este ejercicio, aplicarás un modelo de regresión lineal para analizar el efecto de un alto o bajo uso pasivo de redes sociales (PSMU) en los niveles de fatiga reportados por los participantes. Para ello,

Divide los puntajes de PSMU en dos grupos:
- Alto uso: si el puntaje de PSMU está por encima de la media de la muestra.
- Bajo uso: si el puntaje de PSMU está por debajo o igual a la media.

Recodificación de PSMU:

Code

# Creamos una nueva variable como factor vacía para guardar los valores recodificados
data$PSMU_Niveles2 <- factor(NA, levels = c("Bajo uso", "Alto uso"))

# Asignamos los valores recodificados
data$PSMU_Niveles2[data$mean_PSMU <= mean(data$mean_PSMU)] <- "Bajo uso"
data$PSMU_Niveles2[data$mean_PSMU > mean(data$mean_PSMU)] <- "Alto uso"

Crea una variable dicotómica (PSMU_dicotomico) que tome el valor de 1 para el grupo de alto uso y 0 para el grupo de bajo uso.

Creación de variable dummy:

Code

data$PSMU_dicotomico <- as.numeric(data$PSMU_Niveles2 == "Alto uso")

Ajusa un modelo de regresión lineal, usando la variable dicotómica como predictor y los niveles de fatiga como variable de respuesta, para evaluar si el alto uso pasivo de redes sociales predice mayores niveles de fatiga.

Modelo de regresión lineal:

Code

# Generamos la regresión lineal
summary(lm(data$mean_Fatigue ~ data$PSMU_dicotomico))

output


Call:
lm(formula = data$mean_Fatigue ~ data$PSMU_dicotomico)

Residuals:
    Min      1Q  Median      3Q     Max 
-36.292 -12.064  -0.394  12.126  44.146 

Coefficients:
                     Estimate Std. Error t value Pr(>|t|)    
(Intercept)            34.234      2.132   16.06   <2e-16 ***
data$PSMU_dicotomico    5.908      3.077    1.92   0.0572 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 17.19 on 123 degrees of freedom
Multiple R-squared:  0.0291,    Adjusted R-squared:  0.0212 
F-statistic: 3.686 on 1 and 123 DF,  p-value: 0.05719

Analiza los coeficientes del modelo y el valor p asociado al predictor PSMU_dicotomico para responder las siguientes preguntas: ¿Es estadísticamente significativo el efecto de un alto PSMU sobre la fatiga? ¿Cómo interpretas la relación entre el uso pasivo de redes y los síntomas de fatiga según el coeficiente de PSMU_dicotomico?

Respuesta:

Haz clic aquí para expandir

Respuesta:

Intercepto (β₀ = 34.23): Representa el puntaje promedio de fatiga en el grupo de bajo uso pasivo de redes sociales. Es el punto de referencia con el que se compara el grupo de alto uso pasivo. Pendiente (β₁ = 5.91, p = 0.057): Indica que las personas con alto uso pasivo de redes sociales puntúan, en promedio, 5.91 puntos más en fatiga que aquellas con uso pasivo bajo. Sin embargo, el valor p es 0.057, ligeramente mayor al umbral de 0.05, por lo que no se considera estadísticamente significativo. Esto significa que no se puede afirmar con certeza que el uso pasivo alto tenga un efecto real sobre los niveles de fatiga.

Clase 9

Comparando medias de dos grupos II

Comparación con Prueba z

El estudio sugiere una relación entre el uso pasivo de redes sociales y problemas de concentración. En este ejercicio, compararemos los niveles de concentración entre los participantes con alto y bajo uso pasivo de redes sociales (PSMU), asumiendo que la desviación estándar de la muestra puede representar la desviación estándar de la población.

Calcula la media y desviación estándar de los puntajes de concentración para los grupos de alto y bajo uso de PSMU (usa la variable dicotómica que creaste para el ejercicio anterior).

Descriptivos según grupo:

Code

# Se utiliza la función 'describeBy' para obtener los descriptivos según grupo.
describeBy(data$mean_Concentrat, group=data$PSMU_dicotomico)

output


 Descriptive statistics by group 
group: 0
    vars  n  mean    sd median trimmed   mad min max range skew kurtosis   se
X1*    1 65 31.52 18.26     31   31.42 23.72   1  63    62 0.05    -1.26 2.26
------------------------------------------------------------ 
group: 1
    vars  n  mean    sd median trimmed  mad min max range  skew kurtosis  se
X1*    1 60 30.08 17.04   30.5    30.1 21.5   1  59    58 -0.01    -1.24 2.2

Realiza una prueba z para comparar las medias de concentración entre los dos grupos.

Prueba Z:

Code

# Almacenar valores relevantes
media1 <- 24.52
media2 <- 28.78
sd1 <- 14.61
sd2 <- 13.9
n1 <- 65
n2 <- 60

# Calcular el estadístico z
z <- (media1 - media2) / sqrt((sd1^2 / n1) + (sd2^2 / n2))
z

output

[1] -1.67039

Code

# Calcular el valor p (prueba bilateral)
p_valor <- 2 * (1 - pnorm(abs(z)))
p_valor

output

[1] 0.09484227

Utiliza un boxplot para visualizar los resultados y evalúa si hay diferencias significativas entre los grupos de alto y bajo uso.

Boxplot:

Code

boxplot(data$mean_Concentrat ~ data$PSMU_dicotomico, 
        names = c("Bajo", "Alto"),
        main = "Comparacion de niveles de concentración según PSMU",
        xlab = "PSMU",
        ylab = "Puntajes de concentración")

plot

Respuesta:

Haz clic aquí para expandir

Respuesta:

No existe una diferencia estadísticamente significativa. Esto queda en evidencia si miramos el estadístico Z, el cual tuvo un valor de -1.67 y el valor p, el cual fue mayor a 0.05, considerándose no significativa la diferencia en términos estadísticos.

Comparación con prueba t

En este ejercicio, compararemos los niveles de fatiga entre los participantes con alto uso pasivo (PSMU) y aquellos con alto uso activo (ASMU). Para ello:

Clasifica a los participantes en dos grupos según su tipo de uso de redes sociales:
- Uso Pasivo Predominante (PSMU): Participantes con un puntaje de PSMU más alto que ASMU.
- Uso Activo Predominante (ASMU): Participantes con un puntaje de ASMU más alto que PSMU.

Creación de nueva variable:

Code

# Creamos una nueva variable como factor vacía para guardar los valores recodificados
data$Uso_Predominante <- factor(NA, levels = c("Pasivo", "Activo"))

# Asignamos los valores recodificados
data$Uso_Predominante[data$mean_PSMU > data$mean_ASMU] <- "Pasivo"
data$Uso_Predominante[data$mean_PSMU < data$mean_ASMU] <- "Activo"

Realiza una prueba t de Student para comparar las medias de fatiga entre el grupo de uso pasivo predominante (PSMU) y el de uso activo predominante (ASMU), asumiendo varianzas iguales.

Prueba t:

Code

t.test(data$mean_Fatigue ~ data$Uso_Predominante, var.equal = TRUE)

output


    Two Sample t-test

data:  data$mean_Fatigue by data$Uso_Predominante
t = -0.59365, df = 123, p-value = 0.5538
alternative hypothesis: true difference in means between group Pasivo and group Activo is not equal to 0
95 percent confidence interval:
 -9.387276  5.055732
sample estimates:
mean in group Pasivo mean in group Activo 
            36.54989             38.71567

Ahora, vuelve a realizar una prueba t de dos muestras independientes para comparar los niveles de fatiga entre el grupo de alto uso pasivo y el grupo de alto uso activo de redes sociales, esta vez sin asumir varianzas iguales.

Prueba t:

Code

t.test(data$mean_Fatigue ~ data$Uso_Predominante, var.equal = FALSE)

output


    Welch Two Sample t-test

data:  data$mean_Fatigue by data$Uso_Predominante
t = -0.61539, df = 51.726, p-value = 0.541
alternative hypothesis: true difference in means between group Pasivo and group Activo is not equal to 0
95 percent confidence interval:
 -9.228803  4.897259
sample estimates:
mean in group Pasivo mean in group Activo 
            36.54989             38.71567

Realiza un boxplot para visualizar los resultados y evaluar si hay diferencias significativas en el nivel de fatiga entre los dos grupos.

Boxplot:

Code

boxplot(data$mean_Fatigue ~ data$Uso_Predominante, 
        names=c("Pasivo", "Activo"),
        main = "Comparacion de niveles de fatiga según uso predominante",
        xlab = "Tipo de uso predominante",
        ylab = "Puntajes de fatiga")

plot

¿Existen diferencias en los resultados entre la prueba t con varianzas iguales y la que no asume varianzas iguales? ¿Cómo afectan los grados de libertad a los resultados? ¿Proporcionan ambos enfoques resultados consistentes sobre el efecto de fatiga en los distintos tipos de uso de redes?

Respuesta:

Haz clic aquí para expandir

Respuesta:

Estadístico t: La prueba con varianzas iguales da t = -0.59365, mientras que la prueba sin asumir varianzas iguales da t= -0.61539. La diferencia es muy pequeña. Grados de libertad (df): La prueba con varianzas iguales tiene df= 123, mientras que la prueba sin asumir varianzas iguales tiene df= 51.726. La segunda prueba ajusta los grados de libertad usando una corrección estadística, lo cual suele reducirlos en parte. A pesar de las diferencias en los grados de libertad y el método de cálculo, ambas pruebas muestran que la diferencia entre los grupos no es estadísticamente significativa. Esto indica que los dos enfoques proporcionan resultados consistentes y que el tipo de uso predominante de redes sociales (activo o pasivo) no está asociado con niveles significativamente distintos de fatiga en este caso.

Comparación con ANOVA

En este ejercicio, compararemos los niveles de sentimiento de inferioridad entre los participantes con alto uso pasivo (PSMU) y aquellos con alto uso activo (ASMU). Para ello, utiliza la misma variable creada en el ejercicio anterior.

Realiza un ANOVA para comparar las medias de sentimiento de inferioridad entre los grupos de bajo y alto uso de PSMU y ASMU.

ANOVA:

Code

# Se genera un objeto
anova_loss = aov(data$mean_LossOfInt ~ data$Uso_Predominante)

# Ahora para saber el reporte del anova usamos summary del objeto
summary(anova_loss)

output

                       Df Sum Sq Mean Sq F value Pr(>F)
data$Uso_Predominante   1     53   52.87   0.243  0.623
Residuals             123  26761  217.57

Genera un boxplot para visualizar las diferencias en los niveles de sentimiento de inferioridad entre los grupos de bajo y alto uso de PSMU y ASMU.

Boxplot:

Code

boxplot(data$mean_LossOfInt ~ data$Uso_Predominante, 
        names=c("Pasivo", "Activo"),
        main = "Comparacion de niveles de pérdida de interés según uso predominante",
        xlab = "Tipo de uso predominante",
        ylab = "Puntajes de pérdida de interés")

plot

Evalúa si existen diferencias significativas en los niveles de sentimiento de inferioridad entre los grupos de uso pasivo y activo de redes sociales. Interpreta el valor p y discute si el uso de redes sociales (activo o pasivo) está asociado con los sentimientos de inferioridad.

Respuesta:

Haz clic aquí para expandir

Respuesta:

La prueba ANOVA no mostró diferencias estadísticamente significativas en los niveles de sentimiento de inferioridad según el tipo de uso predominante de redes sociales (F(1, 123) = 0.24, p = .623). Esto indica que no existen diferencias significativas entre quienes usan redes sociales de forma pasiva y quienes lo hacen de forma activa en relación con sus niveles de sentimiento de inferioridad. Estos resultados sugieren que el tipo de uso predominante de redes sociales no está asociado de manera significativa con el sentimiento de inferioridad reportado por los participantes.

Clase 10 y 11

Comparando medias de tres o más grupos

El modelo de regresión con un predictor politómico

El nivel de uso activo de redes sociales (ASMU) podría estar relacionado con la pérdida de interés, ya que una mayor interacción podría asociarse con sobrecarga informativa. En este ejercicio, analizaremos si existen diferencias significativas en los niveles de fatiga en función del nivel de ASMU. Para ello,

Clasifica ASMU en tres niveles (bajo, medio y alto).
Crea variables dummy para representar los tres niveles de ASMU (seleccionando uno como categoría de referencia).
Evalúa los coeficientes de las variables dummy en la regresión para determinar si existen diferencias significativas en los niveles de pérdida de interés según el nivel de uso activo de redes sociales (ASMU). Además, interpreta cada coeficiente de regresión para ver cómo cambia la pérdida de interés en comparación con el nivel de referencia de ASMU.

Code

#evaluación: 

data$ASMU_TresNiveles <- cut(data$mean_ASMU,
                             breaks = quantile(data$mean_ASMU, probs = c(0, 1/3, 2/3, 1), na.rm = TRUE),
                             labels = c("Bajo", "Medio", "Alto"),
                             include.lowest = TRUE)

table(data$ASMU_TresNiveles)

output


 Bajo Medio  Alto 
   42    41    42

Code

#| code-fold: true

# Creamos las variables dummy con el nivel "bajo" como referencia
data$dummy_ASMU_Medio <- ifelse(data$ASMU_TresNiveles == "Medio", 1, 0)
data$dummy_ASMU_Alto <- ifelse(data$ASMU_TresNiveles == "Alto", 1, 0)

#evaluamos los coeficientes: 

#| code-fold: true

modelo_lossint <- lm(mean_LossOfInt ~ dummy_ASMU_Medio + dummy_ASMU_Alto, data = data)
summary(modelo_lossint)

output


Call:
lm(formula = mean_LossOfInt ~ dummy_ASMU_Medio + dummy_ASMU_Alto, 
    data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-25.735 -10.975  -1.255   9.555  49.425 

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)        20.795      2.235   9.306 6.83e-16 ***
dummy_ASMU_Medio    6.982      3.180   2.196   0.0300 *  
dummy_ASMU_Alto     6.219      3.160   1.968   0.0514 .  
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 14.48 on 122 degrees of freedom
Multiple R-squared:  0.0457,    Adjusted R-squared:  0.03005 
F-statistic: 2.921 on 2 and 122 DF,  p-value: 0.05766

Respuesta:

Haz clic aquí para expandir

Respuesta:

El análisis muestra que los individuos con un nivel medio de uso activo de redes sociales (ASMU) presentan una pérdida de interés significativamente mayor (β = 6.98, p = 0.030) en comparación con aquellos con un nivel bajo. Por otro lado, quienes tienen un nivel alto de ASMU también presentan un mayor nivel de pérdida de interés (β = 6.22), pero esta diferencia no resulta estadísticamente significativa (p = 0.051). En conjunto, los resultados sugieren que el nivel de uso activo de redes sociales influye en los síntomas de pérdida de interés, siendo el nivel medio el que muestra diferencias significativas respecto del nivel bajo.

Dicotomizando una variable politómica

En este ejercicio, analizaremos cómo los niveles de estrés afectan el uso activo de redes sociales (ASMU). Para ello, se trabajará con la variable estrés recodificada en grupos.

Calcula los cuartiles de la variable estrés y crea una nueva variable dicotómica agrupando los dos cuartiles inferiores como “bajo estrés” y los dos superiores como “alto estrés”.

Code

# Se utiliza la función 'describeBy' para obtener los descriptivos según grupo.
describeBy(data$mean_Fatigue, group=data$PSMU_Niveles)

output


 Descriptive statistics by group 
group: Bajo uso
    vars  n mean    sd median trimmed   mad min max range skew kurtosis   se
X1*    1 41   21 11.98     21      21 14.83   1  41    40    0    -1.29 1.87
------------------------------------------------------------ 
group: Medio uso
    vars  n mean    sd median trimmed   mad min max range skew kurtosis   se
X1*    1 42 21.5 12.27   21.5    21.5 15.57   1  42    41    0    -1.29 1.89
------------------------------------------------------------ 
group: Alto uso
    vars  n mean    sd median trimmed   mad min max range skew kurtosis   se
X1*    1 42 21.5 12.27   21.5    21.5 15.57   1  42    41    0    -1.29 1.89

Compara los niveles promedio de ASMU entre los grupos de estrés (bajo vs. alto).
Representa las diferencias en el uso activo de redes sociales mediante un gráfico de caja y bigotes (boxplot).
Si el ANOVA muestra diferencias significativas, realiza una prueba post-hoc (como Tukey) para identificar qué niveles específicos de estrés afectan el uso activo de redes sociales.
Interpreta los resultados: ¿Existe una relación significativa entre el nivel de estrés y el uso activo de redes sociales?

Code

#Calcula los cuartiles de la variable estrés y crea una nueva variable dicotómica agrupando los dos cuartiles inferiores como "bajo estrés" y los dos superiores como "alto estrés".

#Primero, calculamos los cuartiles
cuartiles <- quantile(data$mean_Stress, probs = c(0.25, 0.5, 0.75), na.rm = TRUE)

#Luego creamos la variable dicotómica, con el segundo cuartil como corte
data$estres_dicotomico <- ifelse(data$mean_Stress <= cuartiles[2], 
                                "Bajo estrés", 
                          
                                "Alto estrés")

Compara los niveles promedio de ASMU entre los grupos de estrés (bajo vs. alto).

Code

anova_estres <- aov(mean_ASMU ~ estres_dicotomico, data = data)
summary(anova_estres)

output

                   Df Sum Sq Mean Sq F value   Pr(>F)    
estres_dicotomico   1   3611    3611   17.25 6.09e-05 ***
Residuals         123  25751     209                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Representa las diferencias en el uso activo de redes sociales mediante un gráfico de caja y bigotes (boxplot).

Code

boxplot(mean_ASMU ~ estres_dicotomico,
        data = data,
        main = "Uso activo de redes sociales según nivel de estrés",
        xlab = "Nivel de estrés",
        ylab = "Uso activo de redes sociales (ASMU)")

plot

Si el ANOVA muestra diferencias significativas, realiza una prueba post-hoc (como Tukey) para identificar qué niveles específicos de estrés afectan el uso activo de redes sociales.

Code

TukeyHSD(anova_estres)

output

  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = mean_ASMU ~ estres_dicotomico, data = data)

$estres_dicotomico
                             diff       lwr       upr    p adj
Bajo estrés-Alto estrés -10.74925 -15.87283 -5.625681 6.09e-05

Interpreta los resultados: ¿Existe una relación significativa entre el nivel de estrés y el uso activo de redes sociales?

Respuesta:

Haz clic aquí para expandir

Respuesta:

La prueba ANOVA mostró diferencias estadísticamente significativas en el uso activo de redes sociales (ASMU) según el nivel de estrés reportado por los participantes (F(1, 123) = 17.25, p < .001). Asimismo, la prueba post hoc de Tukey indicó que las personas con alto estrés difieren significativamente de quienes presentan bajo estrés. Estos resultados sugieren que un mayor nivel de estrés está asociado con un mayor uso activo de redes sociales.

Clase 12

Regresión múltiple I

Dos variables dicotómicas (e interacción)

El nivel de uso activo de redes sociales (ASMU) y los niveles de soledad pueden influir conjuntamente en los niveles de fatiga de los participantes. Este ejercicio tiene como objetivo explorar cómo la combinación de estos factores afecta la percepción de fatiga. Para ello,

Dicotomiza las variables:
- Codifica ASMU en dos niveles: alto (1) y bajo (0).
- Codifica soledad en dos niveles: alto (1) y bajo (0).
Genera una variable de interacción entre ASMU y soledad.
Ajusta un modelo de regresión múltiple en el que fatiga sea la variable dependiente, y ASMU, soledad, y la interacción entre ambas sean las variables independientes.
Evalúa los coeficientes de las variables y de la interacción para determinar: (1) Si el uso activo de redes sociales tiene un efecto significativo sobre los niveles de fatiga, (2) si los niveles de soledad afectan significativamente los niveles de fatiga, y (3) si la interacción entre el uso activo de redes y la soledad tiene un efecto significativo sobre la fatiga.

Code

# Calcular las medianas de cada variable
mediana_ASMU <- median(data$mean_ASMU, na.rm = TRUE)
mediana_Soledad <- median(data$mean_Loneliness, na.rm = TRUE)

# Crear variable dicotómica para ASMU
data$ASMU_dicotomico2 <- ifelse(data$mean_ASMU >= mediana_ASMU, 1, 0)

# Crear variable dicotómica para Soledad
data$Soledad_dicotomico <- ifelse(data$mean_Loneliness >= mediana_Soledad, 1, 0)

Genera una variable de interacción entre ASMU y soledad.

Code

data$interaccion_ASMU_Soledad <- data$ASMU_dicotomico2 * data$Soledad_dicotomico

Ajusta un modelo de regresión múltiple en el que fatiga sea la variable dependiente, y ASMU, soledad, y la interacción entre ambas sean las variables independientes.

Code

modelo_fatiga <- lm(mean_Fatigue ~ ASMU_dicotomico2 + Soledad_dicotomico + interaccion_ASMU_Soledad, data = data)

summary(modelo_fatiga)

output


Call:
lm(formula = mean_Fatigue ~ ASMU_dicotomico2 + Soledad_dicotomico + 
    interaccion_ASMU_Soledad, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-34.913 -11.065  -0.345   9.895  40.285 

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept)                30.125      2.520  11.954  < 2e-16 ***
ASMU_dicotomico2            1.760      4.437   0.397 0.692364    
Soledad_dicotomico         15.178      4.437   3.421 0.000853 ***
interaccion_ASMU_Soledad   -4.628      6.263  -0.739 0.461385    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 16.33 on 121 degrees of freedom
Multiple R-squared:  0.1378,    Adjusted R-squared:  0.1164 
F-statistic: 6.444 on 3 and 121 DF,  p-value: 0.0004384

Evalúa los coeficientes de las variables y de la interacción para determinar: (1) Si el uso activo de redes sociales tiene un efecto significativo sobre los niveles de fatiga, (2) si los niveles de soledad afectan significativamente los niveles de fatiga, y (3) si la interacción entre el uso activo de redes y la soledad tiene un efecto significativo sobre la fatiga.

Respuesta:

Haz clic aquí para expandir

Respuesta:

El modelo muestra que el uso activo de redes sociales (ASMU) no tiene un efecto significativo en los niveles de fatiga (p = 0.692). En cambio, los niveles altos de soledad sí afectan significativamente la fatiga, ya que quienes presentan alta soledad reportan en promedio 15.18 puntos más de fatiga que quienes tienen baja soledad (p < 0.001). La interacción entre ASMU y soledad no es significativa (p = 0.461), lo que indica que el efecto de la soledad sobre la fatiga no varía según el nivel de uso activo de redes sociales. En resumen, la fatiga está significativamente asociada con la soledad, pero ni el uso activo de redes sociales ni su interacción con la soledad tienen un impacto significativo en la fatiga.

Clase 13

Regresión múltiple II

Una variable cuantitativa y una dicotómica (e interacción)

Queremos analizar cómo los sentimientos de inferioridad pueden variar en función de la frecuencia de uso pasivo de redes sociales (PSMU) y los niveles de fatiga. Para ello,

Dicotomiza la Variable Fatiga: Codifica fatiga como alto (1) y bajo (0) según la mediana como punto de corte.

Code

# Creamos una nueva variable vacía para guardar los valores recodificados
data$Fatiga_dicotomico <- NA

# Asignamos los valores recodificados
data$Fatiga_dicotomico[data$mean_Fatigue <= median(data$mean_Fatigue)] <- 0
data$Fatiga_dicotomico[data$mean_Fatigue > median(data$mean_Fatigue)] <- 1

Ajusta un modelo de regresión múltiple donde la variable respuesta es sentimientos de inferioridad y las variables predictoras son PSMU (cuantitativa), nivel de fatiga (dicotómica), y su interacción.

Code

Modelo_inf <- lm(mean_Inferior ~ 1 + mean_PSMU + Fatiga_dicotomico + mean_PSMU:Fatiga_dicotomico, data = data)

summary((Modelo_inf))

output


Call:
lm(formula = mean_Inferior ~ 1 + mean_PSMU + Fatiga_dicotomico + 
    mean_PSMU:Fatiga_dicotomico, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-20.584  -6.892  -2.273   5.343  37.818 

Coefficients:
                            Estimate Std. Error t value Pr(>|t|)   
(Intercept)                 0.587145   2.573416   0.228  0.81991   
mean_PSMU                   0.223904   0.075712   2.957  0.00373 **
Fatiga_dicotomico           5.291398   4.519964   1.171  0.24403   
mean_PSMU:Fatiga_dicotomico 0.009152   0.131536   0.070  0.94465   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 9.661 on 121 degrees of freedom
Multiple R-squared:  0.1783,    Adjusted R-squared:  0.1579 
F-statistic:  8.75 on 3 and 121 DF,  p-value: 2.679e-05

Crea un gráfico que permita visualizar cómo los niveles de sentimientos de inferioridad varían en función de la frecuencia de PSMU y los niveles de fatiga.

Code

plotSlopes(Modelo_inf, 

  plotx = "mean_PSMU", 
  modx = "Fatiga_dicotomico",  
  interval = "conf"
)

plot

Evalúa los coeficientes de las variables y de la interacción para describir: (1) Si el uso pasivo de redes sociales tiene un efecto significativo sobre los sentimientos de inferioridad, (2) si los niveles de fatiga afectan significativamente los sentimientos de inferioridad, y (3) si la interacción entre el uso pasivo de redes y la fatiga es significativa en la predicción de los sentimientos de inferioridad.

Respuesta:

Haz clic aquí para expandir

Respuesta:

El uso pasivo de redes sociales sí tiene un efecto significativo sobre los sentimientos de inferioridad. El coeficiente para “mean_PSMU” es 0.2239, con un valor p = 0.00373, lo que indica que el uso pasivo de redes sociales predice significativamente mayores niveles de sentimiento de inferioridad. Específicamente, por cada unidad de aumento en el uso pasivo, el sentimiento de inferioridad aumenta en promedio 0.22 puntos, manteniendo constantes los otros factores.
Los niveles de fatiga no afectan significativamente los sentimientos de inferioridad. El coeficiente de “Fatiga_dicotomico” es 5.291, pero su valor p = 0.24403, lo cual no es estadísticamente significativo (p > 0.05). Esto significa que, considerando el resto del modelo, el hecho de estar fatigado o no no predice de manera significativa el nivel de sentimiento de inferioridad.
La interacción entre el uso pasivo de redes y la fativa no es significativa para predecir sentimientos de inferioridad, dado que el coeficiente de la interacción (“mean_PSMU:Fatiga_dicotomico”) es 0.00915, con un valor p = 0.94465 (p > 0.05). Esto indica que el efecto del uso pasivo sobre el sentimiento de inferioridad no depende del nivel de fatiga.

Clase 14

Medidas de asociación de dos variables categóricas

Chi-cuadrado

A continuación responderemos a la pregunta ¿Existe una asociación significativa entre el nivel de uso activo de redes sociales (ASMU) y el estado de ánimo depresivo? Para ello:

Construye una tabla que muestre la frecuencia de las diferentes combinaciones entre el nivel de uso activo de redes sociales (ASMU) y el nivel de estado de ánimo depresivo
- Clasifica ASMU en dos niveles (bajo y alto) según el promedio de la muestra.
- Clasifica el estado de ánimo depresivo en dos niveles (bajo y alto) usando la mediana como punto de corte.

Code

# Creamos dos nuevas variables vacías como factor para guardar los valores recodificados
data$ASMU_Niveles <- factor(NA, levels = c("Bajo", "Alto"))
data$Dep_Niveles <- factor(NA, levels = c("Bajo", "Alto"))

# Asignamos los valores recodificados
data$ASMU_Niveles[data$mean_ASMU <= mean(data$mean_ASMU)] <- "Bajo"
data$ASMU_Niveles[data$mean_ASMU > mean(data$mean_ASMU)] <- "Alto"

data$Dep_Niveles[data$mean_DeprMood <= median(data$mean_DeprMood)] <- "Bajo"
data$Dep_Niveles[data$mean_DeprMood > median(data$mean_DeprMood)] <- "Alto"

Luego, realiza la prueba de chi-cuadrado para analizar si hay una asociación significativa entre ambas variables categóricas.

Code

# Guardamos la table de contingencia
Tabla_contingencia <- table(data$ASMU_Niveles, data$Dep_Niveles)

# Y realizamos un análisis de Chi cuadrado sobre esta tabla
chisq.test(Tabla_contingencia)

output


    Pearson's Chi-squared test with Yates' continuity correction

data:  Tabla_contingencia
X-squared = 13.454, df = 1, p-value = 0.0002444

Finalmente, evalúa el valor p de la prueba y determina si existe una asociación significativa entre el nivel de uso activo de redes sociales y el estado de ánimo deprimido.

Respuesta:

Haz clic aquí para expandir

Respuesta:

El resultado de la prueba chi-cuadrado (p < 0.05) sugiere que hay evidencia suficiente para rechazar la hipótesis de que no hay relación entre el nivel de uso activo de redes sociales y el estado de ánimo deprimido. A la luz de las observaciones, no podemos afirmar que las diferencias observadas se deban al azar. La distribución de personas sugiere que quienes tienen un uso activo alto de redes sociales presentan más probabilidades de tener un nivel alto de estado de ánimo deprimido, en comparación con quienes tienen un uso activo bajo.