Apunte 08: Comparación de medias de dos grupos utilizando regresión
Author
David Torres Irribarra e Isidora Naranjo López
Published
May 16, 2024
Comparación de medias de dos grupos
A continuación, veremos la equivalencia entre el uso de regresión y prueba t para 2 muestras independientes mediante un ejemplo.
Para ello, codificaremos variables categóricas con el método “dummy coding” o de variable indicadora. Aquí la variable indicadora tiene dos valores:
0 \(\rightarrow\) ausencia del atributo
1 \(\rightarrow\) presencia del atributo.
Ejemplo: tratamiento para estrés laboral
Consideremos un ejemplo: Se diseña un tratamiento para reducir el estrés laboral (estres_lab) y se realiza un experimento asignando a 50 participantes al azar al tratamiento (tratamiento = 1) y 50 participantes al grupo control (tratamiento = 0).
Se utiliza un análisis de regresión para determinar si existen diferencias en los resultados.
Debemos determinar nuestra hipótesis nula y alternativa.
H~0~: no existen diferencias en los puntaje promedio de el grupo control y el grupo tratamiento. En otras palabras, ambos promedios son iguales.
H~1~: existen diferencias en los puntaje promedio de el grupo control y el grupo tratamiento. En otras palabras, ambas medias son diferentes.
Si quieren reproducir este ejemplo localmente pueden descargar los datos aquí: Descargar archivo CSV
# Generamos la regresión linealsummary(lm(sample1$estres_lab ~ sample1$tratamiento))
Call:
lm(formula = sample1$estres_lab ~ sample1$tratamiento)
Residuals:
Min 1Q Median 3Q Max
-2.33583 -0.60482 -0.02953 0.62957 2.49387
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.6619 0.1372 55.86 <2e-16 ***
sample1$tratamiento -2.5528 0.1940 -13.16 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.97 on 98 degrees of freedom
Multiple R-squared: 0.6386, Adjusted R-squared: 0.6349
F-statistic: 173.2 on 1 and 98 DF, p-value: < 2.2e-16
Podemos observar que el intercepto es 7.6619, en este contexto esa es la media de la variable de la categoría de referencia (tratamiento = 0) porque es el punto en que la recta intercepta con el eje y (cuando el valor de x es 0).
A su vez, vemos que la pendiente de la recta es -2.5528, y esta es la distancia entre el puntaje de estrés laboral del grupo de tratamiento y control. El signo negativo indica que la media condicional del grupo de tratamiento (1) es más baja que la del grupo control (0).
Sabiendo que hay una diferencia de 2.5528 entre los dos grupos, podemos querer calcular el intervalo de confianza de esta diferencia para evaluar si este contiene como posibilidad que la diferencia sea igual a 0. Para calcular dicho intervalo necesitamos el valor crítico de t para los grados de libertad correspondientes y el nivel de confianza deseado.
Si queremos saber el valor crítico de t para una prueba bilateral con 98 grados de libertad y un determinado nivel de confianza (alfa= 0.05, por ende queremos el valor de alfa/2, 0.025 en este caso), podemos usar este comando:
qt(.975, 98)
[1] 1.984467
Teniendo este valor podemos calcular el intervalo de confianza de la diferencia entre el grupo control y tratamiento. Es relevante esto porque así podremos ver si es que, con cierto nivel de confianza, está contenido el valor 0 (hipótesis nula: que no existen diferencias entre el grupo control y tratamiento en la variable estrés laboral). Si el valor 0 no está contenido, entonces rechazaremos la hipótesis nula.
El intervalo se calcula tomando el valor observado de la diferencia entre el grupo control y tratamiento: 2.5528 (le quitamos el signo porque es la distancia entre estos dos puntos).
A este valor le tenemos que restar y sumar el valor t multiplicado por el error estándar:
Podemos ver que en nuestro intervalo de confianza con un alpha de 0.025 no está contenido el 0, por lo que se rechaza la hipótesis nula de que no hay diferencias entre ambos grupos.
Este mismo proceso lo podemos hacer con el comando t.test:
Two Sample t-test
data: sample1$estres_lab by sample1$tratamiento
t = 13.16, df = 98, p-value < 2.2e-16
alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
95 percent confidence interval:
2.167881 2.937816
sample estimates:
mean in group 0 mean in group 1
7.661886 5.109037
La prueba t nos muestra que el estadístico t (diferencia de medias / error estándar) es 13.16, lo que nos indica una diferencia de medias mucho mas grande que el error estándar.
Al ver qué tan extremo es este valor t podemos compararlo con el valor crítico que habíamos calculado anteriormente (t = |1.984467|) y podemos ver que este excede el rango de valores críticos, y por lo tanto, hay evidencia para rechazar la hipótesis nula con un grado de confianza de 95%.
Podemos corroborar que esta decision es consistente con lo que observamos al ver nuestro p-value, el cual es muy pequeño (menor al alpha de 0.5) y con el intervalo de confianza que nos da el output de R (el mismo que habíamos calculado anteriormente) que no contiene el 0.