Subject Symptom.Score..DV. Sex..IV1. Diagnostic..IV2.
1 1 3 M None
2 2 5 M None
3 3 6 M None
4 4 8 M None
5 5 9 M None
6 6 11 M None
7 7 19 M Depressed
8 8 15 M Depressed
9 9 16 M Depressed
10 10 16 M Depressed
11 11 19 M Depressed
12 12 17 M Depressed
13 13 3 F None
14 14 5 F None
15 15 4 F None
16 16 6 F None
17 17 8 F None
18 18 10 F None
19 19 24 F Depressed
20 20 24 F Depressed
21 21 22 F Depressed
22 22 23 F Depressed
23 23 19 F Depressed
24 24 20 F Depressed
Vamos a crear las versiones “dummy” de las variables Sexo y Diagnosis (esta última nos indica si la persona se encuentra deprimida o no).
#Cambiamos el nombre de las columnascolnames(table11.1) <-c("Id","PuntajeSint","Sexo","Diagnosis")table11.1
Id PuntajeSint Sexo Diagnosis
1 1 3 M None
2 2 5 M None
3 3 6 M None
4 4 8 M None
5 5 9 M None
6 6 11 M None
7 7 19 M Depressed
8 8 15 M Depressed
9 9 16 M Depressed
10 10 16 M Depressed
11 11 19 M Depressed
12 12 17 M Depressed
13 13 3 F None
14 14 5 F None
15 15 4 F None
16 16 6 F None
17 17 8 F None
18 18 10 F None
19 19 24 F Depressed
20 20 24 F Depressed
21 21 22 F Depressed
22 22 23 F Depressed
23 23 19 F Depressed
24 24 20 F Depressed
#Creamos las variables "dummy"table11.1$Mujer <-as.numeric(table11.1$Sexo =="F")table11.1$Depresion <-as.numeric(table11.1$Diagnosis =="Depressed")table11.1
Id PuntajeSint Sexo Diagnosis Mujer Depresion
1 1 3 M None 0 0
2 2 5 M None 0 0
3 3 6 M None 0 0
4 4 8 M None 0 0
5 5 9 M None 0 0
6 6 11 M None 0 0
7 7 19 M Depressed 0 1
8 8 15 M Depressed 0 1
9 9 16 M Depressed 0 1
10 10 16 M Depressed 0 1
11 11 19 M Depressed 0 1
12 12 17 M Depressed 0 1
13 13 3 F None 1 0
14 14 5 F None 1 0
15 15 4 F None 1 0
16 16 6 F None 1 0
17 17 8 F None 1 0
18 18 10 F None 1 0
19 19 24 F Depressed 1 1
20 20 24 F Depressed 1 1
21 21 22 F Depressed 1 1
22 22 23 F Depressed 1 1
23 23 19 F Depressed 1 1
24 24 20 F Depressed 1 1
Regresión con dos variables dicotómicas
Recordando regresión con variables indicadoras
Como hemos visto anteriormente en clases y ayudantía, podemos utilizar las variables “dummy” para realizar regresiones en las cuales se evalúa cómo la pertenencia a diferentes grupos de una variable categórica puede predecir diferencias estadísticamente significativas en la media de una variable continua.
Por ejemplo, podemos revisar si en nuestra base el ser de un sexo u otro implica diferencias estadísticamente significativas entre las medias del puntaje de sintomatología (variable “PuntajeSint”).
modMuj <-lm(PuntajeSint ~1+ Mujer, data = table11.1)summary(modMuj)
Call:
lm(formula = PuntajeSint ~ 1 + Mujer, data = table11.1)
Residuals:
Min 1Q Median 3Q Max
-11.00 -6.25 1.00 6.25 10.00
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 12.000 2.114 5.676 1.04e-05 ***
Mujer 2.000 2.990 0.669 0.511
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 7.324 on 22 degrees of freedom
Multiple R-squared: 0.01993, Adjusted R-squared: -0.02461
F-statistic: 0.4475 on 1 and 22 DF, p-value: 0.5105
#Podemos graficar estos resultadosplotSlopes(modMuj, plotx ="Mujer", interval ="conf",xlim =c(-.2,1.2),xaxt="n")axis(1, at=c(0,1))
Aparte, podemos utilizar el mismo método para revisar si las diferencias de medias del puntaje de sintomatología son significativas entre el grupo deprimido y el grupo no deprimido.
modDep <-lm(PuntajeSint ~1+ Depresion, data = table11.1)summary(modDep)
Call:
lm(formula = PuntajeSint ~ 1 + Depresion, data = table11.1)
Residuals:
Min 1Q Median 3Q Max
-4.5 -2.5 -0.5 2.5 4.5
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.5000 0.8483 7.662 1.20e-07 ***
Depresion 13.0000 1.1997 10.836 2.75e-10 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.939 on 22 degrees of freedom
Multiple R-squared: 0.8422, Adjusted R-squared: 0.835
F-statistic: 117.4 on 1 and 22 DF, p-value: 2.749e-10
Realizando una regresión con dos variables categóricas de dos categorías como predictoras
También podemos evaluar el efecto que tendrían las dos variables dicotómicas utilizadas anteriormente sobre el puntaje de sintomatología al incluir a ambas en un mismo modelo de regresión múltiple.
modeloPpal <-lm(PuntajeSint ~1+ Mujer + Depresion, data = table11.1)summary(modeloPpal)
Call:
lm(formula = PuntajeSint ~ 1 + Mujer + Depresion, data = table11.1)
Residuals:
Min 1Q Median 3Q Max
-4.5 -2.5 0.0 2.5 5.5
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.500 0.994 5.533 1.72e-05 ***
Mujer 2.000 1.148 1.742 0.0961 .
Depresion 13.000 1.148 11.326 2.10e-10 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.812 on 21 degrees of freedom
Multiple R-squared: 0.8621, Adjusted R-squared: 0.849
F-statistic: 65.66 on 2 and 21 DF, p-value: 9.216e-10
Los resultados indican que la diferencia asociada a la pertenencia a un sexo u otro no tiene un efecto significativo sobre el puntaje de sintomatología, mientras que el ser una persona depresión o no sí lo tiene. Al igual que antes, los efectos reportados por el análisis pueden ser graficados.
En este caso, se encuentra que los hombres no deprimidos (0 en Sexo y 0 en Depresión) no presentan sintomatología significativamente diferente a la de las mujeres no deprimidas (1 en Sexo y 0 en Depresión), así como tampoco existen diferencias significativas entre los hombres deprimidos (0 en Sexo y 1 en Depresión) y las mujeres deprimidas (1 en Sexo y 1 en Depresión).
Lo que sí aparece en este análisis es una diferencia significativa entre las personas deprimidas y las no deprimidas más allá del efecto del Sexo, es decir, esta diferencia va a existir entre deprimidos y no deprimidos sean estos hombres o mujeres. Esto se ve claramente en el gráfico en donde las rectas que representan la capacidad predictiva para cada uno de los grupos de la variable Depresión aparecen como paralelas, lo cual responde a que la diferencia de medias entre los hombres y las mujeres es la misma cuando las personas son deprimidas y cuando son no deprimidas.
Realizando una regresión con dos variables categóricas de dos categorías como predictoras y considerando interacción
Como también se vio en clases, puede existir el caso en que tengamos la intuición de que las dos variables dicotómicas que buscamos incluir como predictoras en un modelo estén estréchamente relacionadas, por lo que resultaría conveniente incluir como predictor esta interacción entre ambas. Esta interacción la incluimos en nuestro modelo colocando un “:” entre los dos predictores: “Mujer:Depresion”.
Call:
lm(formula = PuntajeSint ~ 1 + Mujer + Depresion + Mujer:Depresion,
data = table11.1)
Residuals:
Min 1Q Median 3Q Max
-4 -2 0 2 4
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.0000 0.9661 7.246 5.20e-07 ***
Mujer -1.0000 1.3663 -0.732 0.47270
Depresion 10.0000 1.3663 7.319 4.48e-07 ***
Mujer:Depresion 6.0000 1.9322 3.105 0.00558 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.366 on 20 degrees of freedom
Multiple R-squared: 0.907, Adjusted R-squared: 0.893
F-statistic: 65 on 3 and 20 DF, p-value: 1.718e-10
Los resultados indican que la diferencia asociada a la pertenencia a un sexo u otro no tiene un efecto significativo sobre el puntaje de sintomatología, mientras que el ser una persona deprimida o no sí lo tiene. Adicionalmente, vemos que la interacción, es decir, aquellas muejres con diagnóstico presenten un aumento significativo en relación al puntaje de sintomatología.
Esto puede observarse también en un gráfico como con los modelos anteriores.
El gráfico representa claramente que, aún cuando el efecto de la pertenencia a un grupo u otro de la variable Depresión es estadísticamente significativo, existe también un efecto significativo si se considera la interacción de ambas variables dado que la dirección de la diferencia entre hombres y mujeres se ve afectada de acuerdo a si la persona posee o no depresión.
Regresión con una variable dicotómica y una variable cuantitativa
Ejemplo 1
Ahora vamos a cargar la base que utilizaremos para nuestros ejemplos.
# Leemos y guardamos la base de datos en el objeto big5big5 <-read.csv("https://david-ti.github.io/introstats/data/big_five.csv")# Podemos crear dos nuevas variables en la base de datosbig5$n2i <- (5+1) - big5$n2big5$n4i <- (5+1) - big5$n4# Creamos una sub base que contiene solamente las preguntas de neuroticismobig5$Neuro <-rowMeans(big5[,c("n1","n2i","n3","n4i","n5","n6","n7","n8","n9","n10")] , na.rm =TRUE)
Vamos a crear la versión “dummy” de la variable Sexo.
#Creamos las variables "dummy"big5$Mujer <-as.numeric(big5$gender ==2)
Regresión con una variable indicadora y una variable cuantitativa
Para realizar una regresión considerando a una variable indicadora y a una cuantitativa como predictores utilizamos la misma función que utilizamos anteriormente al tener dos variables indicadoras, esta vez agregando la variable cuantitativa a la lista de predictores, tal y como se muestra a continuación:
modeloEdadMujer <-lm(Neuro ~1+ Mujer + age, data = big5)summary(modeloEdadMujer)
Call:
lm(formula = Neuro ~ 1 + Mujer + age, data = big5)
Residuals:
Min 1Q Median 3Q Max
-1.92427 -0.64077 0.01633 0.54782 2.23389
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.160080 0.117715 26.845 < 2e-16 ***
Mujer 0.346971 0.076483 4.537 7.19e-06 ***
age -0.013199 0.003711 -3.557 0.000412 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.8174 on 493 degrees of freedom
(4 observations deleted due to missingness)
Multiple R-squared: 0.074, Adjusted R-squared: 0.07024
F-statistic: 19.7 on 2 and 493 DF, p-value: 5.884e-09
En este caso podemos ver que tanto el efecto del sexo controlando por la variable edad como el de edad controlando por la variable sexo son significativos. Estos efectos podemos observarlos de mejor manera en el siguiente gráfico.
Como se observa en el gráfico, existe una distancia entre el promedio de Neuroticismo de los Hombres y de las Mujeres, distancia que se mantiene independiente de qué tanto se avance dentro de la variable edad. El análisis de regresión que realizamos anteriormente nos indica que este efecto es significativo.
De la misma manera, también puede observarse que el efecto de la variable edad sigue la misma pendiente tanto en el caso de los Hombres como en el de las Mujeres. El análisis de regresión que realizamos anteriormente nos indica que este efecto también es significativo.
Regresión con una variable indicadora y una variable cuantitativa más interacción
Al igual que revisamos anteriormente, al modelo de regresión múltiple podemos agregarle la interacción de las variables independientes como uno de los predictores. Con esto estamos evaluando si el efecto de una de las variables independientes sobre la dependiente cambia al aumentar o disminuir el valor en la otra variable independiente.
En otras palabras, se está revisando si el efecto que tiene una de las variables independientes sobre la dependiente se mantiene igual, al moverse dentro de la escala de la otra variable independiente. Cuando el efecto cambia su magnitud de manera significativa se habla de un efecto de moderación.
modeloEdadMujerInter <-lm(Neuro ~1+ Mujer + age + Mujer:age, data = big5)summary(modeloEdadMujerInter)
Call:
lm(formula = Neuro ~ 1 + Mujer + age + Mujer:age, data = big5)
Residuals:
Min 1Q Median 3Q Max
-1.90595 -0.64025 0.02628 0.56306 2.16720
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.056265 0.155952 19.597 < 2e-16 ***
Mujer 0.541018 0.205943 2.627 0.00888 **
age -0.009410 0.005264 -1.788 0.07445 .
Mujer:age -0.007532 0.007422 -1.015 0.31069
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.8174 on 492 degrees of freedom
(4 observations deleted due to missingness)
Multiple R-squared: 0.07593, Adjusted R-squared: 0.0703
F-statistic: 13.48 on 3 and 492 DF, p-value: 1.828e-08
Este output indica que solo el efecto de la variable Sexo se mantiene como significativo al considerar de manera paralela el efecto de la variable Edad y la posible interacción entre ambas variables independientes. Es decir, no se observa un efecto de moderación significativo en este caso, con la diferencia encontrada entre Hombres y Mujeres para la variable Neuro siendo similar más allá del valor de Edad que se tome como referencia.
Se puede observar que la diferencia entre hombres y mujeres en la variable Neuroticismo parece reducirse al aumentar la edad de las personas, sin embargo, este efecto no resulta estadísticamente significativo.
Ejemplo 2
Preparando los análisis
Vamos a cargar la base que utilizaremos para nuestros ejemplos.
Id PuntajeSint Sexo Diagnosis
1 1 3 M None
2 2 5 M None
3 3 6 M None
4 4 8 M None
5 5 9 M None
6 6 11 M None
7 7 19 M Depressed
8 8 15 M Depressed
9 9 16 M Depressed
10 10 16 M Depressed
11 11 19 M Depressed
12 12 17 M Depressed
13 13 3 F None
14 14 5 F None
15 15 4 F None
16 16 6 F None
17 17 8 F None
18 18 10 F None
19 19 24 F Depressed
20 20 24 F Depressed
21 21 22 F Depressed
22 22 23 F Depressed
23 23 19 F Depressed
24 24 20 F Depressed
Id PuntajeSint Edad Sexo
1 1 3 21 M
2 2 5 22 M
3 3 6 22 M
4 4 8 22 M
5 5 9 21 M
6 6 11 19 M
7 7 19 20 M
8 8 15 19 M
9 9 16 18 M
10 10 16 17 M
11 11 19 21 M
12 12 17 22 M
13 13 3 23 F
14 14 5 24 F
15 15 4 25 F
16 16 6 23 F
17 17 8 22 F
18 18 10 21 F
19 19 24 18 F
20 20 24 18 F
21 21 22 19 F
22 22 23 20 F
23 23 19 20 F
24 24 20 21 F
Vamos a crear la versión “dummy” de la variable Sexo.
#Creamos las variables "dummy"table17.2$Mujer <-as.numeric(table17.2$Sexo =="F")table17.2
Id PuntajeSint Edad Sexo Mujer
1 1 3 21 M 0
2 2 5 22 M 0
3 3 6 22 M 0
4 4 8 22 M 0
5 5 9 21 M 0
6 6 11 19 M 0
7 7 19 20 M 0
8 8 15 19 M 0
9 9 16 18 M 0
10 10 16 17 M 0
11 11 19 21 M 0
12 12 17 22 M 0
13 13 3 23 F 1
14 14 5 24 F 1
15 15 4 25 F 1
16 16 6 23 F 1
17 17 8 22 F 1
18 18 10 21 F 1
19 19 24 18 F 1
20 20 24 18 F 1
21 21 22 19 F 1
22 22 23 20 F 1
23 23 19 20 F 1
24 24 20 21 F 1
Regresión con una variable indicadora y una variable cuantitativa
Para realizar una regresión considerando a una variable indicadora y a una cuantitativa como predictores utilizamos la misma función que utilizamos anteriormente al tener dos variables indicadoras, esta vez agregando la variable cuantitativa a la lista de predictores, tal y como se muestra a continuación:
Call:
lm(formula = PuntajeSint ~ 1 + Mujer + Edad, data = table17.2)
Residuals:
Min 1Q Median 3Q Max
-7.1402 -3.0830 -0.9077 1.7980 9.6494
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 68.7232 10.2885 6.680 1.30e-06 ***
Mujer 4.3247 1.9901 2.173 0.0414 *
Edad -2.7897 0.5014 -5.563 1.61e-05 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.766 on 21 degrees of freedom
Multiple R-squared: 0.6038, Adjusted R-squared: 0.5661
F-statistic: 16 on 2 and 21 DF, p-value: 5.997e-05
En este caso podemos ver que tanto el efecto del sexo controlando por la variable edad como el de edad controlando por la variable sexo son significativos. Estos efectos podemos observarlos de mejor manera en el siguiente gráfico.
Como se observa en el gráfico, existe una distancia entre el promedio de Sintomatología de los Hombres y de las Mujeres, distancia que se mantiene independiente de qué tanto se avance dentro de la variable edad. El análisis de regresión que realizamos anteriormente nos indica que este efecto es significativo.
De la misma manera, también puede observarse que el efecto de la variable edad sigue la misma pendiente tanto en el caso de los Hombres como en el de las Mujeres. El análisis de regresión que realizamos anteriormente nos indica que este efecto también es significativo.
Regresión con una variable indicadora y una variable cuantitativa más interacción
Al igual que revisamos anteriormente, al modelo de regresión múltiple podemos agregarle la interacción de las variables independientes como uno de los predictores. Con esto estamos evaluando si el efecto de una de las variables independientes sobre la dependiente cambia al aumentar o disminuir el valor en la otra variable independiente.
En otras palabras, se está revisando si el efecto que tiene una de las variables independientes sobre la dependiente se mantiene igual, al moverse dentro de la escala de la otra variable independiente. Cuando el efecto cambia su magnitud de manera significativa se habla de un efecto de moderación.
Call:
lm(formula = PuntajeSint ~ 1 + Mujer + Edad + Mujer:Edad, data = table17.2)
Residuals:
Min 1Q Median 3Q Max
-7.959 -3.085 -1.038 1.540 8.041
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 43.7449 15.9580 2.741 0.0126 *
Mujer 44.0326 20.2885 2.170 0.0422 *
Edad -1.5612 0.7822 -1.996 0.0598 .
Mujer:Edad -1.9243 0.9791 -1.965 0.0634 .
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.471 on 20 degrees of freedom
Multiple R-squared: 0.668, Adjusted R-squared: 0.6181
F-statistic: 13.41 on 3 and 20 DF, p-value: 5.036e-05
Este output indica que solo el efecto de la variable Sexo se mantiene como significativo al considerar de manera paralela el efecto de la variable Edad y la posible interacción entre ambas variables independientes. Es decir, no se observa un efecto de moderación significativo en este caso, con la diferencia encontrada entre Hombres y Mujeres para la variable Sintomatología siendo similar más allá del valor de Edad que se tome como referencia.