Guía Interactiva 7: Comparación de medias entre dos grupos (regresión, prueba t y ANOVA)
Instrucciones
Esta tarea se centra en el análisis comparativo de la media para dos grupos, incorporando ejercicios de prueba t, ANOVA y regresión.
-Lo que usted deberá hacer en esta ocasión es replicar en Excel los ejercicios que se realizan en esta guía con usando R. Para ello debe utilizar un modelo de lenguaje de inteligencia artificial (preferentemente Chat GPT).
Adicionalmente, debe incorporar junto a esta guía el registro de las preguntas y respuestas producto de las interacción con el modelo de lenguaje de inteligencia artificial, junto con la versión y el tipo de inteligencia artificial utilizada. También, debe adjuntar el archivo Excel sobre el cual trabajó.
Durante el desarrollo de la guía NO DEBE MODIFICAR los códigos entregados. Asimismo, recuerde no alterar el formato de este documento y responder en los espacios asignados.
Para llevar a cabo esta tarea, utilizaremos datos de la Encuesta Social Europea (European Social Survey) del 2020. El objetivo de esta encuesta es examinar las actitudes, creencias y comportamientos de la población europea. Para obtener más información sobre este estudio, puedes visitar https://www.europeansocialsurvey.org/data/.
En este ejercicio, analizaremos los datos de las muestras de Francia y Noruega del año 2020, específicamente las respuestas relacionadas con la satisfacción general con la vida de los encuestados.
La base de datos que usaremos es una versión resumida de los datos originales, que incluye las siguientes variables:
idno Número de identificación del participante
stflife Nivel de satisfacción con la vida (valores de 0 a 11, donde un valor más alto indica mayor satisfacción)
gndr Sexo del participante (1 = hombres, 2 = mujeres)
cntry País (FR = Francia, NO = Noruega)
Los datos se encuentran en el archivo:
ess10_sat.csv
Nota importante: Los datos originales provienen de una muestra probabilística, lo que permite hacer inferencias sobre la población si se utiliza la información del diseño para producir estimaciones. Sin embargo, en este ejercicio con propósitos ilustrativos, vamos a ignorar este aspecto y solo vamos a generar resultados descriptivos.
Ejercicio 1. Abrir datos
Acá se presenta el código para abrir la base de datos basenv.csv. Utilice la función read.csv(), y llame a los datos datos_frno.
Ahora, usted debe solicitar a la IA que lo ayude en transformar la base de datos desde un formato csv a un archivo formato xsl (Excel).
#Ingrese acá el prompt que utilizó para solicitar esta ayuda.
-Respuesta:
Ejercicio 2. Descriptivos
Considerando las variables seleccionadas reproduzca el siguiente ejercicio, el cual genera una tabla que muestra los promedios de cada grupo.
aggregate( datos_frno$stflife , by =list(datos_frno$cntry) , FUN = mean , na.rm =TRUE)
Group.1 x
1 FR 7.023338
2 NO 7.827512
Ahora, usted mediante un modelo de lenguaje de inteligencia artificial que lo ayude a generar una tabla con los promedios de ambos grupos y debe contrastar sus resultados corroborando que fue ejecutado de manera correcta.
#Ingrese acá el prompt que utilizó para solicitar esta ayuda.
-Respuesta:
Ejercicio 3. Regresión lineal
En el ejercicio 2, observamos el promedio en la escala de satisfacción con la vida de Francia y Noruega.
Con el código que se entrega a continuación, se ajusta un modelo de regresión lineal utilizando la escala de satisfacción con la vida como variable de respuesta y el país como variable independiente. También puedes observar un resumen que muestra los resultados de la regresión.
regresion1 <-lm(stflife ~ cntry, data = datos_frno)summary(regresion1)
Call:
lm(formula = stflife ~ cntry, data = datos_frno)
Residuals:
Min 1Q Median 3Q Max
-7.8275 -0.9744 0.1725 1.1725 2.9767
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.02334 0.04553 154.26 <2e-16 ***
cntryNO 0.80417 0.07061 11.39 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.021 on 3372 degrees of freedom
(14 observations deleted due to missingness)
Multiple R-squared: 0.03705, Adjusted R-squared: 0.03676
F-statistic: 129.7 on 1 and 3372 DF, p-value: < 2.2e-16
Ahora, con ayuda de algún modelo de lenguaje de inteligencia artificial, intenta replicar los resultados de la regresión en Excel.
#Ingrese acá el prompt que utilizó para solicitar esta ayuda.
-Respuesta:
Ejercicio 4. Prueba t
En el ejercicio anterior ajustamos un modelo de regresión. Sobre los mismos datos, ahora hemos aplicado una prueba t para muestras independientes que permita evaluar si las diferencias observadas entre ambos grupos son estadísticamente significativas.
t_test1 <-t.test(stflife ~ cntry, data = datos_frno, var.equal =TRUE)t_test1
Two Sample t-test
data: stflife by cntry
t = -11.39, df = 3372, p-value < 2.2e-16
alternative hypothesis: true difference in means between group FR and group NO is not equal to 0
95 percent confidence interval:
-0.9426075 -0.6657407
sample estimates:
mean in group FR mean in group NO
7.023338 7.827512
Con ayuda de un modelo de lenguaje de inteligencia artificial realice la misma prueba en Excel y compare los resultados obtenidos.
#Ingrese acá el prompt que utilizó para solicitar esta ayuda.
-Respuesta:
Ejercicio 7. ANOVA
En el ejercicio 4 observamos el promedio en la escala de satisfacción con la vida según el país en que se encuentra la persona: Francia o Noruega. El código que se presenta a continuación realiza una prueba ANOVA para identificar si las diferencias observadas entre los dos grupos son estadísticamente significativas.
anova1 <-aov(stflife ~ cntry, data = datos_frno)summary(anova1)
Df Sum Sq Mean Sq F value Pr(>F)
cntry 1 530 530.0 129.7 <2e-16 ***
Residuals 3372 13777 4.1
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
14 observations deleted due to missingness
Ahora, con ayuda de un modelo de lenguaje de inteligencia artificial, reproduzca la prueba ANOVA en Excel.
#Ingrese acá el prompt que utilizó para solicitar esta ayuda.
-Respuesta:
Ejercicio 8. Interpretación de resultados ANOVA
A partir de los resultados observados, conteste las siguientes preguntas.
Pregunta 8.1.: ¿Obtuvo resultados similares por las tres pruebas aplicadas (regresión, prueba t y ANOVA)?.
-Respuesta:
Pregunta 8.2.: ¿Por qué los resultados de las tres técnicas empleadas son similares? _ Indique en su respuesta las similitudes que poseen las técnicas empleadas _.
-Respuesta:
Pregunta 8.3.: ¿Cuál de las tres técnicas le parece más informativa? _ Indique en su respuesta las similitudes que poseen las técnicas empleadas _.