Guía Interactiva 7: Comparación de medias entre dos grupos (regresión, prueba t y ANOVA)

Instrucciones

  • Esta tarea se centra en el análisis comparativo de la media para dos grupos, incorporando ejercicios de prueba t, ANOVA y regresión.

-Lo que usted deberá hacer en esta ocasión es replicar en Excel los ejercicios que se realizan en esta guía con usando R. Para ello debe utilizar un modelo de lenguaje de inteligencia artificial (preferentemente Chat GPT).

  • Adicionalmente, debe incorporar junto a esta guía el registro de las preguntas y respuestas producto de las interacción con el modelo de lenguaje de inteligencia artificial, junto con la versión y el tipo de inteligencia artificial utilizada. También, debe adjuntar el archivo Excel sobre el cual trabajó.

  • Durante el desarrollo de la guía NO DEBE MODIFICAR los códigos entregados. Asimismo, recuerde no alterar el formato de este documento y responder en los espacios asignados.

  • Para llevar a cabo esta tarea, utilizaremos datos de la Encuesta Social Europea (European Social Survey) del 2020. El objetivo de esta encuesta es examinar las actitudes, creencias y comportamientos de la población europea. Para obtener más información sobre este estudio, puedes visitar https://www.europeansocialsurvey.org/data/.

  • En este ejercicio, analizaremos los datos de las muestras de Francia y Noruega del año 2020, específicamente las respuestas relacionadas con la satisfacción general con la vida de los encuestados.

  • La base de datos que usaremos es una versión resumida de los datos originales, que incluye las siguientes variables:

idno       Número de identificación del participante
stflife    Nivel de satisfacción con la vida (valores de 0 a 11, donde un valor más alto indica mayor satisfacción)
gndr       Sexo del participante (1 = hombres, 2 = mujeres)
cntry      País (FR = Francia, NO = Noruega)
  • Los datos se encuentran en el archivo:
ess10_sat.csv
  • Nota importante: Los datos originales provienen de una muestra probabilística, lo que permite hacer inferencias sobre la población si se utiliza la información del diseño para producir estimaciones. Sin embargo, en este ejercicio con propósitos ilustrativos, vamos a ignorar este aspecto y solo vamos a generar resultados descriptivos.

Ejercicio 1. Abrir datos

  • Acá se presenta el código para abrir la base de datos basenv.csv. Utilice la función read.csv(), y llame a los datos datos_frno.
datos_frno <-  read.csv("https://david-ti.github.io/introstats/data/basenv.csv")
str(datos_frno)
'data.frame':   3388 obs. of  4 variables:
 $ idno   : int  10005 10007 10011 10022 10025 10050 10069 10092 10096 10118 ...
 $ stflife: int  10 7 7 5 7 10 8 8 6 9 ...
 $ gndr   : int  2 2 2 2 1 1 1 1 1 1 ...
 $ cntry  : chr  "FR" "FR" "FR" "FR" ...
  • Ahora, usted debe solicitar a la IA que lo ayude en transformar la base de datos desde un formato csv a un archivo formato xsl (Excel).

#Ingrese acá el prompt que utilizó para solicitar esta ayuda.

-Respuesta:

Ejercicio 2. Descriptivos

  • Considerando las variables seleccionadas reproduzca el siguiente ejercicio, el cual genera una tabla que muestra los promedios de cada grupo.
aggregate( datos_frno$stflife
          , by = list(datos_frno$cntry)
          , FUN = mean
          , na.rm = TRUE)
  Group.1        x
1      FR 7.023338
2      NO 7.827512
  • Ahora, usted mediante un modelo de lenguaje de inteligencia artificial que lo ayude a generar una tabla con los promedios de ambos grupos y debe contrastar sus resultados corroborando que fue ejecutado de manera correcta.

#Ingrese acá el prompt que utilizó para solicitar esta ayuda.

-Respuesta:

Ejercicio 3. Regresión lineal

  • En el ejercicio 2, observamos el promedio en la escala de satisfacción con la vida de Francia y Noruega.

  • Con el código que se entrega a continuación, se ajusta un modelo de regresión lineal utilizando la escala de satisfacción con la vida como variable de respuesta y el país como variable independiente. También puedes observar un resumen que muestra los resultados de la regresión.

regresion1 <- lm(stflife ~ cntry, data = datos_frno)
summary(regresion1)

Call:
lm(formula = stflife ~ cntry, data = datos_frno)

Residuals:
    Min      1Q  Median      3Q     Max 
-7.8275 -0.9744  0.1725  1.1725  2.9767 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  7.02334    0.04553  154.26   <2e-16 ***
cntryNO      0.80417    0.07061   11.39   <2e-16 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 2.021 on 3372 degrees of freedom
  (14 observations deleted due to missingness)
Multiple R-squared:  0.03705,   Adjusted R-squared:  0.03676 
F-statistic: 129.7 on 1 and 3372 DF,  p-value: < 2.2e-16
  • Ahora, con ayuda de algún modelo de lenguaje de inteligencia artificial, intenta replicar los resultados de la regresión en Excel.

#Ingrese acá el prompt que utilizó para solicitar esta ayuda.

-Respuesta:

Ejercicio 4. Prueba t

  • En el ejercicio anterior ajustamos un modelo de regresión. Sobre los mismos datos, ahora hemos aplicado una prueba t para muestras independientes que permita evaluar si las diferencias observadas entre ambos grupos son estadísticamente significativas.
t_test1 <- t.test(stflife ~ cntry, data = datos_frno, var.equal = TRUE)

t_test1

    Two Sample t-test

data:  stflife by cntry
t = -11.39, df = 3372, p-value < 2.2e-16
alternative hypothesis: true difference in means between group FR and group NO is not equal to 0
95 percent confidence interval:
 -0.9426075 -0.6657407
sample estimates:
mean in group FR mean in group NO 
        7.023338         7.827512 
  • Con ayuda de un modelo de lenguaje de inteligencia artificial realice la misma prueba en Excel y compare los resultados obtenidos.

#Ingrese acá el prompt que utilizó para solicitar esta ayuda.

-Respuesta:

Ejercicio 7. ANOVA

  • En el ejercicio 4 observamos el promedio en la escala de satisfacción con la vida según el país en que se encuentra la persona: Francia o Noruega. El código que se presenta a continuación realiza una prueba ANOVA para identificar si las diferencias observadas entre los dos grupos son estadísticamente significativas.
anova1 <- aov(stflife ~ cntry, data = datos_frno)

summary(anova1)
              Df Sum Sq Mean Sq F value Pr(>F)    
cntry          1    530   530.0   129.7 <2e-16 ***
Residuals   3372  13777     4.1                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
14 observations deleted due to missingness
  • Ahora, con ayuda de un modelo de lenguaje de inteligencia artificial, reproduzca la prueba ANOVA en Excel.

#Ingrese acá el prompt que utilizó para solicitar esta ayuda.

-Respuesta:

Ejercicio 8. Interpretación de resultados ANOVA

A partir de los resultados observados, conteste las siguientes preguntas.

  • Pregunta 8.1.: ¿Obtuvo resultados similares por las tres pruebas aplicadas (regresión, prueba t y ANOVA)?.

-Respuesta:

  • Pregunta 8.2.: ¿Por qué los resultados de las tres técnicas empleadas son similares? _ Indique en su respuesta las similitudes que poseen las técnicas empleadas _.

-Respuesta:

  • Pregunta 8.3.: ¿Cuál de las tres técnicas le parece más informativa? _ Indique en su respuesta las similitudes que poseen las técnicas empleadas _.

-Respuesta: