Guía Interactiva 2: Comparación de medias entre dos grupos utilizando regresión y prueba t

Instrucciones

  • Esta guía contiene una serie de ejercicios realizados por un estudiante, los cuales pueden tener ciertos errores o aspectos de mejora. En cada ejercicio, con la ayuda de algún modelo de lenguaje de inteligencia artificial (preferentemente Chat GPT), debe detectar si es que existen o no errores o aspectos de mejora y proponer una solución.

  • Adicionalmente, debe incorporar junto a esta guía el registro de las preguntas y respuestas producto de las interacción con el modelo de lenguaje de inteligencia artificial, junto con la versión y el tipo de inteligencia artificial utilizada.

  • Durante el desarrollo de la guía NO DEBE MODIFICAR los códigos entregados. Asimismo, recuerde no alterar el formato de este documento y responder en los espacios asignados.

  • Para el desarrollo de esta tarea utilizaremos datos de un ensayo clínico (un tipo de experimento) conocido como “Randomized Control Trial”. Aquí, pacientes control y en tratamiento se asignan al azar.

Este estudio es sobre pacientes con anorexia nerviosa que presentan pesos por debajo del límite saludable. El éxito del tratamiento en este caso se midió por el aumento de peso. Tenemos dos variables: pre_kg, el peso antes del tratamiento, y kg, el peso al final del tratamiento. Los pacientes en tratamiento reciben terapia familiar en 20 sesiones.

Este es el código de la base de datos que usaremos:


variable    tipo_vairable   muestra_de_valores  descripción
id_i        <int>           26018, 16399, 3303  número único del caso observado
therapy     <chr>           "f", "f", "f", "f"  terapia recibida (f = familiar, c = control)
pre_kg      <dbl>           39.00891, 39.00891  peso corporal previo al tratamiento
kg          <dbl>           41.50367, 41.59439  peso corporal al finalizar el tratamiento
  • El archivo que contiene los datos que vamos a emplear ya está cargado en el proyecto en posit y se llama:

data_anorexia.csv


Ejercicio 1. Abrir datos.

  • La instrucción entregada a los estudiantes fue la siguiente:

Formule el código para abrir la base de datos data_anorexia.csv asignándolo a un objeto de nombre “anorexia”.

El código que entregó al estudiante es el siguiente:


anorexia -> read.csv("data_anorexia.csv")
anorexia

  • Respuesta
    • ¿Identifica algún error o aspecto de mejora en el código entregado por el estudiante? ¿Cuál(es)?:
  • Si es que identifica errores y aspectos de mejora, a continuación escriba sus sugerencias.
# Escriba cómo mejoraría el código del estudiante en esta sección.


Ejercicio 2. Vista previa de los datos.

  • Se le solicitó al estudiante que contestara la siguiente pregunta:

  • ¿Cuántas variables y cuántos casos posee la base de datos original?

  • El código que entregó el estudiante fue el siguiente


head(anorexia)
  • Y su respuesta fue la siguiente
  • Respuesta
    • Casos: 6
    • Variables: 5
  • Respuesta
    • ¿Identifica algún error o aspecto de mejora en el código entregado por el estudiante? ¿Cuál(es)?:
  • Si es que identifica errores y aspectos de mejora, a continuación escriba sus sugerencias.
# Escriba cómo mejoraría el código del estudiante en esta sección.


Generar muestra aleatoria (solo ejecutar)

Como en la tarea buscamos resultados únicos para cada estudiante generaremos una muestra de datos única usando setseed. todos los ejercicios siguientes necesitan usar estos datos generados. Solamente ejecute este codigo para poder utilizar la muestra (data_anorexia) en los siguientes ejercicios.


set.seed(123456789) 
library(dplyr)
data_anorexia <- dplyr::slice_sample(anorexia, n = 50, by = therapy)

Ejercicio 3. Crear una variable dummy.

  • La instrucción entregada al estudiante fue la siguiente:

Para medir el efecto del tratamiento, necesitamos una variable dummy con dos valores: cero y uno. Debes recodificar la variable therapy en una nueva variable numérica con estos valores. Usa cero para pacientes sin tratamiento y uno para quienes tuvieron terapia familiar. Crea una nueva variable llamada trt con estos valores nuevos.

  • El código entregado por el estudiante fue el siguiente:

table(data_anorexia$therapy)
trt <- NA
trt[therapy = c] <- 0
trt[therapy = f] <- 1
table(trt)
  • Respuesta
    • ¿Identifica algún error o aspecto de mejora en el código entregado por el estudiante? ¿Cuál(es)?:
  • Si es que identifica errores y aspectos de mejora, a continuación escriba sus sugerencias.
# Escriba cómo mejoraría el código del estudiante en esta sección.


Ejercicio 5. Revisión de variable dummy

Después de crear la variable dummy trt, genera una tabla cruzada comparando las frecuencias de casos con valores originales de therapy y los nuevos valores en trt.

El código entregado por el estudiante fue el siguiente


table(therapy, trt)
  • Respuesta
    • ¿Identifica algún error o aspecto de mejora en el código entregado por el estudiante? ¿Cuál(es)?:
  • Si es que identifica errores y aspectos de mejora, a continuación escriba sus sugerencias.
# Escriba cómo mejoraría el código del estudiante en esta sección.


Ejercicio 6. Evaluación del control y del tratamiento previo al tratamiento.

Uno de los supuestos en estudios experimentales es que los grupos control y experimental sean similares antes del estudio. Usa un modelo de regresión con ‘pre_kg’ como variable de respuesta y ´trt’ como covariable. Indica si trt está asociada a pesos mayores o menores que el grupo control. Reporta el coeficiente de regresión de esta variable.


summary(lm(trt ~ data_anorexia$pre_kg))

  • Resultado Al parecer la variable TRT está asociada a pesos ligeramente mayores en la variable de respuesta pre-kg (b = 0.009, SE = 0.02 t = 0.45, p = 0.64).

  • Respuesta

    • ¿Identifica algún error o aspecto de mejora en el código entregado por el estudiante? ¿Cuál(es)?:
  • Si es que identifica errores y aspectos de mejora, a continuación escriba sus sugerencias.

# Escriba cómo mejoraría el código del estudiante en esta sección.


  • Resultado
    • [Indique con sus palabras el resultado encontrado, en esta sección, y en el siguiente paréntesis remplace los XXXX por los estadísticos pertinentes] En la respuesta indica si ’trt´ está asociada a pesos mayores o menores justificando con los datos del modelo de regresión `(b = XXXX, SE = XXXX, t = XXXX, p < XXXX).

Ejercicio 7. Ajuste el modelo nulo.

De acuerdo a lo revisado en el capítulo 8 de Vik (2014), el modelo nulo en una regresión es importante para comparar medias entre grupos. Este modelo sin predictores muestra la variabilidad total de la variable de respuesta. Usa el modelo nulo con kg y obtén la salida con summary(). Con la salida del modelo ajustado, responde:

  1. ¿Cuál es el promedio de peso en los pacientes evaluados? Indica la cifra y en qué parte de la salida de la regresión la encontraste, copiando la línea del output con este resultado.

  2. ¿Cuál es la desviación estándar de la variable de respuesta? Indica la cifra y en qué parte de la salida de la regresión la encontraste, copiando la línea del output con este resultado.


summary(lm(data_anorexia$kg ~ 1))
  • Resultados

    a.1) Promedio observado: 0.1928

    a.2) Copia de la línea donde se encuentra el promedio: Min 1Q Median 3Q Max -5.8854 -3.6061 0.1928 3.1071 7.0874

    b.1) Desviación estándar: 3.723

    a.2) Copia de la línea donde se encuentra la desviación estándar : Residual standard error: 3.723 on 99 degrees of freedom

  • Respuesta

    • ¿Identifica algún error o aspecto de mejora en los resultados reportados por el estudiante? ¿Cuál(es)?:
  • Si es que identifica errores y aspectos de mejora, a continuación escriba los resultados que usted considera correctos.

  • Resultados

    a.1) Promedio observado:

    a.2) Copia de la línea donde se encuentra el promedio:

    b.1) Desviación estándar:

    a.2) Copia de la línea donde se encuentra la desviación estándar:

Ejercicio 7. Ajuste el modelo aumentado.

Vik (2014) llama modelo aumentado al que incluye covariables de interés. Ajusta el modelo aumentado comparando el peso final del grupo control con el de los pacientes tratados. Elige la variable de respuesta y la covariable adecuada. Luego, muestra el output de la regresión usando summary().


# Escriba su código de respuesta aquí

summary(lm(data_anorexia$kg ~ trt - 1))

A. Efecto esperado.(con modelo sin intercepto)

¿Cuál es el peso promedio esperado de los pacientes NO tratados?

  • Resultado Promedio: 41.083

¿Cuál es el peso promedio esperado de los pacientes tratados?

  • Resultado Promedio: 44.818

B. Tamaño de efecto

¿Cuál es el tamaño de efecto observado, en términos de la métrica de la variable de respuesta?

  • Resultado Tamaño del efecto: 3.735

  • Respuesta

    • ¿Identifica algún error o aspecto de mejora en los resultados reportados por el estudiante? ¿Cuál(es)?:
  • Si es que identifica errores y aspectos de mejora, a continuación escriba los resultados que usted considera correctos.

# Escriba cómo mejoraría el código del estudiante en esta sección.


¿Cuál es el peso promedio esperado de los pacientes NO tratados?

  • Resultado
    • `[indique cifra aquí]

¿Cuál es el peso promedio esperado de los pacientes tratados?

  • Resultado
    • `[indique cifra aquí]

B. Tamaño de efecto

¿Cuál es el tamaño de efecto observado, en términos de la métrica de la variable de respuesta?

  • Resultado
    • `[indique cifra aquí]

Ejercicio 10. Interpretación y descripción de resultados.

Considerando los resultados anteriores que usted corrigió, describa los resultados encontrados respecto a la efectividad del tratamiento. Guíese por medio del capítulo de Huck (2012, capítulo 16, p 367) si lo estima necesario.

  • Resultado
    • Indique con sus palabras el resultado encontrado, en esta sección. Es decir, explique cómo se interpreta la pendiente. Además, en el siguiente paréntesis, , y en el siguiente paréntesis reemplace los XXXX por los estadísticos pertinentes] (b = XXXX, SE = XXXX, t = XXXX, p < XXXX).