Guía Interactiva 3: Regresión múltiple
Instrucciones
Esta tarea contiene diferentes ejercicios para analizar datos empleando modelos de regresión. Cada ejercicio contiene al menos un error intencional en el código proporcionado. Se espera que utilices aplicaciones de chat basadas en modelos de lenguaje para identificar y corregir estos errores.
Adicionalmente, debe incorporar junto a esta guía el registro de las preguntas y respuestas producto de las interacción con el modelo de lenguaje de inteligencia artificial, junto con la versión y el tipo de inteligencia artificial utilizada.
Durante el desarrollo de la guía NO DEBE MODIFICAR los códigos entregados. Asimismo, recuerde no alterar el formato de este documento y responder en los espacios asignados.
En esta tarea, vamos a ajustar una serie de modelos de regresión para evaluar la relación que poseen un conjunto de factores respecto al salario de profesores universitarios de 1981 (Rabe-Hesketh & Skrondal, 2012, p247).
Los datos originales han sido expandidos de forma tal que los resultados generados por los análisis de regresión a emplear, y con diferentes muestras aleatorias, se asemejen a los resultados producidos por los datos originales. En esta tarea solo incluimos un conjunto menor de variables del ejemplo original.
La base de datos que emplearemos contiene las siguientes variables:
# Muestra de valores
id_i <int> 1, 2, 3, 4, 5, 6, 7, 8, 9
lwage <dbl> 1.17522335, 2.20148897, 1
ethn <int> 0, 0, 0, 2, 1, 0, 0, 0, 2
union <int> 1, 0, 0, 0, 0, 0, 0, 0, 1
educ <int> 15, 15, 12, 11, 12, 14, 1
# Contenido de las variables
id_i = numero único identificador de las observaciones
lwage = salario en logaritmo
ethn = etnicidad (0 = blanco, 1 = africano-americano, 2 = hispánico/latino)
union = membresía al sindicato (0 = no, 1 = sí)
educ = años de educacion (min = 3, max = 16)
- El archivo que contiene los datos, es el siguiente:
salary_1981.csv
Referencias
Rabe-Hesketh, S., & Skrondal, A. (2012). Multilevel and Longitudinal Modeling Using Stata, Volumes I and II, Third Edition (3rd ed.). Stata Press.
Ejercicio 1. Abrir datos.
- Inserte los códigos para abrir la base de datos
salary_1981.csv
. Llame al objeto con sus datosdatos_full
. Considere utilizar la funcionread.csv()
.
# Corrija los códigos de cada ejercicio, en estas secciones del archivo.
datos_full <- read.csv(salary_1981.csv)
- Respuesta
¿Cual era el error en el código del ejercicio anterior?
[Responda aqui la pregunta]
Ejercicio 2. Preparar datos.
- Ejecute los siguientes comandos reemplazando el valor ‘123456789’ por su Rut para crear y guardar una submuestra de 1000 en total. No altere el resto de los comandos. Guardelo en un objeto denominado
datos_salarios
.
# Fijar el seed, permite obtener la misma muestra aleatoria,
# cada vez que trabaje con el codigo.
# Es importante que los datos de su tarea,
# sean generados con su RUT.
set.seed(1234567890)
datos_salarios <- datos_full[sample(1:272500, 100),]
- Respuesta
¿Cual era el error en el código del ejercicio anterior?
[Responda aqui la pregunta]
Los siguientes ejercicios se realizan utilizando el objeto denominado “datos_salarios”.
Ejercicio 3. Descriptivos
Nota: el detalle de los descriptivos solicitados por variable también se especifica en la sección de respuestas.
mean(lwage)
sd(lwage)
fivenum(lwage)
mean(educ)
sd(educ)
fivenum(educ)
table(ethn)
table(union)
- Respuesta
¿Cual era el error en el código del ejercicio anterior?
[Responda aqui la pregunta]
Ejercicio 4
Ajuste un ANOVA factorial con el logaritmo del salario por hora (“lwage”) como variable de respuesta y dos predictores: la etnia del trabajador (“ethn”) y si pertenece a un sindicato (“union”).
Incluya la interacción de ambos predictores en el modelo.
El resultado debe permitirle identificar la suma de cuadrados asociado a cada factor y su interacción.
# Escriba y edite el codigo que permita resolver el ejercicio.
anova_model <- lm(lwage ~ ethn * union, data = datos_salarios)
summary(anova_model)
- Respuesta
¿Cual era el error en el código del ejercicio anterior?
[Responda aqui la pregunta]
Ejercicio 5
Ajuste una regresión múltiple evaluando el efecto sobre el logaritmo del salario por hora (“lwage”) de los predictores la etnia del trabajador (“ethn”) y si pertenece a un sindicato (“union”).
Incluya la interacción de ambos predictores en el modelo.
Interprete cada uno de los coeficientes en los resultados.
# Escriba y edite el codigo que permita resolver el ejercicio.
anova_model <- lm(lwage ~ ethn % union, data = datos_salarios)
summary(anova_model)
- Respuesta
¿Cual era el error en el código del ejercicio anterior?
[Responda aqui la pregunta]
Ejercicio 6
Ajuste un ANCOVA con al logaritmo del salario por hora (“lwage”) como variable de respuesta que solo considere los efectos principales de etnia del trabajador (“ethn”), si pertenece a un sindicato (“union”) e incluya la educación de los trabajadores (“educ”). No incluya interacciones en el modelo. Interprete los resultados.
El resultado debe permitirle identificar la suma de cuadrados asociado a cada factor y su interacción.
Nota: recuerde que los análisis de varianza (ANOVA y ANCOVA) se calculan los componentes de varianza en orden, de tal manera que es importante el orden por el cual se ingresan las covariables en el modelo.
# Escriba y edite el codigo que permita resolver el ejercicio.
ancova_model <- lm(lwage ~ ethn + union:educ, data = datos_salarios)
summary(ancova_model)
- Respuesta
¿Cual era el error en el código del ejercicio anterior?
[Responda aqui la pregunta]
Ejercicio 7
Ajuste un modelo de regresión múltiple con el logaritmo del salario por hora (“lwage”) como variable de respuesta que considere los efectos principales de etnia del trabajador (“ethn”), si pertenece a un sindicato (“union”) e incluya la educación de los trabajadores (“educ”). No incluya interacciones en el modelo. Interprete los resultados.
Interprete cada uno de los coeficientes en los resultados.
# Escriba y edite el codigo que permita resolver el ejercicio.
reg_model2 <- lm(wage ~ ethn + union + educ)
summary(reg_model2)
- Respuesta
¿Cual era el error en el código del ejercicio anterior?
[Responda aqui la pregunta]
Preguntas Finales
Pregunta A
- Al usar un chat de un modelo de lenguaje ¿Que tipo de prompts usaste para responder la tarea? Incluye algunos ejemplos.
[Responda aqui la pregunta]
Pregunta B
- ¿Cuál fue la parte más difícil y la más fácil de la tarea?
[Responda aqui la pregunta]
Pregunta C
- ¿Te gustó trabajar en esta tarea? Justifique brevemente.
[Responda aqui la pregunta]