Guía interactiva 4: Distribuciones muestrales

Instrucciones

Esta guía contiene una serie de ejercicios resueltos. En cada ejercicio, con la ayuda de algún modelo de lenguaje de inteligencia artificial (preferentemente Chat GPT), debe interpretar tanto la función de cada código como los resultados que emergen de él.
Adicionalmente, debe incorporar junto a esta guía el registro de las preguntas y respuestas producto de las interacción con el modelo de lenguaje de inteligencia artificial, junto con la versión y el tipo de inteligencia artificial utilizada.
Durante el desarrollo de la guía NO DEBE MODIFICAR los códigos entregados. Asimismo, recuerde no alterar el formato de este documento y responder en los espacios asignados.
Usaremos una copia de los datos de dotación de profesores de 2010, de Chile. Esta base de datos, contiene a todos los profesores que se encontraban trabajando en establecimientos educativos a marzo de 2010.
El archivo que contiene los datos que vamos a emplear se llama:


profesores_2010.csv

El contenido de estos datos incluye:


#-------------------------------------------------------------------
# contenido de los datos
#-------------------------------------------------------------------

# year <dbl> 2010, 2010, 2010, # año
# id   <chr> "AA1029263411", " # id único por cada profesor
# sex  <dbl> 0, 1, 0, 1, 1, 0, # sexo (1 = mujer, 0 = hombre)
# age  <dbl> 60.82466, 61.0082 # edad en años.

Nota: Los datos originales constituyen un censo de datos. Es decir que los datos profesores_2010.csv contienen una lista exhaustiva de todos los profesores de la población.

Ejercicio 1.

Para poder iniciar esta guía, abra estos datos, y guárdelos en un objeto llamado datos_profesores. En este caso, solo debe ejecutar el código señalado a continuación.

datos_profesores <- read.csv("https://david-ti.github.io/introstats/data/profesores_2010.csv")

Ejercicio 2

Ejecute los siguientes comandos reemplazando el valor ‘123456789’ por su Rut (sin dígito verificador) para crear y guardar una submuestra de 500 casos. Esto quedará guardado en un objeto denominado muestra_n500. No altere el resto de los comandos.

set.seed(123456789)

muestra_n500 <- datos_profesores[sample(nrow(datos_profesores), 500), ]

Los siguientes análisis se realizaron utilizando el objeto denominado muestra_n500.

Ejercicio 3

A continuación se presenta un código empleado por una persona para poder extraer información de los datos de la muestra creada anteriormente. Con la ayuda de algún modelo de lenguaje de inteligencia artificial (preferentemente Chat GPT), debe interpretar tanto la función del código como los resultados que emergen de él.

n = 500
sd_muestra <- sd(muestra_n500$age)
media_muestra <- mean(muestra_n500$age)
Z <- abs( qnorm((1 - .95)/2) )
error_est <- sd_muestra/sqrt(n)
lim_inferior <- media_muestra - ( Z * error_est )
lim_superior <- media_muestra + ( Z * error_est )

Respuesta
- Función del código:
Interpretación de los resultados:

Ejercicio 4

Ejecute el siguiente código para crear un conjunto de muestras. Solo necesita ejecutar el código proporcionado en este ejercicio.

numero_de_replicas <- 500
lista_repeticiones <- 1:numero_de_replicas
coleccion_de_muestras <- data.frame()

for (i in lista_repeticiones) {
  muestra <- datos_profesores[sample(nrow(datos_profesores), 500, replace = TRUE), ]
  muestra <- cbind('muestras' = i, muestra)
  coleccion_de_muestras <- rbind(coleccion_de_muestras, muestra)
}

str(coleccion_de_muestras)

'data.frame':   250000 obs. of  5 variables:
 $ muestras: int  1 1 1 1 1 1 1 1 1 1 ...
 $ year    : int  2010 2010 2010 2010 2010 2010 2010 2010 2010 2010 ...
 $ id      : chr  "DE1009016225" "BB1046854421" "CB1059682621" "BA1099218511" ...
 $ sex     : int  1 1 1 0 1 1 1 0 1 1 ...
 $ age     : num  24.7 40.3 60.3 60.5 51 ...

Los siguientes análisis se realizaron utilizando el objeto denominado coleccion_de_muestras.

Ejercicio 5

A continuación se presenta un código empleado por una persona para el tratamiento de los datos de la colección anteriormente creada. Con la ayuda de algún modelo de lenguaje de inteligencia artificial (preferentemente Chat GPT), debe interpretar la función del código.

distribucion_de_medias <- aggregate( coleccion_de_muestras$age
          , by = list(coleccion_de_muestras$muestras)
          , FUN = mean
          , na.rm = TRUE)

str(distribucion_de_medias)

'data.frame':   500 obs. of  2 variables:
 $ Group.1: int  1 2 3 4 5 6 7 8 9 10 ...
 $ x      : num  44 43.9 42.6 44.1 43 ...

Respuesta
- Función del código:

Ejercicio 6

A continuación se presenta los códigos empleados por una persona para poder extraer información de los datos de la distribución. Con la ayuda de algún modelo de lenguaje de inteligencia artificial (preferentemente Chat GPT), debe interpretar tanto la función del código como los resultados que emergen de él.

mean(distribucion_de_medias$x)

[1] 43.41251

sd(distribucion_de_medias$x)

[1] 0.5198691

Respuesta
- Función del código:
Interpretación de los resultados:

Ejercicio 7

A continuación se presenta un código empleado por una persona para poder extraer información de la base brindada. Con la ayuda de algún modelo de lenguaje de inteligencia artificial (preferentemente Chat GPT), debe interpretar tanto la función del código como los resultados que emergen de él.

Z_critico <- 1.96
Z_critico * sd(datos_profesores$age)/sqrt(n)

[1] 1.055256

Respuesta
- Función del código:
- Interpretación de los resultados:

Ejercicio 8

medias_con_ic <- data.frame(li = distribucion_de_medias$x - Z_critico * sd(datos_profesores$age)/sqrt(n), media = distribucion_de_medias$x, ls = distribucion_de_medias$x + Z_critico * sd(datos_profesores$age)/sqrt(n))

Respuesta
- Función del código:

Ejercicio 9

A continuación se presentan los códigos empleados por una persona para tratar el objeto creado en el ejercicio anterior y obtener información a partir de esto. Con la ayuda de algún modelo de lenguaje de inteligencia artificial (preferentemente Chat GPT), debe interpretar la función del código y los resultados que emergen del mismo.

medias_con_ic$contiene <- NA

medias_con_ic$contiene[medias_con_ic$li>mean(datos_profesores$age) | medias_con_ic$ls< mean(datos_profesores$age)] <- 0

medias_con_ic$contiene[medias_con_ic$li<= mean(datos_profesores$age) & mean(datos_profesores$age) <=medias_con_ic$ls] <- 1

(table(medias_con_ic$contiene)/500)*100


   0    1 
 3.8 96.2

Respuesta
- Función del código:
- Interpretación de los resultados:

Ejercicio 10

A continuación se presentan los códigos empleados por una persona para realizar una serie de procedimientos a partir de la base originalmente brindada y obtener información sobre la misma. Con la ayuda de algún modelo de lenguaje de inteligencia artificial (preferentemente Chat GPT), debe interpretar tanto la función del código como los resultados que emergen de él.

muestra_n20 <- datos_profesores[sample(nrow(datos_profesores), 20), ]
n = 20
z = 1.96
lim_inferior <-mean(muestra_n20$age)  -  z *  sd(muestra_n20$age)/sqrt(n)
lim_superior <- mean(muestra_n20$age)  +  z *  sd(muestra_n20$age)/sqrt(n)
round(c(lim_inferior, lim_superior),2)

[1] 34.14 45.06

mean(datos_profesores$age)>=lim_inferior & mean(datos_profesores$age)<=lim_superior

[1] TRUE

Respuesta
- Función del código:
- Interpretación de los resultados: