Apuntes de R
Apunte 12: Chi-cuadrado
Chi cuadrado
Ahora, revisaremos cómo podemos utilizar una prueba Chi cuadrado para examinar si existe envidencia de una relación entre dos variables nominales u ordinales.
La prueba cuantifica a través del estadígrafo \(\chi^2\) (Chi cuadrado) las diferencias que existen entre la tabla que esperaríamos observar bajo la hipótesis nula y la tabla de datos que observamos.
\[ \chi^2 = \dfrac{(frecuencia_{observada} - frecuencia_{esperada})^2}{f_{esperada}} \]
Como en otra pruebas estadísticas que hemos estudiado antes, usamos la distribución de este estadígrafo (con los grados de libertad apropiados) para calcular la probabilidad de observar diferencias de frecuencias así o más grandes bajo la hipótesis nula.
La distribución Chi cuadrado
La distribución Chi cuadrado depende de un solo parámetro de grados de libertad. Los grados de libertad al analizar tablas de contingencia de dos variables nominales u ordinales se calculan así:
\[ \text{(Numero de categorias en la 1° variable} - 1) \times \text{(Numero de categorias en la 2° variable} - 1) \]
Al igual que la distribución F, la distribución Chi cuadrado solo puede tomar valores de 0 o más y su forma cambia considerablemente dependiendo de los distintos grados de libertad.
Por ejemplo, una distribución Chi cuadrado con 2 grados de libertad es así:
Mientras que una distribución Chi cuadrado con 6 grados de libertad es así:
Y una distribución Chi cuadrado con 40 grados de libertad es así:
Al realizar una prueba Chi cuadrado R automáticamente calcula los grados de libertad correspondientes, calcula el estadígrafo \(\chi^2\) y obtiene el valor p correspondiente a la probabilidad de observar valores \(\chi^2\) mayores e igual en la distribución correspondiente. Por ejemplo, si obtenemos un valor \(\chi^2\) igual a 8 con 5 grados de libertad, el valor p se calcularía de esta manera:
Lo que nos indica que el observar por azar una diferencia entre las frecuencias esperadas bajo la hipótesis nula y las frecuencias observadas ocurre en un 15,6% de las veces.
Usando Chi cuadrado
Usamos Chi cuadrado para evaluar la hipótesis nula de que no hay una relación entre las dos variables nominales u ordinales que estamos analizando. Si rechazamos la hipótesis nula, entonces tenemos evidencia que existe una relación, por ende, el conocer la membresía en las categorías de una de las variables no da información respecto a la posible membresía en las categorías de la otra variable.
Ejemplo 1
En este ejemplo queremos analizar si la clase en la que viajaba una persona en el Titanic (1era, 2da y 3era clase) se relacionaba con si logró o no sobrevivir (Si / No).
# Leemos y guardamos la base de datos en el objeto titanic
<- read.csv("https://david-ti.github.io/introstats/data/titanic.csv")
titanic
# variable que indica si sobrevivieron o no
table(titanic$Survived)
0 1
549 342
# variable que indica la clase en la que viajaban
table(titanic$Pclass)
1 2 3
216 184 491
# la tabla de contigencia relacionando estas dos variables
table(titanic$Survived, titanic$Pclass)
1 2 3
0 80 97 372
1 136 87 119
# guardamos esta tabla en un nuevo objeto
<- table(titanic$Survived, titanic$Pclass)
claseVSsobrevivir
# Y realizamos un análisis de Chi cuadrado sobre esta tabla
chisq.test(claseVSsobrevivir)
Pearson's Chi-squared test
data: claseVSsobrevivir
X-squared = 102.89, df = 2, p-value < 2.2e-16
La prueba arroja un valor p extremadamente pequeño, según el cual rechazaríamos la hipótesis nula incluso con niveles de confianza mucho más altos que lo típico, por ejemplo al 99,9%. Los resultados de esta prueba muestrán clara evidencia de una relación entre la clase en la que viajaban los pasajeros y su sobrevivencia.
Sin embargo, es importante recordar que la prueba Chi cuadrado nos indíca que hay evidencia de una relación entre estas variables, pero no nos dice qué tipo de relación. Para esto tenemos que examinar la tabla y concluir de forma sustantiva en base a las frecuencias que observamos.
Examinemos nuevamente la tabla de contingencia:
claseVSsobrevivir
1 2 3
0 80 97 372
1 136 87 119
Podemos ver que la primera clase es la única en la que los sobrevivientes fueron más que los no sobrevivientes. Adicionalmente, podemos ver que entre quienes no sobrevivieron la gran mayoría viajaban en tercera clase, mientras que entre quienes sobrevivieron los pasajeros de primera clase son mayoría.
En base a la prueba Chi cuadrado podemos concluir que existe evidencia estadísticamente significativa de una relación entre la clase en que los pasajeros viajaban y su sobrevivencia. En base a la interpretación de la distribución de frecuencias podemos describir que esta relación apunta a que mientras más costosa era la clase que viajaban los pasajeros, mayor fue la proporción que sobrevivieron.
Ejemplo 2
En este ejemplo queremos analizar si el sexo de la persona (Masculino y femenino) se relacionaba con si logró o no sobrevivir (Si / No).
# Leemos y guardamos la base de datos en el objeto titanic
<- read.csv("https://david-ti.github.io/introstats/data/titanic.csv")
titanic
# variable que indica si sobrevivieron o no
table(titanic$Survived)
0 1
549 342
# variable que indica el sexo de las personas
table(titanic$Sex)
female male
314 577
# la tabla de contigencia relacionando estas dos variables
table(titanic$Survived, titanic$Sex)
female male
0 81 468
1 233 109
# guardamos esta tabla en un nuevo objeto
<- table(titanic$Survived, titanic$Sex)
sexoVSsobrevivir
# Y realizamos un análisis de Chi cuadrado sobre esta tabla
chisq.test(sexoVSsobrevivir)
Pearson's Chi-squared test with Yates' continuity correction
data: sexoVSsobrevivir
X-squared = 260.72, df = 1, p-value < 2.2e-16
La prueba, al igual que en el ejemplo 1, arroja un valor p extremadamente pequeño, según el cual rechazaríamos la hipótesis nula incluso con niveles de confianza mucho más altos que lo típico, por ejemplo al 99,9%. Los resultados de esta prueba muestrán clara evidencia de una relación entre el sexo de la persona y su sobrevivencia.
Sin embargo, como ya sabemos, la prueba Chi cuadrado nos indíca que hay evidencia de una relación entre estas variables, pero no nos dice qué tipo de relación existe. Para poder determinar esto, tenemos que examinar la tabla y concluir de forma sustantiva en base a las frecuencias que observamos.
Examinemos nuevamente la tabla de contingencia:
sexoVSsobrevivir
female male
0 81 468
1 233 109
Podemos ver que mientras en el caso de las mujeres existe una gran cantidad de sobrevivientes en relacion a los no sobrevivientes, en el caso de los hombres, la cantidad de no sobrevivientes supera por mucho a los sobrevivientes.
En base a la prueba Chi cuadrado podemos concluir que existe evidencia estadísticamente significativa de una relación entre el sexo de los pasajeros y su sobrevivencia. En base a la interpretación de la distribución de frecuencias podemos describir que esta relación apunta a que el ser mujer u hombre, influye significativamente en la proporcion en que los pasajeros sobrevivieron.