¿Te has preguntado alguna vez por qué el nivel de significación es 0.05 en esos típicos ejemplos de análisis estadísticos? El nivel de significación de un test es un concepto estadístico asociado a la verificación de una hipótesis estadística. En pocas palabras, se define como la probabilidad de tomar la decisión de rechazar la hipótesis nula (H0) cuando ésta es verdadera (decisión conocida como Error tipo I). La decisión se toma a menudo utilizando el p-valor: si el p-valor es inferior al nivel de significación alfa, entonces la hipótesis nula es rechazada.

Si no sabes qué es el p-valor ¡te lo explico en esta entrada!

Cuanto menor sea el p-valor, más significativo será el resultado.

En un contraste de hipótesis podemos cometer estos errores:

		Realidad
		(H0 falsa)	(H0 cierta)
Resultado del test	(Rechazo H0)	(1-β) Potencia No error	α Nivel de significación Error tipo I
Resultado del test	(No rechazo H0)	β Error tipo II	(1-α) Nivel de confianza No error

H0 (hipótesis nula)
H1 (hipótesis alternativa)

Establecer el nivel de significación en 0.05 es solo una convención, basada en el argumento de Ronald Aylmer Fisher, un estadístico/matemático y biólogo británico quien dijo que «una de cada veinte (1/20=0.05) oportunidades representa un suceso muestral inusual».

Hay muchas historias sobre esto pero fundamentalmente todo parece girar en torno a 1914, cuando Karl Pearson publicó sus Tablas para Estadísticos y Biometristas (Tables for Statisticians & Biometricians). Cuando Fisher publicó Métodos estadísticos para trabajadores de investigación (Statistical Methods for Research Workers o SMRW) en 1925, incluyó tablas que proporcionaban valores como los de Pearson pero unos especialmente seleccionados. Esto tuvo una gran influencia e incluso hoy en día, las tablas de Fisher se reproducen ampliamente en textos estadísticos estándar.

Hay muchos cotilleos al respecto, uno de ellos es que Kendall mencionó que Fisher produjo las tablas de niveles de significación más compactas para ahorrar espacio y evitar problemas de derechos de autor con Karl Pearson, quien no le caía muy bien.

A partir de los 60s, la práctica estándar en muchos campos de la ciencia era reportar resúmenes con una estrella si el p-valor era menor que 0.05, dos estrellas si era menor que 0.01 y tres estrellas si p<0.001.

Fisher, en sus textos, describiendo la distribución normal estándar, decía: «el valor para el cual p = 0.05, es decir, 1 en 20, es igual a z=1.96 que es casi 2. Entonces, es conveniente tomar este punto como un límite para juzgar si una desviación debe considerarse significativa o no. Las desviaciones que excedan el doble de la desviación estándar se consideran formalmente significativas». Sin embargo también tenía en su criterio algunas inconsistencias, pues decía que valores menores que 0.05 pero por muy poco no eran concluyentes.

Sin embargo, no hay una base científica para esta elección. Por tanto, esto no puede ser ni arbitrario, ni tampoco convenido. Aunque en la comunidad científica por lo general en muchos campos se utiliza el valor estándar, posiblemente porque es un tema aún a día de hoy debatido, o porque cada vez que nos desviamos de la opción clásica tenemos que justificarlo fehacientemente. Un ejemplo es el problema de selección de variables, cuando el tamaño muestral es grande. Aquí se utilizan valores de alfa muy pequeños. Y otras veces es necesario priorizar más la potencia del test y usar alfa más grande que 0.05.

En realidad el nivel de significación se debe elegir con cuidadosa consideración de factores clave, como son el tamaño de la muestra, la potencia de la prueba y los errores de Tipo I y Tipo II.

Veamos un ejemplo.

Consideremos una paciente que va al médico para ver si está embarazada o no. El médico mantiene la creencia de que la paciente no está embarazada hasta que una prueba médica proporcione la evidencia de lo contrario. Entonces la hipótesis nula del médico es que la paciente no está embarazada contra la alternativa de que sí lo está. Supongamos que hay dos pruebas de embarazo disponibles: las pruebas A y B. La prueba A tiene un 5% de posibilidad de mostrar evidencia de embarazo cuando la paciente no está realmente embarazada (Error Tipo I). Pero tiene un 20% de probabilidad de indicar evidencia de no embarazo cuando en realidad la paciente sí está embarazada (Error tipo II). La prueba B tiene un 20% de probabilidad de Error de Tipo I y un 5% de probabilidad de Error Tipo II. La consecuencia del Error de Tipo I es diagnosticar a una paciente como embarazada cuando en realidad ella no lo está, mientras que el Error de Tipo II es que a la paciente se le dice que no está embarazada cuando en realidad sí lo está. La prueba A tiene cuatro veces menos posibilidades de cometer el Error Tipo I, pero tiene cuatro veces más posibilidades de cometer el Error de Tipo II. Si el médico cree que el error tipo II tiene más graves consecuencias que el Error Tipo I, ya que el Error Tipo II arriesga la vida de la paciente y del bebé, entonces la prueba B (α = 0.2, β = 0.05) debe ser preferida ya que es una opción más segura.

Entonces, ¿por qué el nivel de significación es 0.05? Establecer un nivel de significación convencional para cada aplicación puede significar que el investigador no considera explícitamente las consecuencias resultantes de los errores de Tipo I y II en su toma de decisiones.

Las pruebas de hipótesis a menudo se comparan con un juicio en el que se supone que el acusado es inocente (H0) hasta que se presente la evidencia que demuestre lo contrario. El jurado emite un veredicto de culpabilidad cuando están convencidos por la evidencia presentada. Si la evidencia no es suficientemente convincente, entonces emiten un veredicto de «no culpable». Pero en el tribunal de justicia, existen diferentes estándares de evidencia que debe presentarse. Para un juicio civil, una baja carga de pruebas es necesaria ya que las consecuencias de decisiones erróneas no son graves. Sin embargo, para un juicio penal donde el resultado final puede ser un encarcelamiento, se requiere una barra más alta para rechazar la hipótesis nula, para tomar la decisión más allá de toda duda razonable.

Esto significa que el sistema legal está utilizando diferentes niveles de importancia o de significación, dependiendo de las consecuencias de las decisiones equivocadas.

Además, si podemos cuantificar las pérdidas debido a los Errores Tipo I y II, y estas son diferentes, el nivel de significación debería elegirse en consecuencia a esas pérdidas relativas para minimizar la pérdida total esperada.

Hay algunos científicos de datos que se han cuestionado durante décadas el problema de la selección del nivel de significación. Y muchos han notado que la teoría de Fisher de las pruebas de significación se destina a muestras pequeñas, indicando que “Fisher no discute cuáles son los niveles de significación apropiados para muestras grandes”. Hay un problema serio con esta teoría. En muestras pequeñas, los resultados significativos pueden no parecer estadísticamente significativos. Pero si el tamaño de la muestra es lo suficientemente grande, las relaciones más insignificantes aparecerán estadísticamente significativas.

Los estudiantes e investigadores de estadística deben entender que el nivel de significación debe elegirse teniendo en cuenta los contextos relevantes, teniendo en cuenta cuidadosamente los factores clave, como son el tamaño de la muestra, los errores y las pérdidas esperadas asociadas a esos errores. ¿Por qué el nivel de significación es 0.05? Vamos a dejar lo clásico en el pasado, que somos perfectamente capaces de analizar las cosas como humanos en vez de como robots que siguen las doctrinas de tantas décadas atrás.

Si te interesan los temas de Contrastes de Hipótesis, Inferencia o Estadística en general, te animo a que le eches un ojo a este curso online, que lo puedes encontrar en descuento aquí. En este curso tienes mucho material de la asignatura, a nivel universitario, con todos los temas en un solo curso, y con muchos ejercicios y exámenes resueltos.