COMPROBACIÓN DE LOS SUPUESTOS DEL
ANÁLISIS DE VARIANZA CON INFOSTAT
Ing. Luis Manfredo Reyes
La técnica conocida como Análisis
de Varianza (ANDEVA, ANOVA o ANVA), se utiliza intensamente en la
experimentación para comparar varios grupos, llamados tratamientos.
La hipótesis nula que se prueba con
el ANDEVA, es que “todos los tratamientos son iguales”, contra la hipótesis alterna que “al menos uno
de los tratamientos es distinto a los demás”.
El análisis de varianza, está
construido sobre supuestos teóricos, que en la mayoría de casos nunca son
comprobados.
Una de las excusas más utilizadas
es “SI LA VARIABLE DE RESPUESTA ES CONTÍNUA, SEGURAMENTE ES NORMAL”.
También anteriormente, no se tenía
la tecnología informática que permitiera realizar las pruebas en forma rápida y
efectiva.
Ahora sí existe la tecnología (se
acabaron las excusas). De todas las opciones disponibles, en ésta ocasión se
discute el uso de Infostat para el proceso de comprobación de supuestos.
Infostat
es un paquete estadístico producido en la Universidad de Córdoba, Argentina,
que tiene la ventaja de estar escrito en español, con versión comercial y
libre. Se puede obtener en: www.infostat.com.ar
Se asume que el lector tiene instalado el paquete y conoce
el uso básico del mismo.
SUPUESTOS DEL ANÁLISIS DE VARIANZA
1) La
variable de respuesta debe medirse en una escala por lo menos de intervalo
2) Las
observaciones son independientes
3) La
distribución de los errores debe ser normal
4) Las
varianzas deben ser iguales
(Homocedasticidad)
COMPROBACION DEL SUPUESTO DE Homogeneidad de Varianzas
Para verificar el supuesto de homogeneidad de varianzas de los
grupos comparados, de aplica la prueba de Levene.
El test de Levene consiste en realizar un análisis de varianza, usando como variable dependiente el valor absoluto de los errores.
El test de Levene consiste en realizar un análisis de varianza, usando como variable dependiente el valor absoluto de los errores.
COMPROBACION DEL SUPUESTO DE NORMALIDAD DE LOS ERRORES
Métodos gráficos: Una primera
posibilidad consiste en obtener histogramas con curvas superpuestas de la
distribución Normal.
Otra posibilidad son las gráficas QQ que sitúan los cuantiles de
la distribución de la muestra respecto de los cuantiles del modelo de
distribución normal.
Cuando ambas distribuciones coinciden los puntos se sitúan sobre una recta, y en la medida que la distribución de la muestra difiera de la distribución normal se sitúan fuera de la recta.
Pruebas de bondad de ajuste
Procedimientos analíticos más precisos se basan en pruebas de
bondad de ajuste que someten a prueba la hipótesis de que la distribución de la
muestra se ajusta al modelo Normal.
La prueba de Kolmogorov-Smirnov o la de Shapiro-Wilk pueden ser
utilizadas a este propósito.
COMPROBACION DE LA INDEPENDENCIA
Los datos de cada tratamiento deben provenir
de observaciones no correlacionadas, es decir al azar. Esto en parte se logra
al inicio del experimento por medio del proceso de aleatorización .
Sin embargo es posible que aún se viole el
supuesto.
Pruebas para detectar falta de independencia
Prueba de rachas (aleatoridad)
Prueba de Durbin Watson
Pruebas de chi cuadrado de bondad de ajuste
Consecuencias de la violación de las
hipótesis del modelo
La pregunta que ahora surge
es: qué efectos genera la violación de los supuestos del análisis de
varianza :
i) Independencia de los errores.
ii) Normalidad de los errores.
iii) Igualdad de varianzas de tratamientos.
Dependencia entre los términos de error
La no independencia entre los términos de
error puede producir graves efectos en la inferencia. Debido a que este
incumplimiento es a veces difícil de corregir, es importante
evitarlo cuando sea factible. Una forma de conseguirlo es mediante el uso de la
aleatorización y otra forma es modificando el modelo.
Desviación de los errores de la normalidad
a) Inferencias sobre
las medias: se refiere únicamente a los efectos del factor (estimación puntual
o por intervalos para medias, contraste de igualdad de medias, contrastes
múltiples de medias, etc.)
b) Inferencias sobre las varianzas: incluye
la estimación puntual o por intervalos de la varianza o de componentes de la
varianza e inferencia sobre la razón de varianzas.
El efecto de la falta de
normalidad afecta de manera desigual a estos tipos de inferencias. En general,
si la desviación de la normalidad no es muy grave, es poco importante en la
inferencia sobre medias y más grave en la inferencia sobre varianzas.
Además, en los dos casos, las estimaciones
puntuales siguen siendo insesgadas y en los contrastes de hipótesis se
modifican el error de tipo I y su potencia. Generalmente, dicho
error es ligeramente mayor que el nominal y la potencia menor que la teórica.
Heterocedasticidad del término error
Cuando las varianzas de los términos de error
de cada nivel no son iguales,lal prueba F para la igualdad de medias
de los tratamientos está poco afectado si todas las repeticiones de los
tratamientos son iguales o difieren muy poco, pero no ocurre lo mismo cuando
hay grandes diferencias entre dichas repeticiones o cuando una varianza es
mucho mayor que las otras.
En el caso de dos grupos de igual tamaño, la
violación de la hipótesis de homocedasticidad para n grande es aún menos
importante que en el caso general, así, por ejemplo, la potencia del test F
será la teórica si y sólo si los tamaños de cada grupo son iguales.
EJEMPLO DE
APLICACIÓN USANDO INFOSTAT (DATOS
REALES)
En 1996 se realizó un diagnóstico de los
conocimientos con los que ingresaban los alumnos de nuevo ingreso a la Facultad
de Ciencias Químicas y Farmacia de la Universidad de San Carlos de Guatemala (Universidad Pública). Se les aplicó un test con temas de álgebra,
geometría, física y trigonometría y se calculó una nota final (entre cero y 100)
La pregunta de investigación que se desea
responder es:
“¿HAY DIFERENCIAS ENTRE LAS NOTAS OBTENIDAS,
DEPENDIENDO DEL TITULO DE SECUNDARIA CON EL QUE INGRESARON ¿”
Los datos están contenidos en un archivo tipo
CSV, que se puede obtener en el sitio: http://www.mediafire.com/file/54xb7t6rygxy5qb/DIAGNOSTICO.csv/file
Suponiendo
que los datos están en la carpeta: documentos:
1. Importar los datos
a Infostat
Se ingresa a Archivo,
luego a Abrir y en la ventana que aparece seleccionar la carpeta Documentos (o
donde esté ubicado el archivo)
Luego se especifican los
detalles del archivo:
Ya importados los datos a Infostat, aparecen así:
Comparación gráfica de los datos
Se realiza mediante la gráfica de Cajitas de Tukey: (Box Plot)
2. Realizar el análisis de varianza, conservando los residuos
Se ingresa a Estadísticas
y luego a análisis de la varianza.
La variable dependiente en
este caso es la nota, y la independiente el título, los que se ingresan a las
cajas respectivas y luego se indica aceptar
En la siguiente ventana se
seleccionan los residuos, el valor absoluto de los residuos, los residuos
estandarizados y los valores predichos.
Los resultados del
Análisis de varianza son los siguientes:
Verificación de la normalidad de los Errores
Pruebas de normalidad gráfica y analítica
Pruebas de normalidad gráfica y analítica
Se procede a realizar un
gráfico QQ Plot.
Se ingresa a la pestaña
Gráficos y luego se selecciona QQ Plot. Se define como variable de interés el
residuo de la nota y en la siguiente ventana se especifica la distribución
normal.
.La Gráfica indica que en general los datos se
aproximan a una distribución normal, pero se desvían en los extremos.
Para confirmar
analíticamente ésta conclusión, se procede a realizar una prueba de Shapiro y
Wilks:
Verificación de la Homogeneidad de varianzas.
Este es el supuesto más importante que los residuos deben cumplir para que
el modelo empleado sea válido.
Para corroborar esto se realiza una prueba de Cochran o una de Levine
La prueba de C de Cocharn, es una prueba unilateral del límite superior
atípico de la varianza. La prueba C se utiliza para determinar si una sola
estimación de una varianza es significativamente más grande que un grupo de
varianzas, se presenta el resultado de la prueba de C de Cochran para la
variable porcentaje de parasitismo. En este caso no es posible usarla porque el
modelo es desbalanceado (diferentes repeticiones por tratamiento)
Una alternativa a la prueba C de Cochran es la prueba de Levene**
La prueba de Levene consiste en realizar un análisis de la
varianza usando como variable dependiente el valor absoluto de los residuos.
La variable dependiente es el valor absoluto de los residuos y la
independiente el titulo
El análisis indica que no
hay diferencia significativa entre los tratamientos, por lo cual se concluye
que las varianzas son homogéneas.
Verificación de Independencia
de los residuos
Este supuesto necesita que la probabilidad
de que el residuo de una observación cualquiera tenga un determinado valor, no
debe depender de los valores de los otros residuos. Al momento de aleatorizar,
debió controlarse. En Infostat solamente se puede comprobar gráficamente,
realizando un diagrama de dispersión de los residuos contra los predichos.
De acuerdo a la gráfica, se nota que no hay evidencia de correlación en los
datos, por lo cual se concluye que sí se cumple el supuesto (LOS RESIDUOS SON
INDEPENDIENTES).
CONCLUSIONES:
1. Los residuos son
independientes
2. Los residuos no tienen
distribución normal, pero tomando en cuenta que lo que interesa es comparar las
medias, la violación del supuesto no se considera crítica para seguir con el
análisis
3. Las varianzas son homogéneas
4. EL ANÁLISIS
DE VARIANZA POR LA VÍA ORDINARIA ES VÁLIDO, LO MISMO QUE LAS CONCLUSIONES
No hay comentarios:
Publicar un comentario