lunes, 18 de marzo de 2019

COMPROBACIÓN DE LOS SUPUESTOS DEL ANÁLISIS DE VARIANZA CON INFOSTAT


COMPROBACIÓN DE LOS SUPUESTOS DEL ANÁLISIS DE VARIANZA CON INFOSTAT
Ing. Luis Manfredo Reyes

La técnica conocida como Análisis de Varianza (ANDEVA, ANOVA o ANVA), se utiliza intensamente en la experimentación para comparar varios grupos, llamados tratamientos.
La hipótesis nula que se prueba con el ANDEVA, es que “todos los tratamientos son iguales”,  contra la hipótesis alterna que “al menos uno de los tratamientos es distinto a los demás”.

El análisis de varianza, está construido sobre supuestos teóricos, que en la mayoría de casos nunca son comprobados.

Una de las excusas más utilizadas es “SI LA VARIABLE DE RESPUESTA ES CONTÍNUA, SEGURAMENTE ES NORMAL”.

También anteriormente, no se tenía la tecnología informática que permitiera realizar las pruebas en forma rápida y efectiva.

Ahora sí existe la tecnología (se acabaron las excusas). De todas las opciones disponibles, en ésta ocasión se discute el uso de Infostat para el proceso de comprobación de supuestos.


Infostat es un paquete estadístico producido en la Universidad de Córdoba, Argentina, que tiene la ventaja de estar escrito en español, con versión comercial y libre. Se puede obtener en: www.infostat.com.ar

Se asume que el lector tiene instalado el paquete y conoce el uso básico del mismo.
SUPUESTOS DEL ANÁLISIS DE VARIANZA
1)    La variable de respuesta debe medirse en una escala por lo menos de intervalo
2)    Las observaciones son independientes
3)    La distribución de los errores debe ser normal
4)    Las varianzas deben ser  iguales (Homocedasticidad)

COMPROBACION DEL SUPUESTO DE Homogeneidad de Varianzas
Para verificar el supuesto de homogeneidad de varianzas de los grupos comparados, de aplica la prueba de Levene.

El test de Levene consiste en realizar un análisis de varianza, usando como variable dependiente el valor absoluto de los errores.

COMPROBACION DEL SUPUESTO DE NORMALIDAD DE LOS ERRORES
Métodos gráficos: Una primera posibilidad consiste en obtener histogramas con curvas superpuestas de la distribución Normal.

Otra posibilidad son las gráficas QQ que sitúan los cuantiles de la distribución de la muestra respecto de los cuantiles del modelo de distribución normal.

Cuando ambas distribuciones coinciden los puntos se sitúan sobre una recta, y en la medida que la distribución de la muestra difiera de la distribución normal se sitúan fuera de la recta.

 Pruebas de bondad de ajuste
Procedimientos analíticos más precisos se basan en pruebas de bondad de ajuste que someten a prueba la hipótesis de que la distribución de la muestra se ajusta al modelo Normal.
La prueba de Kolmogorov-Smirnov o la de Shapiro-Wilk pueden ser utilizadas a este propósito.

COMPROBACION DE LA INDEPENDENCIA
Los datos de cada tratamiento deben provenir de observaciones no correlacionadas, es decir al azar. Esto en parte se logra al inicio del experimento por medio del proceso de aleatorización .

Sin embargo es posible que aún se viole el supuesto.
Pruebas para detectar falta de independencia
Prueba de rachas (aleatoridad)
Prueba de Durbin Watson
Pruebas de chi cuadrado de bondad de ajuste

Consecuencias de la violación de las hipótesis del modelo
La pregunta que ahora surge es:  qué efectos genera la violación de los supuestos del análisis de varianza :
i) Independencia de los errores.
ii) Normalidad de los errores.
iii) Igualdad de varianzas de tratamientos.

Dependencia entre los términos de error
La no independencia entre los términos de error puede producir graves efectos en la inferencia. Debido a que este incumplimiento es a veces  difícil de corregir, es importante evitarlo cuando sea factible. Una forma de conseguirlo es mediante el uso de la aleatorización y otra forma es modificando el modelo.
Desviación de los errores de la normalidad
a)    Inferencias sobre las medias: se refiere únicamente a los efectos del factor (estimación puntual o por intervalos para medias, contraste de igualdad de medias, contrastes múltiples de medias, etc.)
b) Inferencias sobre las varianzas: incluye la estimación puntual o por intervalos de la varianza o de componentes de la varianza e inferencia sobre la razón  de varianzas.
El efecto de la falta  de normalidad afecta de manera desigual a estos tipos de inferencias. En general, si la desviación de la normalidad no es muy grave, es poco importante en la inferencia sobre medias y más grave en la inferencia sobre varianzas.
Además, en los dos casos, las estimaciones puntuales siguen siendo insesgadas y en los contrastes de hipótesis se modifican  el error de tipo I y su potencia. Generalmente, dicho error es ligeramente mayor que el nominal y la potencia menor que la teórica.

Heterocedasticidad del término error
Cuando las varianzas de los términos de error de cada nivel no son iguales,lal prueba  F para la igualdad de medias de los tratamientos está poco afectado si todas las repeticiones de los tratamientos son iguales o difieren muy poco, pero no ocurre lo mismo cuando hay grandes diferencias entre dichas repeticiones o cuando una varianza es mucho mayor que las otras.

En el caso de dos grupos de igual tamaño, la violación de la hipótesis de homocedasticidad para n grande es aún menos importante que en el caso general, así, por ejemplo, la potencia del test F será la teórica si y sólo si los tamaños de cada grupo son iguales.

EJEMPLO DE APLICACIÓN USANDO INFOSTAT  (DATOS REALES)
En 1996 se realizó un diagnóstico de los conocimientos con los que ingresaban los alumnos de nuevo ingreso a la Facultad de Ciencias Químicas y Farmacia de la Universidad de San Carlos de Guatemala (Universidad Pública). Se les aplicó un test con temas de álgebra, geometría, física y trigonometría y se calculó una nota final (entre cero y 100)

La pregunta de investigación que se desea responder es:
“¿HAY DIFERENCIAS ENTRE LAS NOTAS OBTENIDAS, DEPENDIENDO DEL TITULO DE SECUNDARIA  CON EL QUE INGRESARON ¿”

Los datos están contenidos en un archivo tipo CSV, que se puede obtener en el sitio: http://www.mediafire.com/file/54xb7t6rygxy5qb/DIAGNOSTICO.csv/file

Suponiendo que los datos están en la carpeta: documentos:
1.    Importar los datos a Infostat
Se ingresa a Archivo, luego a Abrir y en la ventana que aparece seleccionar la carpeta Documentos (o donde esté ubicado el archivo)

Luego se especifican los detalles del archivo:


Ya importados los datos a Infostat, aparecen así:


Comparación gráfica de los datos
Se realiza mediante la gráfica de Cajitas de Tukey: (Box Plot)




La gráfica indica que sí existen diferencias entre las notas obtenidas dependiendo del título con el que ingresaron. 

2.    Realizar el análisis de varianza, conservando los residuos
Se ingresa a Estadísticas y luego a análisis de la varianza.
La variable dependiente en este caso es la nota, y la independiente el título, los que se ingresan a las cajas respectivas y luego se indica aceptar


En la siguiente ventana se seleccionan los residuos, el valor absoluto de los residuos, los residuos estandarizados  y los valores predichos.

Los resultados del Análisis de varianza son los siguientes:


Verificación de la normalidad de los Errores    
Pruebas de normalidad gráfica y analítica
Se procede a realizar un gráfico QQ Plot.
Se ingresa a la pestaña Gráficos y luego se selecciona QQ Plot. Se define como variable de interés el residuo de la nota y en la siguiente ventana se especifica la distribución normal.






.La  Gráfica indica que en general los datos se aproximan a una distribución normal, pero se desvían en los extremos.

Para confirmar analíticamente ésta conclusión, se procede a realizar una prueba de Shapiro y Wilks:


De acuerdo a la prueba se concluye que los errores no tienen distribución normal
Verificación de la Homogeneidad de varianzas.
Este es el supuesto más importante que los residuos deben cumplir para que el modelo empleado sea válido.
Para corroborar esto se realiza una prueba de Cochran o una de Levine

La prueba de C de Cocharn, es una prueba unilateral del límite superior atípico de la varianza. La prueba C se utiliza para determinar si una sola estimación de una varianza es significativamente más grande que un grupo de varianzas, se presenta el resultado de la prueba de C de Cochran para la variable porcentaje de parasitismo. En este caso no es posible usarla porque el modelo es desbalanceado (diferentes repeticiones por tratamiento)
Una alternativa a la prueba C de Cochran es la prueba de Levene**
La prueba de Levene consiste en realizar un análisis de la varianza usando como variable dependiente el valor absoluto de los residuos.
La variable dependiente es el valor absoluto de los residuos y la independiente el titulo



El análisis indica que no hay diferencia significativa entre los tratamientos, por lo cual se concluye que las varianzas son homogéneas.

 Verificación de Independencia de los residuos
Este supuesto necesita  que la probabilidad de que el residuo de una observación cualquiera tenga un determinado valor, no debe depender de los valores de los otros residuos. Al momento de aleatorizar, debió controlarse. En Infostat solamente se puede comprobar gráficamente, realizando un diagrama de dispersión de los residuos contra los predichos.

De acuerdo a la gráfica, se nota que no hay evidencia de correlación en los datos, por lo cual se concluye que sí se cumple el supuesto (LOS RESIDUOS SON INDEPENDIENTES).

CONCLUSIONES:
1.    Los residuos son independientes

2.    Los residuos no tienen distribución normal, pero tomando en cuenta que lo que interesa es comparar las medias, la violación del supuesto no se considera crítica para seguir con el análisis

3.    Las varianzas son homogéneas

4. EL ANÁLISIS DE VARIANZA POR LA VÍA ORDINARIA ES VÁLIDO, LO MISMO QUE LAS CONCLUSIONES







No hay comentarios:

Publicar un comentario