lunes, 22 de septiembre de 2014

PRUEBAS DE NORMALIDAD CON R

PRUEBAS DE NORMALIDAD CON R
Ing. Luis Manfredo Reyes

Casi toda la teoría de la estadística inferencial (pruebas de hipótesis, regresión, análisis de varianza) ha sido construída sobre el fundamento de que “LOS DATOS TIENEN DISTRIBUCIÓN NORMAL”, o dicho de otra manera, para que la teoría sea válida, es necesario que los datos tengan distribución normal.

Tristemente, la mayoría de investigadores simplemente ignoran éste requisito y olímpicamente  suponen que los datos sí tienen distribución normal, cuando en la realidad no se sabe si esto es cierto.


Existen varias pruebas para determinar si los datos son normales o no:
Chi cuadrado de bondad de ajuste
Kolmogorov Smirnoff
Shapiro y Wilks

No es el objetivo del presente documento explorar los principios teóricos y métodos manuales de cálculo, sino ilustrar la utilización del  paquete R para su determinación.

R es un paquete estadístico producido  en el proyecto GNU , y se puede descargar en éste link:
http://www.r-project.org/

Se asume que el lector tiene instalado el paquete y conoce el uso básico del mismo.
Ejemplo:

Deterrmine si el siguiente conjunto de datos tiene distribución normal, a un nivel de confianza del 97%.
25
19
33
17
28
30
16
11
20
09
15
19
31
40
47
66
23
30
10
55

Por ser pocos datos, se recomienda usar el ingreso vectorial de datos:
Datos <- c(25,19,33,17,28,30,16,11,20,9,15,19,31,40,47,66,23,30,10,55)

Luego, se invoca el test de Shapiro Wilks con la siguiente orden:
 shapiro.test(Datos)

y el resultado es el siguiente:

        Shapiro-Wilk normality test

data:  Datos 
W = 0.9036, p-value = 0.04817

Como se desea 97% de confianza (0.97) , entonces el valor de alfa (nivel de significancia es 0.03), y como el valor de p es mayor que alfa, se concluye que los datos sí tienen distribución normal al 97% de confianza





No hay comentarios:

Publicar un comentario