PRUEBAS DE NORMALIDAD CON R
Ing. Luis Manfredo Reyes
Casi toda la teoría de la estadística inferencial (pruebas
de hipótesis, regresión, análisis de varianza) ha sido construída sobre el
fundamento de que “LOS DATOS TIENEN DISTRIBUCIÓN NORMAL”, o dicho de otra
manera, para que la teoría sea válida, es necesario que los datos tengan
distribución normal.
Tristemente, la mayoría de investigadores simplemente
ignoran éste requisito y olímpicamente suponen que los datos sí tienen distribución
normal, cuando en la realidad no se sabe si esto es cierto.
Existen varias pruebas para determinar si los datos son
normales o no:
Chi cuadrado de bondad de ajuste
Kolmogorov Smirnoff
Shapiro y Wilks
No es el objetivo del presente documento explorar los
principios teóricos y métodos manuales de cálculo, sino ilustrar la utilización
del paquete R para su
determinación.
R es un paquete estadístico producido en el proyecto GNU , y se puede descargar en éste link:
http://www.r-project.org/
Se asume que el lector tiene instalado el paquete y conoce
el uso básico del mismo.
Ejemplo:
Deterrmine si el siguiente conjunto de datos tiene
distribución normal, a un nivel de confianza del 97%.
25
|
19
|
33
|
17
|
28
|
30
|
16
|
11
|
20
|
09
|
15
|
19
|
31
|
40
|
47
|
66
|
23
|
30
|
10
|
55
|
Por ser pocos datos, se recomienda usar el ingreso vectorial de datos:
Datos <- c(25,19,33,17,28,30,16,11,20,9,15,19,31,40,47,66,23,30,10,55)
Luego, se invoca el test de Shapiro Wilks con la siguiente orden:
shapiro.test(Datos)
y el resultado es el siguiente:
Shapiro-Wilk normality test
data: Datos
W = 0.9036, p-value = 0.04817
Como se desea 97% de confianza (0.97) , entonces el valor de alfa (nivel de significancia es 0.03), y como el valor de p es mayor que alfa, se concluye que los datos sí tienen distribución normal al 97% de confianza
No hay comentarios:
Publicar un comentario