PRUEBAS DE NORMALIDAD CON SAS (R)
Ing. Luis
Manfredo Reyes
Casi toda
la teoría de la estadística inferencial (pruebas de hipótesis, regresión,
análisis de varianza) ha sido construída sobre el fundamento de que “LOS DATOS
TIENEN DISTRIBUCIÓN NORMAL”, o dicho de otra manera, para que la teoría sea
válida, es necesario que los datos tengan distribución normal.
Tristemente,
la mayoría de investigadores simplemente ignoran éste requisito y olímpicamente
suponen que los datos sí tienen distribución normal, cuando en la
realidad no se sabe si esto es cierto.
Existen
varias pruebas para determinar si los datos son normales o no:
Chi
cuadrado de bondad de ajuste
Kolmogorov
Smirnoff
Shapiro y
Wilks
No es el
objetivo del presente documento explorar los principios teóricos y métodos
manuales de cálculo, sino ilustrar la utilización del paquete SAS para su determinación.
El
software SAS (Statistical Analisys System) ha sido considerado como el más
potente para análisis estadístico, pero siempre tuvo el gran inconveniente de
su elevado costo (se paga una licencia anual).
Afortunadamente,
en una decisión sorpresiva pero agradable, el CEO de SAS decidió liberar el
software para uso de estudiantes, profesores e investigadores (más información
de cómo obtener el software aquí: http://reyesestadistica.blogspot.com/2015/06/milagro-sas-libera-version-gratuita.html
Se asume
que el lector ya instaló el software y conoce su uso básico.
Se asume
que el lector tiene instalado el paquete y conoce el uso básico del mismo.
Ejemplo:
Deterrmine
si el siguiente conjunto de datos tiene distribución normal, a un nivel de
confianza del 97%.
25
|
19
|
33
|
17
|
28
|
30
|
16
|
11
|
20
|
09
|
15
|
19
|
31
|
40
|
47
|
66
|
23
|
30
|
10
|
55
|
Por ser
pocos datos, se recomienda usar el ingreso directo de datos:
En la
ventana EDITOR se ingresa:
Data normal;
Input x ;
Cards;
25
19
33
17
28
30
16
11
20
9
15
19
31
40
47
66
23
30
10
55
Run;
Luego, se
invoca el test de bondad de ajuste con
la siguiente orden:
Title 'Prueba de normalidad ';
ods
select ParameterEstimates GoodnessOfFit FitQuantiles MyHist;
proc
univariate data=normal;
var x;
histogram /normal;
inset n mean(5.3) std='Std Dev'(5.3)
skewness(5.3)
/ pos = ne header = 'Summary Statistics';
axis1 label=(a=90 r=0);
run;
Todas las instrucciones se ingresan en la ventana EDITOR, luego se va a la pestaña RUN y se selecciona la opción SUBMIT
y el
resultado es el siguiente:
Prueba de normalidad 09:47 Thursday, July 13, 2015 1
The UNIVARIATE Procedure
Fitted Distribution for x
Parameters for Normal Distribution
Parameter Symbol Estimate
Mean Mu 27.2
Std Dev Sigma 15.17477
Goodness-of-Fit Tests for Normal Distribution
Test ---Statistic---- -----p Value-----
Kolmogorov-Smirnov D 0.15115156 Pr > D >0.150
Cramer-von Mises W-Sq 0.10155856 Pr > W-Sq 0.100
Anderson-Darling A-Sq 0.64405331 Pr > A-Sq 0.083
Quantiles for Normal Distribution
-------Quantile------
Percent Observed Estimated
1.0 9.00000 -8.10180
5.0 9.50000 2.23972
10.0 10.50000 7.75275
25.0 16.50000 16.96477
50.0 24.00000 27.20000
75.0 32.00000 37.43523
90.0 51.00000 46.64725
95.0 60.50000 52.16028
99.0 66.00000 62.50180
The UNIVARIATE Procedure
Fitted Distribution for x
Parameters for Normal Distribution
Parameter Symbol Estimate
Mean Mu 27.2
Std Dev Sigma 15.17477
Goodness-of-Fit Tests for Normal Distribution
Test ---Statistic---- -----p Value-----
Kolmogorov-Smirnov D 0.15115156 Pr > D >0.150
Cramer-von Mises W-Sq 0.10155856 Pr > W-Sq 0.100
Anderson-Darling A-Sq 0.64405331 Pr > A-Sq 0.083
Quantiles for Normal Distribution
-------Quantile------
Percent Observed Estimated
1.0 9.00000 -8.10180
5.0 9.50000 2.23972
10.0 10.50000 7.75275
25.0 16.50000 16.96477
50.0 24.00000 27.20000
75.0 32.00000 37.43523
90.0 51.00000 46.64725
95.0 60.50000 52.16028
99.0 66.00000 62.50180
Como se desea 97% de confianza
(0.97) , entonces el valor de alfa (nivel de significancia es 0.03), y como el
valor de p es mayor que alfa, se concluye en las tres pruebas que los datos sí tienen distribución
normal al 97% de confianza
No hay comentarios:
Publicar un comentario