lunes, 13 de julio de 2015

PRUEBAS DE NORMALIDAD CON SAS (R)



PRUEBAS DE NORMALIDAD CON SAS (R)
Ing. Luis Manfredo Reyes

Casi toda la teoría de la estadística inferencial (pruebas de hipótesis, regresión, análisis de varianza) ha sido construída sobre el fundamento de que “LOS DATOS TIENEN DISTRIBUCIÓN NORMAL”, o dicho de otra manera, para que la teoría sea válida, es necesario que los datos tengan distribución normal.

Tristemente, la mayoría de investigadores simplemente ignoran éste requisito y olímpicamente  suponen que los datos sí tienen distribución normal, cuando en la realidad no se sabe si esto es cierto.

Existen varias pruebas para determinar si los datos son normales o no:
Chi cuadrado de bondad de ajuste
Kolmogorov Smirnoff
Shapiro y Wilks

No es el objetivo del presente documento explorar los principios teóricos y métodos manuales de cálculo, sino ilustrar la utilización del  paquete SAS  para su determinación.



El software SAS (Statistical Analisys System) ha sido considerado como el más potente para análisis estadístico, pero siempre tuvo el gran inconveniente de su elevado costo (se paga una licencia anual).

Afortunadamente, en una decisión sorpresiva pero agradable, el CEO de SAS decidió liberar el software para uso de estudiantes, profesores e investigadores (más información de cómo obtener el software aquí: http://reyesestadistica.blogspot.com/2015/06/milagro-sas-libera-version-gratuita.html
Se asume que el lector ya instaló el software y conoce su uso básico.



Se asume que el lector tiene instalado el paquete y conoce el uso básico del mismo.
Ejemplo:

Deterrmine si el siguiente conjunto de datos tiene distribución normal, a un nivel de confianza del 97%.
25
19
33
17
28
30
16
11
20
09
15
19
31
40
47
66
23
30
10
55

Por ser pocos datos, se recomienda usar el ingreso directo  de datos:

En la ventana EDITOR se ingresa:
Data normal;
Input x ;
Cards;
25
19
33
17
28
30
16
11
20
9
15
19
31
40
47
66
23
30
10
55
Run;

Luego, se invoca el test de bondad de ajuste  con la siguiente orden:
Title 'Prueba de normalidad ';
ods select ParameterEstimates GoodnessOfFit FitQuantiles MyHist;
proc univariate data=normal;
   var x;
   histogram /normal;          
   inset n mean(5.3) std='Std Dev'(5.3) skewness(5.3)
          / pos = ne  header = 'Summary Statistics';
   axis1 label=(a=90 r=0);
run;
Todas las instrucciones se ingresan en la ventana EDITOR, luego se va a la pestaña RUN y se selecciona la opción SUBMIT

y el resultado es el siguiente:
                                    Prueba de normalidad     09:47 Thursday, July 13, 2015   1

                                   The UNIVARIATE Procedure
                                   Fitted Distribution for x

                               Parameters for Normal Distribution

                                 Parameter   Symbol   Estimate

                                 Mean        Mu           27.2
                                 Std Dev     Sigma    15.17477


                        Goodness-of-Fit Tests for Normal Distribution

                  Test                  ---Statistic----   -----p Value-----

                  Kolmogorov-Smirnov    D     0.15115156   Pr > D     >0.150
                  Cramer-von Mises      W-Sq  0.10155856   Pr > W-Sq   0.100
                  Anderson-Darling      A-Sq  0.64405331   Pr > A-Sq   0.083


                               Quantiles for Normal Distribution

                                          -------Quantile------
                                Percent    Observed   Estimated

                                    1.0     9.00000    -8.10180
                                    5.0     9.50000     2.23972
                                   10.0    10.50000     7.75275
                                   25.0    16.50000    16.96477
                                   50.0    24.00000    27.20000
                                   75.0    32.00000    37.43523
                                   90.0    51.00000    46.64725
                                   95.0    60.50000    52.16028
                                   99.0    66.00000    62.50180
 


Como se desea 97% de confianza (0.97) , entonces el valor de alfa (nivel de significancia es 0.03), y como el valor de p es mayor que alfa, se concluye en las tres pruebas que los datos sí tienen distribución normal al 97% de confianza

No hay comentarios:

Publicar un comentario