ANÁLISIS
EXPLORATORIO GRÁFICO DE DATOS CON SAS ®
Ing. Luis Manfredo Reyes
El software SAS (Statistical Analisys System) ha
sido considerado como el más potente para análisis estadístico, pero siempre
tuvo el gran inconveniente de su elevado costo (se paga una licencia anual).
Afortunadamente, en una decisión sorpresiva pero
agradable, el CEO de SAS decidió liberar el software para uso de estudiantes,
profesores e investigadores (más información de cómo obtener el software aquí: http://reyesestadistica.blogspot.com/2015/06/milagro-sas-libera-version-gratuita.html
Se asume que el lector ya instaló el software y
conoce su uso básico.
En la estadística descriptiva, para describir las propiedades de una población, se recurre al cálculo de ciertos valores que se obtienen de ella (estadísticos), tales como la moda, la media, la varianza, etc.
Sin embargo, existen otras herramientas que ayudan a explicar el comportamiento de los datos, y que son poco utilizadas. Una de ellas es la gráfica de cajas (Box Plot) . En ésta ocasión se muestra cómo se realiza el proceso con SAS
DATOS DE EJEMPLO:
En la Facultad de Ciencias Químicas y
Farmacia se realizó un diagnóstico de conocimientos de matemática y física de
todos los estudiantes de primer ingreso en el año 1996. Los datos están
contenidos en el archivo de Excel "Nuevos2" que puede ser
El archivo puede ser instalado en
cualquier parte, pero lo más fácil es en el directorio raíz (c:\)
En éste ejemplo, la variable de
interés es la nota total obtenida (en la escala de 0 a 100, donde 100 es la
máxima nota posible). Se desea comparar las notas de acuerdo al título que
poseen los estudiantes
1. Importar los datos
a SAS
En la ventana EDITOR de SAS se ingresa:
En la ventana EDITOR de SAS se ingresa:
Proc import
datafile=”c:\nuevos2.xls out=nuevos2 dbms=xls replace; getnames=yes; run;
Datafile define la
ubicación del archivo a importer
Out define el
nombre del archivo de trabajo de SAS (puede ser cualquier nombre)
Dbms define el tipo
de archivo a importar, en éste caso es xls (Excel)
Replace indica que
se debe remplazar cualquier archivo con el mismo nombre
Getnames indica que
se deben leer los datos de la primera fila como los nombres de las variablesw
2. Ordenar los datos
por título de graduación
proc sort data=nuevos2; by
titulo; run;
3.
Para pedir la gráfica de caja, se realiza lo siguiente:
title "Grafica
de caja";
proc boxplot data=nuevos2;
plot
total*titulo; run;
Todas las instrucciones se ingresan en la ventana EDITOR y luego en la pestaña RUN se escoge la opción SUBMIT
El resultado producido es:
La gráfica muestra que el grupo más consistente (con menos variabilidad
en los datos) es el de los Peritos
y el grupo con mayor variabilidad en los datos es el de los Bachilleres
en computación
Pero por otra parte, el menor promedio lo tuvieron los del grupo
de los Maestros mientras el mayor promedio lo obtuvieron los del
grupo de agrónomos
No hay comentarios:
Publicar un comentario