miércoles, 8 de julio de 2015

ANÁLISIS EXPLORATORIO GRÁFICO DE DATOS CON SAS ®



ANÁLISIS EXPLORATORIO GRÁFICO DE DATOS CON SAS ®

Ing. Luis Manfredo Reyes

El software SAS (Statistical Analisys System) ha sido considerado como el más potente para análisis estadístico, pero siempre tuvo el gran inconveniente de su elevado costo (se paga una licencia anual).
Afortunadamente, en una decisión sorpresiva pero agradable, el CEO de SAS decidió liberar el software para uso de estudiantes, profesores e investigadores (más información de cómo obtener el software aquí: http://reyesestadistica.blogspot.com/2015/06/milagro-sas-libera-version-gratuita.html
Se asume que el lector ya instaló el software y conoce su uso básico.

En la estadística descriptiva, para describir las propiedades de una población, se recurre al cálculo de ciertos valores que se obtienen de ella (estadísticos), tales como la moda, la media, la varianza, etc.

Sin embargo, existen otras herramientas que ayudan a explicar el comportamiento de los datos, y que son poco utilizadas. Una de ellas es la gráfica de cajas (Box Plot) . En ésta ocasión se muestra cómo se realiza el proceso con SAS

DATOS DE EJEMPLO:
En la Facultad de Ciencias Químicas y Farmacia se realizó un diagnóstico de conocimientos de matemática y física de todos los estudiantes de primer ingreso en el año 1996. Los datos están contenidos en el archivo de Excel  "Nuevos2" que puede ser
El archivo puede ser instalado en cualquier parte, pero lo más fácil es en el directorio raíz (c:\)
 
En éste ejemplo, la variable de interés es la nota total obtenida (en la escala de 0 a 100, donde 100 es la máxima nota posible). Se desea comparar las notas de acuerdo al título que poseen los estudiantes

1.     Importar los datos a SAS
En la ventana EDITOR de SAS se ingresa:
Proc import datafile=”c:\nuevos2.xls out=nuevos2 dbms=xls replace; getnames=yes; run;

Datafile define la ubicación del archivo a importer
Out define el nombre del archivo de trabajo de SAS (puede ser cualquier nombre)
Dbms define el tipo de archivo a importar, en éste caso es xls (Excel)
Replace indica que se debe remplazar cualquier archivo con el mismo nombre
Getnames indica que se deben leer los datos de la primera fila como los nombres de las variablesw

2.     Ordenar los datos por título de graduación
proc sort data=nuevos2; by titulo; run;

3.      Para pedir la gráfica de caja, se realiza lo siguiente: 

title "Grafica de caja";
proc boxplot data=nuevos2; plot  total*titulo; run;

Todas las instrucciones se ingresan en la ventana EDITOR y luego en la pestaña RUN se escoge la opción SUBMIT



El resultado producido es:

La gráfica muestra que el grupo más consistente (con menos variabilidad en los datos) es el de los Peritos

y el grupo con mayor variabilidad en los datos es el de los Bachilleres en computación

Pero por otra parte, el menor promedio lo tuvieron los del grupo  de los Maestros  mientras el mayor promedio lo obtuvieron los del grupo de agrónomos  


No hay comentarios:

Publicar un comentario