lunes, 24 de noviembre de 2014

ANÁLISIS EXPLORATORIO GRÁFICO DE DATOS CON PAST

ANÁLISIS EXPLORATORIO GRÁFICO DE DATOS CON PAST

Ing. Luis Manfredo Reyes

En la estadística descriptiva, para describir las propiedades de una población, se recurre al cálculo de ciertos valores que se obtienen de ella (estadísticos), tales como la moda, la media, la varianza, etc.

Sin embargo, existen otras herramientas que ayudan a explicar el comportamiento de los datos, y que son poco utilizadas. Una de ellas es la gráfica de cajas (Box Plot) y la gráfica de densidad de datos. En ésta ocasión se muestra cómo se realiza el proceso con PAST

Past fue desarrollado por Øyvind Hammer, de la Universidad de Oslo y el museo de historia natural. 

Past es un paquete gratuito para análisis de datos, graficación, manipulación de datos, análisis descriptivo, análisis inferencial, análisis multivariado, análisis especializado para ecología, análisis especializado para arqueología (series de tiempo, análisis espacial, morfometría y estratigrafía).


Actualmente, la última versión disponible es la 3.01, que puede ser descargada en el siguiente enlace: http://folk.uio.no/ohammer/past/

Se dispone de una versión para Windows y una preliminar para Macintosh.


Se asume que el lector tiene instalado el paquete y conoce el uso básico del mismo.

DATOS DE EJEMPLO:
En la Facultad de Ciencias Químicas y Farmacia se realizó un diagnóstico de conocimientos de matemática y física de todos los estudiantes de primer ingreso en el año 1996. Los datos están contenidos en el archivo de Excel  "Nuevos2" que puede ser descargado del siguiente enlace:

En éste ejemplo, la variable de interés es la nota total obtenida (en la escala de 0 a 100, donde 100 es la máxima nota posible)

1. Importar los datos a Past
Past puede importar archivos tipo texto, de modo que es necesario leer el archivo en Excel y luego "guardar como", y definiendo el tipo CSV . 

se ingresa la orden: File--> Import Text File
Se ingresa el nombre y ubicación del archivo

El programa pregunta si en la primera fila están los nombres de las variables (se debe marcar "includes a first row of column labels", y el separador (en este caso coma).

Para pedir la gráfica de caja, se realiza lo siguiente: 
Dar click sobre el nombre de la variable (TOTAL), con lo que se marca la columna automáticamente
Luego se ingresa a Plot-->Barchart/Boxplot
El programa automáticamente produce una gráfica de barras. Se debe indicar en la casilla respectiva que sea desea tipo Box.
El resultado es el siguiente:



En éste ejemplo: la interpretación es la siguiente:
El rectángulo central representa el 50% de los datos y está comprendido entre el primer y tercer cuartiles de los datos.

Al centro del rectángulo está la mediana.

Los valores extremos son: el superior percentil 90 (que contiene el 90% de los datos)  y el inferior el percentil 10 ( el 10% de los datos está debajo de ésta linea)

La gráfica muestra que existe una gran concentración de los datos por debajo de la media aritmética y que los datos mayores que la media son pocos. 

Es posible realizar una gráfica con varios grupos al mismo tiempo, para lo cual se necesita que cada grupo a comparar esté ocupando una columna y todas las columnas queden juntas. En esta caso Past no tiene facilidades para realizar la manipulación, de modo que es necesario realizarla antes en Excel y luego guardar el archivo en formato CSV para importarlo de nuevo a Past.




Se marca todas las columnas de datos, dando click en la primera, oprimendo Shift y luego dando click en la última columna:

Y la gráfica resultante es:



La gráfica muestra que el grupo más consistente (con menos variabilidad en los datos) es el de los Peritos
y el grupo con mayor variabilidad en los datos es el de los Bachilleres en computación

Pero por otra parte, el menor promedio lo tuvieron los del grupo  de los Maestros  mientras el mayor promedio lo obtuvieron los del grupo de agrónomos  

No hay comentarios:

Publicar un comentario