jueves, 20 de noviembre de 2014

ANÁLISIS EXPLORATORIO GRÁFICO DE DATOS CON R

ANÁLISIS EXPLORATORIO GRÁFICO DE DATOS CON R

Ing. Luis Manfredo Reyes

En la estadística descriptiva, para describir las propiedades de una población, se recurre al cálculo de ciertos valores que se obtienen de ella (estadísticos), tales como la moda, la media, la varianza, etc.

Sin embargo, existen otras herramientas que ayudan a explicar el comportamiento de los datos, y que son poco utilizadas. Una de ellas es la gráfica de cajas (Box Plot) y la gráfica de densidad de datos. En ésta ocasión se muestra cómo se realiza el proceso con R



R es un paquete estadístico producido  en el proyecto GNU , y se puede descargar en éste link:
http://www.r-project.org/

Se asume que el lector tiene instalado el paquete y conoce el uso básico del mismo.

DATOS DE EJEMPLO:
En la Facultad de Ciencias Químicas y Farmacia se realizó un diagnóstico de conocimientos de matemática y física de todos los estudiantes de primer ingreso en el año 1996. Los datos están contenidos en el archivo de Excel  "Nuevos2" que puede ser descargado del siguiente enlace:

En éste ejemplo, la variable de interés es la nota total obtenida (en la escala de 0 a 100, donde 100 es la máxima nota posible)

1. Importar los datos a R
suponiendo que el archivo se encuentra en el directorio Documentos:
se ingresa la orden:
datos <- read.table("C:/Users/area fisicomate/Documents/Nuevos2.xls",header=TRUE)

Si se desea visualizar los datos se ingresa
datos
y el programa presenta los datos:
Ahora, solicitar la gráfica de Caja:
boxplot( ~ TOTAL, data=datos,id.method="none")
y el resultado es el siguiente:


En éste ejemplo: la interpretación es la siguiente:
El rectángulo verde central representa el 50% de los datos y está comprendido entre el primer y tercer cuartiles de los datos.

Al centro del rectángulo está la mediana.

Los valores extremos son: el superior percentil 90 (que contiene el 90% de los datos)  y el inferior el percentil 10 ( el 10% de los datos está debajo de ésta linea)

La gráfica muestra que existe una gran concentración de los datos por debajo de la media aritmética y que los datos mayores que la media son pocos. 

Es posible realizar una gráficca con varios grupos al mismo tiempo, para lo cual se necesita una variable tipo factor o alfanumérica:

 boxplot( TOTAL ~ TITULO, data=datos,id.method="none")

la gráfica es la siguiente:


Es recomendable que la variable para definir grupos sea numérica, para que en el eje se muestren correctamente los datos.
Para ello se sigue el siguiente procedimiento:
Se crea una nueva variable llamada TIT y se recodifican los valores de los títulos, y se convierte la variable en factor

datos$TIT <- Recode(datos$TITULO, 
+   '"BACHILLER"=1; "MAESTRO"=2; "PERITO"=3; "SECRETARIA"=4; "AGRONOMO"=5; "COMPUTACIN"=6;', as.factor.result=TRUE)

Y se solicita de nuevo la gráfica:
boxplot(TOTAL~TIT, data=datos, id.method="none")
y el resultado es:




La gráfica muestra que el grupo más consistente (con menos variabilidad en los datos) es el de los Peritos
y el grupo con mayor variabilidad en los datos es el de los Bachilleres en computación

Pero por otra parte, el menor promedio lo tuvieron los del grupo  de los Maestros  mientras el mayor promedio lo obtuvieron los del grupo de agrónomos  

No hay comentarios:

Publicar un comentario