ANÁLISIS EXPLORATORIO GRÁFICO DE DATOS CON OPEN STAT
Ing. Luis Manfredo Reyes
En la estadística descriptiva, para describir las propiedades de una población, se recurre al cálculo de ciertos valores que se obtienen de ella (estadísticos), tales como la moda, la media, la varianza, etc.
Sin embargo, existen otras herramientas que ayudan a explicar el comportamiento de los datos, y que son poco utilizadas. Una de ellas es la gráfica de cajas (Box Plot) y la gráfica de densidad de datos. En ésta ocasión se muestra cómo se realiza el proceso con Open Stat
OPEN STAT es un paquete estadístico gratuito producido por Bill Miller, y se puede descargar en éste link:http://statpages.info/miller/OpenStatMain.htm
Se asume que el lector tiene instalado el paquete y conoce el uso básico del mismo.
DATOS DE EJEMPLO:
En la Facultad de Ciencias Químicas y Farmacia se realizó un diagnóstico de conocimientos de matemática y física de todos los estudiantes de primer ingreso en el año 1996. Los datos están contenidos en el archivo de Excel "Nuevos2" que puede ser descargado del siguiente enlace:
En éste ejemplo, la variable de interés es la nota total obtenida (en la escala de 0 a 100, donde 100 es la máxima nota posible)
IMPORTACIÓN DE LOS DATOS A OPEN STAT
Open Stat no puede leer directamente archivos de Excel, pero sí lee archivos en formato CSV, por lo cual se debe abrir el archivo en Excel y luego "guardarlo como" y en el tipo de archivo, buscar CSV
Para ello, en el menú de Open Stat se ingresa a FILES--> IMPORT COMMA FILE y en la ventana de ingreso se localiza el archivo y se coloca el nombre:
y los datos ya importados quedan así:
A continuación, se debe crear una nueva variable que tenga un valor constante "1" en todos los casos, pues Open Stat exige una variable numérica que represente el grupo.
Se procede asi:
Se da click en Add Variable
Se ingresa a VARIABLES--> TRANSFORM
En la casilla Fisrt Var Argument se ingresa VAR7 (la nueva variable)
En la casilla Constant se ingresa 1
en la casilla Transformations se localiza y da click en New=C
En la casilla Save new variable as se ingresa VAR8
se da click en OK
y se tiene lo siguiente:
Ahora, se solicita la gráfica de Caja (BOX)
ANALYSES--> DESCRIPTIVE--> BOX PLOTS
Se debe indicar en la casilla Group Variable: VAR8
En la casilla measurement vasriable se indica la variable de interés: TOTAL
Y el resultado es el siguiente:
En éste ejemplo: la interpretación es la siguiente:
El rectángulo verde central representa el 50% de los datos y está comprendido entre el primer y tercer cuartiles de los datos.
Al centro del rectángulo está la mediana. La línea punteada que aparece arriba de la mediana es la media aritmética.
Los valores extremos son: el superior percentil 90 (que contiene el 90% de los datos) y el inferior el percentil 10 ( el 10% de los datos está debajo de ésta linea)
La gráfica muestra que existe una gran concentración de los datos por debajo de la media aritmética y que los datos mayores que la media son pocos.
Es posible comprar varios grupos dentro del mismo conjunto de datos, para lo cual se debe crear una variable numérica que represente el código de los grupos.
Por ejemplo, en éste ejemplo se puede comparar las notas por título obtenido en secundaria, usando el siguiente código:
Bachiller=1 (Bachiller en ciencias y letras)
Maestro=2
Perito=3
Secretaria=4
Agrónomo=5
Computacin=6 (Bachiller en computación)
Para ello se ingresa a EDIT--> RECODE VALUES
En la casilla variable name se ingresa TITULO
En la casilla Recode into, marcar same column
Donde dice Old value, ingresar BACHILLER
donde dice new value, ingresar 1
se da click donde dice Apply to this variable only
Para ingresar los otros códigos, se da click en Do another value y se repite el proceso para los demás casos
luego en Return
Los datos ahora quedan así:
Ahora, se ingresa a ANALYSES--> DESCRIPTIVE--> BOX PLOTS
Se debe indicar en la casilla Group Variable: TITULO
En la casilla measurement vasriable se indica la variable de interés: TOTAL
Y el resultado que produce es:
La gráfica muestra que el grupo más consistente (con menos variabilidad en los datos) es el 3 (Peritos)
y el grupo con mayor variabilidad en los datos es el 7 (Bachilleres en computación)
Pero por otra parte, el menor promedio lo tuvieron los del grupo 2 (Mestros) mientras el mayor promedio lo obtuvieron los del grupo 6 (agrónomos)
No hay comentarios:
Publicar un comentario