ANÁLISIS DE CONGLOMERADOS (CLUSTER)
USANDO PAST:
EL CASO DE
LAS HAMBURGUESAS DE MCDONALDS®
Ing. Luis
Manfredo Reyes
Introducción:
En el análisis estadístico tradicional, se analizan una por
una las variables de interés, o a lo sumo se elaboran pruebas de hipótesis para
cada variable. Pero cuando se trata de más de dos variables, la situación se
hace muy difícil de manejar manualmente.-
De todos los métodos que se han desarrollado, hay uno que
permite agrupar los datos, mediante la medición de las distancias entre los
individuos y la creación de una gráfica (Dendograma)
La técnica se denomina Análisis de Conglomerados (Cluster).
El objetivo de éste artículo no es profundizar en los detalles del
análisis manual de la técnica, sino definir cómo se realiza en el paquete
estadístico PAST
Past fue desarrollado por Øyvind Hammer,
de la Universidad de Oslo y el museo de historia natural.
Past es un paquete gratuito (No es software libre) para análisis de datos, graficación, manipulación de datos, análisis descriptivo, análisis inferencial, análisis multivariado, análisis especializado para ecología, análisis especializado para arqueología (series de tiempo, análisis espacial, morfometría y estratigrafía).
Past es un paquete gratuito (No es software libre) para análisis de datos, graficación, manipulación de datos, análisis descriptivo, análisis inferencial, análisis multivariado, análisis especializado para ecología, análisis especializado para arqueología (series de tiempo, análisis espacial, morfometría y estratigrafía).
Actualmente, la última versión disponible es la 3.2, que puede ser descargada en el siguiente enlace: http://folk.uio.no/ohammer/past/
Se dispone de una versión para Windows y una preliminar para Macintosh.
La descripción del programa es la siguiente:
- Es gratuito
-Todo el programa está contenido en un sólo archivo (past.exe)
-No necesita instalador, basta copiarlo al disco de la computadora y hacer doble click sobre el ícono de un caracol para que funcione.
Se pueden importar archivos de texto y de Excel (R)
Ejemplo:
La siguiente tabla muestra el contenido nutricional de los
productos más conocidos de la marca de Hamburgesas McDonalds ® (fuente: https://www.zonadiet.com/tablas/mcdonalds.htm)
Tabla 1: Contenido nutricional de productos McDonalds®
NA significa información no disponible
McDonalds es marca
registrada de McDonalds International
EN ESTE EJEMPLO NO SE
DISCUTE LA CALIDAD NUTRICIONAL DE LOS PRODUCTOS, SINO EL GRADO DE PARECIDO O
DIFERENCIACION QUE PRESENTAN, DE ACUERDO A LOS DATOS DE LA TABLA
Una práctica usual en el trabajo con PAST, es importar los
datos de un archivo de Excel®. Sin embargo, siendo pocos datos, también es
posible crear manualmente el archivo. Los datos pueden estar en formato CsV
(separados por comas), o bien xls. (archivos de Excel 2007).
El archivo ya importado es el siguiente:
Nótese que en la variable colesterol hay dos datos faltantes. Para poder realizar el análisis, se deben estimar los datos faltantes.
Una forma de hacerlo es colocar la media de la variable.
Se marca la columna de colesterol
Se ingresa a la pestaña Univariate y se escoge: descriptive
Los datos se ingresan en los lugares faltantes
El individuo que más se diferencia de los demás es La hamburguesa. El Cuarto de libra con queso, el McRoyal y el Mc Royal con queso forman un grupo que después se une al big Mac.
Los dos grandes grupos que se forman son: Los productos "mas pesados" en contenidos, y los "menos pesados".
El programa permite tres métodos de cálculo y varias formas de medición de distancias
No hay comentarios:
Publicar un comentario