domingo, 22 de abril de 2018

ANÁLISIS DE CONGLOMERADOS (CLUSTER) USANDO PAST: EL CASO DE LAS HAMBURGUESAS DE MCDONALDS®


ANÁLISIS DE CONGLOMERADOS (CLUSTER) USANDO PAST:
EL CASO DE LAS HAMBURGUESAS DE MCDONALDS®
Ing. Luis Manfredo Reyes

Introducción:
En el análisis estadístico tradicional, se analizan una por una las variables de interés, o a lo sumo se elaboran pruebas de hipótesis para cada variable. Pero cuando se trata de más de dos variables, la situación se hace muy difícil de manejar manualmente.-

De todos los métodos que se han desarrollado, hay uno que permite agrupar los datos, mediante la medición de las distancias entre los individuos y la creación de una gráfica (Dendograma)
La técnica se denomina Análisis de Conglomerados (Cluster).

El objetivo de éste artículo no es profundizar en los detalles del análisis manual de la técnica, sino definir cómo se realiza en el paquete estadístico PAST

Past fue desarrollado por Øyvind Hammer, de la Universidad de Oslo y el museo de historia natural. 

Past es un paquete gratuito (No es software libre)  para análisis de datos, graficación, manipulación de datos, análisis descriptivo, análisis inferencial, análisis multivariado, análisis especializado para ecología, análisis especializado para arqueología (series de tiempo, análisis espacial, morfometría y estratigrafía).


Actualmente, la última versión disponible es la 3.2, que puede ser descargada en el siguiente enlace: 
http://folk.uio.no/ohammer/past/

Se dispone de una versión para Windows y una preliminar para Macintosh.


La descripción del programa es la siguiente:

- Es gratuito
-Todo el programa está contenido en un sólo archivo (past.exe)
-No necesita instalador, basta copiarlo al disco de la computadora y hacer doble click sobre el ícono de un caracol para que funcione.
Se pueden importar archivos de texto y de Excel (R)


Ejemplo:

La siguiente tabla muestra el contenido nutricional de los productos más conocidos de la marca de Hamburgesas McDonalds ® (fuente: https://www.zonadiet.com/tablas/mcdonalds.htm)







Tabla 1: Contenido nutricional de productos McDonalds®
NA significa información no disponible
McDonalds es marca registrada de McDonalds International

EN ESTE EJEMPLO NO SE DISCUTE LA CALIDAD NUTRICIONAL DE LOS PRODUCTOS, SINO EL GRADO DE PARECIDO O DIFERENCIACION QUE PRESENTAN, DE ACUERDO A LOS DATOS DE LA TABLA
Una práctica usual en el trabajo con PAST, es importar los datos de un archivo de Excel®. Sin embargo, siendo pocos datos, también es posible crear manualmente el archivo. Los datos pueden estar en formato CsV (separados por comas), o bien xls. (archivos de Excel 2007).

  

 Se da click en la pestaña File y se escoge Open



Luego se especifica el nombre y tipo de archivo

Se deben definir las opciones de importación: cada fila contiene nombres y datos y cada columna nombres y datos . El separador es la coma




El archivo ya importado es el siguiente:

Nótese que en la variable colesterol hay dos datos faltantes. Para poder realizar el análisis, se deben estimar los datos faltantes.

Una forma de hacerlo es colocar la media de la variable.
Se marca la columna de colesterol


Se ingresa a la pestaña Univariate y se escoge: descriptive

Los datos se ingresan en los lugares faltantes

Y ahora se procede a especificar el análisis:



El individuo que más se diferencia de los demás es La hamburguesa. El Cuarto de libra con queso,  el McRoyal  y el Mc Royal con queso forman un grupo que después se une al big Mac.

Los dos grandes grupos que se forman son: Los productos "mas pesados" en contenidos, y los "menos pesados". 

El programa permite tres métodos de cálculo y varias formas de medición de distancias






No hay comentarios:

Publicar un comentario