martes, 17 de abril de 2018


ANÁLISIS DE CONGLOMERADOS (CLUSTER) CON INFOSTAT: EL CASO DE LAS HAMBURGUESAS DE McDONALDS®

ANÁLISIS DE CONGLOMERADOS (CLUSTER) CON INFOSTAT: EL CASO DE LAS HAMBURGUESAS DE McDONALDS®
Ing. Luis Manfredo Reyes

El análisis de conglomerados (cluster), es una técnica multivariada, en la cual en base a un conjunto de características cuantitativas, se realiza una agrupación de individuos en base a las distancias entre ellos.
Al final del análisis, se obtiene un diagrama llamado DENDROGRAMA, que resume gráficamente el agrupamiento.

No es el objetivo de éste documento profundizar en la teoría del método, sino ejemplificar su análisis en Infostat.


Infostat es un paquete estadístico producido en la Universidad de Córdoba, Argentina, que tiene la ventaja de estar escrito en español, con versión comercial y libre. Se puede obtener n: www.infostat.com.ar

Se asume que el lector tiene instalado el paquete y conoce el uso básico del mismo.

OJO: EN LA VERSIÓN LIBRE DE INFOSTAT SÓLAMENTE SE PUEDE TRABAJAR CON 9 VARIABLES. EN LA VERSIÓN PAGADA NO HAY LÍMITE.

La siguiente tabla muestra el contenido nutricional de los productos más conocidos de la marca de Hamburgesas McDonalds ® (fuente: https://www.zonadiet.com/tablas/mcdonalds.htm)

Tabla 1: Contenido nutricional de productos McDonalds®



UN ESPACIO EN BLANCO  significa información no disponible
McDonalds es marca registrada de McDonalds International

EN ESTE EJEMPLO NO SE DISCUTE LA CALIDAD NUTRICIONAL DE LOS PRODUCTOS, SINO EL GRADO DE PARECIDO O DIFERENCIACION QUE PRESENTAN, DE ACUERDO A LOS DATOS DE LA TABLA

Una práctica usual en el trabajo con INFOSTAT, es importar los datos de un archivo de Excel®. Sin embargo, siendo pocos datos, también es posible crear manualmente el archivo.En este ejemplo, el archivo es de texto, separado por comas, creado en Excel, y se encuentra en una carpeta llamada "Chernoff" de la unidad E

1) Importar el archivo a Infostat
Se ingresa: Archivo-->Abrir 





Pregunta si la primera fila de datos contiene los nombres de las variables y se marca la casilla 




2) Luego se ingresa Estadísticas, Análisis Multivariado y Análisis de Conglomerados

Se ingresan las variables que se usarán en el proceso
Se ingresa información sobre el método de análisis, el tipo de distancia ysi se incluyen registros con datos faltantes
Se quita la marca donde dice Sólo registros completos
Variante 1: método en agrupamiento promedio, y distancia euclidiana
Los resultados producidos son:
Y al ingresar Aceptar, se produce lo sigiente:


Variante 2: método de agrupamiento promedio y distancia euclidiana al cuadrado

Variante 3: Método de Ward y distancia euclidiana

Variante 4: Método de Ward y distancia euclidiana al cuadrado



No hay comentarios:

Publicar un comentario