lunes, 9 de abril de 2018

ANÁLISIS DE CONGLOMERADOS PARA DATOS MULTIVARIADOS CON R:EL CASO DE LAS HAMBURGUESAS DE MCDONALDS®


ANÁLISIS DE CONGLOMERADOSPARA DATOS MULTIVARIADOS CON R: 

EL CASO DE LAS HAMBURGUESAS DE MCDONALDS®
Ing. Luis Manfredo Reyes

Introducción:
En el análisis estadístico tradicional, se analizan una por una las variables de interés, o a lo sumo se elaboran pruebas de hipótesis para cada variable. Pero cuando se trata de más de dos variables, la situación se hace muy difícil de manejar manualmente.-
De todos los métodos que se han desarrollado, hay uno que permite agrupar los datos, mediante la medición de las distancias entre los individuos y la creación de una gráfica (Dendograma)

La técnica se denomina Análisis de Conglomerados (Cluster).

El objetivo de éste artículo no es profundizar en los detalles del análisis manual de la técnica, sino definir cómo se realiza en el paquete estadístico R.

Debido a que últimamente se ha popularizado el uso del Lenguaje R en el mundo académico, no es de extrañar que exista la posibilidad de realizar éste análisis con el mismo.

El objetivo de éste artículo no es profundizar en los detalles del análisis manual de la técnica, sino definir cómo se realiza en el paquete estadístico R.

R es actualmente el programa estadístico más utilizado en el mundo académico y de investigación, primero por su potencia de procesamiento, y en segundo lugar por ser un software libre.

R es un software libre, que puede ser descargado del siguiente sitio:

Se asume que los lectores tienen conocimientos de cómo se utiliza el programa R
Se ilustra el uso del mismo a partir de un ejemplo

Es posible determinar gráficamente, cuales son los individuos más parecidos o más distintos, mediante la aplicación de la técnica de conglomerados (cluster)

La siguiente tabla muestra el contenido nutricional de los productos más conocidos de la marca de Hamburgesas McDonalds ® (fuente: https://www.zonadiet.com/tablas/mcdonalds.htm)



NA significa información no disponible
McDonalds es marca registrada de McDonalds International

EN ESTE EJEMPLO NO SE DISCUTE LA CALIDAD NUTRICIONAL DE LOS PRODUCTOS, SINO EL GRADO DE PARECIDO O DIFERENCIACION QUE PRESENTAN, DE ACUERDO A LOS DATOS DE LA TABLA

SE APLICARÁ EN LOS EJERCICIOS EL MÉTODO JERÁRQUICO

Una práctica usual en el trabajo con R, es importar los datos de un archivo de Excel®. Sin embargo, siendo pocos datos, también es posible crear manualmente el archivo.

1) Importar el archivo a R: (EL ARCHIVO EN ESTE EJEMPLO ESTÁ EN FORMATO CSV)

Mcdonalds <- read.table("E:/CHERNOFF/MACDONALDS.csv", header=TRUE, sep=",", na.strings="NA", dec=".", strip.white=TRUE)

4) Solicitar el análisis los datos de comparación están en las columnas de la 2 a la 6 y la identificación de cada variable en la columna 1

EN ÉSTA TÉCNICA, LOS INDIVIDUOS QUE TIENEN DATOS FALTANTES SON EXCLUÍDOS

Variante 1: método en agrupamiento promedio, y distancia euclidiana
HClust.1 <- hclust(dist(model.matrix(~-1+ Colesterol+Grasas+Hidratos+Kilocalorias+Porcion+Proteinas+Sodio, Mcdonalds)) , method= "average")

plot(HClust.1, main= "Cluster Dendrogram for Solution HClust.1", xlab=
  "Observation Number in Data Set Mcdonalds", sub="Method=average; Distance=euclidian")
Los resultados producidos son:

Interpretación: 
El individuo que más se diferencia de los demás es el Big Mac. El Cuarto de libra con queso y el McRoyal forman un grupo que después se une al big Mac.
El cuarto de libra y el McPollo forman otro grupo, que luego se une a la quesoburguesa y posteriormente a la hamburguesa.

Los dos grandes grupos que se forman son: Los productos "mas pesados" en contenidos, y los "menos pesados". 

Variante 2: método de agrupamiento promedio y distancia euclidiana al cuadrado
HClust.2 <- hclust(dist(model.matrix(~-1 +
  Colesterol+Grasas+Hidratos+Kilocalorias+Porcion+Proteinas+Sodio, Mcdonalds))^2 , method= "average")

plot(HClust.2, main= "Cluster Dendrogram for Solution HClust.2", xlab=
  "Observation Number in Data Set Mcdonalds", sub="Method=average; Distance=squared-euclidian")


No hay variantes en los resultados, comparado con la variante 1

Variante 3: Método de Ward y distancia euclidiana
HClust.3 <- hclust(dist(model.matrix(~-1 +
  Colesterol+Grasas+Hidratos+Kilocalorias+Porcion+Proteinas+Sodio, Mcdonalds)) , method= "ward")

plot(HClust.3, main= "Cluster Dendrogram for Solution HClust.3", xlab=
  "Observation Number in Data Set Mcdonalds", sub="Method=ward; Distance=euclidian")


No hay variantes en los resultados, comparado con la variante 1

Variante 4: Método de Ward y distancia euclidiana al cuadrado
HClust.4 <- hclust(dist(model.matrix(~-1 +
  Colesterol+Grasas+Hidratos+Kilocalorias+Porcion+Proteinas+Sodio, Mcdonalds))^2 , method= "ward")

plot(HClust.4, main= "Cluster Dendrogram for Solution HClust.4", xlab=
  "Observation Number in Data Set Mcdonalds", sub="Method=ward; Distance=squared-euclidian")


La única variante en este caso es que las distancias a las que se agrupan son menores.
La interpretación es la misma que en la variante 1

Hay otras opciones que se pueden experimentar para observar los cambios que se producen en la gráfica.

No hay comentarios:

Publicar un comentario