viernes, 6 de abril de 2018

ANÁLISIS GRÁFICO DE DATOS MULTIVARIADOS CON R: CARITAS DE CHERNOFF


ANÁLISIS GRÁFICO DE DATOS MULTIVARIADOS CON R:
CARITAS DE CHERNOFF

Ing. Luis Manfredo Reyes

Introducción:
En el análisis estadístico tradicional, se grafican una por una las variables de interés, o a lo sumo se elaboran gráficas de dispersión. Pero cuando se trata de más de dos variables, la situación se hace muy difícil de manejar.

De todos los métodos que se han desarrollado, hay uno que permite comparar grupos de datos, de una forma gráfica: Las caritas de Chernoff.

Herman Chernoff,  es un matemático norteamericano, nacido en 1923.
Las caritas de Chernoff son un método gráfico en el cual, ciertas características cuantitativas de un grupo, se asocian con datos físicos de la cara de una persona, con lo cual es posible realizar un dibujo que representa dichas características, y realizar comparaciones.

Por ejemplo:


Fuente: https://flowingdata.com/2010/08/31/how-to-visualize-data-with-cartoonish-faces/

Es posible determinar gráficamente, cuales son los individuos más parecidos o más distintos, sin necesidad de realizar comparaciones numéricas.
En su diseño original, chernoff usó 18 variables asociadas a características faciales.
Debido a que últimamente se ha popularizado el uso del Lenguaje R en el mundo académico, no es de extrañar que exista la posibilidad de realizar éste análisis con el mismo.
El objetivo de éste artículo no es profundizar en los detalles del análisis manual de la técnica, sino definir cómo se realiza en el paquete estadístico R.

R es actualmente el programa estadístico más utilizado en el mundo académico y de investigación, primero por su potencia de procesamiento, y en segundo lugar por ser un software libre.

R es un software libre, que puede ser descargado del siguiente sitio:

Se asume que los lectores tienen conocimientos de cómo se utiliza el programa R

Se ilustra el uso del mismo a partir de un ejemplo

La siguiente tabla muestra el contenido nutricional de los productos más conocidos de la marca de Hamburgesas McDonalds ® (fuente: https://www.zonadiet.com/tablas/mcdonalds.htm)
Tabla 1: Contenido nutricional de productos McDonalds®














El objetivo es aplicar la metodología de Chernoff, con el objeto de determinar gráficamente el parecido o las diferencias entre los productos.

EN ESTE EJEMPLO NO SE DISCUTE LA CALIDAD NUTRICIONAL DE LOS PRODUCTOS, SINO EL GRADO DE PARECIDO O DIFERENCIACION QUE PRESENTAN, DE ACUERDO A LOS DATOS DE LA TABLA

Una práctica usual en el trabajo con R, es importar los datos de un archivo de Excel®. Sin embargo, siendo pocos datos, también es posible crear manualmente el archivo.
NOTA: Se requiere el uso del paquete “aplpack”, que es una extensión de R, disponible en el sitio de R.

11)    En caso de no estar instalado el paquete, se ejecuta el siguiente procedimiento:
   install.packages(“aplpack”)

2)  Luego se carga la librería antes de definir el proceso:
  library(aplpack)

3) Importar el archivo a R: (EL ARCHIVO EN ESTE EJEMPLO ESTÁ EN FORMATO CSV)
Mcdonalds <- read.table("E:/CHERNOFF/MACDONALDS.csv", header=TRUE, sep=",", na.strings="NA", dec=".", strip.white=TRUE)

4) Solicitar el análisis los datos de comparación están en las columnas de la 2 a la 6 y la identificación de cada variable en la columna 1
Caras<-faces(Mcdonalds[2:6])

Los resultados producidos son:

Una tabla donde muestra qué características de la cara fueron asignadas a las variables.
En los casos donde no existe dato (NA), el programa reemplaza el dato faltante con la media de los demás datos

En la segunda salida, se muestran las caritas producidas para cada producto:


INTERPRETACION:
1)      El producto que es distinto a los demás es la hamburguesa simple. (tiene los contenidos más bajos de nutrientes).
2)      Los productos con mayor cantidad de calorías más parecidos (altura de la cara) , son : el cuarto de libra con queso, el Big Mac y la McNífica
3)      En el contenido de grasas (ancho de la cara) los más parecidos son el Big Mac y el Cuarto de Libra con Queso
4)      En el contenido de proteína (altura de la boca) el más bajo es la Hamburguesa simple y los mayores son cuarto de libra con queso y Mc royal Bacon con queso
5)      En el contenido de colesterol (ancho de la boca), el que menos tiene es la hamburguesa simple y los que más el cuarto de libra con queso y el Mc Royal.
6)      En el contenido de sodio (sonrisa), el Mc Pollo es el que tiene menos y los que más tienen son el cuarto de libra con queso y el Mc royal Bacon con queso
7)      En base a todas las características, las tres hamburguesas más parecidas son: Quarter pounder con queso, Big Mac y Mc Royal
La función faces no permite asignar las variables a las características, pero en todo caso es muy fácil de interpretar.
También ocurre que el programa repite la asignación de variables a otras características (orejas, ojos, pelo). Pero eso tampoco cambia la interpretación.

OTRAS OPCIONES:
CARITA ESTILO SANTA CLAUS
cara<-faces(Mcdonalds[,2:7],face.type=2)



CARITAS EN BLANCO Y NEGRO
cara<-faces(Mcdonalds[,2:7],face.type=0)




Bibliografía:
Chernoff, H. (1973): The use of faces to represent statistiscal assoziation, JASA, 68, pp 361–368.

Las caritas son generadas por un algoritmo definido en Ralston, A. and Rabinowitz, P. (1985): A first course in numerical analysis, McGraw-Hill, pp 76ff. http://www.wiwi.uni-bielefeld.de/mitarbeiter/wolf/ : S/R - functions : faces

No hay comentarios:

Publicar un comentario