ANÁLISIS GRÁFICO DE DATOS
MULTIVARIADOS CON R:
CARITAS DE
CHERNOFF
Ing. Luis
Manfredo Reyes
Introducción:
En el análisis estadístico tradicional, se grafican una por
una las variables de interés, o a lo sumo se elaboran gráficas de dispersión.
Pero cuando se trata de más de dos variables, la situación se hace muy difícil
de manejar.
De todos los métodos que se han desarrollado, hay uno que
permite comparar grupos de datos, de una forma gráfica: Las caritas de Chernoff.
Herman Chernoff, es
un matemático norteamericano, nacido en 1923.
Las caritas de Chernoff son un método gráfico en el cual,
ciertas características cuantitativas de un grupo, se asocian con datos físicos
de la cara de una persona, con lo cual es posible realizar un dibujo que
representa dichas características, y realizar comparaciones.
Por ejemplo:
Fuente: https://flowingdata.com/2010/08/31/how-to-visualize-data-with-cartoonish-faces/
Es posible determinar gráficamente, cuales son los
individuos más parecidos o más distintos, sin necesidad de realizar
comparaciones numéricas.
En su diseño original, chernoff usó 18 variables asociadas a
características faciales.
Debido a que últimamente se ha popularizado el uso del
Lenguaje R en el mundo académico, no es de extrañar que exista la posibilidad
de realizar éste análisis con el mismo.
El objetivo de éste artículo no es profundizar en los detalles del
análisis manual de la técnica, sino definir cómo se realiza en el paquete
estadístico R.
R es actualmente el programa estadístico más utilizado en el mundo
académico y de investigación, primero por su potencia de procesamiento, y en
segundo lugar por ser un software libre.
R es un software libre, que puede ser descargado del siguiente sitio:
Se asume que los lectores tienen conocimientos de cómo se utiliza el
programa R
Se ilustra el uso del mismo a partir de un ejemplo
La siguiente tabla muestra el contenido nutricional de los
productos más conocidos de la marca de Hamburgesas McDonalds ® (fuente: https://www.zonadiet.com/tablas/mcdonalds.htm)
Tabla 1: Contenido nutricional de productos McDonalds®
|
|||||||
El objetivo es aplicar la metodología de Chernoff, con el objeto de determinar gráficamente el parecido o las diferencias entre los productos.
EN ESTE EJEMPLO NO SE
DISCUTE LA CALIDAD NUTRICIONAL DE LOS PRODUCTOS, SINO EL GRADO DE PARECIDO O
DIFERENCIACION QUE PRESENTAN, DE ACUERDO A LOS DATOS DE LA TABLA
Una práctica usual en el trabajo con R, es importar los
datos de un archivo de Excel®. Sin embargo, siendo pocos datos, también es
posible crear manualmente el archivo.
NOTA: Se requiere el uso del paquete “aplpack”, que es una
extensión de R, disponible en el sitio de R.
11)
En caso de no estar instalado el paquete, se
ejecuta el siguiente procedimiento:
install.packages(“aplpack”)
2) Luego se carga la
librería antes de definir el proceso:
library(aplpack)
3) Importar el archivo a R: (EL ARCHIVO EN ESTE EJEMPLO ESTÁ
EN FORMATO CSV)
Mcdonalds
<- read.table("E:/CHERNOFF/MACDONALDS.csv", header=TRUE,
sep=",", na.strings="NA", dec=".",
strip.white=TRUE)
4) Solicitar el análisis los datos de comparación están en
las columnas de la 2 a la 6 y la identificación de cada variable en la columna
1
Caras<-faces(Mcdonalds[2:6])
Los resultados producidos son:
Una tabla donde muestra qué características de la cara fueron
asignadas a las variables.
En los casos donde no existe dato (NA), el programa
reemplaza el dato faltante con la media de los demás datos
En la segunda salida, se muestran las caritas producidas
para cada producto:
INTERPRETACION:
1)
El producto que es distinto a los demás es la
hamburguesa simple. (tiene los contenidos más bajos de nutrientes).
2)
Los productos con mayor cantidad de calorías más
parecidos (altura de la cara) , son : el cuarto de libra con queso, el Big Mac
y la McNífica
3)
En el contenido de grasas (ancho de la cara) los
más parecidos son el Big Mac y el Cuarto de Libra con Queso
4)
En el contenido de proteína (altura de la boca)
el más bajo es la Hamburguesa simple y los mayores son cuarto de libra con
queso y Mc royal Bacon con queso
5)
En el contenido de colesterol (ancho de la
boca), el que menos tiene es la hamburguesa simple y los que más el cuarto de
libra con queso y el Mc Royal.
6)
En el contenido de sodio (sonrisa), el Mc Pollo
es el que tiene menos y los que más tienen son el cuarto de libra con queso y
el Mc royal Bacon con queso
7)
En base a todas las características, las tres
hamburguesas más parecidas son: Quarter pounder con queso, Big Mac y Mc Royal
La función faces no permite asignar las variables a las
características, pero en todo caso es muy fácil de interpretar.
También ocurre que el programa repite la asignación de
variables a otras características (orejas, ojos, pelo). Pero eso tampoco cambia
la interpretación.
OTRAS OPCIONES:
CARITA ESTILO SANTA CLAUS
cara<-faces(Mcdonalds[,2:7],face.type=2)
CARITAS EN BLANCO Y NEGRO
cara<-faces(Mcdonalds[,2:7],face.type=0)
Bibliografía:
Chernoff, H. (1973): The
use of faces to represent statistiscal assoziation, JASA, 68, pp 361–368.
Las caritas son generadas
por un algoritmo definido en Ralston, A. and Rabinowitz, P. (1985): A first
course in numerical analysis, McGraw-Hill, pp 76ff. http://www.wiwi.uni-bielefeld.de/mitarbeiter/wolf/ : S/R - functions :
faces
No hay comentarios:
Publicar un comentario