ANÁLISIS DE CONGLOMERADOS (CLUSTER) CON SAS
Ing. Luis Manfredo Reyes
El análisis de conglomerados (cluster), es una técnica multivariada, en la cual en base a un conjunto de características cuantitativas, se realiza una agrupación de individuos en base a las distancias entre ellos.
Al final del análisis, se obtiene un diagrama llamado DENDROGRAMA, que resume gráficamente el agrupamiento.
No es el objetivo de éste documento profundizar en la teoría del método, sino ejemplificar su análisis en SAS
El software SAS (Statistical
Analisys System) ha sido considerado como el más potente para análisis
estadístico, pero siempre tuvo el gran inconveniente de su elevado costo (se
paga una licencia anual).
Afortunadamente, en una decisión
sorpresiva pero agradable, el CEO de SAS decidió liberar el software para uso
de estudiantes, profesores e investigadores (más información de cómo obtener el
software aquí: http://reyesestadistica.blogspot.com/2015/06/milagro-sas-libera-version-gratuita.html
Se asume que el lector ya instaló
el software y conoce su uso básico.
Ejemplo: Evaluación de materiales de
Jícama (Pachirrizus erasus), realizada en El Petén, Guatemala. Los datos se
encuentran en el archivo JICAMA1.CSV, en el siguiente enlace:
El
archivo descargado puede ubicarse en cualquier parte, pero lo más fácil es en
el directorio raíz (C:\)
La decripción del archivo es la
siguiente:
CULTIVAR: Código de identificación
del material
DÍASFRUC: días a fructificación
VAINASPL: número de vainas por planta
PESO100: Peso de 100 semillas
SEMILLAKG: cantidad de semillas en 1
kilogramo
RENDSEMILLA: rendimiento de semilla
RENDRAIZ: rendimiento de raíces
BRIX: grados brix
DIASCOSECHA: días a cosecha
1. Importación del archivo hacia SAS
SAS puede importar una variedad
de formatos. Debido a que el archivo del ejemplo se encuentra en formato CSV, se
usa el comando IMPORT para indicar la ubicación del mismo. Las instrucciones se
ingresan en la ventana EDITOR:
PROC IMPORT datafile=”c:\JICAMA1.csv” out=jicama dbms=csv replace;
getnames=yes; run;
Datafile indica la ubicación del archive
a importar
Out indica el nombre del archivo
de SAS que se debe generar
Dbms indica el tipo de archivo a
importar, en éste caso csv
Getnames indica si se desea que
los datos de la primera fila sean los nombres de variables
2. Especificar el análisis y guardar
el archivo de salida para la gráfica
PROC CLUSTER method=average data=jicama outtree=jicama2; run;
Existen varios métodos de
análisis que se pueden aplicar, pero el más usado es enlace promedio (AVERAGE)
Data indica el archivo de datos
que debe ser usado
Id indica la variable que se
usará para identificar los materiales a agrupar
Outtree indica otro archivo a
donde se almacenan los resultados, que erán usados para dibujar el dendrograma
3. Dibujar el Dendograma
PROC TREE data=jicama2; quit;
Todas las instrucciones se ingresan juntas en el
editor de sas:
PROC IMPORT datafile="c:/JICAMA.csv" OUT=jicama dbms=csv
REPLACE;
GETNAMES=yes;
RUN;
PROC CLUSTER method=average data=jicama
outtree=jicama2;
RUN;
PROC TREE data=jicama2;
QUIT;
Al final de cada línea se escribe
punto y coma
Se va a la pestaña Run y se
selecciona SUBMIT, o bien se da click en el icono de una persona corriendo.
En la ventana output se muestra el resumen del análisis y se abre una ventana gráfica donde aparece el diagrama:
Interpretación: el la gráfica puede
verse que el material más distinto a todos es el EC256J (OB8)
Los dos más parecidos (la menor
distancia entre ellos) son el EC1206 y EC255Pa (OB1 y OB2).
Luego se van formando grupos
mayores.
No hay comentarios:
Publicar un comentario