viernes, 3 de julio de 2015

ANÁLISIS DE CONGLOMERADOS (CLUSTER) CON SAS



ANÁLISIS DE CONGLOMERADOS (CLUSTER) CON SAS

Ing. Luis Manfredo Reyes

El análisis de conglomerados (cluster), es una técnica multivariada, en la cual en base a un conjunto de características cuantitativas, se realiza una agrupación de individuos en base a las distancias entre ellos.
Al final del análisis, se obtiene un diagrama llamado DENDROGRAMA, que resume gráficamente el agrupamiento.


No es el objetivo de éste documento profundizar en la teoría del método, sino ejemplificar su análisis en SAS
El software SAS (Statistical Analisys System) ha sido considerado como el más potente para análisis estadístico, pero siempre tuvo el gran inconveniente de su elevado costo (se paga una licencia anual).
Afortunadamente, en una decisión sorpresiva pero agradable, el CEO de SAS decidió liberar el software para uso de estudiantes, profesores e investigadores (más información de cómo obtener el software aquí: http://reyesestadistica.blogspot.com/2015/06/milagro-sas-libera-version-gratuita.html
Se asume que el lector ya instaló el software y conoce su uso básico.

Ejemplo: Evaluación de materiales de Jícama (Pachirrizus erasus), realizada en El Petén, Guatemala. Los datos se encuentran en el archivo JICAMA1.CSV,  en el siguiente enlace:
El archivo descargado puede ubicarse en cualquier parte, pero lo más fácil es en el directorio raíz (C:\)

La decripción del archivo es la siguiente:
CULTIVAR: Código de identificación del material
DÍASFRUC: días a fructificación
VAINASPL: número de vainas por planta
PESO100: Peso de 100 semillas
SEMILLAKG: cantidad de semillas en 1 kilogramo
RENDSEMILLA: rendimiento de semilla
RENDRAIZ: rendimiento de raíces
BRIX: grados brix 
DIASCOSECHA: días a cosecha

1.    Importación del archivo hacia SAS
SAS puede importar una variedad de formatos. Debido a que el archivo del ejemplo se encuentra en formato CSV, se usa el comando IMPORT para indicar la ubicación del mismo. Las instrucciones se ingresan en la ventana EDITOR:
PROC IMPORT datafile=”c:\JICAMA1.csv” out=jicama dbms=csv replace; getnames=yes; run;
Datafile indica la ubicación del archive a importar
Out indica el nombre del archivo de SAS que se debe generar
Dbms indica el tipo de archivo a importar, en éste caso csv
Getnames indica si se desea que los datos de la primera fila sean los nombres de variables

2.      Especificar el análisis y guardar el archivo de salida para la gráfica
PROC CLUSTER method=average data=jicama   outtree=jicama2; run;
Existen varios métodos de análisis que se pueden aplicar, pero el más usado es enlace promedio (AVERAGE)
Data indica el archivo de datos que debe ser usado
Id indica la variable que se usará para identificar los materiales a agrupar
Outtree indica otro archivo a donde se almacenan los resultados, que erán usados para dibujar el dendrograma

3.      Dibujar el Dendograma
PROC TREE data=jicama2; quit;

Todas las instrucciones se ingresan juntas en el editor de sas:
PROC IMPORT datafile="c:/JICAMA.csv" OUT=jicama dbms=csv REPLACE;
 GETNAMES=yes;
RUN;
PROC CLUSTER method=average data=jicama outtree=jicama2;
RUN;
PROC TREE data=jicama2;
QUIT;

Al final de cada línea se escribe punto y coma
Se va a la pestaña Run y se selecciona SUBMIT, o bien se da click en el icono de una persona corriendo.
En la ventana output se muestra el resumen del análisis y se abre una ventana gráfica donde aparece el diagrama:

 

Interpretación: el la gráfica puede verse que el material más distinto a todos es el EC256J (OB8)
Los dos más parecidos (la menor distancia entre ellos) son el EC1206 y EC255Pa (OB1 y OB2). 
Luego se van formando grupos mayores. 


No hay comentarios:

Publicar un comentario