lunes, 16 de febrero de 2015

ANÁLISIS DE CONGLOMERADOS (CLUSTER) CON INFOSTAT

ANÁLISIS DE CONGLOMERADOS (CLUSTER) CON INFOSTAT
Ing. Luis Manfredo Reyes

El análisis de conglomerados (cluster), es una técnica multivariada, en la cual en base a un conjunto de características cuantitativas, se realiza una agrupación de individuos en base a las distancias entre ellos.

No es el objetivo de éste documento profundizar en la teoría del método, sino ejemplificar su análisis en Infostat.
Al final del análisis, se obtiene un diagrama llamado DENDROGRAMA, que resume gráficamente el agrupamiento.



OJO: EN LA VERSIÓN LIBRE DE INFOSTAT SÓLAMENTE SE PUEDE TRABAJAR CON 9 VARIABLES. EN LA VERSIÓN PAGADA NO HAY LÍMITE.

Infostat es un paquete estadístico producido en la Universidad de Córdoba, Argentina, que tiene la ventaja de estar escrito en español, con versión comercial y libre. Se puede obtener en: www.infostat.com.ar



Se asume que el lector tiene instalado el paquete y conoce el uso básico del mismo.
Ejemplo: Evaluación de materiales de Jícama (Pachirrizus erasus), realizada en El Petén, Guatemala. Los datos se encuentran en el archivo CLUSTER1.XLS, en el siguiente enlace:
http://www.mediafire.com/view/ea1aghghudi2jd8/JICAMA1.xls

La decripción del archivo es la siguiente:
CULTIVAR: Código de identificación del material
DÍASFRUC: días a fructificación
VAINASPL: número de vainas por planta
PESO100: Peso de 100 semillas
SEMILLAKG: cantidad de semillas en 1 kilogramo
RENDSEMILLA: rendimiento de semilla
RENDRAIZ: rendimiento de raíces
BRIX: grados brix 
DIASCOSECHA: días a cosecha

1. Importación del archivo hacia Infostat
Se ingresa: Archivo-->Abrir--> Jicama1.xls y Aceptar
Pregunta si la primera fila de datos contiene los nombres de las variables y se marca la casilla respectiva


2. Especificar el análisis
Ingresar a: Estadísticas--> Análisis Multivariado--> Análisis de Conglomerados

En la casilla de variables se ingresan los nombres de todas las variables independientes, y en la de criterios de clasificación la variable que identifica el material (CULTIVAR)

en la siguiente ventana, se debe especificar uno de los métodos usados para medir distancias (el más usado es distancia promedio), el tipo de distancia deseado (el más usado es distancia euclideana)   además se debe definir que se agrupa por filas y que sí se desea el dendrograma

El resultado que se produce es el siguiente:

Interpretación: el la gráfica puede verse que el material más distinto a todos es el EC256J.
Los dos más parecidos (la menor distancia entre ellos) son el EC1206 y EC255Pa. 
Luego se van formando grupos mayores. 


No hay comentarios:

Publicar un comentario