miércoles, 15 de julio de 2015

ANÁLISIS DE SERIE DE EXPERIMENTOS EN EL ESPACIO CON SAS®



ANÁLISIS DE SERIE DE EXPERIMENTOS EN EL ESPACIO CON SAS®
Ing. Luis Manfredo Reyes

Cuando un experimento completo se repite en diferentes lugares, se tiene una serie de experimentos en el espacio. Adicionalmente un experimento se puede repetir en el mismo lugar, pero diferentes momentos (Serie de experimentos en el tiempo), o bien en diferentes lugares y diferentes momentos (Serie de experimentos en el espacio y el tiempo).
En el caso de la serie en el espacio, si se utiliza el diseño en bloques al azar,  ocurre el siguiente fenómeno: el bloque 1 de la localidad 1 no es el mismo bloque 1 de la localidad 2, etc. A ésto se le llama ANIDACIÖN y se dice que "el bloque está anidado en la localidad".
Si se utiliza el diseño al completo azar, no existe la anidación y se analiza como cualquier experimento factorial ordinario, usando la localidad como otro factor, y la interacción localidad por tratamiento como otro más.



Las fuentes de variación para éste tipo de experimentos (en bloques al azar)  son:
Localidad
Bloque (dentro de localidad)
Tratamientos
Interacción Localidad*Tratamientos
Error
Total

El objetivo de éste documento no es mostrar la metodología de cálculo manual para el proceso, pero existen muchas buenas fuentes de consulta. Se pretende mostar cómo se realiza el análisis con el paquete SAS
El software SAS (Statistical Analisys System) ha sido considerado como el más potente para análisis estadístico, pero siempre tuvo el gran inconveniente de su elevado costo (se paga una licencia anual).

Afortunadamente, en una decisión sorpresiva pero agradable, el CEO de SAS decidió liberar el software para uso de estudiantes, profesores e investigadores (más información de cómo obtener el software aquí: http://reyesestadistica.blogspot.com/2015/06/milagro-sas-libera-version-gratuita.html
Se asume que el lector ya instaló el software y conoce su uso básico.


Para ello se parte del siguiente ejemplo:
Evaluación de 9 materiales nuevos de Jícama, en dos localidades del departamento de El Petén, Guatemala, usando bloques al azar con 3 repeticiones (DATOS REALES!!!!)
El archivo en excel es el siguiente:
LOCALIDAD
CULTIVAR
BLOQUE
       RENDI
SAN ANDRES
EC564
1
145.00
SAN ANDRES
EC564
2
150.00
SAN ANDRES
EC564
3
148.00
SAN ANDRES
EC255PA
1
144.00
SAN ANDRES
EC255PA
2
152.00
SAN ANDRES
EC255PA
3
153.00
SAN ANDRES
EC1206
1
146.00
SAN ANDRES
EC1206
2
146.00
SAN ANDRES
EC1206
3
146.00
SAN ANDRES
EC254PR
1
144.00
SAN ANDRES
EC254PR
2
136.00
SAN ANDRES
EC254PR
3
136.00
SAN ANDRES
EC256J
1
153.00
SAN ANDRES
EC256J
2
153.00
SAN ANDRES
EC256J
3
144.00
SAN ANDRES
EC2046
1
132.00
SAN ANDRES
EC2046
2
132.00
SAN ANDRES
EC2046
3
132.00
SAN ANDRES
EC572
1
146.00
SAN ANDRES
EC572
2
144.00
SAN ANDRES
EC572
3
146.00
SAN ANDRES
EC594
1
153.00
SAN ANDRES
EC594
2
144.00
SAN ANDRES
EC594
3
150.00
SAN ANDRES
EC201
1
155.00
SAN ANDRES
EC201
2
155.00
SAN ANDRES
EC201
3
155.00
SAN JOSE
EC564
1
155.00
SAN JOSE
EC564
2
155.00
SAN JOSE
EC564
3
155.00
SAN JOSE
EC255PA
1
153.00
SAN JOSE
EC255PA
2
152.00
SAN JOSE
EC255PA
3
152.00
SAN JOSE
EC1206
1
152.00
SAN JOSE
EC1206
2
148.00
SAN JOSE
EC1206
3
144.00
SAN JOSE
EC254PR
1
136.00
SAN JOSE
EC254PR
2
136.00
SAN JOSE
EC254PR
3
136.00
SAN JOSE
EC256J
1
160.00
SAN JOSE
EC256J
2
160.00
SAN JOSE
EC256J
3
160.00
SAN JOSE
EC2046
1
132.00
SAN JOSE
EC2046
2
132.00
SAN JOSE
EC2046
3
132.00
SAN JOSE
EC572
1
148.00
SAN JOSE
EC572
2
148.00
SAN JOSE
EC572
3
148.00
SAN JOSE
EC594
1
149.00
SAN JOSE
EC594
2
149.00
SAN JOSE
EC594
3
149.00
SAN JOSE
EC201
1
152.00
SAN JOSE
EC201
2
152.00
SAN JOSE
EC201
3
152.00

Se considera más cómodo almacenar los datos en un archivo  CSV en Excel
El primer paso es importar el archivo hacia SAS , con la primera fila como nombre de las variables
PROC IMPORT datafile=”c:\jicama.csv out=jicama dbms=csv replace; getnames=yes; run;
Datafile es las localización del archivo a importar
out es el nombre del archivo interno de SAS
dbms especifica el tipo de archivo a importar, en éste caso CSV
replace indica que cualquier archivo anterior con el mismo nombre será reemplazado
getnames indica que la primera fila del archivo contiene los nombres de las variables
Posteriormente, se definen las fuentes de variación. Para indicar que el bloque está anidado dentro de la localidad se usa la orden BLOQUE(LOCALIDAD)
TITLE “ANALISIS DE VARIANZA DE SERIE DE EXPERIMENTOS”;
PROC GLM;
CLASS  LOCALIDAD CULTIVAR;
MODEL RENDI=LOCALIDAD BLOQUE(LOCALIDAD) CULTIVAR LOCALIDAD*CULTIVAR;
MEANS LOCALIDAD CULTIVAR /TUKEY LINES;
RUN;
Las instrucciones se ingresan en la ventana EDITOR, luego se va a la pestaña RUN y se escoge SUBMIT, o bien se da click sobre el ícono de una persona corriendo.
Los resultados obtenidos son:


Para éste ejemplo, las conclusiones son:
-Existen diferencias significativas entre localidades
-Existen diferencias significativas entre Cultivares (tratamientos)
-Existe interacción engtre localidad y cultivar
-El coeficiente de variación obtenido indica un buen control del error experimental

Debido a que existe interacción entre localidad y cultivar, se recomienda una prueba de medias para ella (por ejemplo Tukey)

                    Análisis de varianza serie de experimentos en el tiempo                   3
                                                                  11:47 Thursday, July 15, 2015

                                       The GLM Procedure

                                    Class Level Information

     Class         Levels    Values

LOCALIDAD      2    SAN ANDRES SAN JOSE

CULTIVAR          9    EC1206 EC201 EC2046 EC254PR EC255PA EC256J EC564 EC572 EC594

 BLOQUE            3    1 2 3


                            Number of Observations Read          54

                     Análisis de varianza serie de experimentos en el tiempo                   4
                                                                  11:47 Thursday, July 15, 2015

                                       The GLM Procedure

Dependent Variable: RENDI
                                              Sum of
      Source                      DF         Squares     Mean Square    F Value    Pr > F

      Model                       21     3072.018519      146.286596      20.63    <.0001

      Error                       32      226.962963        7.092593

      Corrected Total             53     3298.981481


                      R-Square     Coeff Var      Root MSE     VAR4 Mean

                      0.931202      1.811924      2.663192      146.9815


      Source                      DF       Type I SS     Mean Square    F Value    Pr > F

      LOCALIDAD                    1       60.166667       60.166667       8.48    0.0065
      BLOQUE(LOCALIDAD)  4        8.370370        2.092593       0.30    0.8790
      CULTIVAR                         8     2781.481481      347.685185      49.02    <.0001
      LOCALIDAD*CULTIVAR 8      222.000000       27.750000       3.91    0.0026

                    Análisis de varianza serie de experimentos en el tiempo                   5
                                                                  11:47 Thursday, July 15, 2015

                                       The GLM Procedure

                         Tukey's Studentized Range (HSD) Test for RENDI

 NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher
                                Type II error rate than REGWQ.


                         Alpha                                   0.05
                         Error Degrees of Freedom                  32
                         Error Mean Square                   7.092593
                         Critical Value of Studentized Range  2.88068
                         Minimum Significant Difference        1.4764


                  Means with the same letter are not significantly different.


                Tukey Grouping          Mean      N    LOCALIDAD

                             A      148.0370     27    SAN JOSE

                             B      145.9259     27    SAN ANDRES
              Análisis de varianza serie de experimentos en el tiempo                   6
                                                                  11:47 Thursday, July 15, 2015

                                       The GLM Procedure

                         Tukey's Studentized Range (HSD) Test for RENDI

 NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher
                                Type II error rate than REGWQ.


                         Alpha                                   0.05
                         Error Degrees of Freedom                  32
                         Error Mean Square                   7.092593
                         Critical Value of Studentized Range  4.69844
                         Minimum Significant Difference        5.1083


                  Means with the same letter are not significantly different.


                       Tukey Grouping          Mean      N    CULTIVAR

                               A            155.000      6    EC256J
                               A
                          B    A            153.500      6    EC201
                          B    A
                          B    A    C       151.333      6    EC564
                          B    A    C
                          B    A    C       151.000      6    EC255PA
                          B         C
                          B         C       149.000      6    EC594
                                    C
                                    C       147.000      6    EC1206
                                    C
                                    C       146.667      6    EC572

                               D            137.333      6    EC254PR

                               E            132.000      6    EC2046

Para éste ejemplo, las conclusiones son:
-Existen diferencias significativas entre localidades. Según la prueba de Tukey, el mayor rendimiento lo obtuvo la localidad SAN JOSE

-Existen diferencias significativas entre Cultivares (tratamientos), y todos los que en el cuadro de Tukey tienen la letra A presentaron el mayor rendimiento

-Existe interacción entre localidad y cultivar (SAS no analiza interacciones)

-El coeficiente de variación obtenido indica un buen control del error experimental
.






No hay comentarios:

Publicar un comentario