jueves, 16 de julio de 2015

ANÁLISIS DE VARIANZA DE UN DISEÑO EN BLOQUES AL AZAR DESBALANCEADO CON SAS®



ANÁLISIS DE VARIANZA DE UN DISEÑO EN BLOQUES AL AZAR DESBALANCEADO CON SAS®
Ing. Luis Manfredo Reyes

El diseño de bloques al azar es el más utilizado en todas partes, debido a que casi siempre existe una gradiente que debe ser controlada, y que no es de interés.

Pero el requisito para su análisis es que sea balanceado (iguales repeticiones  por tratamiento).
Cuando en ocasiones se pierden unidades experimentales, es necesario antes del análisis de varianza, estimar los datos faltantes  (Información detallada en  siguiente enlace: http://reyesestadistica.blogspot.com/2011/07/estimacion-de-datos-perdidos-en-el.html)


En el paquete SAS  es posible realizar el análisis de varianza de diseños desbalanceados, e inclusive pruebas de medias sin necesidad de pasar por el proceso de estimación de datos faltantes.

El software SAS (Statistical Analisys System) ha sido considerado como el más potente para análisis estadístico, pero siempre tuvo el gran inconveniente de su elevado costo (se paga una licencia anual).

Afortunadamente, en una decisión sorpresiva pero agradable, el CEO de SAS decidió liberar el software para uso de estudiantes, profesores e investigadores (más información de cómo obtener el software aquí: http://reyesestadistica.blogspot.com/2015/06/milagro-sas-libera-version-gratuita.html
Se asume que el lector ya instaló el software y conoce su uso básico.

Ejemplo:
Comparación de 10 formas de fertilización en maíz dulce (incluye un testigo absoluto sin aplicación, identificado como el tratamiento 11).
Los datos son los siguientes:
Primera columna, identificación de tratamiento
Segunda columna, identificación del bloque
Tercera columna, producción en toneladas/hectárea
TRAT
BLOQUE
PROD
1
1
19.149
2
1
5.745
3
1
15.210
5
1
5.520
6
1
9.163
7
1
4.334
8
1
12.386
9
1
12.391
10
1
5.640
11
1
3.012
1
2
11.062
2
2
10.364
3
2
11.003
4
2
5.418
5
2
3.334
6
2
9.622
7
2
4.069
8
2
3.132
9
2
3.397
10
2
7.132
11
2
3.814
1
3
5.128
2
3
5.628
3
3
14.512
4
3
14.777
5
3
15.175
6
3
16.449
8
3
3.843
9
3
4.836
10
3
7.918
11
3
3.765

Faltan dos unidades experimentales. OJO: no se debe ingresar el dato faltante como cero, esto altera los resultados, no se deben  incluir las filas faltantes.

La forma más fácil de trabajar los datos  en SAS es crear un archivo de Excel  y luego  importarlo en el paquete.
Suponiendo que el archivo se llama Andeva y se encuentra en el directorio raíz (c:\)
Se ingresan lqas siguientes instrucciones de SAS

Proc import datafile=”c:\andeva.xls” out=andeva dbms=xls replace; getnames=yes; run;

datafile es las localización del archivo a importar
out es el nombre del archivo interno de SAS
dbms especifica el tipo de archivo a importar, en éste caso CSV
replace indica que cualquier archivo anterior con el mismo nombre será reemplazado
getnames indica que la primera fila del archivo contiene los nombres de las variables

Luego se especifica el análisis de varianza:
TITLE “ANALISIS DE VARIANZA DE DISENO DESBALANCEADO”;
Proc GLM;
Class TRAT BLOQUE;
Model PROD=BLOQUE TRAT;
MEANS TRAT /TUKEYLINES;
RUN;

Las instrucciones se ingresan en la ventana EDITOR, luego se da click sobre el ícono que tiene la forma de una persona corriendo, o bien se va a la ventana RUN y se selecciona SUBMIT

Los resultados obtenidos son:

                       ANALISIS DE VARIANZA DE DISENO DESBALANCEADO                         7
                                                                  09:15 Thursday, July 16, 2015

                                       The GLM Procedure

                                   Class Level Information

                       Class         Levels    Values

                       TRAT              11    1 2 3 4 5 6 7 8 9 10 11

                       BLOQUE             3    1 2 3


                            Number of Observations Read          31
                            Number of Observations Used          31
                         ANALISIS DE VARIANZA DE DISENO DESBALANCEADO                         8
                                                                  09:15 Thursday, July 16, 2015

                                       The GLM Procedure

Dependent Variable: PROD   PROD

                                              Sum of
Source                   DF      Squares     Mean Square    F Value    Pr > F

Model                    12     338.2887768      28.1907314       1.52   0.2057

Error                    18     334.3931192      18.5773955

Corrected Total          30     672.6818960


                      R-Square     Coeff Var      Root MSE     PROD Mean

                      0.502896      52.00471      4.310150      8.288000


Source                 DF       Type I SS     Mean Square    F Value    Pr > F

BLOQUE                  2      49.9277011      24.9638506       1.34    0.2858
TRAT                   10     288.3610757      28.8361076       1.55    0.2002


Source                 DF     Type III SS     Mean Square    F Value    Pr > F

BLOQUE                 2      48.7710272      24.3855136       1.31    0.2937 TRAT                  10     288.3610757      28.8361076       1.55    0.2002

                         ANALISIS DE VARIANZA DE DISENO DESBALANCEADO                         9
                                                                  09:15 Thursday, July 16, 2015

                                       The GLM Procedure

                         Tukey's Studentized Range (HSD) Test for PROD

 NOTE: This test controls the Type I experimentwise error rate, but it generally has a higher
                                Type II error rate than REGWQ.


                         Alpha                                   0.05
                         Error Degrees of Freedom                  18
                         Error Mean Square                    18.5774
                         Critical Value of Studentized Range  5.17346
                         Minimum Significant Difference        13.446
                         Harmonic Mean of Cell Sizes             2.75

                                NOTE: Cell sizes are not equal.


                  Means with the same letter are not significantly different.


                   Tukey Grouping          Mean      N    TRAT

                                A        13.575      3    3
                                A
                                A        11.780      3    1
                                A
                                A        11.745      3    6
                                A
                                A        10.098      2    4
                                A
                                A         8.010      3    5
                                A
                                A         7.246      3    2
                                A
                                A         6.897      3    10
                                A
                                A         6.875      3    9
                                A
                                A         6.454      3    8
                                A
                                A         4.201      2    7
                                A
                                A         3.530      3    11

En este caso se tiene que no existen diferencias significativas entre los tratamientos, por lo que se concluye que no vale la pena fertilizar.

La prueba de tukey también indica que todos los tratamientos son iguales (porque tienen la misma letra)

No hay comentarios:

Publicar un comentario