ANALISIS DE VARIANZA CON SUBMUESTREO EN SAS(R)
Ing.
Luis Manfredo Reyes
En
el experimento tradicional, se toman datos de toda la unidad experimental y el
único dato que se tiene es el que se utiliza para los cálculos del análisis de
varianza
Pero
què pasarìa si de la misma unidad experimental se toman varios datos?
La
tècnica conocida como submuestreo (en inglès: Repeated Measures), consiste en
tomar varios datos de una misma unidad experimental.
Objetivo:
aumentar la precisiòn de los datos, reduciendo el error experimental
Ejemplo:
Experimento
de comparación de 5 dietas para engorde de pollos
Unidad
experimental: 10 pollos
Mètodo
tradicional: sumar o promediar los datos de cada pollo dentro de la misma
unidad experimental
Con
submuestreo: tomar datos de cada uno e introducirlos al análisis de varianza
NOMENCLATURA:
Yijk
i=nùmero
de tratamiento
J=nùmero
de repeticiòn
k=nùmero
de submuestra
Modelo
estadìstico:
Yijk=μ+τi+εij+ξijk
Existen
dos tipos de error: el error de muestreo y el error experimental propiamente
dicho.
Se
debe comprobar primero la significancia del error experimental , porque esto
indicaría que el uso del submuestreo sí contribuye a reducir el error.
Detalles
del análisis manual existen en diversas fuentes, por ejemplo ésta:
SAS
tiene facilidades para el análisis de éste tipo de experimentos:
El software SAS (Statistical Analisys System) ha sido
considerado como el más potente para análisis estadístico, pero siempre tuvo el
gran inconveniente de su elevado costo (se paga una licencia anual).
Afortunadamente, en una decisión sorpresiva pero agradable, el CEO de SAS decidió liberar el software para uso de estudiantes, profesores e investigadores (más información de cómo obtener el software aquí: http://reyesestadistica.blogspot.com/2015/06/milagro-sas-libera-version-gratuita.html
Se asume que el lector ya instaló el software y conoce su uso básico.
Afortunadamente, en una decisión sorpresiva pero agradable, el CEO de SAS decidió liberar el software para uso de estudiantes, profesores e investigadores (más información de cómo obtener el software aquí: http://reyesestadistica.blogspot.com/2015/06/milagro-sas-libera-version-gratuita.html
Se asume que el lector ya instaló el software y conoce su uso básico.
Se
parte del siguiente ejemplo:
Comparaciòn
de cinco variedades de menta (A,B,C,D,E)
Unidad
experimental: Maceta. Repeticiones: 3. Submuestras: 4
Variable
respuesta: crecimiento semanal en cm.
Diseño
experimental al completo azar
Paso 1: creación del archivo de
datos
Se
recomienda crear el archivo en Excel y luego almacenarlo en formato CSV, por
ejemplo en una memoria USB (unidad F:) con cualquier nombre, por ejemplo
MUESTRA
Cada
una de las medidas se debe colocar en una columna aparte, con nombres como, por
ejemplo: medida1,medida2, medida3 y medida4.
Paso
2: Importar el archivo a SAS
En
la ventana EDITOR se ingresa:
Proc import
datafile=”f:\muestra.csv” out=muestra dbms=csv replace; getnames=yes; run;
Datafile es las localización del
archivo a importar
out es el nombre del archivo interno de SAS
dbms especifica el tipo de archivo a importar, en éste caso CSV
replace indica que cualquier archivo anterior con el mismo nombre será reemplazado
getnames indica que la primera fila del archivo contiene los nombres de las variables
out es el nombre del archivo interno de SAS
dbms especifica el tipo de archivo a importar, en éste caso CSV
replace indica que cualquier archivo anterior con el mismo nombre será reemplazado
getnames indica que la primera fila del archivo contiene los nombres de las variables
Cada dato debe tener la referencia de
qué tratamiento (variedad), repeticion (maceta) submuestra (planta) y variable
respuesta (altura)
Paso 3: especificar
el análisis de varianza
Title “Análisis con
submuestreo”;
Proc glm
data=muestra;
Class variedad;
Model medida1
medida2 medida3 medida4=variedad /nouni;
Repeated dato ;
Run;
Análisis
con submuestreo 1
11:49 Thursday, July 20, 2015
The GLM
Procedure
Class Level
Information
Class Levels
Values
VARIEDAD 5
A B C D E
Number of
Observations Read 15
Number of
Observations Used 15
Análisis con
submuestreo
2
11:49 Thursday, July 20, 2015
The GLM
Procedure
Repeated Measures
Analysis of Variance
Repeated Measures
Level Information
Dependent Variable MEDIDA1
MEDIDA2 MEDIDA3 MEDIDA4
Level
of dato 1 2
3 4
MANOVA Test Criteria and Exact F
Statistics for the Hypothesis of no dato Effect
H = Type III
SSCP Matrix for dato
E = Error SSCP Matrix
S=1 M=0.5
N=3
Statistic Value F Value
Num DF Den DF Pr > F
Wilks' Lambda 0.92947182 0.20 3
8 0.8919
Pillai's Trace 0.07052818 0.20 3
8 0.8919
Hotelling-Lawley Trace 0.07587985 0.20 3
8 0.8919
Roy's Greatest Root 0.07587985 0.20 3
8 0.8919
La falta de significancia en todos los test aplicados por SAS (p mayor que 0.05 por ejemplo) indica que el hecho de usar submuestreo no incrementó la precisión del experimento.
MANOVA Test Criteria and F Approximations
for the Hypothesis of no dato*VARIEDAD Effect
H = Type III SSCP
Matrix for dato*VARIEDAD
E = Error SSCP Matrix
S=3 M=0
N=3
Statistic Value F Value
Num DF Den DF Pr > F
Wilks' Lambda 0.46776671 0.59 12
21.458 0.8229
Pillai's Trace 0.59588710 0.62 12 30
0.8087
Hotelling-Lawley Trace 1.00206059 0.62 12
10.323 0.7856
Roy's Greatest Root 0.84159015 2.10 4 10
0.1551
NOTE: F Statistic for Roy's
Greatest Root is an upper bound.
Análisis con
submuestreo
La
falta de significancia en todos los test aplicados por SAS (p mayor que 0.05 por ejemplo) indica que
el hecho de usar submuestreo no incrementó la precisión del experimento.
3
11:49 Thursday, July 20, 2015
The GLM Procedure
Repeated Measures
Analysis of Variance
Tests of Hypotheses for
Between Subjects Effects
Source DF Type III SS Mean Square F Value
Pr > F
VARIEDAD 4 115.0416667 28.7604167 13.51
0.0005
Error 10 21.2916667 2.1291667
Análisis con
submuestreo
4
11:49 Thursday, July 20, 2015
Sí se encontraron diferencias significativas entre variedades (p menos que 0.05 ó 0.01)
The GLM
Procedure
Repeated Measures Analysis of
Variance
Univariate Tests of
Hypotheses for Within Subject Effects
Adj Pr > F
Source DF Type III SS
Mean Square F Value Pr > F
G - G H - F
dato
3 0.44583333 0.14861111 0.13
0.9397 0.9084 0.9397
dato*VARIEDAD 12 9.82500000 0.81875000 0.73
0.7097 0.6836 0.7097
Error(dato) 30 33.54166667 1.11805556
Greenhouse-Geisser
Epsilon 0.8029
Huynh-Feldt
Epsilon 1.4988
También en éste caso se comprueba que no hay ganancia en precisión por haber realizado el submuestreo.
t
No hay comentarios:
Publicar un comentario