miércoles, 9 de julio de 2014

ANALISIS DE VARIANZA CON SUBMUESTREO EN R

ANALISIS DE VARIANZA CON SUBMUESTREO EN R
Ing. Luis Manfredo Reyes
En el experimento tradicional, se toman datos de toda la unidad experimental y el único dato que se tiene es el que se utiliza para los cálculos del análisis de varianza

Pero què pasarìa si de la misma unidad experimental se toman varios datos?

La tècnica conocida como submuestreo (en inglès: Repeated Measures), consiste en tomar varios datos de una misma unidad experimental.

Objetivo: aumentar la precisiòn de los datos, reduciendo el error experimental
Ejemplo:
Experimento de comparación de 5 dietas para engorde de pollos
Unidad experimental: 10 pollos
Mètodo tradicional: sumar o promediar los datos de cada pollo dentro de la misma unidad experimental

Con submuestreo: tomar datos de cada uno e introducirlos al análisis de varianza


NOMENCLATURA:
Yijk
i=nùmero de tratamiento
J=nùmero de repeticiòn
k=nùmero de submuestra

Modelo estadìstico:
Yijk=μ+τi+εij+ξijk
Existen dos tipos de error: el error de muestreo y el error experimental propiamente dicho.

Se debe comprobar primero la significancia del error experimental , porque esto indicaría que el uso del submuestreo sí contribuye a reducir el error.

Detalles del análisis manual existen en diversas fuentes, por ejemplo ésta:

R  tiene facilidades para el análisis de éste tipo de experimentos:

Se parte del siguiente ejemplo:

Comparaciòn de cinco variedades de menta (A,B,C,D,E)

Unidad experimental: Maceta. Repeticiones: 3. Submuestras: 4

Variable respuesta: crecimiento semanal en cm.
                  VAR   MACETA     SUBMUESTRAS                 TOTAL       PROMEDIO


          Paso 1: creación del archivo de datos 
Se recomienda crear el archivo en Excel y luego almacenarlo en formato CSV

         
Cada dato debe tener la referencia de qué tratamiento (variedad), repeticion (maceta) submuestra (planta) y variable respuesta (altura)
  Paso 2: Importar el archivo a R
suponiendo que el archivo se llama "menta.csv" y que se encuentra en el directorio raíz del disco c

Datos <-read.csv("c:/menta.csv" , header = TRUE, sep = ",")
Paso 3: Convertir las variables independientes a factores
Datos$maceta <- as.factor(Datos$maceta)
Datos$planta <- as.factor(Datos$planta)
Datos$variedad <- as.factor(Datos$variedad)
Paso 4: Especificar el análisis de varianza:
aov.2 <- aov(altura ~ variedad+maceta:variedad, data=Datos)
Paso 5: Presentar los resultados
summary(aov.2)

Los resultados son los siguientes:
summary(aov.2)
                      Df Sum Sq Mean Sq F value   Pr(>F)    
variedad             4  115.04  28.760  29.540 4.48e-12 ***
variedad:maceta 10  21.29   2.129   2.187   0.0363 *  
Residuals            45  43.81   0.974                     
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1


En este caso, el error de muestreo está representado por la fuente de variación: RESIDUALS
y el error experimental es la fuente de variación VARIEDAD:MACETA

Se calcula la primera F dividiendo el cuadrado medio del error experimental dentro del cuadrado medio del error muestral: 2.13/.97=2.195


Se busca en la tabla la F con 10 grados de libertad en el numerador y 45 en el denominador al nivel de significancia deseado. por ejemplo al 0.01=2.74

como la F calculada es menor que la tabulada, se concluye que realizar el submuestreo no ayudó a reducir el error , por lo que el resto del análisis se realiza de la siguiente manera:

Se calcula el cuadrado medio del error ponderado así: 
CMp= (Suma de cuadrados error experimental+Suma de cuadrados error muestral)/ (grados de libertad error experimental+grados de libertad error muestral)


En el ejemplo: CMp= (21.29+43.81)/(10+45)= 1.183

Se calcula la segunda F dividiendo el cuadrado medio de los tratamientos entre el cuadrado medio del error ponderado: 28.76/1.183= 24.31

Se obtiene la F de la tabla con 5 y 55 grados de libertad: (alfa= 0.01) : 3.369

Al comparar la F calculada contra la tabulada, se rechaza la hipótesis nula, y se concluye que "por lo menos uno de los tratamientos es distinto a los demás"

Y se puede realizar cualquier prueba de medias para encontrar el o los mejores tratamientos . 





No hay comentarios:

Publicar un comentario