Estadística, Matemática y Computación: Diseño de Experimentos al Completo Azar

TEXTO PARALELO SOBRE DISEÑO DE EXPERIMENTOS AL COMPLETO AZAR

POR: CÉSAR CASTILLO, CARLOS MEJÍA, JORGE ARÉVALO G.

I. PRINCIPIOS BÁSICOS DEL DISEÑO DE EXPERIMENTOS

ASPECTOS GENERALES

El Diseño de Experimentos tuvo su inicio teórico a partir de 1935 por Sir Ronald A. Fisher, quién sentó la base de la teoría del Diseño Experimental y a la fecha se encuentra bastante desarrollada y ampliada. Actualmente las aplicaciones son múltiples, especialmente en la investigación de las ciencias naturales, ingeniería, laboratorios y casi todas las ramas de las ciencias sociales.

La experimentación proporciona los datos experimentales, en contraste con los datos de la observación; los datos de la observación se representan como su nombre indica por observaciones de las unidades elementales de una población o de una muestra, y no deben ser cambiados ni modificados por ningún intento de parte de un investigador en el curso de la observación.

DISEÑO EXPERIMENTAL

Este término se utiliza para planear un experimento de manera que se pueda obtener la información pertinente a un determinado problema que se investiga y así tomar decisiones correctas.

Las técnicas de Diseño de Experimentos se basan en estudiar simultáneamente los efectos de todos los factores de interés, son más eficaces y proporcionan mejores resultados con un menor coste.

El diseño adecuado del experimento es una etapa fundamental de la experimentación, que permite el suministro correcto de datos a posteriori, los que a su vez conducirán a un análisis objetivo y con deducciones válidas del problema.

PROPÓSITO DE UN DISEÑO EXPERIMENTAL

Es proporcionar métodos que permitan obtener la mayor cantidad de información válida acerca de una investigación, teniendo en cuenta el factor costo y el uso adecuado del material disponible mediante métodos que permitan disminuir el error experimental.

PRINCIPIOS BÁSICOS AL PLANIFICAR UN EXPERIMENTO.

Existen tres principios que se deben tener en cuenta al planificar un experimento:

El principio de aleatorización. Aleatorizar: Todos aquellos factores no controlados por el experimentador en el diseño experimental y que pueden influir en los resultados serán asignados al azar a las unidades experimentales.

El bloqueo. Bloquear, es dividir o particionar las unidades experimentales en grupos llamados bloques de modo que las observaciones realizadas en cada bloque se realicen bajo condiciones experimentales lo más parecidas posibles.

A diferencia de lo que ocurre con los factores de tratamiento, el experimentador no está interesado en investigar las posibles diferencias de la respuesta entre los niveles de los factores de bloque.

La factorización del diseño. Diseño Factorial: Es la estrategia experimental que consiste en cruzar los niveles de todos los factores tratamiento en todas las combinaciones posibles.

TRATAMIENTO

Los tratamientos vienen a constituir los diferentes procedimientos, procesos, factores o materiales y cuyos efectos van a ser medidos y comparados.

El tratamiento establece un conjunto de condiciones experimentales que deben imponerse a una unidad experimental dentro de los confines del diseño seleccionado. Ejemplos: Dosis de fertilizante, ración alimenticia, profundidad de sembrado en algunas plantas, distanciamiento entre plantas, variedades de un cultivo.

TESTIGO

El testigo es el tratamiento de comparación adicional, que no debe faltar en un experimento; por ejemplo, si se usan cinco tratamientos con fertilizante, el testigo puede ser aquel tratamiento que no incluye fertilizante. La elección del tratamiento testigo es de gran importancia en cualquier investigación, éste se constituye como referencial del experimento y sirve para la comparación de los tratamientos en prueba.

UNIDAD EXPERIMENTAL

La unidad experimental, es el objeto o espacio al cual se aplica el tratamiento y donde se mide y analiza la variable que se investiga. En los experimentos pecuarios la unidad experimental por lo general esta conformada por un animal (cuyo, cerdo, pato, etc.), en los experimentos forestales la unidad experimental en la mayoría de los casos esta conformado por un árbol y en la mayor parte de las pruebas de campo agrícolas, la unidad experimental es una parcela de tierra en lugar de una planta individual; es en este último caso que con frecuencia se presenta lo que se llama efecto de borde.

FACTORES Y SUS NIVELES

Se denomina factor tratamiento a cualquier variable cuyo posible efecto sobre los datos desea ser investigado. Los niveles de un factor tratamiento serán los tipos o grados específicos del factor que se utilizarán en el experimento. Los factores tratamiento pueden ser cualitativos o cuantitativos.

Como ejemplo de factores cualitativos y sus niveles respectivos son los siguientes: proveedor, diferentes proveedores de una materia prima, tipo de máquina (diferentes tipos o marcas de máquinas), trabajador (los trabajadores encargados de hacer una tarea), tipo de procesador ( los procesadores de los que se quiere comparar su velocidad de ejecución) y de factores cuantitativos son: tamaño de memoria (diferentes tamaños de memoria de ordenadores), droga (distintas cantidades de la droga), la temperatura (conjuntos de temperaturas seleccionadas en unos rangos de interés).

Cuando en un experimento se trabaja con más de un factor, cada observación es una medida en las condiciones determinadas por la combinación de niveles de los distintos factores tratamiento. Los diseños en que existen observaciones de todas las posibles combinaciones de niveles (tratamiento) se denominan experimentos factoriales.

REPETICIÓN

Viene a ser la reproducción o réplica del experimento básico (asignación de un tratamiento a una unidad experimental). Las principales razones por las cuales es deseable la repetición son: Primero por que proporciona una estimación del error experimental, siendo tal estimación confiable a medida que aumenta el número de repeticiones, y segundo permite estimaciones más precisas del tratamiento en estudio.

VARIABLE RESPUESTA O VARIABLE DE INTERÉS

Es el dato que se recoge del experimento, el cual es de interés para el investigador y que sirve para evaluar los tratamientos, por lo que es importante precisar de antemano cuál será esta variable y en qué unidades se medirá.

FUENTE DE VARIACIÓN

Una fuente de variación es cualquier “cosa” que pueda generar variabilidad en la respuesta. Se distinguen dos tipos: aquellas cuyo efecto sobre la respuesta es de particular interés para el experimentador (factores tratamiento) y aquellas que no son de interés directo pero que se contemplan en el diseño para reducir la variabilidad no planificada (factores “nuisance”).

FACTORES NUISANCE

En cualquier experimento, además de los factores tratamiento, cuyo efecto sobre la respuesta se quiere evaluar, también influyen otros factores, de escaso interés en el estudio, pero cuya influencia sobre la respuesta puede aumentar significativamente la variabilidad no planificada. Con el fin de eliminar esta influencia pueden incluirse en el diseño nuevos factores que, atendiendo a su naturaleza, pueden ser de diversos tipos.

Las posibles fuentes de variación de un experimento pueden estar dadas por:

Fuente	Tipo
Las condiciones de interés (Factores tratamiento)	Planificada y sistemática
Otras condiciones controladas. (Factores “nuisance”)	Planificada y sistemática
Condiciones no controladas. (error de medida, material experimental, ... )	No planificada, pero ¿sistemática?

ANÁLISIS DE LA VARIANZA

Es una técnica estadística que sirve para analizar la variación total de los resultados experimentales de un diseño en particular, descomponiéndolo en fuentes de variación independientes atribuibles a cada uno de los efectos en que constituye el diseño experimental.

PRUEBAS DE COMPARACIÓN DE MEDIAS

Es propósito de todo investigador que realiza un análisis de variancia de un experimento en particular, realizar la prueba sobre el efecto de los tratamientos en estudio, para ello hace uso de la prueba F el cual indicará si los efectos de todos los tratamientos son iguales o diferentes; en caso de aceptar la hipótesis de que todos los tratamientos no tienen el mismo efecto, entonces es necesario realizar pruebas de comparación de promedios a fin de saber entre que tratamientos hay diferencias, y para esto es necesario realizar pruebas de comparación múltiple.

HIPÓTESIS ESTADÍSTICA

Es el supuesto que el investigador hace sobre el valor de un parámetro (constante que caracteriza a una población) el cual puede ser validado mediante una prueba estadística. En muchas investigaciones al realizar un análisis estadístico se utiliza el ANOVA (ANDEVA) de un diseño experimental, la hipótesis a probar es si los tratamientos tienen el mismo efecto sobre la variable que se estudia, es así como se tienen las hipótesis planteada (Ho) e hipótesis alterna (Ha):

Ho: t i = 0 (Los i tratamientos tienen el mismo efecto sobre la variable en estudio)

Ha: t i ¹ 0 (No todos los tratamientos tienen el mismo efecto sobre la variable en estudio)

Al probar la hipótesis estadística el investigador está propenso a cometer los siguientes tipos de errores:

Error Tipo I: Se comete cuando se rechaza la hipótesis que se plantea, siendo esta hipótesis falsa; la magnitud de este error es fijado por el investigador y constituye el “nivel de significación de la prueba”; usualmente los valores usados como nivel de significación son 0.10; 0.05 ó 0.01.

Error tipo II: Se comete cuando se acepta la hipótesis que se plantea, siendo esta hipótesis falsa; la magnitud de este error no se puede fijar, pero si es posible minimizar utilizando un tamaño adecuado de muestra.

COEFICIENTE DE VARIABILIDAD

Es una medida de variabilidad relativa (sin unidades de medida) cuyo uso es para cuantificar en términos porcentuales la variabilidad de las unidades experimentales frente a la aplicación de un determinado tratamiento. En experimentación no controlada (condiciones de campo) se considera que un coeficiente de variabilidad mayor a 35% es elevado por lo que se debe tener especial cuidado en las interpretaciones y conclusiones; en condiciones controladas (laboratorio) se considera un coeficiente de variabilidad mayor como elevado. La expresión estimada del coeficiente de variabilidad es:

CV = RAIZ(CME) / Y

TÉRMINOS UTILIZADOS

Unidad experimental: son los objetos, individuos, intervalos de espacio o tiempo sobre los que se experimenta.

Variable de interés o respuesta: es la variable que se desea estudiar y controlar su variabilidad.

Factor: son las variables independientes que pueden influir en la variabilidad de la variable de interés.

Niveles: cada uno de los resultados de un factor. Según sean elegidos por el experimentador o elegidos al azar de una amplia población se denominan factores de efectos fijos o factores de efectos aleatorios.

Tratamiento: es una combinación específica de los niveles de los factores en estudio.

Observación experimental: es cada medición de la variable respuesta.

Tamaño del Experimento: es el número total de observaciones recogidas en el diseño.

Diseño Equilibrado o Balanceado: es aquel en el que todos los tratamientos son asignados a un número igual de unidades experimentales.

II. DISEÑO COMPLETAMENTE ALEATORIZADO

En el Diseño de Experimentos al Completo Azar, el experimentador asigna las unidades experimentales a los tratamientos al azar, con la única restricción del número de observaciones que se tomarán en cada tratamiento. Es el más sencillo y se origina por la asignación aleatoria de tratamientos a un conjunto de unidades experimentales.

Para aleatorizar una tabla de números aleatorios resulta conveniente para elegir las unidades experimentales que recibirá cada tratamiento. Si cada tratamiento ha de repetirse cuatro veces, los primeros cuatro números aleatorios obtenidos se asignarán al tratamiento A, los siguientes cuatro números aleatorios al tratamiento B, y así sucesivamente.

El diseño al completo azar se utiliza cuando las condiciones del sitio o lugar experimental son totalmente homogéneas

Sea n_i el número de observaciones en el i-ésimo tratamiento, i = 1,...,I. Entonces, los valores n₁,n₂,...,n_I, determinan por completo las propiedades estadísticas del diseño. Naturalmente, este tipo de diseño se utiliza en experimentos que no incluyen factores bloque. El modelo matemático es de la forma: Respuesta = Constante + Efecto tratamiento + Error.

El diseño al completo azar tiene varias ventajas y desventajas entre estas se pueden menciona las siguientes:

Ventajes:

a) Su sencillez (estadístico fácil). Aun cuando el dato de algunos tratamiento se hayan perdido, o rechacen por alguna causa el método de análisis sigue siendo sencillo. La pérdida relativa de información debida a los datos faltantes, es de menos importancia que en cualquier otro sistema.

b) La flexibilidad. Puede utilizarse cualquier número de tratamientos y repeticiones y pueden variar a voluntad del investigador el numero de repeticiones de un tratamiento a otro, pero no es recomendable sino existe una buena razón. Todo el material experimental disponible puede usarse, lo cual es una ventaja en experimentos preliminares pequeños donde el material experimental de que se dispone es escaso.

c) El número de grados de libertad es máximo en comparación con otros modelos, el modelo estadístico sigue siendo fácil aún cuando se pierdan unidades experimentales .

d) Aún cuando el dato de algún tratamiento se hayan perdido, o rechacen por alguna causa el método de análisis sigue siendo sencillo

Desventajas:

a) La principal estriba en su grado de precisión, algún otro diseño suele ser capaz de estimar el error stándar por unidad experimental (error experimental) con un mayor grado de precisión

b) No siempre puede garantizarse condiciones de homogeneidad. No se asegura, ninguna forma para aseverar que las unidades reciben un tratamiento similar a aquellas que reciben otro tratamiento, toda la variación que existe entre las unidades pasa a formar parte del error experimental.

¿Por qué aleatorizar?

Para transformar la variabilidad sistemática no planificada en variabilidad no planificada o ruido aleatorio; en otros términos: prevenir contra la introducción de sesgos en el experimento. La aleatorización evita la dependencia entre observaciones y valida muchos de los procedimientos estadísticos más comunes.

¿Cuando puede ser apropiada la aleatorización?

La aleatorización puede ser apropiada si:

a) El material experimental es homogéneo.

b) Donde es probable que una parte apreciable de las unidades se destruyan o no respondan

c) En experimentos pequeños en donde la mayor precisión de otros diseños no compensa la pérdida de grados de libertad del error.

PROCEDIMIENTO DE ANÁLISIS

Procedimiento

a. Determinar el número de unidades experimentales (n) y numerarlas. Es posible obtener “n” al multiplicar el número de tratamientos por el número de repeticiones n = ( t * r).

b. Asignar el número de unidades experimentales a cada tratamiento utilizando una tabla de números aleatorios o bien cualquier otra herramienta que sirva para el mismo propósito. Por ejemplo si cada tratamiento ha de repetirse cuatro veces, los primeros cuatro números aleatorios obtenidos se asignarán al tratamiento A, los siguientes cuatro números aleatorios al tratamiento B, y así sucesivamente.

c. Una vez hecha la distribución anterior (liberal b) se numeran las unidades experimentales y se localizan los tratamientos de acuerdo al número que les corresponde y se obtiene así las distribución de campo.

Modelo Estadístico

Y_ij = µ + t i + ε_ij

En donde:

Y_ij Variable respuesta de la ij-esima unidad experimental

µ Efecto de la media general

t i Efecto del i-esimo tratamiento

ε_ij Efecto del error experimental asociado a la i-esima unidad experimental

Análisis de Varianza

Hipótesis Nula Ho: t i = 0 (Los i tratamientos tienen el mismo efecto sobre la variable en estudio)

Hipótesis Alterna Ha: t i ¹ 0 (No todos los tratamientos tienen el mismo efecto sobre la variable en estudio, al menos uno produce un resultado distinto)

Tabla de Datos

Tratamientos	Repeticiones					Y_i.
Tratamientos	1	2	3	4	r
1	Y₁₁	Y₁₂	Y₁₂	. . .	Y_1r	Y₁.
2	Y₂₁	Y₂₂	Y₂₃	. . .	Y_2r	Y₂.
3	Y₃₁	Y₃₂	Y₃₃	. . .	Y_3r	Y₃.
.	.	.	.	. . .	.	.
.	.	.	.	. . .	.	.
.	.	.	.	. . .	.	.
r	Y_t1	Y_t2	Y_t3	. . .	Y_tr	Y _{. .}

Supuestos

Los supuestos que validan el análisis varianza son:

a. Los errores son independientes

b. Los errores están normalmente distribuidos con media cero y varianza constante

c. Existe homogeneidad de varianza entre los tratamientos.

Fuentes de variación y grados de libertad.

Para el análisis de varianza se construye una tabla de análisis de varianza y se completan los datos. Existen sólo dos fuentes de variación en el diseño completamente aleatorio: entre unidades experimentales dentro de un tratamiento, la cual denominamos error experimental y aquella entre medias de tratamiento.

Tabla de Análisis de Varianza

Fuentes de Variación	Grados de Libertad	Suma de Cuadrados	Cuadrados Medios	Fc Calculada	Ft Requerida
Tratamien-tos	t - 1	∑[(Y²../r Y²..)/(tr)]	Sctrat/gltotal	Scmedios/Cmerror
Error	t ( r – 1)	Sctotal - SCtrat	Scerror/glerror
Total	t r -1	∑∑[ (Y_ij- Y²..)/ (tr) ]

Los grados de libertad son uno menos que el número de observaciones para cada fuente de variación.

Regla de Decisión

Rechazar la hipótesis Ho. Si Fc > Ft (Gltrat, Gl error, α )

Aceptar la Hipótesis Ha. Si Fc < Ft (Gltrat, Gl error, α )

Ft = Valor tabular .

Coeficiente de Variación

Se puede considerar como medida relativa de la variación que no es posible controlar en el experimento (error experimental), por costumbre se utiliza como que se controló adecuadamente el error cuanto el coeficiente de variación es menor de 20.

El coeficiente de variación se calcula por medio de la fórmula siguiente:

CV = ( Raiz(CM) / Y.. )*100

Y.. = Y.. / tr

Ejemplo de Aplicación

Al probar concentraciones de 1, 2, 3 y 4 ppm de cierta encima más un control ( en que no se añadió encima) para estudiar el efecto en la separación de un jugo de naranja. A cada tratamiento se aplicó 4 veces y se usó un diseño al completo azar. Se añadió agua a las 20 muestras y se midió el tiempo de separación (minutos) en cada muestra, los resultados fueron los siguientes.

1. Datos ordenados – Factor de Corrección -

Datos	I	II	III	IV	Suma	r	suma² /r
A	3.96	6.24	5.42	11.11	26.73	4	178.62
B	27.31	26.96	32.21	30.13	116.61	4	3399.47
C	35.30	34.71	36.75	38.38	145.14	4	5266.40
D	41.09	43.99	48.70	41.78	175.56	4	7705.33
E	48.90	47.61	50.38	49.61	196.50	4	9653.06
					-	-
					-	-
Suma	156.56	159.51	173.46	171.01	660.54	20	26202.89

Factor de Corrección (Fc) = Y²../rt

Fc = ( 660.54²/ 20 ) = 21,815.65

Nota: r es el número de repeticiones y t el número de tratamientos. Si el número de repeticiones no es el mismo para todos los tratamientos, el divisor correcto es Σr_{i .}Si por ejemplo, la primera repetición del tratamiento A estuviera ausente, el término de corrección sería:

Fc = (ΣY)² para el caso objeto de estudio (656.58)/19

Σr

2. Grados de Libertad.

De tratamientos (Gltrat) = t – 1

Los grados de libertad son uno menos que el número de tratamientos para cada fuente de variación existiendo cinco tratamientos y, por tanto, 4 gl..

Gltrat = 5 – 1 = 4

Grados de libertad total (Gltot) = r * t - 1

Los grados de libertad total están dados por el número de observaciones totales menos 1, se dieron 20 observaciones por lo tanto tenemos 19 grados de libertad total,

Gltrat = 4 * 5 – 1 = 19

Grados de libertad del error (Gle) = GLtot - GLtrat

Los grados de libertar del error están dados por el total de grados de libertad del experimento (19) menos los grados de libertad de los tratamientos (4), por lo que para el caso se tienen 15 grados de error.

Gle = 19 – 4 = 15

3. Suma de cuadrados y Cuadrados Medios

Cuadrados de “Yi”

Datos	I	II	III	IV	Suma
A	15.68	38.94	29.38	123.43	207.43
B	745.84	726.84	1,037.48	907.82	3,417.98
C	1,246.09	1,204.78	1,350.56	1,473.02	5,274.46
D	1,688.39	1,935.12	2,371.69	1,745.57	7,740.77
E	2,391.21	2,266.71	2,538.14	2,461.15	9,657.22


Suma	6,087.21	6,172.40	7,327.26	6,710.99	26,297.85

a. Cuadrados de Tratamientos

SCtrat = Σ(Y_i)² / r

Donde “Yi” totales de tratamientos y “r” el número de repeticiones en cada tratamiento. Cuando el número de repeticiones no es el mismo para todos los tratamientos (se ha perdido un dato), el cuadrado de un total debe ser dividido entre el número de repeticiones y así sucesivamente para cada tratamiento, los resultados así obtenidos se suman para obtener el total.

SCtrat = 26,202.89 - 21,815.65 = 4,387.24

b. Suma de Cuadrados Totales (Sctot).

SCtot = 26,297.85 - 21,815.65 = 4,482.20

c. Suma de cuadrados del error (Sce)

Sce = Sctrat - SCtot

Sce = 4,482.20 – 4,387.24 = 94.96

d) Cuadrados Medios de Tratamientos (CMtrat)

Los cuadrados medios de los tratamientos están dados por la suma de cuadrados del error (Cce) dividido entre el número de repeticiones (r).

CMtrat = Sce /r

CMtrat = 4,387.24/4 = 1,096.81

e) Cuadrados medios del error (Cme)

Los cuadrados medios del error están dados por la suma de cuadrados del error (Sce) dividido entre del error.

Cme = Sce/Gle

Cme = 94.96/15 = 6.33

4. F Calculada

La Fc se calcula dividiendo los cuadrados medios de los tratamientos entre el cuadrado medio del error.

Fc = Cmtrat/Cme

Fc = 1,096.81/6.33 = 173.27

5. F Tabulada

La Ft se encuentra en una tabla diseñada y elaborada para el efecto. La forma de encontrar el valor es dependiendo del nivel de significancia.

Con un nivel de significancia del 1% se tiene:

Grados de libertad de tratamientos Gltrat

Grados	1	2	3	4
de Libertad	2
del error	.
Gle	.
	15			4.89

6. Coeficiente de Variación

CV = ( Raiz(CM) / Y.. )*100

Y.. = Y.. / tr

Y.. = 660.54 / 20 = 33.03

CV = ((Raiz(6.33)/ 33.03 ) * 100 = 7.62

De acuerdo al resultado obtenido y a la costumbre, se puede considerar que en el ejemplo experimento existió un buen control del error experimental, toda vez que 7.62 < 20.

7. Cuadro de ANDEVA Ó ANOVA

Fuente de Variación	Grados de Libertad	Suma de Cuadrados	Cuadrados Medios	Fc Calculada	Ft Tabulada
Tratamientos	4	4,387.24	1,096.81	173.25	4.89
Error	15	94.96	6.33
Total	19	4,482.20

8. Interpretación.

Fc (F calculada) 173.25 > Ft (F tabulada) 4.89. Como F calculada es mayor de la F tabulada se rechaza la hipótesis nula, lo que quiere decir que con el nivel de significancia del 1%, al menos un tratamiento es diferente, por lo tanto se recomiendo aplicar una metodología complementaria.

III UTILIZACIÓN DE EXCEL PARA CÁLCULO DEL DISEÑO

AL COMPLETO AZAR

Busque el menú de Herramientas (Tools), luego ingrese a la ventana de Análisis de Datos (Data Análisis), le aparecerá una ventana con varias funciones estadísticas, escoja la que diga ANOVA: Single Factor, entonces le saldrá una ventana que presentará las opciones siguientes:

Imput Range: El rango de los datos

Grouped By: Si los tratamientos están en columnas o filas

Output range: Si quiere que los datos salgan en la misma hoja

Alpha: En donde se define el nivel de significancia

New Worksheet Ply: Si quiere que los datos salgan en otra hoja

Elija las opciones deseadas, ingrese los datos correspondientes, presione la opción aceptar y tendrá el análisis de variación.

Bibliografía.

1. Cochran&Cox (William G. Cochran y Gertrude M Cox), Diseños experimentales, Editorial Trillas, S. A. México, D F edición 1965

2. Métodos Estadísticos para la investigación en la Agricultura.

3. Internet

Estadística, Matemática y Computación

lunes, 4 de julio de 2011

Diseño de Experimentos al Completo Azar

I. PRINCIPIOS BÁSICOS DEL DISEÑO DE EXPERIMENTOS

FACTORES NUISANCE

TÉRMINOS UTILIZADOS

II. DISEÑO COMPLETAMENTE ALEATORIZADO

Procedimiento

SCtrat = 26,202.89 - 21,815.65 = 4,387.24

SCtot = 26,297.85 - 21,815.65 = 4,482.20

No hay comentarios:

Publicar un comentario

Colaboradores

Visitas Totales