UNIVERSIDAD RURAL DE
GUATEMALA
MAESTRIA EN INVESTIGACION
Y PROYECTOS
TECNICAS Y METODOS DE
INVESTIGACION
ING. LUIS REYES
TEXTO PARALELO
MUESTREO SISTEMATICO
MIRIAM ALVARADO AREVALO
03-00-120
22-11-2003
INDICE
CAPITULO PAGINA
I. Introducción 2
II. Muestreo
Sistemático
1. Descripción 3
2. Ventajas 3
3. Desventajas 5
4. Estimación de una media y un total
poblacionales 5
5. Estimación de una proporción poblacional 8
6. Tamaño de la muestra 9
7. Relación con el muestreo conglomerado 10
8. Comparación con el muestreo aleatorio
estratificado 10
9. Muestreo Sistemático estratificado 10
10. Muestreo Sistemático en dos dimensiones 11
11. Muestreo Sistemático replicado 13
12. Aplicaciones 15
III. Problemas
Resueltos 17
IV. Problemas
Propuestos 22
V. Bibliografía 24
I. Introducción
Para investigar un fenómeno o problema generalmente es necesario recurrir a
una muestra, dado que es difícil y costoso evaluar a toda la población bajo
estudio. Pero la muestra – que es un
subconjunto de la población- debe ser representativa de esta, para lograr esto
existen diferentes métodos de muestreo que se pueden aplicar en base a las
características de la población estudiada.
Entre dichos métodos se encuentra el muestreo
sistemático, que es una variante del muestreo al irrestricto azar, con ventajas
y desventajas sobre este segundo y usos específicos.
En el presente trabajo
se resumen las principales características, aplicaciones y metodología para
calcular el tamaño de la muestra, la estimación de parámetros y límite de error
en una muestra extraída con este tipo de muestreo.
II. Muestreo Sistemático
1. Descripción
“Una muestra obtenida al seleccionar aleatoriamente un
elemento de los primeros k elementos en el marco muestral y después cada
k-ésimo elemento se denomina muestra sistemática de 1 en k”.
A
primera vista, este método de Muestreo es muy diferente al Muestreo aleatorio
simple. Supongamos que las N unidades de la población se numeran de
1 a N
en cierto orden. Para elegir una
muestra de n unidades,
tomamos una unidad al azar entre las k
primeras del marco muestral y luego tomamos las subsecuentes a intervalos de k.
Así, por ejemplo, si k es 15 y la primera unidad que se extrae (al
azar) es la número 13, entonces las subsecuentes se numeran 28, 43, 58,
etc. La selección de la primera unidad determina toda la
muestra, que se denomina muestra de todas
las k-ésimas unidades.
2. Ventajas
Las
ventajas aparentes de este método respecto al muestreo aleatorio simple son:
! Es más fácil sacar una
muestra y a menudo, más fácil hacerlo sin
cometer errores. Esta es una ventaja particular cuando la
extracción se hace en el área. Aunque la
extracción se haga en una oficina, este método puede ahorrar mucho tiempo. Por ejemplo, si las unidades se describen en
tarjetas del mismo tamaño y se colocan en un archivero, se pueden extraer las
tarjetas que están separadas por una pulgada a lo largo del archivero. Esta operación es rápida mientras que el
muestreo aleatorio simple será laborioso.
Claro está que el método descrito anteriormente se aparta un tanto de la
regla de “cada k-ésima”.
! Intuitivamente, el
muestreo sistemático parece ser más preciso que el
aleatorio simple. En efecto, estratifica la población en n estratos, que consisten de las
primeras k unidades, las segundas k unidades, etc. Por lo tanto, podemos esperar que la muestra
sistemática sea tan precisa como la muestra aleatoria estratificada
correspondiente con una unidad por
estrato. La diferencia es que con la
muestra sistemática, las unidades ocurren en la misma posición relativa del
estrato, mientras que con el muestreo aleatorio estratificado, la posición
dentro del estrato se determina separadamente por aleatorización dentro de cada
estrato. La muestra sistemática se
reparte más uniformemente sobre la población, y este hecho, algunas veces ha
dado al muestreo sistemático una precisión considerablemente mayor que la del
muestreo aleatorio estratificado.
Una
modificación al muestreo sistemático
consiste en elegir cada unidad en el centro o cerca del centro de cada
estrato. O sea que en lugar de empezar
la sucesión con un número aleatorio elegido entre 1 y k, tomamos el número inicial como (k+1)/2 si k es impar y
como k/2 o (k+2)/2 si k es par
(Madow, 1953). Este procedimiento lleva
el propósito del muestreo sistemático a su conclusión lógica. Si yi puede considerarse como una función
continua de una variable continua i,
hay razones para esperar que esta muestra localizada al centro será más precisa
que una localizada aleatoriamente.
Algunas investigaciones en poblaciones naturales apoyan esta opinión,
aunque las muestras localizadas al centro tienden a comportarse erráticamente. Aquí nos ocuparemos en forma exclusiva de
muestras en donde existe algún elemento aleatorio.
Como en general, N no es un múltiplo entero de k, las diferentes muestras sistemáticas
de la misma población finita podrán variar su tamaño en una unidad. Así, con
N = 23, k
= 5, los números de unidades en las cinco muestras sistemáticas aparecen en la Tabla 1. Las tres primeras muestras tienen n = 5 y las últimas dos
n =
4. Este hecho introduce una perturbación
en la teoría del muestreo sistemático, que probablemente sea despreciable si n excede a 50, y se le ignorará Para simplificar la presentación de la
teoría. No es de esperarse que sea
grande aun cuando n sea pequeña.
TABLA 1
Posibles Muestras Sistemáticas
para N=23, k=5
Número de la muestra
sistemática
I
|
II
|
III
|
IV
|
V
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
10
|
11
|
12
|
13
|
14
|
15
|
16
|
17
|
18
|
19
|
20
|
21
|
22
|
23
|
24
|
25
|
Otro método, sugerido
por Lahiri en 1952, proporciona un tamaño constante de muestra y una media de
muestra insesgada. Considérense las N unidades dispuestas alrededor de un
círculo, y sea k el entero más
cercano a N/n. Selecciónese un número al azar entre 1 y N y tómese cada k-ésima unidad a partir de ahí y siguiendo el círculo, hasta
alcanzar las n unidades
deseadas. Supongamos que se desea n = 5 con N = 23. Entonces k = 5.
Si el número aleatorio es 19, tomamos las unidades 19, 1, 6, 11,
16. Con este método es fácil verificar
que cada unidad tiene la misma probabilidad de selección. Si se desean n = 4 unidades con N =
23, tomamos k = 6.
3. Desventajas
- En los casos en que se dan
periodicidades en la población ya que al elegir a los
miembros de la muestra
con una periodicidad constante (k) se puede introducir una homogeneidad que no
se da en la población.
- La
población no siempre esta ordenada ni se conoce el marco muestral.
4. Estimación de una media y un total
poblacionales
El objetivo de la mayoría de
las encuestas por muestreo es estimar uno o más de los parámetros de la
población. Podemos estimar la media
poblacional μ usando la media muestral
Ӯsy de una muestra sistemática.
Este resultado se muestra en la ecuación 1.
n
Estimador de la media poblacional μ: Ӯsy= ∑ yi (1)
i =1 __
n
donde el subíndice sy
significa que se utilizó el muestreo sistemático.
Varianza estimada de Ӯsy: V(Ӯsy) = s2 /n
((N-n)/N) (2)
Límite para el error de estimación:
2 √V(Ӯsy)=2√s2/n
((N-n)/N) (3)
Si N es desconocida, eliminamos la cpf, (N-n)/N, en las
ecuaciones 2 y 3.
La varianza estimada de Ӯsy dada en la ecuación 2 es
idéntica a la varianza estimada de Ӯ obtenida mediante muestreo irrestricto
aleatorio. Este resultado no implica que
las varianzas poblacionales sean iguales.
La varianza de Ӯ está dada por
V(Ӯ)= 2/n (N-n/N-1) (4)
Asimismo la varianza de
Ӯsy está dada por
V(Ӯsy)=
2/n[1+(n-1)p] (5)
Donde p es una medida de la correlación entre
los pares de elementos dentro de la misma muestra sistemática. Si p está
cercano a uno, entonces los elementos dentro de la muestra son bastante
similares con respecto a la característica que se está midiendo, y el muestreo
sistemático producirá una varianza de la media muestral mayor que la obtenida
con el muestreo irrestricto aleatorio. Si p
es negativo, entonces el muestreo sistemático puede ser mejor que el
muestreo irrestricto aleatorio. La
correlación puede ser negativa si los elementos dentro de la muestra
sistemática tienden a ser extremadamente diferentes. Para p cercano
a cero y N bastante grande, el muestreo sistemático es aproximadamente
equivalente al muestreo irrestricto aleatorio.
Un estimador insesgado de V(Ӯsy) no puede ser obtenido
usando solamente los datos de una muestra sistemática. Este enunciado no implica que nunca podremos
obtener una estimación de V(Ӯsy). Cuando
el muestreo sistemático es equivalente al muestreo irrestricto aleatorio,
podemos tomar V(Ӯsy) como aproximadamente igual a la varianza estimada de Ӯ
basada en un muestreo irrestricto aleatorio.
La ocurrencia de esto suceso depende del tipo de población a estudiar.
4.1 Población aleatoria: Una población es aleatoria si
sus elementos están ordenados al azar.
Los elementos de una muestra sistemática seleccionados de una población
aleatoria se espera que sean heterogéneos con un p aproximadamente igual a cero.
Por lo tanto cuando N es grande la varianza de Ӯsy es aproximadamente
igual a la varianza de Ӯ basada en un muestreo irrestricto aleatorio. Por
ejemplo un investigador desea determinar el número promedio de recetas
prescritas por ciertos médicos durante el año anterior. Si el marco consiste de una lista en orden
alfabético de médicos, la suposición de que los nombres en la lista no están
correlacionados con el número de recetas para un medicamento en particular es
razonable. Por lo tanto consideramos
aleatoria a la población. En este caso
una muestra sistemática será equivalente a una muestra irrestricta aleatoria.
4.2 Población
Ordenada: Una población es ordenada si los elementos dentro de la población
están ordenados en magnitud de acuerdo con algún esquema.
En una encuesta para
estimar la efectividad de la enseñanza en un curso introductoria extenso, los
estudiantes son interrogados para evaluar a su maestro de acuerdo con una
escala numérica. Se extrae entonces una
muestra de una lista de evaluaciones que están distribuidas en orden numérico
ascendente. La población de mediciones
de la cual se extrae la muestra se considera una población ordenada.
Una muestra sistemática
extraída de una población ordenada es generalmente heterogénea con p ≤ 0.
Puede demostrarse, usando las ecuaciones (4) y (5), que cuando N es
grande p ≤ 0.
V(Ӯsy) ≤ V(Ӯ)
Por lo tanto una
muestra sistemática de una población ordenada proporciona más información que
una muestra irrestricta aleatoria por unidad de costo, debido a que la varianza
de Ӯsy es menor que la varianza correspondiente de Ӯ.
Ya que no podemos obtener una estimación de V(Ӯsy) con
base en los datos de la muestra, una estimación conservadora (una que es mayor
de lo que se esperaría) de V(Ӯsy) está dada por
V(Ӯsy) = s2/n (N-n/N)
4.3 Población periódica:
Una población es periódica si los elementos de la población tienen
variación cíclica.
Supóngase que estamos
interesados en determinar el volumen de ventas promedio diario para una cadena
de tiendas de abarrotes. La población de
las ventas diarias claramente es periódica, ocurriendo las ventas máximas al
final de cada semana. La efectividad de
una muestra sistemática de 1-en k depende de los valores que seleccionemos para
k. Si muestreamos las ventas diarias
cada miércoles, probablemente subestimaríamos el promedio verdadero del volumen
de ventas diario. Asimismo si
muestreamos las ventas cada viernes, probablemente sobreestimaríamos el
promedio verdadero de las ventas.
Podríamos muestrear cada noveno día de trabajo para evitar muestrear
consistentemente los días de ventas altas o bajas.
Los elementos de una
muestra sistemática extraída de una población periódica pueden ser homogéneos
(esto es p >0). Por ejemplo, los elementos de una muestra sistemática
de ventas diarias tomadas cada miércoles serán bastante homogéneos. Puede demostrarse, mediante las ecuaciones
(4) y (5), que cuando N es grande y p>0,
V(Ӯsy) > V(Ӯ)
Por lo tanto en este
caso el muestreo sistemático proporciona menos información que el muestreo
irrestricto aleatorio por unidad de costo.
Como en las situaciones anteriores, V(Ӯsy) no puede ser estimada
directamente mediante una sola muestra sistemática. Podemos aproximar su valor usado V(Ӯ), como
para muestreo irrestricto aleatorio. En
general este estimador subestimará la varianza verdadera Ӯsy.
Para evitar este problema que ocurre con el muestreo
sistemático de una población periódica,
el investigador podría cambiar varias veces el punto
de inicio aleatorio. Este
procedimiento reducirá la posibilidad de seleccionar observaciones con la misma
posición relativa en una población periódica.
Por ejemplo, cuando una muestra sistemática en 1 en 10 es extraída de
una larga lista de tarjetas archivadas, una tarjeta es seleccionada
aleatoriamente de entre las 10 primeras tarjetas (por ejemplo, la # 2) y
posteriormente cada décima tarjeta. Este
procedimiento puede modificarse seleccionando aleatoriamente una tarjeta de
entre las primeras 10 (por ejemplo, la # 2) y posteriormente cada décima
tarjeta para tal vez a las 15 selecciones obtener los números 2, 12, 22…. ,
152.
En este momento se puede seleccionar otro punto de inicio
aleatorio de entre los 10 números siguiente: 153,
154, 155,…., 152
Si el 156 es
seleccionado, entonces posteriormente procedemos a seleccionar cada décimo
número para las siguientes 15 selecciones.
Este procedimiento completo se repite hasta que es obtenido el tamaño de
muestra deseado.
El procedimiento de seleccionar varias veces un punto de
inicio aleatorio a través de la muestra sistemática tiene el efecto de mezclar
los elementos de la población y al mismo tiempo el de seleccionar una muestra
sistemática. En consecuencia podemos
suponer que la muestra obtenida es equivalente a una muestra sistemática
extraída de una población aleatoria. La
varianza de Ӯsy puede ser entonces aproximada usando
V(Ӯsy)= s2/n (N-n/N)
Para estimar el total poblacional τ se pueden usar las
ecuaciones siguientes:
τ= N Ӯsy (6)
Varianza estimada de τ:
V=(N Ӯsy) = N2
V (Ӯsy) = N2 (s2/n) (N-n/N) (7)
Límite para el error de
estimación
2√V(N Ӯsy)= 2 √N2(s2/n) (N-n/N) (8)
Nótese que los
resultados presentados en las ecuaciones (6), (7) y (8) son idénticos a los
presentados para estimar un total poblacional mediante muestreo irrestricto
aleatorio. Este resultado no implica que
la varianza N Ӯsy sea la misma que la varianza N Ӯ. Nuevamente no podemos obtener un estimador
insesgado de V(NӮsy) con base en los datos de una sola muestra
sistemática. Sin embargo, en ciertas
circunstancia, como se indico antes, el muestreo sistemático es equivalente al
muestreo irrestricto aleatorio.
5. Estimación de una Proporción
Poblacional
Un investigador a menudo desea usar los datos de una
muestra sistemática para estimar una proporción poblacional. Por ejemplo, para determinar la proporción
de votantes registrados que están a favor de una prometedora emisión de bonos,
el investigador podría utilizar una muestra sistemática de 1 en k de la lista
de votantes registrados.
El estimador de la proporción poblacional p por muestreo
sistemático se denota mediante psy. Como en el muestreo irrestricto aleatorio,
las propiedades de psy son análogas a las propiedades de la media muestral Ӯsy
si las mediciones de la respuesta se definen como sigue: sea yi=0 si el i-ésimo
elemento muestreado no posee la característica específica y yi=1 si la
posee. El estimador psy es entonces el
promedio de los valores 0 y 1 de la muestra.
Estimador de la
proporción poblacional p:
n
psy= Ӯsy=∑ yi (9)
i
= 1
n
Varianza estimada de
psy:
V(psy) = psy qsy (N-n/N) (10)
n- 1
donde qsy = 1 – psy
Límite para el error de
estimación:
2√V(psy) = 2 √psy qsy (N-n/N) (11)
n- 1
Podemos omitir cpf,
(N-n)/N, en las ecuaciones (10) y (11) si el tamaño de la población N es
desconocido pero puede suponerse relativamente grande con respecto a n.
Notemos nuevamente que la varianza de psy (o bien Ӯsy) es
idéntica a la varianza estimada de p (o
bien Ӯ),
usando el muestreo irrestricto aleatorio.
Este resultado no implica que las varianzas poblacionales
correspondientes sean iguales; sin embargo, si N es grande, y si las
observaciones dentro de una muestra sistemática no están correlacionadas (esto
es, p=0), las dos varianzas poblacionales
serán iguales.
6. Tamaño de la muestra
Hay dos alternativas para el
cálculo del tamaño de la muestra, utilizando las fórmulas
para el muestreo aleatorio simple y luego distribuirlo sistemáticamente, o
empleando las fórmulas específicas para el muestreo sistemático, que son las
siguientes:
Tamaño de muestra
requerido para estimar μ con un límite B para el error de estimación:
n= ____N2____ (12)
(N- 1) D+2
donde D= B2/4
Tamaño de muestra
requerido para estimar p con un límite B para el error de estimación:
n= ____Npq____ (13)
(N-1)D+pq
donde q=1-p y D= B2/4
7. Relación con el muestreo conglomerado
Existe otra manera de considerar el muestreo
sistemático. Con N = nk las k muestras sistemáticas posibles
aparecen en las columnas de la Tabla 2.
En él es evidente que la población se ha dividido en k grandes unidades de muestra, cada una
de las cuales cuenta con n unidades
originales. La operación de elegir una
muestra sistemática aleatoriamente localizada, es sólo la de elegir una de estas grandes unidades de
muestreo al azar. Por lo tanto, el
muestreo sistemático viene a ser la elección de una sola unidad de muestreo compleja, que constituye la muestra
total. Una muestra sistemática es una
muestra aleatoria simple de una unidad conglomerada, tomada en una población de
k unidades conglomeradas.
TABLA 2
Composición de las k Muestras
Sistemáticas
Número de muestra
1
|
2
|
i
|
k
|
|
y1
|
y2
|
yi
|
yk
|
|
yk+1
|
yk+2
|
yk+i
|
y2k
|
|
…
|
…
|
…
|
…
|
|
y(n-1)k+1
|
y(n-1)k+2
|
y(n-1)k+i
|
ynk
|
|
Medias
|
Ӯ1
|
Ӯ2
|
Ӯi
|
Ӯk
|
8. Comparación con el muestreo aleatorio
estratificado
El éxito del muestreo sistemático con relación al
muestreo aleatorio simple o aleatorio estratificado, depende mucho de las
propiedades de la población. En algunas
poblaciones, el muestreo sistemático es extremadamente preciso y en otras
resulta menos preciso que el muestreo aleatorio simple. Para algunas poblaciones y algunos valores de
n, V(Ӯsy) aun puede incrementarse al tomar una muestra grande, lo que constituye
una desviación sorprendente del buen comportamiento. Por lo tanto, es difícil dar un consejo
general respecto a las situaciones donde se aconseja el muestreo
sistemático. Es necesario conocer algo
sobre la estructura de la población para usarlo de manera efectiva.
Se han seguido dos lineamientos en la investigación de
este problema. Uno de ellos es comparar
los diferentes tipos de muestreo en poblaciones artificiales, en donde yi es
una función simple de i. El otro es
hacer las comparaciones para poblaciones naturales.
9. Muestreo Sistemático Estratificado
Hemos visto que si las unidades
se ordenan apropiadamente, el muestreo sistemático proporciona una clase de
estratificación con fracciones de muestreo iguales. Si se estratifica según otro criterio,
podríamos sacar una muestra sistemática separada dentro de cada estrato con
puntos iniciales determinados independientemente. Esto es recomendable si se quieren
estimaciones separadas para cada estrato o si se usan fracciones de muestreo
desiguales. Este método es más preciso
que el muestreo aleatorio estratificado si el muestreo sistemático dentro de
los estratos es más preciso que el aleatorio simple dentro de los
estratos. Si Ӯsyh es la media de
población y su varianza son:
Ӯsyh=∑’ Wh Ӯsyh’
V(Ӯsyh) =∑Wh2 V(Ӯsyh)
Con tan sólo unos pocos estratos, el problema de
encontrar una estimación de muestra de esta cantidad equivale al problema de
encontrar una estimación muestral satisfactoria de V(Ӯsyh) en cada estrato.
Cuando los estratos son más numerosos puede ser
preferible una estimación basada en el método de estratos contraídos. La estimación sería
v(Ӯsyh)=∑’Wh2(Ӯsyh- Ӯsyj)2
donde la suma se
extiende sobre los pares de estratos, es en promedio una sobreestimación,
aunque haya variación periódica dentro de los estratos.
Se puede obtener una estimación insesgada de la varianza
del error si se sacan dos muestras sistemáticas con diferente punto inicial
aleatorio e intervalo de 2k dentro de cada estrato, al proporcionar cada
estrato un grado de libertad. Se perderá
algo de precisión si el muestreo sistemático resulta efectivo. Si hay muchos estratos, podrá usarse una
muestra sistemática en la mayoría de ellos al sacar dos muestras tales en una
submuestra aleatoria de estratos con el propósito de estimar el error.
10. Muestreo Sistemático en dos dimensiones
Al muestrear un área, la
extensión más simple del muestreo sistemático unidimensional es el método de la
“rejilla cuadrada” que aparece en la siguiente figura 1 a.
La muestra queda completamente determinada al elegir un
par de números aleatorios para fijar las coordenadas de la unidad superior
izquierda. El comportamiento de la
rejilla cuadrada se ha estudiado en poblaciones teóricas y en poblaciones
naturales. Metérn (1960) investigó el
mejor tipo de muestra cuando la correlación entre cualesquiera dos puntos del
área es una función cóncava hacia arriba y monótona decreciente de su
separación d.
FIGURA 1
Dos tipos de muestras
sistemática bidimensional
(a)
Muestra alineada (b) Muestra no alineada
Para correlogramas tales como e-λd la rejilla da
buenos resultados, y es superior al muestreo aleatorio simple o
estratificado con una unidad por
estrato, aunque Matérn da razones para esperar que lo mejor en esta situación
es una red triangular en la que los puntos se encuentran en vértices de
triángulos equiláteros.
En 14 experimentos de uniformidad agrícola Haynes (1948)
encontró que la rejilla cuadrada tenía aproximadamente la misma precisión que
el muestreo aleatorio simple en dos dimensiones. Milne (1959) examinó en 50 ensayos de
uniformidad la rejilla cuadrada central, en la que el punto está en el centro
del cuadrado. Dio mejores resultados que
el muestreo aleatorio simple y tal vez un poco mejores que el muestreo
aleatorio estratificado, aunque esta diferencia no fuese estadísticamente
significativa. Estos resultados sugieren
que cuando menos para datos de este tipo, los efectos de autocorrelación son
débiles. Para estimar el área cubierta
por bosque o agua sobre un mapa, Matérn encontró en dos ejemplos que la rejilla
cuadrada es mejor que el método aleatorio.
La figura 1b exhibe una muestra sistemática alternativa
llamada muestra no alineada. Las
coordenadas de la unidad superior izquierda se seleccionan primero, mediante un
par de números aleatorios. Otros dos
números aleatorios determinarán las coordenadas horizontales de las dos
unidades restantes en la primera columna de los estratos. Se requieren otros dos para fijar las
coordenadas verticales de las unidades restantes en la primera fila de
estratos. El intervalo constante k
(igual a los lados de los cuadrados) fija entonces las posiciones de todos los
puntos. Las investigaciones de
Quenouille (1949) y Das (1950) para correlogramas simples de dos dimensiones
indican que el diseño no alineado a menudo es superior a la rejilla cuadrada y
al muestreo aleatorio estratificado.
Nueva evidencia de la superioridad de una muestra no
alineada se obtiene de la experiencia en un diseño experimental en el que se
encontró que el cuadrado latino es un método preciso para disponer tratamientos
en un campo rectangular.
FIGURA 2
Dos diseños sistemáticos
basados en el cuadrado latino
A B
C D E A B
C
D E
A B C B C
A
B C
D E A C A
B
E A
B C D A B
C
C D
E A B B C
A
C A
B
A B
C
(a) Cuadrado latino (b) Diseño sistemático
de “movimiento del rey” para un campo
rectangular 3 x 7
El cuadrado latino 5 x
5 de la figura 2a puede verse como una
división del campo en cinco muestras sistemáticas, una para cada letra. Existe evidencia de que este cuadrado
particular llamado el cuadrado latino del “movimiento del rey” es un tanto más
preciso que un cuadrado elegido al azar, de 5 x 5, probablemente porque no hay
alineación en las diagonales , ni en las filas, ni en las columnas.
El principio del cuadrado latino lo utilizó Homeyer y
Black (1946) al muestrear campos de avena rectangulares. Cada campo contenía 21 lotes. Las tres muestras sistemáticas posibles se
denotan con A, B y C, respectivamente, en la figura 2b. Este arreglo con una de las letras elegidas
al azar en cada campo dio un incremento en precisión aproximado al 25%, sobre
el muestreo aleatorio estratificado con dos filas como estratos. El arreglo no satisface exactamente la
propiedad del cuadrado latino, pues cada letra aparece tres veces en una
columna y dos veces en las otras columnas, pero se acerca a esta propiedad
tanto como es posible.
Yates (1960) que denomina estos arreglos muestreo
reticular, discute su uso en muestreo de dos y tres dimensiones. En tres dimensiones, cada fila, columna y
nivel vertical, puede representarse en la muestra al elegir p unidades de entre
las p3 de la población. Con p2
unidades en la muestra, cada una de las p2 combinaciones de niveles,
filas y columnas, de filas y alturas verticales, y de columnas y alturas
verticales, se podrá representar.
Patterson (1954) ha investigado los arreglos que dan una estimación
insesgada del error.
11. Muestreo Sistemático Replicado
Como se explico anteriormente,
en la mayoría de los casos el muestreo aleatorio sistemático no es equivalente
al muestreo irrestricto aleatorio. Un
método alternativo debe ser usado para estimar V(Ӯsy). Tal método es el muestreo sistemático
replicado.
Como el nombre lo implica, el muestreo sistemático
replicado requiere de réplicas, o sea de la selección de más de una muestra
sistemática. Por ejemplo, diez muestras
sistemáticas de 1 en 50, cada una conteniendo seis mediciones, podrían ser
obtenidas en aproximadamente el mismo tiempo que una muestra sistemática de 1
en 5 conteniendo 60 mediciones. Ambos
procedimientos producen 60 mediciones para estimar la media poblacional μ, pero
el procedimiento de muestreo replicado nos permite estimar V(Ӯsy) utilizando el
cuadrado de las desviaciones de las ns=10 medias maestrales
individuales alrededor de su media. El
promedio û de las 10 medias maestrales estimará la media poblacional μ.
Para seleccionar ns muestras sistemáticas
replicadas, debemos separar más los elementos de cada muestra. Por lo tanto diez muestras de 1 en 50 (ns
=10 k’=50) de seis mediciones cada una contienen el mismo número de
mediciones que una sola muestra de 1 en 5 (k=5) conteniendo n=60
mediciones. El punto de inicio para cada
una de las ns muestras
sistemáticas es seleccionado aleatoriamente de entre los primero k’
elementos. Los elementos restantes en
cada muestra son obtenidos adicionando k’, 2k’, y así sucesivamente, al punto
de inicio hasta que el número total por muestra, n/ ns es obtenido.
Las fórmulas para estimar μ según ns muestras sistemáticas se señalan en las
siguientes ecuaciones:
Estimador de la media poblacional μ usando ns muestras sistemáticas de 1 en k’:
ns
û= ∑ (Ӯi/ ns ) (14)
i=1
donde Ӯi representa el promedio de la i-ésima muestra
sistemática
Varianza estimada de û:
ns
V(û) = (N-n/N) ∑ (Ӯi- û)2
i=1 _____ (15)
ns(ns -1)
ns(ns -1)
Límite para el error de estimación:
ns
2√ V(û) = 2√(N-n/N) ∑ (Ӯi- û)2
i=1 _____
(16)
ns(ns -1)
ns(ns -1)
También podemos usar muestreo sistemático replicado para
estimar un total poblacional τ, si N es conocido. Las fórmulas necesarias se dan en estas
ecuaciones
Estimador del total poblacional τ usando ns muestras sistemáticas de 1 en k’:
ns
τ = Nû = N∑ Ӯi (17)
i=1 ns
Varianza estimada de τ
ns
V(τ) = N2 V(û) = N2 (N-n/N)
∑ (Ӯi –û)2
i=1_______ (18)
ns (ns -1)
ns (ns -1)
Límite para el error de estimación
ns
2√ V(τ) = 2√N2(N-n/N) ∑ (Ӯi- û)2
i=1 _____
(19)
ns(ns -1)
ns(ns -1)
12. Aplicaciones:
Se puede recomendar el uso del
muestreo sistemático en las siguientes situaciones:
1 Cuando el ordenamiento
de la población es esencialmente aleatorio o
contiene a lo más una
estratificación débil. Aquí, el muestreo
sistemático se usa por conveniencia y se esperan pocas ganancias de precisión.
Se cuenta con estimaciones maestrales del error que son razonablemente
insesgadas.
1 Cuando se emplea una
estratificación con numerosos estratos y se toma
una muestra sistemática
independiente en cada estrato. Los
efectos de las periodicidades ocultas tienen tendencia a neutralizarse en esta
situación y puede obtenerse una estimación del error que se sabe es una
sobreestimación. En forma alternativa,
podemos usar la mitad de los estratos y tomar dos muestras sistemáticas, con
inicios aleatorios independientes en cada estrato. Este método da una estimación insesgada del
error.
1 Para unidades
conglomeradas de submuestreo. En este
caso puede
obtenerse una
estimación casi insesgada o insesgada del error de muestreo en la mayoría de
las situaciones prácticas. Este es un
uso bastante común del muestreo sistemático.
1 Para muestrear
poblaciones que tienen una variación de tipo continuo a
Condición de que no se
requiera regularmente una estimación del error de muestreo. Si se hace una serie de encuestas de ese
tipo, será suficiente una verificación ocasional de los errores de
muestreo. Yates (1948) ha mostrado cómo
puede hacerse esto, al tomar observaciones adicionales.
III.
PROBLEMAS
RESUELTOS
1. Un hortelano de Virginia tiene un
huerto experimental con N=1300 manzanos de una nueva variedad en estudio. El investigador desea estimar la producción
total (en bushels) de la huerta, con base en los árboles de una muestra
sistemática de 1 en 10. La media y la
varianza maestrales para los árboles muestreados fueron Ӯsy= 3.52 bushels y s2
=0.48 bushel. Utilice estos datos para
estimar τ, y establezca un límite para el error de estimación.
SOLUCION
Una suposición
razonable es que la población es aleatoria; por lo tanto los muestreos
irrestricto aleatorio y el sistemático son equivalentes. Si la población fuese periódica,
el experimentador podría seleccionar varios puntos de
inicio aleatorios en la selección de los árboles que serán incluidos en la
muestra.
Una estimación de τ está dada por
N Ӯsy=1300(3.52)=4576
Un límite para el error de estimación puede determinarse
usando la ecuación (8) con n=130:
2√V(N Ӯsy)= 2√N2 (s2/n) (N-n/N)
= 2√13002 (0.480/130)
(1300-130/1300) = 150
Por lo tanto se estima
que la producción total del huerto de manzanos es 4576 bushels, con un límite
para el error de estimación de 150 bushels.
2. Una muestra sistemática de 1 en 6 es
obtenida de una lista de votantes registrados para estimar la proporción de
votantes que están a favor de la emisión de bonos propuesta. Diferentes puntos de inicio aleatorio se
utilizan para asegurar que los resultados de la muestra no son afectados por
variación periódica en la población.
Los resultados codificados de esta encuesta de elección previa se
muestran en la siguiente tabla:
VOTANTE
|
RESPUESTA
|
4
|
1
|
10
|
0
|
16
|
1
|
.
.
|
..
|
5760
|
0
|
5766
|
0
|
5772
|
1
|
962
∑ yi=652
i=1
|
SOLUCION
La proporción muestral está dada por
962
psy=
∑yi /962 = 652/962 = 0.678
i=i
Puesto que N es grande
y varios puntos de inicio aleatorio fueron seleccionados en la extracción de la
muestra sistemática, podemos suponer que
V(psy) = psyqsy (N-n/N)
n-1
proporciona
una buena estimación de V(psy)
2√ V(psy) = 2
√ psyqsy (N-n/N)
n-1
= 2√ (0.678)(0.322) (5775 – 962/5775)
961
Por
lo tanto estimamos que 0.678 (67.8%) de los votantes registrados favorece a la
emisión de bonos propuesta. Estamos
relativamente confiados en que el error de estimación es menor que 0.028(2.8%)
3. La administración de una empresa de
servicio público está interesada en la cantidad promedio de tiempo que tienen
de estar vencidas las cuentas atrasadas.
Una muestra sistemática será extraída de
una lista en orden alfabético con N=2500 cuentas de clientes que están
vencidas. En una encuesta similar
realizada el año anterior, la varianza muestral fue s2=100
días. Determine el tamaño de muestra
requerido para estimar μ, la cantidad
promedio de tiempo que tienen de estar vencidas las cuentas de la empresa de
servicio público, con un límite para el error de estimación de B=2 días.
SOLUCION
Una suposición
razonable es que la población es aleatoria; por lo tanto p=0. Luego podemos usar la
ecuación (12) para encontrar el tamaño de muestra aproximado. Reemplazado 2 por s2 y
estableciendo
D= B2/4 = 4/4=1
Tenemos
n=
____N2____ = 2500(100) = 96.19
(N- 1) D+2 2499(1)+100
Por lo tanto la
administración debe muestrear aproximadamente 97 cuentas para estimar la
cantidad promedio de tiempo que tienen de estar vencidas las cuentas atrasadas,
con un límite para el error de estimación de 2 días.
4. Una empresa publicitaria está iniciando
una campaña de promoción para un nuevo producto. La empresa quiere muestrear clientes
potenciales en una pequeña comunidad para determinar la aceptación del
producto.
Para eliminar algo de los costos asociados con las
entrevistas personales, el investigador decide seleccionar una muestra
sistemática de entre N=5000 nombres listados en un registro de la comunidad y
recolectar los datos mediante entrevistas por teléfono. Determine el tamaño de muestra requerido para
estimar p, la proporción de personas que consideran “aceptable” el producto,
con un límite para el error de estimación de magnitud B=0.03 (esto es, 3%).
SOLUCION
El tamaño de muestra
requerido puede ser encontrado usando la ecuación (13). Aunque no se tienen disponibles datos
anteriores sobre el nuevo producto, podemos encontrar un tamaño de muestra
aproximado. Haciendo p=0.5 en la
ecuación (13) y
D= B2/4 = (0.03)2/4 = 0.000225
Entonces el tamaño de
muestra requerido es
n=
____Npq____ = 5000(0.5)(0.5) ________ = 909.24
(N-1)D+pq 4999 (0.000225)+(0.5)(0.5)
Por
lo tanto la empresa debe entrevistar 910 personas para determinar la aceptación
del producto con un límite para el error de estimación de 3%.
5. Un parque estatal cobra la admisión por
automóvil en lugar de por persona, y un funcionario del parque quiere estimar
el número promedio de personas por automóvil para un día efectivo en particular
durante el verano. El funcionario sabe
por experiencia que entrarán al parque alrededor de 400 automóviles y quiere
muestrear 80 de ellos. Para obtener una
estimación de la varianza, utiliza el muestreo sistemático replicado con 10
muestras de 8 automóviles cada una.
Usando los datos que se presentan en la siguiente tabla
Tabla
Datos del número de personas por
automóvil (las respuestas yi, están en paréntesis)
Punto de inicio
|
Segundo elemento
|
Tercer
elemento
|
Cuarto
Elemento
|
Quinto
elemento
|
Sexto
elemento
|
Séptimo
elemento
|
Octavo
elemento
|
Ӯi
|
2(3)
|
52(4)
|
102(5)
|
152(3)
|
202(6)
|
252(1)
|
302(4)
|
352(4)
|
3.75
|
5(5)
|
55(3)
|
105(4)
|
155(2)
|
205(4)
|
255(2)
|
305(3)
|
355(4)
|
3.38
|
7(2)
|
57(4)
|
107(6)
|
157(2)
|
207(3)
|
257(2)
|
307(1)
|
357(3)
|
2.88
|
13(6)
|
63(4)
|
113(6)
|
163(7)
|
213(2)
|
263(3)
|
313(2)
|
363(7)
|
4.62
|
26(4)
|
76(5)
|
126(7)
|
176(4)
|
226(2)
|
276(6)
|
326(2)
|
376(6)
|
4.5
|
31(7)
|
81(6)
|
131(4)
|
181(3)
|
231(3)
|
281(6)
|
331(7)
|
381(5)
|
5.25
|
35(3)
|
85(3)
|
135(2)
|
185(3)
|
235(6)
|
285(5)
|
335(6)
|
385(8)
|
4.5
|
40(2)
|
90(6)
|
140(2)
|
190(5)
|
240(5)
|
290(4)
|
340(4)
|
390(5)
|
4.12
|
45(2)
|
95(6)
|
145(3)
|
195(6)
|
245(4)
|
295(4)
|
345(5)
|
395(4)
|
4.25
|
46(6)
|
96(5)
|
146(4)
|
196(6)
|
246(3)
|
296(3)
|
346(5)
|
396(3)
|
4.38
|
SOLUCION
Para una muestra
sistemática
K=N/n = 400/80 =5
Por lo tanto para ns =
10 muestras
K’=10k = 10(5) = 50
Los siguientes 10
números aleatorios entre el 1 y el 50 son extraídos:
13, 35, 2, 40, 26, 7, 31, 45, 5, 46
Los automóviles con
estos números forman los puntos de inicio aleatorio para las muestras
sistemáticas.
En la tabla anterior la cantidad Ӯ1 es el promedio para
la hilera, Ӯ2 es el promedio para la segunda hilera, y así
sucesivamente. La estimación de μ es
ns
û= 1/ns∑Ӯi = 1/10 (3.75+3.38+….+4.38) = 4.16
i=1
Puede establecerse la siguiente identidad
ns ns ns
∑(Ӯi –û)2 =
∑Ӯi2 – 1/ns (∑ Ӯi )2
i= 1
i=1 i=1
Sustituyendo, obtenemos
10
∑ (Ӯi - û)2 = 177.410 – 1/10 (1733.06) = 4.104
i = 1
Por lo tanto la varianza estimada de û es
ns
V(û) = (N-n/N) ∑(Ӯi-û)2
i = 1 _______ = (400-80/400) [4.104/10(9)] = 0.0365
ns(ns-1)
La estimación de μ con un límite para el error de estimación es
û + 2√
V(û), o sea 4.163 + 2√0.0365 , o sea 4.16 + 0.38
Por lo tanto nuestra mejor estimación del promedio de personas por
automóvil es 4.16. El error de
estimación será menor que 0.38 aproximadamente con una probabilidad de 0.95.
IV.
PROBLEMAS
PROPUESTOS
1. Una población de 360
viviendas (numeradas de 1 a 360) en Baltimore se ordena alfabéticamente en un
archivo de acuerdo con el apellido del jefe de familia. Viviendas en las cuales el jefe no es blanco
ocurren en los números siguientes: 28, 31 -33, 36 -41, 44, 45, 47, 55, 56, 58,
68, 69, 82, 83, 85, 86, 89-94, 98,99, 101, 107-110, 114, 154, 156, 178, 223, 224,
296, 298-300, 302-304, 306-323, 325-331, 333, 335-339,341, 342. (Las viviendas de no blancos muestran algún
“agrupamiento” debido a la asociación entre apellido y color.)
Compare la precisión
de una muestra sistemática 1
en 8 con una muestra aleatoria simple
del mismo tamaño para estimar la proporción de viviendas en las cuales el jefe
de familia no es blanco.
2. En una muestra sistemática de tamaño
200 viviendas y durante su trabajo de campo se encontró que 10 de ellas no eran
en realidad viviendas, sino pequeñas industrias. Sin embargo, todas las estimaciones a
efectuarse se refieren a viviendas. Para
efectos de estimación de medias y de totales, ¿qué
ecuaciones usaría usted? Y, ¿qué valor (es) de
tamaño(s) de muestra usaría? ¿Por qué?
3. Una tienda de ventas al
menudeo con cuatro departamentos tiene las cuentas corrientes ordenadas por
departamento, con las cuentas vencidas al principio de la lista de cada
departamento. Suponga que cada
departamento tiene en promedio alrededor de 10 cuentas, con aproximadamente el
40% vencidas. Para un día específico las
cuentas podrían aparecer como se muestra en la tabla adjunta (con números de
cuenta de 1 al 40). La tienda desea
estimar la proporción de cuentas vencidas por muestreo sistemático.
DEPARTAMENTOS
|
||||
# CUENTA
|
1 – 11
|
12 – 20
|
21 – 28
|
29 -40
|
Ctas vencidas
|
1,2,3,4
|
12,13,14
|
21,22,23,24,25
|
29,30,31,32
|
a) Liste todas las posible
muestras sistemáticas de 1 en 10 y calcule la varianza exacta de la proporción
muestral. (Nótese que hay 10 valores
posibles, no todos distintos, para la proporción muestral, cada uno con 1/10 de
probabilidad de ocurrir.)
b) Liste todas las posibles muestras sistemáticas de 1 en 5, y
calcule la varianza exacta de la proporción muestral.
c)
Compare los resultados de la parte (a) con la varianza
aproximada que
habría sido obtenida con una muestra irrestricta aleatoria de tamaño n=4 de
esta población. Asismismo compare los
resultados de la parte (b) con los que se obtendrían según una muestra irrestricta
aleatoria con n=8. ¿Qué conclusiones generales pueden establecerse?
4. La gerencia de una
compañía privada está interesada en estimar la proporción de empleados que
favorecen una nueva política de inversión.
Una muestra sistemática de 1 en 10 es obtenida de los empleados que
salen del edificio al final de un día de trabajo en particular. Use los datos de la tabla adjunta para
estimar p, la proporción a favor de la nueva política, y establezca un límite
para el error de estimación. Suponga N=
2000.
Empleado
muestreado
|
Respuesta
|
3
|
1
|
13
|
0
|
23
|
1
|
.
|
.
|
1993
|
1
|
200
∑
yi = 132
i=1
|
5. Para la situación
referida en el ejercicio anterior, determine el tamaño de muestra requerido
para estima p, con un límite para el error de estimación de 0.01 unidades. ¿Qué tipo de muestra sistemática deberá obtenerse?
V. BIBLIOGRAFIA
1.
Abad, Adela y Luis Servin. 1985.
Introducción al muestreo. 2º.
Edición.
Editorial
Limusa, México. 216 p.
2.
Cochran, William.
1986. Técnicas de muestreo. Traducción de Andres
Sestier. Compañía Editorial
Continental, S.A de C.V. México. 513 p.
3.
Kish, Leslie.
1982. Muestreo de encuestas. Editorial Trillas, México. 736 p.
4.
Mason, Robert & Lind, Douglas . 1992. Estadística para administración y
Economía. Primera Edición. Editorial Alfa y Omega.
5. Matute, Jorge. 1990.
Representatividad y confiabilidad de
una muestra.
Nutrición al día. Guatemala. 4(1): 17-42. Enero-Junio.
Nutrición al día. Guatemala. 4(1): 17-42. Enero-Junio.
5.
Scheaffer, R , William
Mendenhall y Lyman Ott. 1987. Elementos de
Muestreo. Traducción Gilberto Rendón
Sánchez. Grupo editorial
Iberoamericana. México. 321 p.
No hay comentarios:
Publicar un comentario