martes, 22 de julio de 2014

MUESTREO SISTEMÁTICO, TEORÍA Y APLICACIONES

UNIVERSIDAD RURAL DE GUATEMALA

MAESTRIA EN INVESTIGACION Y PROYECTOS



TECNICAS Y METODOS DE INVESTIGACION

ING. LUIS REYES





TEXTO PARALELO
MUESTREO SISTEMATICO







MIRIAM ALVARADO AREVALO
03-00-120


22-11-2003



INDICE

CAPITULO                                                                                   PAGINA

I.       Introducción                                                                                 2

II.      Muestreo Sistemático                           
         1.      Descripción                                                                         3
         2.      Ventajas                                                                               3
         3.      Desventajas                                                                         5
         4.      Estimación de una media y un total poblacionales                5
         5.      Estimación de una proporción poblacional                   8
         6.      Tamaño de la muestra                                                                9
         7.      Relación con el muestreo conglomerado                        10
         8.      Comparación con el muestreo aleatorio
                   estratificado                                                                         10
         9.      Muestreo Sistemático estratificado                                  10
         10.    Muestreo Sistemático en dos dimensiones                    11
         11.    Muestreo Sistemático replicado                                       13
         12.    Aplicaciones                                                                        15

III.    Problemas Resueltos                                                                   17

IV.    Problemas Propuestos                                                                22

V.     Bibliografía                                                                                  24





I.       Introducción

         Para investigar un fenómeno o  problema generalmente es necesario recurrir a una muestra, dado que es difícil y costoso evaluar a toda la población bajo estudio.   Pero la muestra – que es un subconjunto de la población- debe ser representativa de esta, para lograr esto existen diferentes métodos de muestreo que se pueden aplicar en base a las características de la población estudiada.
         Entre dichos métodos se encuentra el muestreo sistemático, que es una variante del muestreo al irrestricto azar, con ventajas y desventajas sobre este segundo y usos específicos.
            En el presente trabajo se resumen las principales características, aplicaciones y metodología para calcular el tamaño de la muestra, la estimación de parámetros y límite de error en una muestra extraída con este tipo de muestreo.



II.     Muestreo Sistemático

1.         Descripción
            “Una muestra obtenida al seleccionar aleatoriamente un elemento de los primeros k elementos en el marco muestral y después cada k-ésimo elemento se denomina muestra sistemática de 1 en k”.
A primera vista, este método de Muestreo es muy diferente al Muestreo aleatorio simple.  Supongamos que las N unidades de la población se numeran de 1 a N  en cierto orden.  Para elegir una muestra de n  unidades,  tomamos una unidad al azar entre las k primeras del marco muestral y luego tomamos las subsecuentes a intervalos de k.  Así, por ejemplo, si k  es 15 y la primera unidad que se extrae (al azar) es la número 13, entonces las subsecuentes se numeran 28, 43, 58, etc.  La selección  de la primera unidad determina toda la muestra, que se denomina muestra de todas las k-ésimas unidades.
           
2.         Ventajas
Las ventajas aparentes de este método respecto al muestreo aleatorio simple son:

! Es más fácil sacar una muestra y a menudo, más fácil hacerlo sin
cometer errores.  Esta es una ventaja particular cuando la extracción se hace en el área.  Aunque la extracción se haga en una oficina, este método puede ahorrar mucho tiempo.  Por ejemplo, si las unidades se describen en tarjetas del mismo tamaño y se colocan en un archivero, se pueden extraer las tarjetas que están separadas por una pulgada a lo largo del archivero.  Esta operación es rápida mientras que el muestreo aleatorio simple será laborioso.  Claro está que el método descrito anteriormente se aparta un tanto de la regla de “cada k-ésima”.
! Intuitivamente, el muestreo sistemático parece ser más preciso que el
aleatorio simple.  En efecto, estratifica la población en n estratos, que consisten de las primeras k unidades, las segundas k unidades, etc.  Por lo tanto, podemos esperar que la muestra sistemática sea tan precisa como la muestra aleatoria estratificada correspondiente con una unidad por estrato.  La diferencia es que con la muestra sistemática, las unidades ocurren en la misma posición relativa del estrato, mientras que con el muestreo aleatorio estratificado, la posición dentro del estrato se determina separadamente por aleatorización dentro de cada estrato.  La muestra sistemática se reparte más uniformemente sobre la población, y este hecho, algunas veces ha dado al muestreo sistemático una precisión considerablemente mayor que la del muestreo aleatorio estratificado. 

Una modificación al muestreo sistemático  consiste en elegir cada unidad en el centro o cerca del centro de cada estrato.  O sea que en lugar de empezar la sucesión con un número aleatorio elegido entre 1 y k, tomamos el número inicial como (k+1)/2 si k es impar y como k/2 o (k+2)/2 si k es par (Madow, 1953).  Este procedimiento lleva el propósito del muestreo sistemático a su conclusión lógica.  Si ypuede considerarse como una función continua de una variable continua i, hay razones para esperar que esta muestra localizada al centro será más precisa que una localizada aleatoriamente.  Algunas investigaciones en poblaciones naturales apoyan esta opinión, aunque las muestras localizadas al centro tienden a comportarse erráticamente.  Aquí nos ocuparemos en forma exclusiva de muestras en donde existe algún elemento aleatorio.
Como en general, N no es un múltiplo entero de k, las diferentes muestras sistemáticas de la misma población finita podrán variar su tamaño en una unidad.  Así, con  N  = 23, k = 5, los números de unidades en las cinco muestras sistemáticas aparecen  en la Tabla 1.  Las tres primeras muestras tienen n = 5 y las últimas dos
 n = 4.  Este hecho introduce una perturbación en la teoría del muestreo sistemático, que probablemente sea despreciable si n excede a 50, y se le ignorará   Para simplificar la presentación de la teoría.  No es de esperarse que sea grande aun cuando n sea pequeña.

TABLA 1
Posibles Muestras Sistemáticas para N=23, k=5
Número de la muestra sistemática
I
II
III
IV
V
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25








   
Otro método, sugerido por Lahiri en 1952, proporciona un tamaño constante de muestra y una media de muestra insesgada.  Considérense las N unidades dispuestas alrededor de un círculo, y sea k el entero más cercano a N/n.  Selecciónese un número al azar entre 1 y N y tómese cada k-ésima unidad a partir de ahí y siguiendo el círculo, hasta alcanzar las n unidades deseadas.  Supongamos que se desea n = 5 con N = 23.  Entonces k = 5.  Si el número aleatorio es 19, tomamos las unidades 19, 1, 6, 11, 16.  Con este método es fácil verificar que cada unidad tiene la misma probabilidad de selección.  Si se desean n = 4 unidades con N = 23, tomamos k = 6.





3.         Desventajas
           
  • En los casos en que se dan periodicidades en la población ya que al elegir a los
miembros de la muestra con una periodicidad constante (k) se puede introducir una homogeneidad que no se da en la población.

  • La población no siempre esta ordenada ni se conoce el marco muestral.

4.         Estimación de una media y un total poblacionales
            El objetivo de la mayoría de las encuestas por muestreo es estimar uno o más de los parámetros de la población.  Podemos estimar la media poblacional μ usando la media muestral  Ӯsy de una muestra sistemática.  Este resultado se muestra en la ecuación 1.
                                                                                         n  
            Estimador de la media poblacional μ: Ӯsy= ∑ yi                     (1)
                                                                                      i =1  __
                                                                                        n
donde el subíndice sy significa que se utilizó el muestreo sistemático.

            Varianza estimada de Ӯsy:   V(Ӯsy) = s2 /n ((N-n)/N)               (2)

            Límite para el error de estimación:

                                   2 √V(Ӯsy)=2√s2/n ((N-n)/N)                                   (3)

            Si N es desconocida, eliminamos la cpf, (N-n)/N, en las ecuaciones 2 y 3.
            La varianza estimada de Ӯsy dada en la ecuación 2 es idéntica a la varianza estimada de Ӯ obtenida mediante muestreo irrestricto aleatorio.  Este resultado no implica que las varianzas poblacionales sean iguales.  La varianza de Ӯ está dada por

            V(Ӯ)= 2/n (N-n/N-1)                                                                      (4)

Asimismo la varianza de Ӯsy está dada por
           
            V(Ӯsy)=2/n[1+(n-1)p]                                                                   (5)

Donde p es una medida de la correlación entre los pares de elementos dentro de la misma muestra sistemática.  Si p está cercano a uno, entonces los elementos dentro de la muestra son bastante similares con respecto a la característica que se está midiendo, y el muestreo sistemático producirá una varianza de la media muestral mayor que la obtenida con el muestreo irrestricto aleatorio. Si p es negativo, entonces el muestreo sistemático puede ser mejor que el muestreo irrestricto aleatorio.  La correlación puede ser negativa si los elementos dentro de la muestra sistemática tienden a ser extremadamente diferentes.  Para p cercano a cero y N bastante grande, el muestreo sistemático es aproximadamente equivalente al muestreo irrestricto aleatorio.
            Un estimador insesgado de V(Ӯsy) no puede ser obtenido usando solamente los datos de una muestra sistemática.  Este enunciado no implica que nunca podremos obtener una estimación de V(Ӯsy).  Cuando el muestreo sistemático es equivalente al muestreo irrestricto aleatorio, podemos tomar V(Ӯsy) como aproximadamente igual a la varianza estimada de Ӯ basada en un muestreo irrestricto aleatorio.  La ocurrencia de esto suceso depende del tipo de población a estudiar.

            4.1 Población aleatoria: Una población es aleatoria si sus elementos están ordenados al azar.  Los elementos de una muestra sistemática seleccionados de una población aleatoria se espera que sean heterogéneos con un p aproximadamente igual a cero.  Por lo tanto cuando N es grande la varianza de Ӯsy es aproximadamente igual a la varianza de Ӯ basada en un muestreo irrestricto aleatorio. Por ejemplo un investigador desea determinar el número promedio de recetas prescritas por ciertos médicos durante el año anterior.  Si el marco consiste de una lista en orden alfabético de médicos, la suposición de que los nombres en la lista no están correlacionados con el número de recetas para un medicamento en particular es razonable.  Por lo tanto consideramos aleatoria a la población.  En este caso una muestra sistemática será equivalente a una muestra irrestricta aleatoria.

            4.2       Población Ordenada: Una población es ordenada si los elementos dentro de la población están ordenados en magnitud de acuerdo con algún esquema.
            En una encuesta para estimar la efectividad de la enseñanza en un curso introductoria extenso, los estudiantes son interrogados para evaluar a su maestro de acuerdo con una escala numérica.  Se extrae entonces una muestra de una lista de evaluaciones que están distribuidas en orden numérico ascendente.  La población de mediciones de la cual se extrae la muestra se considera una población ordenada.
            Una muestra sistemática extraída de una población ordenada es generalmente heterogénea con p ≤ 0.  Puede demostrarse, usando las ecuaciones (4) y (5), que cuando N es grande p ≤ 0.
                        V(Ӯsy) ≤ V(Ӯ)
Por lo tanto una muestra sistemática de una población ordenada proporciona más información que una muestra irrestricta aleatoria por unidad de costo, debido a que la varianza de Ӯsy es menor que la varianza correspondiente de Ӯ.
            Ya que no podemos obtener una estimación de V(Ӯsy) con base en los datos de la muestra, una estimación conservadora (una que es mayor de lo que se esperaría) de V(Ӯsy) está dada por
           
            V(Ӯsy) = s2/n (N-n/N)

            4.3       Población periódica:  Una población es periódica si los elementos de la población tienen variación cíclica.
            Supóngase que estamos interesados en determinar el volumen de ventas promedio diario para una cadena de tiendas de abarrotes.  La población de las ventas diarias claramente es periódica, ocurriendo las ventas máximas al final de cada semana.  La efectividad de una muestra sistemática de 1-en k depende de los valores que seleccionemos para k.  Si muestreamos las ventas diarias cada miércoles, probablemente subestimaríamos el promedio verdadero del volumen de ventas diario.  Asimismo si muestreamos las ventas cada viernes, probablemente sobreestimaríamos el promedio verdadero de las ventas.  Podríamos muestrear cada noveno día de trabajo para evitar muestrear consistentemente los días de ventas altas o bajas.
            Los elementos de una muestra sistemática extraída de una población periódica pueden ser homogéneos (esto es p >0).  Por ejemplo, los elementos de una muestra sistemática de ventas diarias tomadas cada miércoles serán bastante homogéneos.  Puede demostrarse, mediante las ecuaciones (4) y (5), que cuando N es grande y p>0,
            V(Ӯsy) > V(Ӯ)

Por lo tanto en este caso el muestreo sistemático proporciona menos información que el muestreo irrestricto aleatorio por unidad de costo.  Como en las situaciones anteriores, V(Ӯsy) no puede ser estimada directamente mediante una sola muestra sistemática.  Podemos aproximar su valor usado V(Ӯ), como para muestreo irrestricto aleatorio.  En general este estimador subestimará la varianza verdadera Ӯsy.
            Para evitar este problema que ocurre con el muestreo sistemático de una población  periódica, el investigador podría cambiar varias veces el punto de inicio aleatorio.     Este procedimiento reducirá la posibilidad de seleccionar observaciones con la misma posición relativa en una población periódica.   Por ejemplo, cuando una muestra sistemática en 1 en 10 es extraída de una larga lista de tarjetas archivadas, una tarjeta es seleccionada aleatoriamente de entre las 10 primeras tarjetas (por ejemplo, la # 2) y posteriormente cada décima tarjeta.  Este procedimiento puede modificarse seleccionando aleatoriamente una tarjeta de entre las primeras 10 (por ejemplo, la # 2) y posteriormente cada décima tarjeta para tal vez a las 15 selecciones obtener los números 2, 12, 22…. , 152.
            En este momento se puede seleccionar otro punto de inicio aleatorio de entre los 10 números siguiente:      153, 154, 155,…., 152
Si el 156 es seleccionado, entonces posteriormente procedemos a seleccionar cada décimo número para las siguientes 15 selecciones.   Este procedimiento completo se repite hasta que es obtenido el tamaño de muestra deseado.
            El procedimiento de seleccionar varias veces un punto de inicio aleatorio a través de la muestra sistemática tiene el efecto de mezclar los elementos de la población y al mismo tiempo el de seleccionar una muestra sistemática.   En consecuencia podemos suponer que la muestra obtenida es equivalente a una muestra sistemática extraída de una población aleatoria.  La varianza de Ӯsy puede ser entonces aproximada usando

            V(Ӯsy)= s2/n (N-n/N)

            Para estimar el total poblacional τ se pueden usar las ecuaciones siguientes:

            τ= N Ӯsy                                                                                          (6)
           
            Varianza estimada de τ:
                        V=(N Ӯsy) = N2 V (Ӯsy) = N2 (s2/n) (N-n/N)                    (7)

            Límite para el error de estimación

                        2√V(N Ӯsy)= 2 √N2(s2/n) (N-n/N)                                     (8)

Nótese que los resultados presentados en las ecuaciones (6), (7) y (8) son idénticos a los presentados para estimar un total poblacional mediante muestreo irrestricto aleatorio.  Este resultado no implica que la varianza N Ӯsy sea la misma que la varianza N Ӯ.   Nuevamente no podemos obtener un estimador insesgado de V(NӮsy) con base en los datos de una sola muestra sistemática.  Sin embargo, en ciertas circunstancia, como se indico antes, el muestreo sistemático es equivalente al muestreo irrestricto aleatorio.

5.         Estimación de una Proporción Poblacional
            Un investigador a menudo desea usar los datos de una muestra sistemática para estimar una proporción poblacional.   Por ejemplo, para determinar la proporción de votantes registrados que están a favor de una prometedora emisión de bonos, el investigador podría utilizar una muestra sistemática de 1 en k de la lista de votantes registrados.
            El estimador de la proporción poblacional p por muestreo sistemático se denota  mediante psy.   Como en el muestreo irrestricto aleatorio, las propiedades de psy son análogas a las propiedades de la media muestral Ӯsy si las mediciones de la respuesta se definen como sigue: sea yi=0 si el i-ésimo elemento muestreado no posee la característica específica y yi=1 si la posee.  El estimador psy es entonces el promedio de los valores 0 y 1 de la muestra.

Estimador de la proporción poblacional p:
                                           n
psy= Ӯsy=∑  yi                                                                   (9)
                                         i = 1  
                                           n

Varianza estimada de psy:

                        V(psy) = psy qsy  (N-n/N)                                                 (10)
                                          n- 1
donde qsy = 1 – psy

Límite para el error de estimación:

            2√V(psy) = 2 √psy qsy (N-n/N)                                                    (11)
                                      n- 1

Podemos omitir cpf, (N-n)/N, en las ecuaciones (10) y (11) si el tamaño de la población N es desconocido pero puede suponerse relativamente grande con respecto a n.
            Notemos nuevamente que la varianza de psy (o bien Ӯsy) es idéntica a la varianza estimada de p (o bien Ӯ), usando el muestreo irrestricto aleatorio.  Este resultado no implica que las varianzas poblacionales correspondientes sean iguales; sin embargo, si N es grande, y si las observaciones dentro de una muestra sistemática no están correlacionadas (esto es, p=0), las dos varianzas poblacionales serán iguales.

6.         Tamaño de la muestra
            Hay dos alternativas para el cálculo del tamaño de la muestra, utilizando las fórmulas para el muestreo aleatorio simple y luego distribuirlo sistemáticamente, o empleando las fórmulas específicas para el muestreo sistemático, que son las siguientes:

            Tamaño de muestra requerido para estimar μ con un límite B para el error de estimación:

                        n=          ____N2____                                                         (12)
                                     (N- 1) D+2

donde                        D= B2/4

            Tamaño de muestra requerido para estimar p con un límite B para el error de estimación:

                        n=         ____Npq____                                                         (13)
                                   (N-1)D+pq

donde     q=1-p                     y   D= B2/4


7.         Relación con el muestreo conglomerado
            Existe otra manera de considerar el muestreo sistemático.  Con N = nk las k muestras sistemáticas posibles aparecen en las columnas de la Tabla 2.  En él es evidente que la población se ha dividido en k grandes unidades de muestra, cada una de las cuales cuenta con n unidades originales.  La operación de elegir una muestra sistemática aleatoriamente localizada, es sólo la de elegir una de estas grandes unidades de muestreo al azar.  Por lo tanto, el muestreo sistemático viene a ser la elección de una sola unidad de muestreo compleja, que constituye la muestra total.  Una muestra sistemática es una muestra aleatoria simple de una unidad conglomerada, tomada en una población de k  unidades conglomeradas.

TABLA 2
Composición de las k Muestras Sistemáticas
Número de muestra

1
2
i
k

y1
y2
yi
yk

yk+1
yk+2
yk+i
y2k


y(n-1)k+1
y(n-1)k+2
y(n-1)k+i
ynk
Medias
Ӯ1
Ӯ2
Ӯi
Ӯk


8.         Comparación con el muestreo aleatorio estratificado
            El éxito del muestreo sistemático con relación al muestreo aleatorio simple o aleatorio estratificado, depende mucho de las propiedades de la población.  En algunas poblaciones, el muestreo sistemático es extremadamente preciso y en otras resulta menos preciso que el muestreo aleatorio simple.  Para algunas poblaciones y algunos valores de n, V(Ӯsy) aun puede incrementarse al tomar una muestra grande, lo que constituye una desviación sorprendente del buen comportamiento.  Por lo tanto, es difícil dar un consejo general respecto a las situaciones donde se aconseja el muestreo sistemático.  Es necesario conocer algo sobre la estructura de la población para usarlo de manera efectiva.
            Se han seguido dos lineamientos en la investigación de este problema.  Uno de ellos es comparar los diferentes tipos de muestreo en poblaciones artificiales, en donde yi es una función simple de i.  El otro es hacer las comparaciones para poblaciones naturales. 

9.         Muestreo Sistemático Estratificado
            Hemos visto que si las unidades se ordenan apropiadamente, el muestreo sistemático proporciona una clase de estratificación con fracciones de muestreo iguales.  Si se estratifica según otro criterio, podríamos sacar una muestra sistemática separada dentro de cada estrato con puntos iniciales determinados independientemente.   Esto es recomendable si se quieren estimaciones separadas para cada estrato o si se usan fracciones de muestreo desiguales.  Este método es más preciso que el muestreo aleatorio estratificado si el muestreo sistemático dentro de los estratos es más preciso que el aleatorio simple dentro de los estratos.  Si Ӯsyh es la media de población y su varianza son:

            Ӯsyh=∑’ Wh Ӯsyh’   V(Ӯsyh) =∑Wh2 V(Ӯsyh)

            Con tan sólo unos pocos estratos, el problema de encontrar una estimación de muestra de esta cantidad equivale al problema de encontrar una estimación muestral satisfactoria de V(Ӯsyh) en cada estrato.
            Cuando los estratos son más numerosos puede ser preferible una estimación basada en el método de estratos contraídos.  La estimación sería

            v(Ӯsyh)=∑’Wh2(Ӯsyh- Ӯsyj)2

donde la suma se extiende sobre los pares de estratos, es en promedio una sobreestimación, aunque haya variación periódica dentro de los estratos.
            Se puede obtener una estimación insesgada de la varianza del error si se sacan dos muestras sistemáticas con diferente punto inicial aleatorio e intervalo de 2k dentro de cada estrato, al proporcionar cada estrato un grado de libertad.  Se perderá algo de precisión si el muestreo sistemático resulta efectivo.  Si hay muchos estratos, podrá usarse una muestra sistemática en la mayoría de ellos al sacar dos muestras tales en una submuestra aleatoria de estratos con el propósito de estimar el error.

10.       Muestreo Sistemático en dos dimensiones
            Al muestrear un área, la extensión más simple del muestreo sistemático unidimensional es el método de la “rejilla cuadrada” que aparece en la siguiente figura 1 a.
            La muestra queda completamente determinada al elegir un par de números aleatorios para fijar las coordenadas de la unidad superior izquierda.  El comportamiento de la rejilla cuadrada se ha estudiado en poblaciones teóricas y en poblaciones naturales.  Metérn (1960) investigó el mejor tipo de muestra cuando la correlación entre cualesquiera dos puntos del área es una función cóncava hacia arriba y monótona decreciente de su separación d.







FIGURA 1

Dos tipos de muestras sistemática bidimensional
           (a)  Muestra alineada                          (b)  Muestra no alineada

Para correlogramas  tales como e-λd la rejilla da buenos resultados, y es superior al muestreo aleatorio simple o estratificado  con una unidad por estrato, aunque Matérn da razones para esperar que lo mejor en esta situación es una red triangular en la que los puntos se encuentran en vértices de triángulos equiláteros.
            En 14 experimentos de uniformidad agrícola Haynes (1948) encontró que la rejilla cuadrada tenía aproximadamente la misma precisión que el muestreo aleatorio simple en dos dimensiones.  Milne (1959) examinó en 50 ensayos de uniformidad la rejilla cuadrada central, en la que el punto está en el centro del cuadrado.  Dio mejores resultados que el muestreo aleatorio simple y tal vez un poco mejores que el muestreo aleatorio estratificado, aunque esta diferencia no fuese estadísticamente significativa.  Estos resultados sugieren que cuando menos para datos de este tipo, los efectos de autocorrelación son débiles.  Para estimar el área cubierta por bosque o agua sobre un mapa, Matérn encontró en dos ejemplos que la rejilla cuadrada es mejor que el método aleatorio.
            La figura 1b exhibe una muestra sistemática alternativa llamada muestra no alineada.   Las coordenadas de la unidad superior izquierda se seleccionan primero, mediante un par de números aleatorios.  Otros dos números aleatorios determinarán las coordenadas horizontales de las dos unidades restantes en la primera columna de los estratos.  Se requieren otros dos para fijar las coordenadas verticales de las unidades restantes en la primera fila de estratos.  El intervalo constante k (igual a los lados de los cuadrados) fija entonces las posiciones de todos los puntos.   Las investigaciones de Quenouille (1949) y Das (1950) para correlogramas simples de dos dimensiones indican que el diseño no alineado a menudo es superior a la rejilla cuadrada y al muestreo aleatorio estratificado.
            Nueva evidencia de la superioridad de una muestra no alineada se obtiene de la experiencia en un diseño experimental en el que se encontró que el cuadrado latino es un método preciso para disponer tratamientos en un campo rectangular. 

FIGURA 2
Dos diseños sistemáticos basados en el cuadrado latino

A    B    C   D   E                                           A    B     C
D    E    A   B   C                                           B    C     A
B    C    D   E   A                                           C    A     B
E    A    B   C   D                                           A     B     C
C    D    E   A   B                                           B     C     A
C     A     B
A     B     C

                         (a) Cuadrado latino                                  (b)  Diseño sistemático
                de “movimiento del rey”                      para un campo rectangular  3  x 7

El cuadrado latino 5 x 5 de la figura 2a  puede verse como una división del campo en cinco muestras sistemáticas, una para cada letra.  Existe evidencia de que este cuadrado particular llamado el cuadrado latino del “movimiento del rey” es un tanto más preciso que un cuadrado elegido al azar, de 5 x 5, probablemente porque no hay alineación en las diagonales , ni en las filas, ni en las columnas.
            El principio del cuadrado latino lo utilizó Homeyer y Black (1946) al muestrear campos de avena rectangulares.  Cada campo contenía 21 lotes.  Las tres muestras sistemáticas posibles se denotan con A, B y C, respectivamente, en la figura 2b.  Este arreglo con una de las letras elegidas al azar en cada campo dio un incremento en precisión aproximado al 25%, sobre el muestreo aleatorio estratificado con dos filas como estratos.   El arreglo no satisface exactamente la propiedad del cuadrado latino, pues cada letra aparece tres veces en una columna y dos veces en las otras columnas, pero se acerca a esta propiedad tanto como es posible.
            Yates (1960) que denomina estos arreglos muestreo reticular, discute su uso en muestreo de dos y tres dimensiones.  En tres dimensiones, cada fila, columna y nivel vertical, puede representarse en la muestra al elegir p unidades de entre las p3 de la población.  Con p2 unidades en la muestra, cada una de las p2 combinaciones de niveles, filas y columnas, de filas y alturas verticales, y de columnas y alturas verticales, se podrá representar.  Patterson (1954) ha investigado los arreglos que dan una estimación insesgada del error.

11.       Muestreo Sistemático Replicado
            Como se explico anteriormente, en la mayoría de los casos el muestreo aleatorio sistemático no es equivalente al muestreo irrestricto aleatorio.  Un método alternativo debe ser usado para estimar V(Ӯsy).  Tal método es el muestreo sistemático replicado.
            Como el nombre lo implica, el muestreo sistemático replicado requiere de réplicas, o sea de la selección de más de una muestra sistemática.  Por ejemplo, diez muestras sistemáticas de 1 en 50, cada una conteniendo seis mediciones, podrían ser obtenidas en aproximadamente el mismo tiempo que una muestra sistemática de 1 en 5 conteniendo 60 mediciones.  Ambos procedimientos producen 60 mediciones para estimar la media poblacional μ, pero el procedimiento de muestreo replicado nos permite estimar V(Ӯsy) utilizando el cuadrado de las desviaciones de las ns=10 medias maestrales individuales alrededor de su media.  El promedio û de las 10 medias maestrales estimará la media poblacional μ.
            Para seleccionar ns muestras sistemáticas replicadas, debemos separar más los elementos de cada muestra.  Por lo tanto diez muestras de 1 en 50 (ns =10 k’=50) de seis mediciones cada una contienen el mismo número de mediciones que una sola muestra de 1 en 5 (k=5) conteniendo n=60 mediciones.  El punto de inicio para cada una de las ns  muestras sistemáticas es seleccionado aleatoriamente de entre los primero k’ elementos.  Los elementos restantes en cada muestra son obtenidos adicionando k’, 2k’, y así sucesivamente, al punto de inicio hasta que el número total por muestra, n/ ns  es obtenido.
            Las fórmulas para estimar μ según nmuestras sistemáticas se señalan en las siguientes ecuaciones:

            Estimador de la media poblacional μ usando nmuestras sistemáticas de 1 en k’:
                 ns   
            û= ∑ (Ӯi/ ns )                                                                                                            (14)
               i=1

donde Ӯi  representa el promedio de la i-ésima muestra sistemática

            Varianza estimada de û:
                                                   ns    
                        V(û) = (N-n/N) ∑ (Ӯi- û)2   
                                                 i=1     _____                                                 (15)
                                                   ns(ns -1)

            Límite para el error de estimación:

                                                      ns
                   2√ V(û) = 2√(N-n/N) ∑ (Ӯi- û)2           
                                                      i=1           _____                                     (16)
                                                        ns(ns -1)

            También podemos usar muestreo sistemático replicado para estimar un total poblacional τ, si N es conocido.  Las fórmulas necesarias se dan en estas ecuaciones

            Estimador del total poblacional τ usando ns  muestras sistemáticas de 1 en k’:
                                          ns             
                        τ = Nû = N∑ Ӯi                                                                   (17)
                                        i=1 ns  

            Varianza estimada de τ
                                                                         ns  
                        V(τ) = N2 V(û) = N2 (N-n/N) ∑ (Ӯi –û)2
                                                                       i=1_______                            (18)
                                                                      ns  (ns  -1)
            Límite para el error de estimación
                       
                                                       ns
                   2√ V(τ) = 2√N2(N-n/N) ∑ (Ӯi- û)2       
                                                      i=1           _____                                     (19)
                                                        ns(ns -1)

12.       Aplicaciones:
            Se puede recomendar el uso del muestreo sistemático en las siguientes situaciones:

1 Cuando el ordenamiento de la población es esencialmente aleatorio o
contiene a lo más una estratificación débil.  Aquí, el muestreo sistemático se usa por conveniencia y se esperan pocas ganancias de precisión. Se cuenta con estimaciones maestrales del error que son razonablemente insesgadas.

1 Cuando se emplea una estratificación con numerosos estratos y se toma
una muestra sistemática independiente en cada estrato.  Los efectos de las periodicidades ocultas tienen tendencia a neutralizarse en esta situación y puede obtenerse una estimación del error que se sabe es una sobreestimación.  En forma alternativa, podemos usar la mitad de los estratos y tomar dos muestras sistemáticas, con inicios aleatorios independientes en cada estrato.  Este método da una estimación insesgada del error.

1 Para unidades conglomeradas de submuestreo.  En este caso puede
obtenerse una estimación casi insesgada o insesgada del error de muestreo en la mayoría de las situaciones prácticas.  Este es un uso bastante común del muestreo sistemático.


1 Para muestrear poblaciones que tienen una variación de tipo continuo a
Condición de que no se requiera regularmente una estimación del error de muestreo.  Si se hace una serie de encuestas de ese tipo, será suficiente una verificación ocasional de los errores de muestreo.  Yates (1948) ha mostrado cómo puede hacerse esto, al tomar observaciones adicionales.


III.           PROBLEMAS RESUELTOS

1.         Un hortelano de Virginia tiene un huerto experimental con N=1300 manzanos de una nueva variedad en estudio.  El investigador desea estimar la producción total (en bushels) de la huerta, con base en los árboles de una muestra sistemática de 1 en 10.  La media y la varianza maestrales para los árboles muestreados fueron Ӯsy= 3.52 bushels y s2 =0.48 bushel.  Utilice estos datos para estimar τ, y establezca un límite para el error de estimación.
            SOLUCION
Una suposición razonable es que la población es aleatoria; por lo tanto los muestreos irrestricto aleatorio y el sistemático son equivalentes.   Si la población fuese periódica, el experimentador podría seleccionar varios puntos de inicio aleatorios en la selección de los árboles que serán incluidos en la muestra.
            Una estimación de τ está dada por
                        N Ӯsy=1300(3.52)=4576
            Un límite para el error de estimación puede determinarse usando la ecuación (8) con n=130:

            2√V(N Ӯsy)= 2√N2 (s2/n) (N-n/N)

                                = 2√13002 (0.480/130) (1300-130/1300)   = 150

Por lo tanto se estima que la producción total del huerto de manzanos es 4576 bushels, con un límite para el error de estimación de 150 bushels.

2.         Una muestra sistemática de 1 en 6 es obtenida de una lista de votantes registrados para estimar la proporción de votantes que están a favor de la emisión de bonos propuesta.   Diferentes puntos de inicio aleatorio se utilizan para asegurar que los resultados de la muestra no son afectados por variación periódica en la población.   Los resultados codificados de esta encuesta de elección previa se muestran en la siguiente tabla:

VOTANTE
RESPUESTA
4
1
10
0
16
1
.
.
..

5760
0
5766
0
5772
1

                            962
∑ yi=652
                           i=1 
SOLUCION
            La proporción muestral está dada por
                                962
                        psy=  ∑yi /962  = 652/962  = 0.678
                               i=i           
           
Puesto que N es grande y varios puntos de inicio aleatorio fueron seleccionados en la extracción de la muestra sistemática, podemos suponer que

                        V(psy) = psyqsy  (N-n/N)
                                n-1

proporciona una buena estimación de V(psy)

            2√ V(psy)   = 2 √  psyqsy  (N-n/N)
                                    n-1
                       
                               = 2√ (0.678)(0.322) (5775 – 962/5775)
                                               961

Por lo tanto estimamos que 0.678 (67.8%) de los votantes registrados favorece a la emisión de bonos propuesta.  Estamos relativamente confiados en que el error de estimación es menor que 0.028(2.8%)

3.         La administración de una empresa de servicio público está interesada en la cantidad promedio de tiempo que tienen de estar vencidas las cuentas atrasadas.  Una muestra sistemática será extraída de una lista en orden alfabético con N=2500 cuentas de clientes que están vencidas.  En una encuesta similar realizada el año anterior, la varianza muestral fue s2=100 días.  Determine el tamaño de muestra requerido para estimar μ,  la cantidad promedio de tiempo que tienen de estar vencidas las cuentas de la empresa de servicio público, con un límite para el error de estimación de B=2 días.

SOLUCION
Una suposición razonable es que la población es aleatoria; por lo tanto p=0.  Luego podemos usar la ecuación (12) para encontrar el tamaño de muestra aproximado.  Reemplazado 2 por s2 y estableciendo

            D= B2/4 = 4/4=1

Tenemos
                        n=          ____N2____          = 2500(100)      = 96.19
                                     (N- 1) D+2                     2499(1)+100
Por lo tanto la administración debe muestrear aproximadamente 97 cuentas para estimar la cantidad promedio de tiempo que tienen de estar vencidas las cuentas atrasadas, con un límite para el error de estimación de 2 días.

4.         Una empresa publicitaria está iniciando una campaña de promoción para un nuevo producto.   La empresa quiere muestrear clientes potenciales en una pequeña comunidad para determinar la aceptación del producto.
            Para eliminar algo de los costos asociados con las entrevistas personales, el investigador decide seleccionar una muestra sistemática de entre N=5000 nombres listados en un registro de la comunidad y recolectar los datos mediante entrevistas por teléfono.  Determine el tamaño de muestra requerido para estimar p, la proporción de personas que consideran “aceptable” el producto, con un límite para el error de estimación de magnitud B=0.03 (esto es, 3%).

SOLUCION
El tamaño de muestra requerido puede ser encontrado usando la ecuación (13).  Aunque no se tienen disponibles datos anteriores sobre el nuevo producto, podemos encontrar un tamaño de muestra aproximado.   Haciendo p=0.5 en la ecuación (13) y

            D= B2/4 = (0.03)2/4 = 0.000225

Entonces el tamaño de muestra requerido es

            n=         ____Npq____  =  5000(0.5)(0.5)    ________  = 909.24
                          (N-1)D+pq          4999 (0.000225)+(0.5)(0.5)
                       
Por lo tanto la empresa debe entrevistar 910 personas para determinar la aceptación del producto con un límite para el error de estimación de 3%.

5.         Un parque estatal cobra la admisión por automóvil en lugar de por persona, y un funcionario del parque quiere estimar el número promedio de personas por automóvil para un día efectivo en particular durante el verano.  El funcionario sabe por experiencia que entrarán al parque alrededor de 400 automóviles y quiere muestrear 80 de ellos.   Para obtener una estimación de la varianza, utiliza el muestreo sistemático replicado con 10 muestras de 8 automóviles cada una.   Usando los datos que se presentan en la siguiente tabla


Tabla
Datos del número de personas por automóvil (las respuestas yi, están en paréntesis)

Punto de inicio
Segundo elemento
Tercer
elemento
Cuarto
Elemento
Quinto
elemento
Sexto
elemento
Séptimo
elemento
Octavo
elemento
Ӯi

2(3)
52(4)
102(5)
152(3)
202(6)
252(1)
302(4)
352(4)
3.75
5(5)
55(3)
105(4)
155(2)
205(4)
255(2)
305(3)
355(4)
3.38
7(2)
57(4)
107(6)
157(2)
207(3)
257(2)
307(1)
357(3)
2.88
13(6)
63(4)
113(6)
163(7)
213(2)
263(3)
313(2)
363(7)
4.62
26(4)
76(5)
126(7)
176(4)
226(2)
276(6)
326(2)
376(6)
4.5
31(7)
81(6)
131(4)
181(3)
231(3)
281(6)
331(7)
381(5)
5.25
35(3)
85(3)
135(2)
185(3)
235(6)
285(5)
335(6)
385(8)
4.5
40(2)
90(6)
140(2)
190(5)
240(5)
290(4)
340(4)
390(5)
4.12
45(2)
95(6)
145(3)
195(6)
245(4)
295(4)
345(5)
395(4)
4.25
46(6)
96(5)
146(4)
196(6)
246(3)
296(3)
346(5)
396(3)
4.38

SOLUCION
Para una muestra sistemática

            K=N/n = 400/80 =5

Por lo tanto para ns = 10 muestras
            K’=10k = 10(5) = 50

Los siguientes 10 números aleatorios entre el 1 y el 50 son extraídos:

            13, 35, 2, 40, 26, 7, 31, 45, 5, 46

Los automóviles con estos números forman los puntos de inicio aleatorio para las muestras sistemáticas.
            En la tabla anterior la cantidad Ӯ1 es el promedio para la hilera, Ӯ2 es el promedio para la segunda hilera, y así sucesivamente.   La estimación de μ es
                        ns
            û= 1/ns∑Ӯi   = 1/10 (3.75+3.38+….+4.38) = 4.16
i=1

Puede establecerse la siguiente identidad
             ns               ns                  ns     
            ∑(Ӯi –û)2 = ∑Ӯi2 – 1/ns (∑ Ӯi )2
          i= 1              i=1                 i=1

Sustituyendo, obtenemos
            10
            ∑ (Ӯi -            û)2 =  177.410 – 1/10  (1733.06) = 4.104
          i = 1

Por lo tanto la varianza estimada de û es
                                        ns
            V(û) = (N-n/N)  ∑(Ӯi-û)2
                                                     i = 1   _______    =  (400-80/400) [4.104/10(9)] = 0.0365
                                      ns(ns-1)

La estimación de μ con un límite para el error de estimación es

            û + 2√ V(û),  o sea 4.163 + 2√0.0365  , o sea 4.16 + 0.38
Por lo tanto nuestra mejor estimación del promedio de personas por automóvil es 4.16.   El error de estimación será menor que 0.38 aproximadamente con una probabilidad de 0.95.


IV.           PROBLEMAS PROPUESTOS

1.         Una población de 360 viviendas (numeradas de 1 a 360) en Baltimore se ordena alfabéticamente en un archivo de acuerdo con el apellido del jefe de familia.  Viviendas en las cuales el jefe no es blanco ocurren en los números siguientes: 28, 31 -33, 36 -41, 44, 45, 47, 55, 56, 58, 68, 69, 82, 83, 85, 86, 89-94, 98,99, 101, 107-110, 114, 154, 156, 178, 223, 224, 296, 298-300, 302-304, 306-323, 325-331, 333, 335-339,341, 342.  (Las viviendas de no blancos muestran algún “agrupamiento” debido a la asociación entre apellido y color.)
            Compare la precisión de una muestra sistemática 1 en 8  con una muestra aleatoria simple del mismo tamaño para estimar la proporción de viviendas en las cuales el jefe de familia no es blanco.

2.         En una muestra sistemática de tamaño 200 viviendas y durante su trabajo de campo se encontró que 10 de ellas no eran en realidad viviendas, sino pequeñas industrias.  Sin embargo, todas las estimaciones a efectuarse se refieren a viviendas.  Para efectos de estimación de medias y de totales, ¿qué ecuaciones usaría usted? Y, ¿qué valor (es) de tamaño(s) de muestra usaría? ¿Por qué?

3.         Una tienda de ventas al menudeo con cuatro departamentos tiene las cuentas corrientes ordenadas por departamento, con las cuentas vencidas al principio de la lista de cada departamento.  Suponga que cada departamento tiene en promedio alrededor de 10 cuentas, con aproximadamente el 40% vencidas.  Para un día específico las cuentas podrían aparecer como se muestra en la tabla adjunta (con números de cuenta de 1 al 40).  La tienda desea estimar la proporción de cuentas vencidas por muestreo sistemático.



DEPARTAMENTOS


# CUENTA
1 – 11
12 – 20
21 – 28
29 -40
Ctas vencidas
1,2,3,4
12,13,14
21,22,23,24,25
29,30,31,32

            a)         Liste todas las posible muestras sistemáticas de 1 en 10 y calcule la varianza exacta de la proporción muestral.  (Nótese que hay 10 valores posibles, no todos distintos, para la proporción muestral, cada uno con 1/10 de probabilidad de ocurrir.)
            b)        Liste todas las posibles muestras sistemáticas de 1 en 5, y calcule la varianza exacta de la proporción muestral.
c)                  Compare los resultados de la parte (a) con la varianza aproximada que
habría sido obtenida con una muestra irrestricta aleatoria de tamaño n=4 de esta población.  Asismismo compare los resultados de la parte (b) con los que se obtendrían según una muestra irrestricta aleatoria con n=8. ¿Qué conclusiones generales pueden establecerse?

4.         La gerencia de una compañía privada está interesada en estimar la proporción de empleados que favorecen una nueva política de inversión.  Una muestra sistemática de 1 en 10 es obtenida de los empleados que salen del edificio al final de un día de trabajo en particular.  Use los datos de la tabla adjunta para estimar p, la proporción a favor de la nueva política, y establezca un límite para el error de estimación.  Suponga N= 2000.
 
Empleado muestreado
Respuesta
3
1
13
0
23
1
.
.
1993
1

                          200
∑ yi = 132
                          i=1

5.         Para la situación referida en el ejercicio anterior, determine el tamaño de muestra requerido para estima p, con un límite para el error de estimación de 0.01 unidades.  ¿Qué tipo de muestra sistemática deberá obtenerse?


V.     BIBLIOGRAFIA


1.                  Abad, Adela y Luis Servin.  1985.  Introducción al muestreo.  2º. Edición. 
                   Editorial Limusa, México.  216 p.

2.                  Cochran, William.  1986.  Técnicas de muestreo.  Traducción de Andres
       Sestier.  Compañía Editorial Continental, S.A de C.V.  México.  513 p.

3.                  Kish, Leslie.  1982.  Muestreo de encuestas.  Editorial Trillas, México. 736 p.

4.                  Mason, Robert & Lind, Douglas. 1992.  Estadística para administración y
        Economía.   Primera Edición.  Editorial Alfa y Omega.

5.         Matute, Jorge.  1990.  Representatividad y confiabilidad de  una muestra. 
                  Nutrición al día.   Guatemala.  4(1): 17-42.  Enero-Junio.

5.                  Scheaffer, R , William Mendenhall y Lyman Ott.  1987.   Elementos de
       Muestreo.  Traducción Gilberto Rendón Sánchez.  Grupo editorial
       Iberoamericana.  México.  321 p.





No hay comentarios:

Publicar un comentario