Estadística, Matemática y Computación: Muestreo Simple Aleatorio

UNIVERSIDAD RURAL DE GUATEMALA

MAESTRIA EN INVESTIGACIÓN Y PROYECTOS

CURSO: TÉCNICAS Y MÉTODOS DE INVESTIGACIÓN.

CATEDRÁTICO: INGENIERO LUIS M. REYES

MUESTREO SIMPLE ALEATORIO

EDGAR LEONEL GOMEZ NARCISO

Introducción:

La estadística trabaja sobre poblaciones, extrae conclusiones sobre la base de un análisis de un muestrario de datos de una población.

Hay muchas maneras de tomar una muestra de una población.

Además las conclusiones que se extraen acerca de la población dependen de como se selecciona la muestra, así mismo deseamos que la muestra sea representativa de la población.

Partiendo de la importancia que tiene para cualquier profesional e investigador conocer varios conceptos importantes de la estadística para poder desarrollar exitosamente una investigación de cualquier índole, en el presente trabajo de muestreo del texto paralelo de la maestría en investigación y proyectos nos proponemos dar tratamiento a algunos elementos de la estadística matemática de la forma mas elemental posible para que pueda ser asimilada por cualquier profesional sin tener en cuenta su especialidad ya sea de las ciencias Sociales como de las ciencias exactas.

Nuestro propósito es encaminar al profesional para que conozca el aparato conceptual necesario desde el punto de vista estadístico para emprender de forma sólida y científica una investigación.

Teoría básica del muestreo

Introducción al muestreo.

Concepto e importancia

Es la actividad por la cual se toman ciertas muestras de una población de elementos de los cuales vamos a tomar ciertos criterios de decisión, el muestreo es importante porque a través de él podemos hacer análisis de situaciones de una empresa o de algún campo de la sociedad.

Una parte fundamental para realizar un estudio estadístico de cualquier tipo es obtener unos resultados confiables y que puedan ser aplicables. Como ya se comentó anteriormente, resulta casi imposible o impráctico llevar a cabo algunos estudios sobre toda una población, por lo que la solución es llevar a cabo el estudio basándose en un subconjunto de ésta denominada muestra.

Sin embargo, para que los estudios tengan la validez y confiabilidad buscada es necesario que tal subconjunto de datos, o muestra, posea algunas características específicas que permitan, al final, generalizar los resultados hacia la población en total. Esas características tienen que ver principalmente con el tamaño de la muestra y con la manera de obtenerla.

El muestreo es una herramienta de la investigación científica. Su función básica es determinar que parte de una realidad en estudio (población o universo) debe examinarse con la finalidad de hacer inferencias sobre dicha población. El error que se comete debido a hecho de que se obtienen conclusiones sobre cierta realidad a partir de la observación de sólo una parte de ella, se denomina error de muestreo. Obtener una muestra adecuada significa lograr una versión simplificada de la población, que reproduzca de algún modo sus rasgos básicos.

Muestra: En todas las ocasiones en que no es posible o conveniente realizar un censo, lo que hacemos es trabajar con una muestra, entendiendo por tal una parte representativa de la población. Para que una muestra sea representativa, y por lo tanto útil, debe de reflejar las similitudes y diferencias encontradas en la población, ejemplificar las características de la misma.

Cuando decimos que una muestra es representativa indicamos que reúne aproximadamente las características de la población que son importantes para la investigación.

Los estadísticos emplean la palabra muestra para describir una porción escogida de la población. Matemáticamente, podemos describir muestras y poblaciones al emplear mediciones como la Media, Mediana, la moda, la desviación estándar. Cuando éstos términos describen una muestra se denominan estadísticas.

Una estadística es una característica de una muestra, los estadísticos emplean letras latinas minúsculas para denotar estadísticas y muestras.

Tipos de muestreo Los autores proponen diferentes criterios de clasificación de los diferentes tipos de muestreo, aunque en general pueden dividirse en dos grandes grupos: métodos de muestreo probabilísticos y métodos de muestreo no probabilísticos.

Muestreo probabilístico

Los métodos de muestreo probabilísticos son aquellos que se basan en el principio de equiprobabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser elegidas. Sólo estos métodos de muestreo probabilísticos nos aseguran la representatividad de la muestra extraída y son, por tanto, los más recomendables. Dentro de los métodos de muestreo probabilísticos encontramos los siguientes tipos:

El método otorga una probabilidad conocida de integrar la muestra a cada elemento de la población, y dicha probabilidad no es nula para ningún elemento.

Los métodos de muestreo no probabilisticos no garantizan la representatividad de la muestra y por lo tanto no permiten realizar estimaciones inferenciales sobre la población.

(En algunas circunstancias los métodos estadísticos y epidemiológicos permiten resolver los problemas de representatividad aun en situaciones de muestreo no probabilistico, por ejemplo los estudios de caso-control, donde los casos no son seleccionados aleatoriamente de la población.)

Entre los métodos de muestreo probabilísticos más utilizados en investigación encontramos:

· Muestreo aleatorio simple

· Muestreo estratificado

· Muestreo sistemático

· Muestreo polietápico o por conglomerados

Ventajas e inconvenientes de los distintos tipos de muestreo probabilístico

Tamaño de las muestras

Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores:

1. El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la población total.

2. El porcentaje de error que se pretende aceptar al momento de hacer la generalización.

3. El nivel de variabilidad que se calcula para comprobar la hipótesis.

La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivale a decir que no existe ninguna duda para generalizar tales resultados, pero también implica estudiar a la totalidad de los casos de la población.

Para evitar un costo muy alto para el estudio o debido a que en ocasiones llega a ser prácticamente imposible el estudio de todos los casos, entonces se busca un porcentaje de confianza menor. Comúnmente en las investigaciones sociales se busca un 95%.

El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hipótesis que sea falsa como si fuera verdadera, o la inversa: rechazar a hipótesis verdadera por considerarla falsa. Al igual que en el caso de la confianza, si se quiere eliminar el riesgo del error y considerarlo como 0%, entonces la muestra es del mismo tamaño que la población, por lo que conviene correr un cierto riesgo de equivocarse.

Comúnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que no son complementarios la confianza y el error.

La variabilidad es la probabilidad (o porcentaje) con el que se aceptó y se rechazó la hipótesis que se quiere investigar en alguna investigación anterior o en un ensayo previo a la investigación actual.

El porcentaje con que se aceptó tal hipótesis se denomina variabilidad positiva y se denota por p, y el porcentaje con el que se rechazó se la hipótesis es la variabilidad negativa, denotada por q.

Hay que considerar que p y q son complementarios, es decir, que su suma es igual a la unidad: p+q=1. Además, cuando se habla de la máxima variabilidad, en el caso de no existir antecedentes sobre la investigación (no hay otras o no se pudo aplicar una prueba previa), entonces los valores de variabilidad es p=q=0.5.

Una vez que se han determinado estos tres factores, entonces se puede calcular el tamaño de la muestra como a continuación se expone.

Hablando de una población de alrededor de 10,000 casos, o mínimamente esa cantidad, podemos pensar en la manera de calcular el tamaño de la muestra a través de las siguientes fórmulas. Hay que mencionar que estas fórmulas se pueden aplicar de manera aceptable pensando en instrumentos que no incluyan preguntas abiertas y que sean un total de alrededor de 30.

Vamos a presentar dos fórmulas, siendo la primera la que se aplica en el caso de que no se conozca con precisión el tamaño de la población, y es:

donde:

n   es el tamaño de la muestra;
Z   es el nivel de confianza;
p   es la variabilidad positiva;
q   es la variabilidad negativa;
E   es la precisión o error.

Hay que tomar nota de que debido a que la variabilidad y el error se pueden expresar por medio de porcentajes, hay que convertir todos esos valores a proporciones en el caso necesario.

También hay que tomar en cuenta que el nivel de confianza no es ni un porcentaje, ni la proporción que le correspondería, a pesar de que se expresa en términos de porcentajes. El nivel de confianza se obtiene a partir de la distribución normal estándar, pues la proporción correspondiente al porcentaje de confianza es el área simétrica bajo la curva normal que se toma como la confianza, y la intención es buscar el valor Z de la variable aleatoria que corresponda a tal área.

Por ejemplo: Si se quiere un porcentaje de confianza del 95%, entonces hay que considerar la proporción correspondiente, que es 0.95. Lo que se buscaría en seguida es el valor Z para la variable aleatoria z tal que el área simétrica bajo la curva normal desde -Z hasta Z sea igual a 0.95, es decir, P(-Z<z<Z)=0.95.

Utilizando las tablas, o la función DISTR.NORM.ESTAND.INV() del Excel, se puede calcular el valor de Z, que sería 1.96 (con una aproximación a dos decimales).

Esto quiere decir que P (-1.96<z<1.96)=0.95.

En el caso de que sí se conozca el tamaño de la población entonces se aplica la siguiente fórmula:

donde

n   es el tamaño de la muestra;
Z   es el nivel de confianza;
p   es la variabilidad positiva;
q   es la variabilidad negativa;
N   es el tamaño de la población;
E   es la precisión o el error.

La ventaja sobre la primera fórmula es que al conocer exactamente el tamaño de la población, el tamaño de la muestra resulta con mayor precisión y se pueden incluso ahorrarse recursos y tiempo para la aplicación y desarrollo de una investigación.

Por ejemplo: En el Colegio de Bachilleres, una institución de nivel medio superior, se desea realizar una investigación sobre los alumnos inscritos en primer y segundo años, para lo cual se aplicará un cuestionario de manera aleatoria a una muestra, pues los recursos económicos y el tiempo para procesar la información resultaría insuficiente en el caso de aplicársele a la población estudiantil completa.

En primera instancia, suponiendo que no se conoce el tamaño exacto de la población, pero con la seguridad de que ésta se encuentra cerca a los diez millares, se aplicará la primera fórmula.

Se considerará una confianza del 95%, un porcentaje de error del 5% y la máxima variabilidad por no existir antecedentes en la institución sobre la investigación y porque no se puede aplicar una prueba previa.

Primero habrá que obtener el valor de Z de tal forma que la confianza sea del 95%, es decir, buscar un valor de Z tal que P(-Z<z<Z)=0.95. Utilizando las tablas o las funciones de Excel se pueden obtener, o viendo (en este caso) el ejemplo anterior, resulta que Z=1.96.

De esta manera se realiza la sustitución y se obtiene:

Esto quiere decir que el tamaño de la muestra es de 385 alumnos.

Supongamos ahora que sí se conoce el tamaño de la población estudiantil y es de 9,408, entonces se aplicará la segunda fórmula. Utilizando los mismos parámetros la sustitución queda como:

Con lo que se tiene una cota mínima de 370 alumnos para la muestra y así poder realizar la investigación sin más costo del necesario, pero con la seguridad de que las condiciones aceptadas para la generalización (confiabilidad, variabilidad y error) se mantienen.

Importancia del muestreo

A lo largo del curso se hacen uso de dos tipos de razonamiento: el deductivo y el inductivo. El primero está relacionado directamente con la teoría de probabilidad, que a partir de las características de la población se obtienen las posibles características de una muestra.

El segundo tipo de razonamiento se relaciona con la denominada inferencia estadística: encaminado a utilizar las características de un subconjunto de la población (la muestra) para hacer afirmaciones (inferir) sobre la población en general. Éste será el caso de esta unidad.

El muestro, como ya se mencionó, implica algo de incertidumbre que debe ser aceptada para poder realizar el trabajo, pues aparte de estudiar una población resulta ser un trabajo en ocasiones demasiado grande, Wonnacott y Wonnacott ofrecen las siguientes razones extras:

Recursos limitados: Es decir, no existen los recursos humanos, materiales o económicos para realizar el estudio sobre el total de la población. Es como cuando se compra un aparato, un automóvil usado (por ejemplo), que se prueba unos minutos (el encendido, una carrerita, etc.) para ver si funciona correctamente y luego se adquiere, pero no se espera a probarlo toda la vida (encendiéndolo y apagándolo o, simplemente, dejándolo encendida) antes de realizar la adquisición.

Escasez: Es el caso en que se dispone de una sola muestra. Por ejemplo, para el estudio paleontológico de los dinosaurios (el Tiranosaurio Rex por ejemplo) sería muy bueno contar con, al menos, muchos restos fósiles y así realizar tales investigaciones; sin embargo, se cuenta sólo con una docena de esqueletos fosilizados (casi todos incompletos) de esas criaturas en todo el mundo.

Pruebas destructivas: Es el caso en el que realizar el estudio sobre toda la población llevaría a la destrucción misma de la población. Por ejemplo, si se quisiese saber el conteo exacto de hemoglobina de una persona habría que extraerle toda la sangre.

El muestreo puede ser más exacto: Esto es en el caso en el que el estudio sobre la población total puede causar errores por su tamaño o, en el caso de los censos, que sea necesario utilizar personal no lo suficientemente capacitado; mientras que, por otro lado, el estudio sobre una muestra podría ser realizada con menos personal pero más capacitado.

Ya que hemos mencionado la necesidad de realizar muestras, continuaremos con algunas características que deben tener éstas para que, realmente, se puedan realizar inferencias (inducciones) sobre ellas hacia la población total.

Muestra y Censo

Aparentemente puede parecer más conveniente inspeccionar de manera completa todos los elementos de una población que estudiar una muestra.

En la práctica es lo contrario es más conveniente el muestreo que un censo por las siguientes razones:

La población puede ser infinita en cuyo caso sería imposible efectuar un censo.
Una muestra puede ser más oportuna que un censo. Esto dado en función del tiempo de obtener los resultados.
Pueden incluir ensayos destructivos.
El costo de efectuar un censo puede ser alto.
La exactitud de los resultados puede afectarse al realizar un censo.
El tipo de información puede depender de si se utiliza una muestra o censo.

Hay algunas situaciones en las que resulta más ventajoso realizar un censo:

Que la población sea pequeña y el costo no sea alto.
Si el tamaño de la muestra es grande en relación al tamaño de la población, el esfuerzo al realizar un censo es pequeño.
Si se requiere exactitud completa, solo con el censo se logra.
Ocasionalmente se dispone de la información completa, por lo que no es necesario muestrear.

Muestras y Poblaciones

Un censo comprende el examen de todos los elementos de un determinado grupo, mientras que el muestreo comprende el análisis de una pequeña parte de ellos.

El objetivo del muestreo es establecer generalizaciones con respecto a un grupo total de elementos sin tener que examinarlos uno por uno.

La parte del grupo de elementos que se examinan recibe el nombre de muestra, y el grupo total de la cual se obtuvo la muestra es la población.

Los elementos de una población pueden ser personas, ciudades o cualquier cosa que se pueda medir, contar o jerarquizar.

El fin del muestreo es generalizar con respecto a la población fundamental, es axiomático que la población objetivo se deba establecer de manera que se puedan hacer generalizaciones significativas.

Las poblaciones de tamaño limitado se conocen como poblaciones finitas, sin embargo las de tamaño ilimitado se conocen como poblaciones infinitas.

Las poblaciones infinitas generalmente son de cierto tipo de proceso que produce elementos o resultados como la tirada de monedas, en el cual el número de resultados (caras o cruces) que se obtienen es ilimitado.

Muestreo a partir de una población finita:

Si el tamaño de la muestra es pequeña en relación con el de la población, el no regresar los objetos muestreados tendrá un efecto insignificante sobre las probabilidades de los objetos restantes y muestrear sin reposición no causará serias dificultades.

Muestras relativamente grandes tiende a distorsionar las probabilidades de los elementos restantes, de esa cuenta una regla aceptada es que si la muestra excede del 5% se debe sustituir unidades.

Razones del muestreo sin reposición:

Los efectos son insignificantes.
Si se realizan ensayos destructivos, será posible regresar los elementos muestreados a la población.
Al regresar un objeto muestreado hay la posibilidad de incluirlo en estudios posteriores.

El muestreo sin reposición es necesario cuando el tamaño de la muestra es relativamente grande en comparación con el tamaño de la población.

METODOS DE MUESTREO

Es el proceso por el cual se seleccionan los individuos que formarán una muestra.

Para que se puedan obtener conclusiones fiables para la población a partir de la muestra, es importante tanto su tamaño como el modo en que han sido seleccionados los individuos que la componen.

El tamaño de la muestra depende de la precisión que se quiera conseguir en la estimación que se realice a partir de ella. Para su determinación se requieren técnicas estadísticas superiores, pero resulta sorprendente cómo, con muestras notablemente pequeñas, se pueden conseguir resultados suficientemente precisos. Por ejemplo, con muestras de unos pocos miles de personas se pueden estimar con muchísima precisión los resultados de unas votaciones en las que participarán decenas de millones de votantes.

Para seleccionar los individuos de la muestra es fundamental proceder aleatoriamente, es decir, decidir al azar qué individuos de entre toda la población forman parte de la muestra.

Si se procede como si de un sorteo se tratara, eligiendo directamente de la población sin ningún otro condicionante, el muestreo se llama aleatorio simple o irrestrictamente aleatorio.

Cuando la población se puede subdividir en clases (estratos) con características especiales, se puede muestrear de modo que el número de individuos de cada estrato en la muestra mantenga la proporción que existía en la población. Una vez fijado el número que corresponde a cada estrato, los individuos se designan aleatoriamente. Este tipo de muestreo se denomina aleatorio estratificado con asignación proporcional.

Las inferencias realizadas mediante muestras seleccionadas aleatoriamente están sujetas a errores, llamados errores de muestreo, que están controlados. Si la muestra está mal elegida —no es significativa— se producen errores sistemáticos no controlados.

Muestreo

El diseño de muestra o diseño de encuesta especifica el método de obtención de la muestra.

El diseño no especifica la forma de recolectar o medir los datos reales. Especifica únicamente el método de recolección de los objetos que contienen la información requerida. Estos objetos se llaman elementos.

Un elemento es un objeto del cual se toma una medición.

Los elementos pueden ocurrir individualmente o en grupos en la población. Un grupo de elementos, como una familia o una caja de cerillos se llama unidad de muestreo.

Las unidades de muestreo son colecciones disjuntas de elementos de la población. En algunos casos una unidad muestral esta constituida por un solo elemento.

Para seleccionar una muestra aleatoria de unidades de elementos muestrales, es necesaria una lista de todas las unidades muestrales contenidas en la población. Esta lista se le denomina marco muestral.

Un marco muestral es una lista de unidades muéstrales.

Terminología básica para el muestreo

Los nuevos términos, los cuales son frecuentemente usados en inferencia estadística son:

Estadístico:

Un estadístico es una medida usada para describir alguna característica de una muestra , tal como una media aritmética, una mediana o una desviación estándar de una muestra. Es decir los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimación de los parámetros.

Parámetro:

Son las medidas o datos que se obtienen sobre la distribución de probabilidades de la población, tales como la media, la varianza, la proporción, etc. Un parámetro es una medida usada para describir alguna característica de una población, tal como una media aritmética, una mediana o una desviación estándar de una población.

Cuando los dos nuevos términos de arriba son usados, por ejemplo, el proceso de estimación en inferencia estadística puede ser descrito como le proceso de estimar un parámetro a partir del estadístico correspondiente, tal como usar una media muestral (un estadístico para estimar la media de la población (un parámetro).Los símbolos usados para representar los estadísticos y los parámetros, en éste y los siguientes capítulos, son resumidos en la tabla siguiente:

Tabla 1
Símbolos para estadísticos y parámetros correspondientes
Medida Símbolo para el estadístico Símbolo para el parámetro
(muestra) (Población)
Media X µ
Desviación estándar s
Número de elementos n N
Proporción p P

Nivel de Confianza.

Probabilidad de que la estimación efectuada se ajuste a la realidad. Cualquier información que queremos recoger está distribuida según una ley de probabilidad (Gauss o Student), así llamamos nivel de confianza a la probabilidad de que el intervalo construido en torno a un estadístico capte el verdadero valor del parámetro.

Varianza Poblacional.

Cuando una población es más homogénea la varianza es menor y el número de entrevistas necesarias para construir un modelo reducido del universo, o de la población, será más pequeño. Generalmente es un valor desconocido y hay que estimarlo a partir de datos de estudios previos.

Inferencia estadística.

Trata el problema de la extracción de la información sobre la población contenida en las muestras.

Para que los resultados obtenidos de los datos muestrales se puedan extender a la población, la muestra debe ser representativa de la población en lo que se refiere a la característica en estudio, o sea, la distribución de la característica en la muestra debe ser aproximadamente igual a la distribución de la característica en la población.

La representatividad en estadística se logra con el tipo de muestreo adecuado que siempre incluye la aleatoriedad en la selección de los elementos de la población que formaran la muestra. No obstante, tales métodos solo nos garantizan una representatividad muy probable pero no completamente segura.

Después de estos preliminares imprescindibles es posible pasar a tratar algunas de las formas que desde el punto de vista científico se puede extraer una muestra.

Al realizar un muestreo en una población podemos hablar de muestreos probabilísticos y no probabilísticos, en nuestro caso nos referiremos a los muestreos probabilísticos y dentro del mismo estudiaremos el muestreo aleatorio simple (MAS), como método básico en la estadística, dejando afuera el muestreo estratificado y el muestreo por racimos ya que no es parte de ésta investigación.

Distribución en el muestreo:

Cuando el tamaño de la muestra (n) es más pequeño que el tamaño de la población (N), dos o más muestras pueden ser extraídas de la misma población. Un cierto estadístico puede ser calculado para cada una de las muestras posibles extraídas de la población. Una distribución del estadístico obtenida de las muestras es llamada la distribución en el muestreo del estadístico.
Por ejemplo, si la muestra es de tamaño 2 y la población de tamaño 3 (elementos A, B, C), es posible extraer 3 muestras (AB, BC Y AC) de la población. Podemos calcular la media para cada muestra. Por lo tanto, tenemos 3 medias muéstrales para las 3 muestras. Las 3 medias muéstrales forman una distribución. La distribución de las medias es llamada la distribución de las medias muéstrales, o la distribución en el muestreo de la media. De la misma manera, la distribución de las proporciones (o porcentajes) obtenida de todas las muestras posibles del mismo tamaño, extraídas de una población, es llamada la distribución en el muestreo de la proporción.

Error Estándar:

La desviación estándar de una distribución, en el muestreo de un estadístico, es frecuentemente llamada el error estándar del estadístico. Por ejemplo, la desviación estándar de las medias de todas la muestras posibles del mismo tamaño, extraídas de una población, es llamada el error estándar de la media. De la misma manera, la desviación estándar de las proporciones de todas las muestras posibles del mismo tamaño, extraídas de una población, es llamada el error estándar de la proporción. La diferencia entre los términos "desviación estándar" y "error de estándar" es que la primera se refiere a los valores originales, mientras que la última está relacionada con valores calculados. Un estadístico es un valor calculado, obtenido con los elementos incluidos en una muestra.

Error Muestral, de estimación o Standard.

Es la diferencia entre un estadístico y su parámetro correspondiente. Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al valor de la población, nos da una noción clara de hasta dónde y con qué probabilidad una estimación basada en una muestra se aleja del valor que se hubiera obtenido por medio de un censo completo. Siempre se comete un error, pero la naturaleza de la investigación nos indicará hasta qué medida podemos cometerlo (los resultados se someten a error muestral e intervalos de confianza que varían muestra a muestra). Varía según se calcule al principio o al final. Un estadístico será más preciso en cuanto y tanto su error es más pequeño. Podríamos decir que es la desviación de la distribución muestral de un estadístico y su fiabilidad.

La diferencia entre el resultado obtenido de una muestra (un estadístico) y el resultado el cual deberíamos haber obtenido de la población (el parámetro correspondiente) se llama el error muestral o error de muestreo. Un error de muestreo usualmente ocurre cuando no se lleva a cabo la encuesta completa de la población, sino que se toma una muestra para estimar las características de la población. El error muestral es medido por el error estadístico, en términos de probabilidad, bajo la curva normal. El resultado de la media indica la precisión de la estimación de la población basada en el estudio de la muestra. Mientras más pequeño es el error de muestras, mayor es la precisión de la estimación. Deberá hacerse notar que los errores cometidos en una encuesta por muestreo, tales como respuestas inconsistentes, incompletas o no determinadas, no son considerados como errores muéstrales. Los errores no muéstrales pueden también ocurrir en una encuesta completa de la población.

Métodos de selección de muestras.

Una muestra debe ser representativa si va a ser usada para estimar las características de la población. Los métodos para seleccionar una muestra representativa son numerosos, dependiendo del tiempo, dinero y habilidad disponibles para tomar una muestra y la naturaleza de los elementos individuales de la población.

Por lo tanto, se requiere un gran volumen para incluir todos los tipos de métodos de muestreo.
Los métodos de selección de muestras pueden ser clasificados de acuerdo a:

El número de muestras tomadas de una población dada para un estudio.
La manera usada en seleccionar los elementos incluidos en la muestra.

Métodos de muestreo clasificados de acuerdo con el número de muestras tomadas de una población.

Bajo esta clasificación, hay tres tipos comunes de métodos de muestreo, estos son, muestreo simple, doble y múltiple.

Muestreo simple

Este tipo de muestreo toma solamente una muestra de una población dada para el propósito de inferencia estadística. Puesto que solamente una muestra es tomada, el tamaño de muestra debe ser lo suficientemente grande para extraer una conclusión. Una muestra grande muchas veces cuesta demasiado dinero y tiempo.

Muestreo doble

Bajo este tipo de muestreo, cuando el resultado del estudio de la primera muestra no es decisivo, una segunda muestra es extraída de la misma población. Las dos muestras son combinadas para analizar los resultados. Este método permite a una persona principiar con una muestra relativamente pequeña para ahorrar costos y tiempo. Si la primera muestra arroja una resultado definitivo, la segunda muestra puede no necesitarse.

Por ejemplo, al probar la calidad de un lote de productos manufacturados, si la primera muestra arroja una calidad muy alta, el lote es aceptado; si arroja una calidad muy pobre, el lote es rechazado. Solamente si la primera muestra arroja una calidad intermedia, será requerirá la segunda muestra. Un plan típico de muestreo doble puede ser obtenido de la Military Standard Sampling Procedures and Tables for Inspection by Attributes, publicada por el Departamento de Defensa y también usado por muchas industrias privadas. Al probar la calidad de un lote consistente de 3,000 unidades manufacturadas, cuando el número de defectos encontrados en la primera muestra de 80 unidades es de 5 o menos, el lote es considerado bueno y es aceptado; si el número de defectos es 9 o más, el lote es considerado pobre y es rechazado; si el número está entre 5 y 9, no puede llegarse a una decisión y una segunda muestra de 80 unidades es extraída del lote. Si el número de defectos en las dos muestras combinadas (incluyendo 80 + 80 = 160 unidades) es 12 o menos, el lote es aceptado si el número combinado es 13 o más, el lote es rechazado.

Muestreo múltiple

El procedimiento bajo este método es similar al expuesto en el muestreo doble, excepto que el número de muestras sucesivas requerido para llegar a una decisión es más de dos muestras.
Métodos de muestreo clasificados de acuerdo con las maneras usadas en seleccionar los elementos de una muestra.
Los elementos de una muestra pueden ser seleccionados de dos maneras diferentes:
a. Basados en el juicio de una persona.
b. Selección aleatoria (al azar)

Muestreo de juicio

Una muestra es llamada muestra de juicio cuando sus elementos son seleccionados mediante juicio personal. La persona que selecciona los elementos de la muestra, usualmente es un experto en la medida dada. Una muestra de juicio es llamada una muestra probabilística, puesto que este método está basado en los puntos de vista subjetivos de una persona y la teoría de la probabilidad no puede ser empleada para medir el error de muestreo, Las principales ventajas de una muestra de juicio son la facilidad de obtenerla y que el costo usualmente es bajo.

Muestreo aleatorio

Consideremos una población finita, de la que deseamos extraer una muestra. Cuando el proceso de extracción es tal que garantiza a cada uno de los elementos de la población la misma oportunidad de ser incluidos en dicha muestra, denominamos al proceso de selección muestreo aleatorio.

El muestreo aleatorio se puede plantear bajo dos puntos de vista:

Sin reposición de los elementos;
Con reposición.

Muestreo aleatorio sin reposición

Consideremos una población E formada por N elementos. Si observamos un elemento particular, e € E, en un muestreo aleatorio sin reposición se da la siguiente circunstancia:

La probabilidad de que e sea elegido en primer lugar es 1/N ;
Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de (N-1)/N, la probabilidad de que sea elegido en el segundo intento es de 1/(N-1)
en el (i+1)-ésimo intento, la población consta de N-i elementos, con lo cual si e no ha sido seleccionado previamente, la probabilidad de que lo sea en este momento es de

1/(n-i).

Si consideramos una muestra de n<N elementos, donde el orden en la elección de los mismos tiene importancia, la probabilidad de elección de una muestra cualquiera es

Lo que corresponde en el sentido de la definición de probabilidad de Laplace a un caso posible entre las V_N_,n posibles n-uplas de N elementos de la población.

Si el orden no interviene, la probabilidad de que una muestra

sea elegida es la suma de las probabilidades de elegir una cualquiera de sus n-uplas, tantas veces como permutaciones en el orden de sus elementos sea posible, es decir

Muestreo aleatorio con reposición

Sobre una población E de tamaño N podemos realizar extracciones de n elementos, pero de modo que cada vez el elemento extraído es repuesto al total de la población. De esta forma un elemento puede ser extraído varias veces. Si el orden en la extracción de la muestra interviene, la probabilidad de una cualquiera de ellas, formada por n elementos es:

Si el orden no interviene, la probabilidad de una muestra cualquiera, será la suma de la anterior, repitiéndola tantas veces como manera de combinar sus elementos sea posible. Es decir,

Sea n₁ el número de veces que se repite cierto elemento e₁ en la muestra;

Sea n₂ el número de veces que se repite cierto elemento e₂;

Sea n_k el número de veces que se repite cierto elemento e_k,

de modo que n=n1+....+nk. Entonces la probabilidad de obtener la muestra

es decir,

El muestreo aleatorio con reposición es también denominado muestreo aleatorio simple, que como hemos mencionado se caracteriza por que

cada elemento de la población tiene la misma probabilidad de ser elegido, y
las observaciones se realizan con reemplazamiento. De este modo, cada observación es realizada sobre la misma población (no disminuye con las extracciones sucesivas).

En una muestra aleatoria simple, cada observación tiene la distribución de probabilidad de la población:
Además todos las observaciones de la v.a. son independientes

MUESTREO ALEATORIO SIMPLE (M.A.S.)

La inferencia estadística establece ciertos juicios después de examinar solamente una parte o muestra de ello. Así se prueba un pedazo de pastel para saber si ya está frío, el cocinero prueba la sopa para saber si necesita más sazón. El muestreo estadístico es semejante a cada uno de los anteriores, aunque sus métodos son más formales y precisos y generalmente incluyen una proporción de la probabilidad. El muestreo y la probabilidad están unidos estrechamente constituyendo la Teoría de la Inferencia.

Es aquel en que cada elemento de la población tiene la misma probabilidad de ser seleccionado para integrar la muestra.

Una muestra simple aleatoria es aquella en que sus elementos son seleccionados mediante el muestreo aleatorio simple.

En la práctica no nos interesa el individuo o elemento de la población seleccionado en general, sino solo una característica que mediremos u observaremos en él y cuyo valor será el valor de una variable aleatoria que en cada individuo o elemento de la población puede tomar un valor que será un elemento de cierto conjunto de valores. De modo que una muestra simple aleatoria se puede interpretar como un conjunto de valores de variables aleatorias independientes, cada una de las cuales tiene la misma distribución que es llamada distribución poblacional.

Existen dos formas de extraer una muestra de una población: con reposición y sin reposición.

Una muestra aleatoria simple es seleccionada de tal manera que cada muestra posible del mismo tamaño tiene igual probabilidad de ser seleccionada de la población.

Un método simple para obtener una muestra aleatoria simple es primero escribir el nombre o un número codificado de cada elemento en la población sobre una tarjeta. Las tarjetas son colocadas en una caja. Una muestra entonces extraída de la caja después de que las tarjetas han sido perfectamente mezcladas. Por conveniencia este método puede ser reemplazado por una tabla de números aleatorios, tales como los que se muestran adelante.

La tabla se construye extrayendo cada uno de los dígitos del 0 al 9 sobre una base de “igualmente probables”; es decir, cada uno de los 10 dígitos tienen la misma probabilidad (1/10) de ser seleccionados.

Los 10 dígitos son escritos en tarjetas separadas y son mezclados en una caja. Una tarjeta es extraída y se registra el dígito que aparece en la tarjeta. Una segunda tarjeta es extraída después de que la primera tarjeta ha sido regresada a la caja los10 dígitos en la caja son de nuevo mezclados perfectamente. Cuando se han registrado 5 dígitos, el siguiente dígito se registra en un grupo separado hasta que se obtiene un gran número de grupos.

Obtener una muestra aleatoria simple no es una tarea fácil o práctica bajo muchas circunstancias. Puede ser una tarea tardada o costosa y algunas veces es teóricamente imposible.

Cuando la población es infinita, es obvio que la tarea de numerar cada elemento de la población es imposible.

Llamamos muestreo aleatorio simple al que se utiliza con reemplazamiento, consistente en seleccionar n elementos de entre N que componen la población, de tal forma que todas las muestras de tamaño n que se puedan formar tengan la misma probabilidad de salir elegidas y las mismas sean independientes, en el caso de que N sea grande no es preocupante que se haga sin reemplazamiento, ya que por ejemplo 1/N no difiere mucho de 1/N-1. Esta probabilidad es: p = n/N

En la práctica equivale a numerar la población objeto de estudio, sacando al azar cada uno de los números que van a formar la muestra y aunque en la práctica, a pesar de ser el muestro con reemplazamiento, si el elemento (caso de que sea un individuo para hacer un test u otro caso similar) pueda volver a ser elegido este se desprecia ya que no tiene sentido entrevistar al mismo en más de una ocasión y es por este consenso que se tiende a confundir y expresar que el muestreo aleatorio simple tiene como condición que se hace sin reemplazamiento.

Para llevar a cabo esta labor varios procedimientos como el del bombo, consistente en introducir tantas bolas como elementos tenga la población en un bombo y elegir tantas bolas como elementos tenga la muestra.

Este procedimiento además de ser muy laborioso puede inducir a error debido a defectos de las bolas, al bombo o a cualquier otro factor, por lo que es preciso sustituirlo por otro mucho más aleatorio.

El procedimiento más utilizado es el de las tablas de números aleatorios que consiste en seleccionar en una tabla de números en grupos de cuatro dígitos formando filas y columnas; estas se encuentran en muchos libros de Estadística sobre todo, los que tienen como capítulo La Teoría del Muestreo.

Obtención de una muestra aleatoria

Si una población es infinita, anotando los elementos en el orden en que ocurren, es posible obtener una muestra que sea representativa del proceso (muestra aleatoria). En tanto que el proceso en consideración se mantienen estable durante el período en el que se hacen las observaciones (de manera que la probabilidad de cada resultado posible permanece constante), es posible considerar el proceso y la muestra resultante como aleatorias. Así es exactamente como se considerar las tiradas sucesivas de una moneda normal y las de dados no cargados.

Si la población objetiva es finita, esencialmente hay dos formas de seleccionar una muestra aleatoria simple. Un método consiste en elaborar una lista, o “marco de referencia” de cada uno de los elementos de la población, y aplicar después un método aleatorio a la lista, para seleccionar los elementos que se habrán de muestrear. El segundo método se utiliza cuando los objetos que forman la población no se identifican claramente, lo que imposibilita un listado.

Método de selección en el Muestreo Aleatorio Simple.

Un procedimiento de extraer una muestra aleatoria de una población finita es el de enumerar todos los elementos que conforman la población, escribir esos números en bolas o papelitos echarlos en un bombo o bolsa mezclarlos bien removiéndolos y sacar uno a uno tantos como lo indique el tamaño de la muestra. En este caso los elementos de la muestra lo constituirán los elementos de la población cuyos números coincidan con los extraídos de la bolsa o bombo.

Otro procedimiento para obtener una muestra de una población ya sea el muestreo con replazo o sin reemplazo es mediante la utilización de la tabla de números aleatorios pero solamente para poblaciones finitas, la utilización de estas tablas puede realizarse de diferentes modos pero en el presente trabajo solo expondremos el que consideramos mas eficiente ya que no se necesita de la búsqueda de una gran cantidad innecesaria de números aleatorios en la tabla, el cual será ejemplificado.

Existen diferentes tablas de números aleatorios nosotros en nuestro trabajo utilizaremos como referencia la tabla de M. G. Kendall y B. Babington Smith que se encuentra en el texto de tablas estadísticas, la misma está constituida por 4 bloques de 1000 números aleatorios dispuestos en 25 filas y 40 columnas.

Veamos como se procede para la utilización de la tabla. Consideremos que se desea extraer de una población de tamaño N una muestra de tamaño n se selecciona el bloque, la fila y la columna de la tabla que se va a comenzar, a partir de esta selección (que la hace el muestrista) se toman tantas columnas como dígitos tiene N. Comenzando por el primer número de las columnas seleccionadas se irán incluyendo en la muestra aquellos individuos que en la lista de la población ( ya sea de forma horizontal o vertical) ocupa la posición de los n números de las columnas seleccionadas que resultan menores que N, en los caso que al seleccionar un número en la tabla de números aleatorios sea mayor que N se divide este por N y el resto de la división que será un número entre 0 y N-1 será la posición del individuo a seleccionar tomando el convenio de que el resto 0 corresponde a la posición N. Para la aplicación de este procedimiento requiere que se fije previamente el mayor múltiplo de N que se considerará, para así garantizar que todos los restos desde 0 a N -1 tengan la misma probabilidad de ser seleccionados, por ejemplo si N = 150 y tomando 3 columnas se consideraran sólo aquellos números menores o iguales que 900, los números mayores que 900 no serán analizados en la selección de la muestra.

Ejemplo 1.1: Dada la siguiente población formada por la edad del hijo mayor de 200 núcleos familiares de una cierta región.

Seleccione una muestra aleatoria de tamaño 10 (use la tabla de números aleatorios, escoja la tercera fila, tercera columna del segundo bloque de a 1000) numere la población horizontalmente.

48	49	50	51	50	46	47	56	47	38
53	50	47	46	48	47	48	46	46	50
42	51	51	49	47	51	48	47	42	49
46	48	50	47	48	47	51	56	45	49
45	54	61	46	48	46	46	47	50	34
46	46	51	39	53	55	52	49	47	46
33	40	52	46	44	52	44	54	41	33
48	49	52	42	42	49	47	47	38	48
44	43	44	40	44	45	49	44	43	42
49	49	48	41	51	51	52	42	40	47
37	48	45	46	50	45	47	53	43	47
44	40	46	46	45	48	47	42	47	46
52	53	47	49	46	47	49	42	43	42
43	38	52	50	44	52	44	53	43	45
41	57	47	48	52	53	40	49	40	50
45	42	44	53	57	46	62	47	50	47
45	51	43	45	39	39	41	44	35	41
54	48	51	53	54	42	48	51	37	38
42	37	52	50	45	55	51	46	38	43
53	43	42	39	46	52	53	39	51	40

Para extraer la muestra lo primero que hacemos es disponer tres columnas en las cuales la primera se ubicaran los números aleatorios, es decir los números extraídos de la tabla de números aleatorios; en la segunda columna pondremos

Los números aleatorios rectificados que serán aquellos números aleatorios menores que N =200 y los restos de las divisiones de los números aleatorios mayores que N =200 y menores que el mayor múltiplo de N es decir 800 y en la tercera columna de encontrara los valores de la muestra.

En la tabla de números aleatorios la tercera fila, tercera columna del segundo bloque de a 1000 le corresponde al número 3 pero como tenemos que coger el número aleatorio de tres dígitos el primer número aleatorio sería el 017, los demás serian, 984, 955, 130, 850, 374, 665, 910, 288, 753, 765, 691, 496, 001, hemos escogido 14 números de la tabla de números aleatorios debido a que hay 4 que son mayores que 800. Veamos a continuación como extraemos la muestra de la población:

Para el primer número aleatorio 017 se busca en la población el valor que ocupa la posición 017 leída la población horizontalmente que seria la edad de 48 años, el número aleatorio 984 no se contempla dentro del análisis ya que es mayor que 800, al igual que el número 955, el número 130, le corresponde la edad de 52 años, al número 850 no se contempla dentro del análisis, el 374 como es mayor que 200 se divide por 200 y se obtiene reto 174 y este es el número aleatorio rectificado correspondiéndole la edad de 53 años, al número 665 se divide por 200 y se obtiene resto 65 que es el número aleatorio rectificado correspondiéndole la edad de 44 años en la población, a continuación presentaremos la tabla de las tres columnas a la cual nos referimos anteriormente como una vía fácil y práctica para obtener la muestra deseada.

Número aleatorio	Número aleatorio rectificado	muestra
017	017	48
984	--
955	--
130	130	42

850	--
374	174	53
665	065	53
910	--
288	088	44
753	153	44
765	165	39
691	091	49
496	096	51
001	001	48

Nota: obsérvese que en la muestra existen edades que se repiten esto puede pasar si el muestreo es con reemplazo si el muestreo es sin reemplazo debemos seguir buscando de la misma manera en la tabla de números aleatorios seguido del número 001, hasta lograr tener la muestra con 10 valores de la población no repetidos.

Este muestreo se puede realizar utilizando Microsoft Excel siguiendo los pasos siguiente:

Se instala la opción de análisis de datos para ello se va a herramienta luego a complemento y se activa en la ventana complemento la opción herramienta para análisis.
Se abre una hoja Excel y se introducen los datos de la población en columna.
Se va a herramienta y se elige análisis de datos y en esta ventana se selecciona la opción muestra.
En la ventana muestra se introduce el rango de entrada que sería seleccionar todos los valores de la población, si al suministrar en la hoja Excel los datos de la población al inicio se le designan a estos alguna variable o comentario debe activarse la opción rótulo de lo contrario no debe ser activada, se activa la casilla de muestreo aleatorio y se introduce el tamaño de muestra deseado.
Se selecciona el rango de salida que consiste en seleccionar una celda en la hoja Excel que no esté afectada por ninguna información ni hacia abajo ni a la derecha de la misma.

Se selecciona aceptar en esta ventana y saldrá el resultado deseado que sería las muestras elegidas por el programa en la población.

Muestreo con reemplazo: Es aquel en que un elemento puede ser seleccionado más de una vez en la muestra para ello se extrae un elemento de la población se observa y se devuelve a la población, por lo que de esta forma se pueden hacer infinitas extracciones de la población aun siendo esta finita.

Muestreo sin reemplazo: No se devuelve los elementos extraídos a la población hasta que no se hallan extraídos todos los elementos de la población que conforman la muestra.

Muestreo equiprobabilístico: Si se selecciona una muestra de tamaño n de una población N unidades, cada elemento tiene una probabilidad de inclusión legal y conocida n/N.

Mecanismo ideal en el muestreo aleatorio simple:

- Cada elemento de la población tiene la misma probabilidad de ser escogido

- Todas las posibles muestras del tamaño muestral escogido (n) tienen la misma probabilidad de ser seleccionadas

Ventajas

- Sencillo y de fácil comprensión - Cálculo rápido de medias y varianza. - Se basa en la teoría estadística, y por tanto existen paquetes informáticos para . analizar los datos.

Desventajas

- Requiere que se posea de antemano un listado completo de toda la población. - Cuando se trabaja con muestras pequeñas es posible que no represente a la población adecuadamente.

Estimación basada en una Muestra Aleatoria Simple

Al usar muestreo aleatorio simple para estimar la medida poblacional, se obtiene el siguiente estimador:

Estimación de la medida poblacional para un muestreo aleatorio simple

Estimador Varianza estimada del estimador: con Cotas para el error estimación:

Estimación del Total Poblacional para una muestra aleatoria simple

Estimador Varianza Estimada del Estimador: Cota para el Error de Estimación:

Estimación de la proporción poblacional para una muestra aleatoria simple

Estimador Varianza estimado del estimador: con Cotas para el error de estimación: En este caso y es él numero total de los elementos de la muestra que tienen determinada característica.

Determinación del Tamaño de Muestra

Tamaño de muestra para estimar en el muestreo aleatorio simple

donde es la varianza poblacional, N es él numero de elementos de la población, y B en la cota para el error de estimación. Si N es grande, la formula del tamaño de muestra se reduce.

Tamaño de muestra para estimar en un muestreo aleatorio simple cuando N es muy grande

Cuando el objetivo es estimar el total poblacional, con una cota B para el error de estimación, se debe sustituir en la formula del tamaño.

BIBLIOGRAFIA

1. http://www.hsa.es/id/investigacion/uai/uai_docs/muestreo/muestreo.htm

2. manual de la Universidad de Málaga: Bioestadística: Métodos y Aplicaciones U.D. Bioestadística. Facultad de Medicina. Universidad de Málaga.

3. http://academico.uno.mx/ravila/est_desc/muestra.htm

4. http://www.uaq.mx/matematicas/estadisticas/xu5.html

5. http://html.rincondelvago.com/conceptos-y-muestreo.html

6. Carrasco JL. El método estadístico en la investigación médica. 5ª ed. Madrid. Editorial Ciencia.

7. Hulley SB, Cummings SR. Diseño de la investigación clínica. Ed Doyma. Barcelona 1993.

8. Kelsey IL, Thompson WD, Evans A. Methods in observational epidemiology. New York. Oxford University Press 1986.

9. Mira JJ, Gómez J, Aranaz J, Pérez E. Auditoria de historias clínicas: ¿Cuál es el tamaño adecuado de la muestra? Todo Hospital 1997; octubre: 58-64.

10. STEVENSON Willian J. Estadística para Administración y Economía. Editorial Harla (Harper & Row Latinoamérica) México, DF. 1981.

11. SHAO stephen p. Estadística para Economistas y Administradores de Empresas. Editorial Herrero Hermanos Sucs.México, DF. 1980.

12. Calero Vinelo, Arístides. Técnicas de Muestreo / Arístides Calero Vinelo.- La Habana: Editorial. Pueblo y Educación, 1978.- 514p.

13. Metodología de la Investigación / M. En C. Roberto Hernández Sampiere... et al. – México:/5.n/, 1997.---505p

14. Sánchez Álvarez, Rafael. Estadística Elemental 7 Rafael Sánchez Álvarez y José A. Torres Delgado.- La Habana: Ed. Pueblo y Educación, 1989.- 326p.

15. Taro, Yamane. Elementary Sampling Theory / Yamane Taro.- La Habana: Editorial Pueblo y Educación, 1989.- 405p.

3 comentarios:

aleyingri8 de mayo de 2012 a las 21:05
hola dios le vendiga quiero que me ayude usted en una tarea de mate quiero una historia que lleve el muestreo sinple, sistematico, poblacion,estimacion de parametros,teoria de muestras,muestreo estratificado,hipotesis nula, hipotesis alterna que sea una hitoria real añidiendo todos los consepts sobre enpresas o poblasiones porfavor me urje es para el jueves DOS LES VENDIGA MUCHO!!!!!!!!
ResponderEliminar
Respuestas
JORGE DIAZ10 de mayo de 2014 a las 18:15
Buenas noches,excelente información. Ahora si yo tengo una población de 40 estudiantes, deseo dividirlos en grupos de 20, para aplicarles una prueba control y al otro una prueba experimental. Como seleciono los individuos para cada población?

Cordialmente.

Jorge Díaz
ResponderEliminar
Respuestas
Unknown19 de junio de 2014 a las 2:51
Excelente aportación. Me fue muy útil para mi proyecto final de titulación de Licenciatura. Muchas gracias.
ResponderEliminar
Respuestas

Añadir comentario

Estadística, Matemática y Computación

jueves, 7 de julio de 2011

Muestreo Simple Aleatorio