Estadística, Matemática y Computación: Estadística Inferencial con Microsoft Excel (R)

ESTADISTICA INFERENCIAL CON MICROSOFT EXCEL®

INTRODUCCION:

La inferencia es la rama de la estadística que se dedica a elaborar conclusiones válidas para toda una población, a partir de un conjunto de datos, que generalmente son solamente una fracción del total de datos (muestra).

Existe una variedad de técnicas para elaborar dichas conclusiones, las que dependen básicamente de tres cosas:

a) La naturaleza de los datos (cuantitativos, cualitativos)

b) La cantidad de datos

c) La naturaleza de la comparación realizada

Microsoft Excel es una herramienta ampliamente utilizada en la sociedad actual, sin embargo se desconocen muchas de sus capacidades de cálculo en diferentes áreas. El objetivo de este curso corto es dar a conocer las aplicaciones de Excel en la inferencia estadística, que están disponibles para el usuario.

CONCEPTOS BÁSICOS DE LA INFERENCIA ESTADÍSTICA

POBLACIÓN: Es un conjunto, cuyos elementos poseen características comunes, las cuales son del interés del investigador, y que pueden ser observadas (medidas)

La estadística como ciencia se dedica al estudio de las poblaciones. Sin embargo en la mayoría de situaciones no es posible estudiar a la población completa. La solución es estudiar una fracción de la población (muestra) y elaborar conclusiones para toda la población a partir de dichos datos.

MUESTRA: Es una fracción de la población extraída para el estudio de la misma. Para que los resultados sean válidos, es necesario que la muestra sea REPRESENTATIVA de la población de donde proviene. Para ello, debe reunir los siguientes requisitos

a) Debe extraerse al azar

b) Debe generar suficiente varianza

c) Debe tener un tamaño apropiado

NIVEL DE CONFIANZA: Debido a que la mayoría de veces se trabaja con muestras, siempre existirá la posibilidad de cometer errores al momento de elaborar una inferencia. Para enfrentar esta situación, se define una probabilidad de éxito llamada Nivel de confianza. Debido a costumbres que han ido quedando, se trabaja con un nivel de confianza del 95%, sin embargo el investigador tiene el derecho de escoger otro nivel a su gusto o conveniencia.

NIVEL DE SIGNIFICANCIA: Es el complemento del nivel de confianza. Usualmente se representa con la letra griega alfa (α). Corresponde a la probabilidad de fracaso.

HIPÓTESIS

Cualquier suposición preliminar acerca de cualquier fenómeno. En el caso de la estadística, la suposición se realiza sobre los parámetros de una población. Básicamente existen dos tipos de hipótesis: la Nula (Ho), que se plantea con la intención de ser rechazada, y la alterna (Ha) que se plantea con la intención de ser aceptada.

El procedimiento para una prueba de hipótesis, incluye las siguientes etapas:

a) Planteamiento de las hipótesis

b) Cálculo de un estadístico de prueba (Z, t, F, o Chi cuadrado)

c) Obtención de un comparador, de una tabla (Z, t, F, Chi Cuadrado)

d) Aplicación de una regla de decisión

En este curso no se hará énfasis en las fórmulas sino en las aplicaciones, tomando en cuenta la naturaleza de los datos.

MÓDULO DE ANÁLISIS DE DATOS DE MICROSOFT EXCEL®

Uno de los complementos que posee Microsoft Excel es un módulo de análisis de datos. En la mayoría de instalaciones de Excel éste módulo no esta habilitado, por lo cual lo primero que debe hacerse es habilitarlo, siguiendo los siguientes pasos:

a) Dar Click sobre el menú de Excel.(El símbolo --à)

b) Seleccionar la pestaña OPCIONES DE EXCEL

c) Seleccionar la pestaña COMPLEMENTOS

d) Seleccionar la opción Administrar complementos (IR)

e) Activar las casillas de Análisis de Datos y Análisis de datos VBA

f) Dar click en la opción ACEPTAR

Descripción del Menú de Análisis

El menú de análisis está dentro de la pestaña DATOS--> Análisis de Datos

El menú tiene la siguiente apariencia:

Aunque las opciones se encuentran en un orden extraño, se describirán en el orden lógico de un curso de estadística inferencial.

Análisis descriptivo:

Aunque Excel tiene funciones individuales para análisis de datos cuantitativos, existe la opción de un análisis más extenso. Para ello se selecciona la pestaña ESTADISTICA DESCRIPTIVA en el menú de análisis de datos.

Se presenta la siguiente ventana:

El rango de entrada puede tener una o más variables, las cuales pueden estar ordenadas por filas o por columnas. Se debe definir esto activando el indicador respectivo. Si en la primera fila o columna hay nombres de variables, se debe activar la opción Rótulos en la primera fila

Los resultados se pueden mostrar en una hoja nueva, un libro nuevo, pero usualmente es en la misma hoja, para lo cual se debe definir el lugar .

Si se desea un detalle de las estadísticas más importantes se marca la casilla “Resumen de Estadísticas.

Si se desea un intervalo de confianza para la media, debe marcarse la casilla y definirse un nivel de confianza.

Se pueden obtener los números mayor y menor del conjunto o bien los segundos, terceros, etc, para lo cual se marcan las casillas y se indica el orden (1,2,3)

EJERCICIO:

Para el siguiente conjunto de datos, calcule las estadísticas más importantes y un intervalo de confianza al 97%
15 9 20 11 18 12 14 19 22 18 17 19 14 12 10 10 18 10 15

Los resultados obtenidos son los siguientes

5. Prueba de igualdad de varianzas

El objetivo de esta prueba es determinar si las varianzas de dos poblaciones (o en todo caso de sus muestras son iguales)

Se requieren datos de las dos poblaciones y no se asume normalidad de las variables.

El estadístico de prueba es un F, la razón de dos varianzas.

En el menú de análisis de datos se escoge la opción “Prueba de F para varianzas de dos muestras”: Se debe ingresar la ubicación de los datos y el nivel de significancia deseado.

Ejemplo:para los siguientes datos, comprube con 5% de significancia si las varianzas son iguales

Se toman 10 datos al azar de ambas secciones de un curso son los siguientes resultados:

SECCION	1	2	3	4	5	6	7	8	9	10
A	62	48	55	33	65	46	70	55	40	49
B	33	38	15	39	57	45	38	40	42	55

6. Prueba de medias para la diferencia de medias de dos poblaciones

Se asume que las poblaciones tienen distribución normal. Existen tres casos para esta situación:

a) Cuando las varianzas poblacionales son conocidas

b) Las varianzas poblacionales son desconocidas pero iguales

c) Las varianzas poblacionales son desconocidas y no son iguales

CASO 1: VARIANZAS CONOCIDAS

Se debe escoger la opción “Prueba de Z para medias de dos muestras”. Además de los datos de las dos poblaciones se ingresan los datos de las varianzas poblacionales.

Ejemplo: Se conoce que las varianzas de las calificaciones de los Cursos de Matemática 1 Sección “A” y Matemática 1 sección “B” son respecivamente 625 y 2,500 puntos cuadrados.

Se toman 10 datos al azar de ambas secciones son los siguientes resultados:

SECCION	1	2	3	4	5	6	7	8	9	10
A	62	48	55	33	65	46	70	55	40	49
B	33	38	15	39	57	45	38	40	42	55

Pruebe la hipótesis que los alumnos de la sección “A” tienen mayor promedio que los de la sección “B” , con un 97% de confianza.

CASO 2: VARIANZAS DESCONOCIDAS PERO IGUALES

En este caso se aplica una prueba de t de student. En el menú de análisis de datos se escoge la opción “Prueba de t para dos muestras suponiendo varianzas iguales”

Ejemplo: Se desea probar si hay diferencia entre los salarios diarios de los empleados de dos diferentes empresas. Los resultados del muestreo son los siguientes.

POBLACION	1		2	3	4	5	6	7	8	9
Empresa1		350	419	385	360	405	395	389	409	375
Empresa 2		370	425	369	375	389	385	395	425	400

a) Compruebe si las varianzas son iguales, con 95% de confianza

b) Realice la prueba de medias apropiada para generar conclusiones, con 95% de confianza

Ejercicio: con los datos del archivo nuevo compruebe si las notas de los graduados de establecimientos públicos son iguales que las de graduados de establecimientos privados.

Caso 3. Las varianzas son desconocidas y no son iguales.

En este caso también se aplica una prueba de t de Student, pero los cálculos se realizan en otra forma. En el menú de análisis de datos se escoge la opción “Prueba de t para dos medias suponiendo varianzas desiguales”.

Ejemplo: comparación del rendimiento de dos automóviles compactos, uno japonés y el otro coreano, del mismo cilindraje. Variable: kilómetros por galón.

ORIGEN	1		2	3	4	5	6	7	8	9
JAPONES		66	67	68	66	67	67	68	65	68
COREANO		61	69	66	59	60	62	69	63	65

a) Compruebe si las varianzas son iguales, con 95% de confianza

b) Realice la prueba de medias apropiada para generar conclusiones, con 95% de confianza

Prueba de datos apareados

En este caso se trata de dos poblaciones que de alguna manera están correlacionadas, por ejemplo Antes/después. El número de datos es el mismo para cada población porque hay una correspondencia de uno a uno entre los mismos. Se aplica una prueba de t de student .

Ejemplo

Un investigador compara las calificaciones de diez estudiantes antes y después de tomar una pastilla a base de Ginko biloba (que se supone mejora la inteligencia). En base a los resultados indique con un 97% de confianza si se produce un aumento de 10 puntos en los resultados, si se usan las cápsulas.

	JUAN	PEDRO	CARLOS	ESTELA	MARTIN	JUANY	KARLA	JOSE	MANUEL	STEFANI
ANTES	45	52	61	33	49	75	64	39	54	60
DESPUES	48	55	59	33	54	80	64	39	53	68

Ejercicio: con los datos del archivo nuevos compruebe si las notas de álgebra son iguales a las notas de física .

Análisis de varianza de un factor (completamente al azar)

Excel puede realizar análisis de varianza para diseño al completo azar, ya sea balanceado (iguales repeticiones por tratamiento) o desbalanceado (desiguales repeticiones por tratamiento). En el menú de análisis de datos se escoge la opción “Análisis de Varianza de un factor.

Ejemplo No. 1: Diseño balanceado

En el centro de investigación de los Hombres de Negro, se ensayan nuevas armas para atacar a una especie extraterrestre de plantas mutantes. El producto usado hasta la fecha es “Alien X”. Se aplicaron a especimenes dosis de los productos y se midiò la variable respuesta: porcentaje de destrucción de tejidos. Los resultados finales fueron:

X-1 45	ALIEN X 65	L4 82	ALIEN X 60
M6 42	M6 44	X-1 52	L4 86
L4 88	ALIEN X 62	M6 42	X-1 61
X-1 50	M6 42	L4 88	ALIEN X 65

Realice el andeva al 3% de significancia y escriba conclusiones y recomendaciones

Primero debe ordenarse los datos, obteniéndose lo siguiente:

X1	45	52	61 50
ALIEN X	65	60	62 65
L4	82	86	88 88
M6	42	44	42 42

Ejemplo 2: Diseño desbalanceado

Al probar concentraciones de 1, 2, 3 y 4 ppm de cierta encima más un control (en que no se añadió encima) para estudiar el efecto en la separación de un jugo de naranja. A cada tratamiento se aplicó 4 veces y se usó un diseño al completo azar. Se añadió agua a las 20 muestras y se midió el tiempo de separación (minutos) en cada muestra, los resultados fueron los siguientes

IMPORTANTE: LAS CELDAS DONDE FALTAN DATOS SE DEJAN EN BLANCO (NO INGRESAR CEROS)

Datos	I	II	III	IV
A CONTROL	3.96	6.24	5.42	11.11
B 1PPM	27.31	26.96	32.21	30.13
C 2PPM	35.30	34.71	Perdido	38.38
D 3PPM	41.09	43.99	48.70	41.78
E 4PPM	48.90	47.61	50.38	Perdido

a) realice el análisis de varianza al 5%

b) calcule el coeficiente de varianza

c) escriba conclusiones y recomendaciones

Análisis de varianza de dos factores (Bloques al azar)

También Excel puede realizar análisis de varianza para diseño en bloques al azar. Se escoge la opción “Análisis de varianza de dos factores con una sola muestra por grupo”

Esta opción no permite el caso de los diseños desbalanceados. En este caso se deben estimar los datos faltantes y efectuar el ajuste manual de grados de libertad, cuadrados medios, F calculada y F tabulada.

Ejemplo:

En un hospital hay cuatro sillones dentales, que son operados por cinco operadores distintos. Se cree que hay diferencias en el tiempo que tardan en cada sillón para realizar una extracción, por lo que se realiza un experimento en el cual cada operador realiza una extracción en cada sillòn dental. Se mide el tiempo necesario en minutos. Los resultados finales fueron:

Sillones/operador	JOSE	CARLOS	XIMENA	KARLA	MANUEL
1	15	9	20	11	18
2	12	14	25	19	22
3	18	17	19	14	12
4	10	10	18	10	15

Plantee la hipótesis pertinente

Calcule el análisis de varianza al 5% de significancia

Escriba conclusiones y recomendaciones

Análisis de Regresión

Excel puede realizar análisis de regresión para modelos simples y múltiples, El módulo de análisis tiene una opción para regresión:

Se debe definir el rango que contiene los datos de la variable dependiente (y)

En el rango de x, si el modelo es múltiple se ingresan varias columnas según la cantidad de variables independientes.

Ejemplo:

Los siguientes datos muestran el crecimiento poblacional de una aldea del interior del país:

año	habitantes
1900	300
1925	750
1950	1500
1975	4000
2000	7500

efectúe el ajuste del modelo lineal y estime que población habrá en la aldea para el año 2012

Estadística, Matemática y Computación

viernes, 1 de julio de 2011

Estadística Inferencial con Microsoft Excel (R)

1 comentario:

Datos personales

Visitas Totales