viernes, 1 de julio de 2011

Estadística Inferencial con Microsoft Excel (R)

ESTADISTICA INFERENCIAL CON MICROSOFT EXCEL®

  1. INTRODUCCION:
La inferencia es la rama de la estadística que se dedica a elaborar conclusiones válidas para toda una población, a partir de un conjunto de datos, que generalmente son solamente una fracción del total de datos (muestra).  

Existe una variedad de técnicas para elaborar dichas conclusiones, las que dependen básicamente de tres cosas:
a)    La naturaleza de los datos (cuantitativos, cualitativos)
b)    La cantidad de datos
c)    La naturaleza de la comparación realizada

Microsoft Excel es una herramienta ampliamente utilizada en la sociedad actual, sin embargo se desconocen muchas de sus capacidades de cálculo en diferentes áreas. El objetivo de este curso corto es dar a conocer las aplicaciones de Excel en la inferencia estadística, que están disponibles para el usuario.

  1. CONCEPTOS BÁSICOS DE LA INFERENCIA ESTADÍSTICA


POBLACIÓN: Es un conjunto, cuyos elementos poseen características comunes, las cuales son del interés del investigador, y que pueden ser observadas (medidas)

La estadística como ciencia se dedica al estudio de las poblaciones. Sin embargo en la mayoría de situaciones no es posible estudiar a la población completa. La solución es estudiar una fracción de la población (muestra) y elaborar conclusiones para toda la población a partir de dichos datos.

MUESTRA:  Es una fracción de la población extraída para  el estudio de la misma. Para que los resultados sean válidos, es necesario que la muestra sea REPRESENTATIVA de la población de donde proviene. Para ello, debe reunir los siguientes requisitos
a)    Debe extraerse al azar
b)    Debe generar suficiente varianza
c)    Debe tener un tamaño apropiado

NIVEL DE CONFIANZA: Debido a que la mayoría de veces se trabaja con muestras, siempre existirá la posibilidad de cometer errores al momento de elaborar una inferencia. Para enfrentar esta situación, se define una probabilidad de éxito llamada Nivel de confianza.   Debido a costumbres que han ido quedando, se trabaja con un nivel de confianza del 95%, sin embargo el investigador tiene el derecho de escoger otro nivel a su gusto o conveniencia.

NIVEL DE SIGNIFICANCIA: Es el complemento del nivel de confianza. Usualmente se representa con la letra griega alfa (α). Corresponde a la probabilidad de fracaso.

HIPÓTESIS
Cualquier suposición preliminar acerca de cualquier fenómeno. En el caso de la estadística, la suposición se realiza sobre los parámetros de una población. Básicamente existen dos tipos de hipótesis: la Nula (Ho), que se plantea con la intención de ser rechazada, y la alterna (Ha) que se plantea con la intención de ser aceptada.
El procedimiento para una prueba de hipótesis, incluye las siguientes etapas:
a)    Planteamiento de las hipótesis
b)    Cálculo de un estadístico de prueba (Z, t, F, o Chi cuadrado)
c)    Obtención de un comparador, de una tabla (Z, t, F, Chi Cuadrado)
d)    Aplicación de una regla de decisión

En este curso  no se hará énfasis en las fórmulas sino en las aplicaciones, tomando en cuenta la naturaleza de los datos.

  1. MÓDULO DE ANÁLISIS DE DATOS DE MICROSOFT EXCEL®
Uno de los complementos que posee Microsoft Excel es un módulo de análisis de datos. En la mayoría de instalaciones de Excel éste módulo no esta habilitado, por lo cual lo primero que debe hacerse es habilitarlo, siguiendo los siguientes pasos:

a)    Dar Click sobre el menú de Excel.(El símbolo --à)
b)    Seleccionar la pestaña OPCIONES DE EXCEL
c)    Seleccionar la pestaña COMPLEMENTOS
d)    Seleccionar la opción Administrar complementos (IR)
e)    Activar las casillas de Análisis de Datos y Análisis de datos VBA
f)     Dar click en la opción ACEPTAR

Descripción del Menú de Análisis
El menú de análisis está dentro de la pestaña DATOS-->    Análisis de Datos
El menú tiene la siguiente apariencia:

Aunque las opciones se encuentran en un orden extraño, se describirán en el orden lógico de un curso de estadística inferencial.

  1. Análisis descriptivo:
Aunque Excel tiene funciones individuales para análisis de datos cuantitativos, existe la opción de un análisis más extenso. Para ello se selecciona la pestaña ESTADISTICA DESCRIPTIVA en el menú de análisis de datos.

Se presenta la siguiente ventana:



El rango de entrada puede tener una o más variables, las cuales pueden estar ordenadas por filas o por columnas. Se debe definir esto activando el indicador respectivo. Si en la primera fila o columna hay nombres de variables, se debe activar la opción Rótulos en la primera fila

Los resultados se pueden mostrar en una hoja nueva, un libro nuevo, pero usualmente es en la misma hoja, para lo cual se debe definir el lugar .

Si se desea un detalle de las estadísticas más importantes se marca la casilla “Resumen de Estadísticas.

Si se desea un intervalo de confianza para la media, debe marcarse la casilla y  definirse un nivel de confianza.
Se pueden obtener los números mayor y menor del conjunto o bien los segundos, terceros, etc, para lo cual se marcan las casillas y se indica el orden (1,2,3)

EJERCICIO:
Para el siguiente conjunto de datos, calcule las estadísticas más importantes y un intervalo de confianza al 97%
15 9 20 11 18 12 14   19 22 18 17 19 14 12 10 10 18 10 15 
   
Los resultados obtenidos son los siguientes





5. Prueba de igualdad de varianzas
El objetivo de esta prueba es determinar si las varianzas de dos poblaciones (o en todo caso de sus muestras son iguales)
Se requieren datos de las dos poblaciones y no se asume normalidad de las variables.
El estadístico de prueba es un F, la razón de dos varianzas.
En el menú de análisis de datos se escoge la opción “Prueba de F para varianzas de dos muestras”: Se debe ingresar la ubicación de los datos y el nivel de significancia deseado.
Ejemplo:para los siguientes datos, comprube con 5% de significancia si las varianzas son iguales
Se toman 10 datos al azar de ambas secciones de un curso  son los siguientes resultados:


SECCION
1
2
3
4
5
6
7
8
9
10
A
62
48
55
33
65
46
70
55
40
49
B
33
38
15
39
57
45
38
40
42
55
6. Prueba de medias para la diferencia de medias de dos poblaciones
Se asume que las poblaciones tienen distribución normal. Existen tres casos para esta situación:
a)    Cuando las varianzas poblacionales son conocidas
b)    Las varianzas poblacionales son desconocidas pero iguales
c)    Las varianzas poblacionales son desconocidas y no son iguales

CASO 1: VARIANZAS CONOCIDAS
Se debe escoger la opción  “Prueba de Z para medias de dos muestras”. Además de los datos de las dos poblaciones se ingresan los datos de las varianzas poblacionales.

Ejemplo: Se conoce que las varianzas de las calificaciones de los Cursos de Matemática 1 Sección “A” y Matemática 1 sección “B” son respecivamente 625 y 2,500 puntos cuadrados.
Se toman 10 datos al azar de ambas secciones son los siguientes resultados:
SECCION
1
2
3
4
5
6
7
8
9
10
A
62
48
55
33
65
46
70
55
40
49
B
33
38
15
39
57
45
38
40
42
55

Pruebe la hipótesis que los alumnos de la sección “A” tienen mayor promedio que los de la sección “B” , con un 97% de confianza.





CASO 2: VARIANZAS DESCONOCIDAS PERO IGUALES
En este caso se aplica una prueba de t de student. En el menú de análisis de datos se escoge la opción “Prueba de t para dos muestras suponiendo varianzas iguales”


Ejemplo:
Se desea probar si hay diferencia entre los salarios diarios de los empleados de dos diferentes empresas. Los resultados del muestreo son los siguientes.
POBLACION
1
2
3
4
5
6
7
8
9
Empresa1
350
419
385
360
405
395
389
409
375
Empresa 2
370
425
369
375
389
385
395
425
400

a)    Compruebe si las varianzas son iguales, con 95% de confianza
b)    Realice la prueba de medias apropiada para generar conclusiones, con 95% de confianza






Ejercicio: con los datos del archivo nuevo compruebe si las notas de los graduados de establecimientos públicos son iguales que las de graduados de establecimientos privados.


Caso 3. Las varianzas son desconocidas y no son iguales.
En este caso también se aplica una prueba de t de Student, pero los cálculos se realizan en otra forma. En el menú de análisis de datos se escoge la opción “Prueba de t para dos medias suponiendo varianzas desiguales”.


Ejemplo: comparación del rendimiento de dos automóviles compactos, uno japonés y el otro coreano, del mismo cilindraje. Variable: kilómetros por galón.

ORIGEN
1
2
3
4
5
6
7
8
9
JAPONES
66
67
68
66
67
67
68
65
68
COREANO
61
69
66
59
60
62
69
63
65

a)    Compruebe si las varianzas son iguales, con 95% de confianza
b)    Realice la prueba de medias apropiada para generar conclusiones, con 95% de confianza

Prueba de datos apareados

 
En este caso se trata de dos poblaciones que de alguna manera están correlacionadas, por ejemplo Antes/después. El número de datos es el mismo para cada población porque hay una correspondencia de uno a uno entre los mismos. Se aplica una prueba de t de student .


Ejemplo
Un investigador compara las calificaciones de diez estudiantes antes y después de tomar una pastilla a base de Ginko biloba (que se supone mejora la inteligencia). En base a los resultados indique con un 97% de confianza si se produce un aumento de 10 puntos en los resultados, si se usan las cápsulas.


JUAN
PEDRO
CARLOS
ESTELA
MARTIN
JUANY
KARLA
JOSE
MANUEL
STEFANI
ANTES
45
52
61
33
49
75
64
39
54
60
DESPUES
48
55
59
33
54
80
64
39
53
68


Ejercicio: con los datos del archivo nuevos compruebe si las notas de álgebra son iguales a las notas de física .



  1. Análisis de varianza de un factor (completamente al azar)
Excel puede realizar análisis de varianza para diseño al completo azar, ya sea balanceado (iguales repeticiones por tratamiento) o desbalanceado (desiguales repeticiones por tratamiento). En el menú de análisis de datos se escoge la opción “Análisis de Varianza de un factor.

Ejemplo No. 1: Diseño balanceado
En el centro de investigación de los Hombres de Negro, se ensayan  nuevas armas para atacar a  una especie extraterrestre de plantas mutantes. El producto usado hasta la fecha es “Alien X”. Se aplicaron a especimenes dosis de los productos y se midiò la variable respuesta: porcentaje de destrucción de tejidos. Los resultados finales fueron:

X-1   45
ALIEN X  65
L4  82
ALIEN X 60
M6   42
M6    44
X-1 52
L4  86
L4   88
ALIEN X   62
M6   42
X-1 61
X-1   50
M6   42
L4   88
ALIEN X 65

Realice el andeva al 3% de significancia y escriba conclusiones y recomendaciones
Primero debe ordenarse los datos, obteniéndose lo siguiente:
X1
45
52
61                  50
ALIEN X
65
60
62                   65
L4
82
86
88                    88
M6
42
44
42                   42




Ejemplo 2: Diseño desbalanceado
Al probar concentraciones de 1, 2, 3 y 4 ppm de cierta encima más un control (en que no se añadió encima) para estudiar el efecto en la separación de un jugo de naranja.  A cada tratamiento se aplicó 4 veces y se usó un diseño al completo azar.  Se añadió agua a las 20 muestras y se midió el tiempo de separación (minutos) en cada muestra, los resultados fueron los siguientes
IMPORTANTE: LAS CELDAS DONDE FALTAN DATOS SE DEJAN EN BLANCO (NO INGRESAR CEROS)     
Datos
I
II
III
IV
A CONTROL
3.96
6.24
5.42
11.11
B 1PPM
27.31
26.96
32.21
30.13
C 2PPM
35.30
34.71
Perdido
38.38
D 3PPM
41.09
43.99
48.70
41.78
E 4PPM
48.90
47.61
50.38
Perdido

a)    realice el análisis de varianza al 5%
b)    calcule el coeficiente de varianza
c)    escriba conclusiones y recomendaciones


Análisis de varianza de dos factores (Bloques al azar)
También Excel puede realizar análisis de varianza para diseño en bloques al azar. Se escoge la opción “Análisis de varianza de dos factores con una sola muestra por grupo”

Esta opción no permite el caso de los diseños desbalanceados. En este caso se deben estimar los datos faltantes y efectuar el ajuste manual de grados de libertad, cuadrados medios, F calculada y F tabulada.

Ejemplo:
En un hospital hay cuatro sillones dentales, que son operados por cinco operadores distintos. Se cree que hay diferencias en el tiempo que tardan en cada sillón para realizar una extracción, por lo que se realiza un experimento en el cual cada operador realiza una extracción en cada sillòn dental. Se mide el tiempo necesario en minutos. Los resultados finales fueron:
Sillones/operador
JOSE
CARLOS
XIMENA
KARLA
MANUEL
1
15
9
20
11
18
2
12
14
25
19
22
3
18
17
19
14
12
4
10
10
18
10
15

Plantee la hipótesis pertinente
Calcule el análisis de varianza al 5% de significancia
Escriba conclusiones y recomendaciones


Análisis de Regresión
Excel puede realizar análisis de regresión para modelos simples y múltiples, El módulo de análisis tiene una opción para regresión:


Se debe definir el rango que contiene los datos de la variable dependiente (y)
En el rango de x, si el modelo es múltiple se ingresan varias columnas según la cantidad de variables independientes.

Ejemplo:
Los siguientes datos muestran el crecimiento poblacional de una aldea del interior del país:
año
habitantes
1900
300
1925
750
1950
1500
1975
4000
2000
7500


efectúe el ajuste del modelo lineal  y estime  que población  habrá en la aldea para el año 2012























1 comentario: