UNIVERSIDAD DE SAN CARLOS

FACULTAD DE INGENIERIA

DEPARTAMENTO DE ESTADISTICA

ANALISIS DE REGRESION SIMPLE GEOMETRICA

Ing. Agr. Luis Manfredo Reyes Chávez

Profesor Titular Departamento de Estadística

1. INTRODUCCION:

Este modelo de regresión es una alternativa cuando el modelo lineal no logra un coeficiente de determinación apropiado, o cuando el fenómeno en estudio tiene un comportamiento que puede considerarse exponencial. La forma más simple de tratar de establecer la tendencia es a través de un diagrama de dispersión o nube de puntos, tal como la siguiente:

Este modelo también es conocido como exponencial

2. Ecuación característica

La función que define el modelo es la siguiente:

Y_i=A*B^xi E

En la cual:

Y_i : Variable dependiente, iésima observación

A, B: Parámetros de la ecuación, que generalmente son

desconocidos

E: Error asociado al modelo

X_{i :} Valor de la í-esima observación de la variable independiente

Al sustituir los parámetros por estimadores, el modelo adopta la siguiente forma:

y_i=a*b^x_i

La ecuación se transforma aplicando logaritmos de ambos lados, con lo cual se convierte a una forma lineal:

Ln y_i= Ln a + x_i*Ln b

3. Tabla de datos

Para el ajuste de un conjunto de datos al modelo geométrico de regresión, se construye la siguiente tabla de datos:

X	Y	Ln y	X²	(ln y)²	*Xln y**

..	..	..	..	..	..


Σx		Σln y	Σx²	Σ(lny)²	*Σxlny**

Debido a las propiedades de los logaritmos, ningún valor de y puede ser negativo. En tal caso, lo que se hace es definir un valor de y muy pequeño (Ej: 0.00000001)

Se puede trabajar con logaritmos naturales o logaritmos base 10.

4. Estimadores del modelo

los estimadores para el ajuste del modelo se calculan de la siguiente manera:

Será necesario utilizar antilogaritmos para obtener los valores finales de a y b

5. Análisis de varianza para la regresión

Con el objeto de determinar si el modelo explica o no el fenómeno en estudio, se realiza el análisis de varianza, que se calcula de la siguiente manera

Fuente de Variación	Grados de libertad	Suma de cuadrados	Cuadrado medio	F calculada	F tabulada
Regresión	1	Ln b* (Σxlny-Σx*Σlny/n)	S.C. Reg/1	C.M.Reg/C.M.Error
Error	n-2	S.C. Total- S.C. Regresión	S.C. Error/(n-2)
Total	n-1	Σ(lny)²-(Σlny)² /n	n-1

Ho: El modelo no explica el fenómeno en estudio

Ha: El modelo sí explica el fenómeno en estudio

Para buscar en la tabla la F tabulada, se usan el el numerador los grados de libertad de regresión y en el denominador, de acuerdo al nivel de significancia escogido (los más usuales son al 5% y al 1%)
Si el valor de F calculada es mayor que el de F tabulada, se rechaza Ho, en caso contrario se acepta

6. Grado de ajuste del modelo

Para determinar el grado de ajuste del modelo, se calcula el coeficiente de determinación, de la siguiente manera:

7. Pruebas de Hipótesis para el modelo

7.1 Para el coeficiente b

Para probar la hipótesis de que el logaritmo del coeficiente b es igual a un valor b´, se procede así:

i) Se plantea la hipótesis Ho:Ln b=Ln b´ y la alternativa Ha: Ln b≠ Ln b´

ii) Se calcula el estadístico :

S_bes conocido como el error standard de b y se calcula de la siguiente manera:

El cuadrado medio del error se obtiene del anàlisis de varianza.

iii) Se busca en la tabla de t de student el valor tabulado para los siguientes datos:

n-2 grados de libertad y un nivel α/2

iv) Si el valor de t calculado es mayor que el tabulado, se rechaza la Ho, en caso

contrario, se acepta .

7.2 Para el coeficiente a

Se puede probar la hipótesis de que el coeficiente a es igual a un valor a´, para lo

cual se sigue el siguiente procedimiento:

i) Se define la hipótesis: Ho: a=a´ y la alternativa Ha: a≠a´

ii) Se calcula el error standard para a con la siguiente fórmula:

El cuadrado medio del error se obtiene del análisis de varianza

iii) Se calcula el estadístico de prueba:

iv) Se obtiene en la tabla de t de student el estadístico comparador, con los siguientes datos: n-2 grados de libertad y nivel α/2

v) Si el valor de t calculado es mayor que el tabulado, se rechaza la Ho, en caso contrario, la hipótesis se acepta

8. Intervalos de confianza

8.1 Para el coeficiente b

El intervalo de confianza para el coeficiente b se calcula así:

El cuadrado medio del error se obtiene del análisis de varianza

El valor de t se obtiene de la tabla de t de student con n-2 grados de libertad y un

nivel α/2

8.2 Para el coeficiente a

El intervalo de confianza para el coeficiente a se calcula así:

El cuadrado medio del error se obtiene del análisis de varianza

El valor de t se obtiene de la tabla de t de student con n-2 grados de libertad y un

nivel α/2

8.3 para la media de y

Un intervalo de confianza para la respuesta media de y, dado x₀ sería:

El cuadrado medio del error se obtiene del análisis de varianza

El valor de t se obtiene de la tabla de t de student con n-2 grados de libertad y un

nivel α/2

El valor de x_mque aparece en la fórmula es el promedio de valores de x

8.4 para la estimación de y

El intervalo de confianza para la estimación de y, dado un valor de x₀se obtiene de la siguiente manera:

El cuadrado medio del error se obtiene del análisis de varianza

El valor de t se obtiene de la tabla de t de student con n-2 grados de libertad y un

nivel α/2

El valor de x_mque aparece en la fórmula es el promedio de valores de x

9. Càlculo de estimadores, coeficiente de determinaciòn y anàlisis de varianza mediante el uso de matrices

Un mètodo alternativo para realizar los càlculos, es el uso de matrices. En este caso, el procedimiento es el siguiente:

i) formar la matriz x: (matriz de variable independiente), agregando la primera columna formada por unos:

1	x₁
1	x₂
...	.....
1	x_n

ii) Formar el vector de logaritmos de y

Ln y₁

Ln y₂

.....

Ln y_n

iii) Formar la matriz x transpuesta ( x´)

1	1	...	1
x₁	x₂	...	xn

iv) Calcular el producto matricial x´x

v) Calcular la inversa del producto x´x [ o sea (x´x)^-1]

vi) Calcular el producto x´y

vii) Calcular el producto (x´x)^-1*(x´y)=b

El resultado de esta operaciòn es el vector de coeficientes de regresiòn en forma logarìtmica, de modo que para formar la ecuaciòn original se obtienen los antilogaritmos.

viii) Para el càlculo del anàlisis de varianza, se tienen las siguientes operaciones

matriciales:

Fuente de Variación	Grados de libertad	Suma de cuadrados	Cuadrado medio	F calculada	F tabulada
Regresión	1	b´( x´ )(y) – ny_m²	S.C. Reg/1	C.M.Reg/C.M.Error	*
Error	n-2	y´y-b( x´ )(y)	S.C. Error/(n-2)
Total	n-1	y´y-ny_m²	n-1

y_mes el promedio de los logaritmos de y

ix) Finalmente, el coeficiente de determinaciòn por matrices se obtiene de la

siguiente manera:

r²= {b´(x´)(y)-ny_m²}/(y´y- ny_m²)

10. Por fin un ejemplo!

Según los registros municipales, la población de una comunidad ha evolucionado de la siguiente manera:

AÑO	HABITANTES
1900	375
1920	735
1940	1220
1960	1845
1980	2333
2000	3800

En base a los datos anteriores:

a) Construya un diagrama de dispersión

b) Efectúe la estimaciòn del modelo geométrico

c) Determine el grado de ajuste e interprételo

d) Elabore el análisis de varianza y discútalo

e) Qué población habrá en el año 2010?

f) Pruebe la hipòtesis que b=1 con un 99% de confianza

g) Calcule intervalo de confianza al 95% para a y b

h) Efectùe la estimaciòn del modelo, el andeva y obtenga el coeficiente de determinaciòn por medio de matrices.

a) Diagrama de Dispersión

b) Estimadores del modelo

i) Tabla de Datos:

x	y	ln y	x²	(ln y)²	*xlny**
1900	375	5.9269	3,610,000	35.1285	11,261.1594
1920	735	6.5999	3,686,400	43.5583	12,671.7514
1940	1220	7.1066	3,763,600	50.5039	13,786.8159
1960	1845	7.5202	3,841,600	56.5539	14,739.6597
1980	2333	7.7549	3,920,400	60.1386	15,354.7223
2000	3800	8.2428	4,000,000	67.9430	16,485.5127
Σ=11700		Σ=43.1513	Σ=22,822,000	Σ=313.8262	Σ=84,299.6215

ii) Estimadores del modelo

Ecuación Final: y_i=1.02232*(2.6416 x 10^-16)^xi

c) Grado de ajuste del modelo

El coeficiente de determinación se calcula así:

Se puede concluir que el grado de ajuste del modelo es alto, por lo que el modelo es confiable para hacer predicciones.

d) Análisis de varianza del modelo

iii) Suma de cuadrados del error : 3.4870-3.4137= 0.0733

iv) Grados de libertad de regresion=1

v) Grados de libertad totales= 6-1=5

vi) Grados de libertad del error=6-2=4

vii) Cuadrado medio de regresión= 3.4137/1=3.4137

viii) Cuadrado medio del error= 0.0733/4=0.01832

ix) F Calculada=3.4137/0.01832=186.33

x) F Tabulada (1,4,0.01)=21.197

xi) Tabla de Andeva:

Fuente de Variación	Grados de libertad	Suma de cuadrados	Cuadrado medio	F calculada	F tabulada
Regresión	1	3.4137	3.4137	186.33	21.19*
Error	4	0.0733	0.01832
Total	5	3.4870

Debido a que F calculada es mayor que F tabulada, se rechaza la Ho y se acepta la Ha, con lo cual se concluye que el modelo sì explica el fenòmeno en estudio y que los resultados obtenidos no se deben a la casualidad.

e) Què poblaciòn habrà en el año 2010?

Para esto, simplemente se utiliza la ecuaciòn anteriormente encontrada por estimaciòn, sustituyendo el valor de x por 2010

y= 1.02232*(2.6416 x 10^-16)²⁰¹⁰=4998.26

En algunas calculadoras e incluso computadoras, èste càlculo puede no ser posible de realizar, en cuyo caso se puede aplicar la operaciòn equivalente por medio de los logaritmos de los estimadores:

Ln y= -35.8694+0.02208*2010=8.51684

finalmente y= e^8.51684= 4998.26

f) Pruebe la hipòtesis de que b=1 con un 99% de confianza

Inicialmente se plantea Ho: b=1 y su alterna Ha: b≠1

A continuaciòn se obtiene el error standard de b:

El valor de t de student de calcula de la siguiente manera: (el logaritmo de 1 es cero)

El valor de t se obtiene en la tabla de t de student, con 6-2=4 grados de libertad y (1-.99)/2=0.005 de α, siendo el valor igual a 4.604

Finalmente, dado que t calculada es mayor que la tabulada, se concluye al 99% que el coeficiente b no es igual a 1.

g) Calcule intervalos de confianza al 95% para a y b

El valor de t de student al 95% con 4 grados de libertad es= 2.776

Intervalo de confianza para el logaritmo de b:

El intervalo final será entonces el siguiente: 0.017593<Ln B<0.026573

Intervalo de confianza para a:

El intervalo final para el logaritmo de a sería: -36.0682< Ln A <-35.6716

i) Ajuste del modelo y análisis de varianza mediante matrices:

Matriz x: Matriz x transpuesta ( x´ )

1	1	1	1	1	1
1900	1920	1940	1960	1980	2000

Vector y: 5.9269

6.5999

7.1066

7.5202
7.7549

8.2428

Producto x´x:

6	11700
11700	22,822,000

Matriz inversa de x´x:

543.3809	-0.2785
-0.2785	0.000142

Producto x ´ y

43.1513

84,299.616

Producto Final b=(x´x)^-1* (x ´ y)

-35.8699

0.022083

Análisis de varianza

Suma de cuadrados de regresión= b´x´y- ny_m²=3.4137

Suma de cuadrados total=y´y-ny_m²=3.487

Suma de cuadrados del error =: 3.4870-3.4137= 0.0733

Grados de libertad de regresion=1

Grados de libertad totales= 6-1=5

Grados de libertad del error=6-2=4

Cuadrado medio de regresión= 3.4137/1=3.4137

Cuadrado medio del error= 0.0733/4=0.01832

F Calculada=3.4137/0.01832=186.33

F Tabulada (1,4,0.01)=21.197

Análisis de Varianza Final:

Fuente de Variación	Grados de libertad	Suma de cuadrados	Cuadrado medio	F calculada	F tabulada
Regresión	1	3.4137	3.4137	186.33	21.19*
Error	4	0.0733	0.01832
Total	5	3.4870

Estadística, Matemática y Computación

domingo, 10 de julio de 2011

Análisis de Regresión Geométrica

UNIVERSIDAD DE SAN CARLOS

DEPARTAMENTO DE ESTADISTICA

ANALISIS DE REGRESION SIMPLE GEOMETRICA

No hay comentarios:

Publicar un comentario

Colaboradores

Visitas Totales