martes, 5 de julio de 2011

Análisis de Regresión Cuadrática

UNIVERSIDAD DE SAN CARLOS
FACULTAD DE INGENIERIA

ANALISIS DE REGRESION CUADRATICA

Ing. Agr. Luis Manfredo Reyes Chávez

Profesor Titular Departamento de Estadística

1. INTRODUCCION:
El modelo de regresión cuadrática es una alternativa cuando el modelo lineal no logra un coeficiente de determinación apropiado, o cuando el fenómeno en estudio tiene un comportamiento que puede considerarse como parabólico.  La forma más simple de tratar de establecer la tendencia es a través de un diagrama de dispersión o nube de puntos, tal como la siguiente:


Este modelo también es conocido como parabólico, y es el caso más simple de modelos de regresión polinomiales, siendo su grado igual a 2.

2. Ecuación característica
La función que define el modelo es la siguiente:

Yi=A+Bxi+Cxi2+E

En la cual:
                        Yi :                  Variable dependiente, iésima observación
A, B, C:          Parámetros de la ecuación, que generalmente son desconocidos
                        E:                    Error asociado al modelo
                        Xi :                   Valor de la í-esima observación de la variable independiente

Al sustituir los parámetros por estimadores, el modelo adopta la siguiente forma:

yi=a+bxi+cxi2


3. Tabla de datos
Para el ajuste de un conjunto de datos al modelo cuadrático de regresión, se construye la siguiente tabla de datos:

X
y
X2
X3
X4
X* y
X2*y
y2








..
..
..
..
..
..
..
..
















Σx
Σy
Σx2
Σx3
Σx4
Σ x*y
Σx2y
Σy2


4. Estimadores del modelo
los estimadores para el ajuste del modelo se calculan de la siguiente manera:




5. Análisis de varianza para la regresión
Con el objeto de determinar si el modelo explica o no el fenómeno en estudio, se realiza el análisis de varianza, que se calcula de la siguiente manera


Fuente de Variación
Grados de libertad
Suma de cuadrados
Cuadrado medio
F calculada
F tabulada
Regresión
         2
b* (Σxy-Σx*Σy/n)+c*( Σx2y- Σx2* Σy/n)
S.C. Reg/2
C.M.Reg/C.M.Error

Error
      n-3
S.C. Total- S.C. Regresión
S.C. Error/(n-3)


Total
      n-1
Σ(y)2-(Σy)2 /n





Ho: El modelo no explica el fenómeno en estudio
Ha: El modelo sí explica el fenómeno en estudio

  • Para buscar en la tabla la F tabulada, se usan el el numerador los grados de libertad de regresión y en el denominador, de acuerdo al nivel de significancia escogido (los más usuales son al 5% y al 1%)
  • Si el valor de F calculada es mayor que el de F tabulada, se rechaza Ho, en caso contrario se acepta

6. Grado de ajuste del modelo
Para determinar el grado de ajuste del modelo, se calcula el coeficiente de determinación, de la siguiente manera:


7. Càlculo de estimadores, coeficiente de determinaciòn y anàlisis de varianza mediante el uso de matrices
Un mètodo alternativo para realizar los càlculos, es el uso de matrices. En este caso, el procedimiento es el siguiente:

i)             formar la matriz x: (matriz de variable independiente), agregando la primera columna formada por unos y una tercera columna formada por los valores de x elevados al cuadrado:
       
1
x1
X12
1
x2
X22
...
.....
.....
1
xn
Xn2

ii)            Formar el vector de valores de y

 y1
 y2
.....
 yn

iii) Formar la matriz x transpuesta ( x´)

1
1
...
1
x1
x2
...
xn
X12
X22
...
Xn2

iv)   Calcular el producto matricial x´x
v)    Calcular la inversa del producto x´x (o sea  [x´x]-1
vi)  Calcular el producto x´y
vii)  Calcular el producto (x´x)-1*(x´y)=D
El resultado de esta operaciòn es el vector de coeficientes de regresiòn en el orden a,b,c
viii)  Para el càlculo del anàlisis de varianza, se tienen las siguientes operaciones
      matriciales:

Fuente de Variación
Grados de libertad
Suma de cuadrados
Cuadrado medio
F calculada
F tabulada
Regresión
         2
D´( x´ )(y)-nym2
S.C. Reg/2
C.M.Reg/C.M.Error
*
Error
      n-3
y´y-D´( x´ )(y)
S.C. Error/(n-3)


Total
      n-1
y´y- nym2




El valor de ym que se usa en los cálculos es el promedio de valores de y (Σy/n)

ix) Finalmente, el coeficiente de determinaciòn por  matrices se obtiene de la
      siguiente manera:

r2=  [D´(x´)(y)- nym2]/[(y´y)- nym2 ]

8. Pruebas de Hipótesis para el modelo
Para el planteo y prueba de hipótesis, es necesario definir el término “multiplicadores de Gauss
Los multiplicadores de Gauss son los elementos de la matriz inversa x´x:



7.1 Para el coeficiente b
Para probar la hipótesis de que el  coeficiente b es igual a un valor b´,  se procede de la siguiente manera:

i) Se plantea la hipótesis   Ho: b= b´ y la alternativa Ha:   b≠ 
ii) Se calcula el estadístico :

  
Sb es conocido como el error standard de b y se calcula de la siguiente manera:
El cuadrado medio del error se obtiene del anàlisis de varianza.

iii) Se busca en la tabla de t de student el valor tabulado para los siguientes datos:
      n-3 grados de libertad y un nivel α/2

iv) Si el valor de t calculado es mayor que el tabulado, se rechaza la Ho, en caso               
     contrario, se acepta .

7.2 Para el coeficiente c
Para probar la hipótesis de que el  coeficiente c es igual a un valor c´,  se procede de la siguiente manera:

i) Se plantea la hipótesis   Ho: c= c´ y la alternativa Ha:   c≠ 
ii) Se calcula el estadístico :

Sb es conocido como el error standard de b y se calcula de la siguiente manera:

El cuadrado medio del error se obtiene del anàlisis de varianza.

iii) Se busca en la tabla de t de student el valor tabulado para los siguientes datos:
      n-3 grados de libertad y un nivel α/2

iv) Si el valor de t calculado es mayor que el tabulado, se rechaza la Ho, en caso              
     contrario, se acepta .

7.3 Para el coeficiente a
       Se puede probar la hipótesis de que el coeficiente a es igual a un valor a´, para lo
      cual se sigue el siguiente procedimiento:

i)             Se define la hipótesis:  Ho: a=a´ y la alternativa Ha: a≠a´
ii)            Se calcula el error standard para a con la siguiente fórmula:

iii)           Se calcula el estadístico de prueba:


iv)           Se obtiene en la tabla de t de student el estadístico comparador, con los siguientes datos: n-3 grados de libertad y nivel α/2
v)            Si el valor de t calculado es mayor que el tabulado, se rechaza la Ho, en caso contrario, la hipótesis se acepta

8. Intervalos de confianza

8.1 Para el coeficiente b
       El intervalo de confianza para el coeficiente b se calcula así:

       El cuadrado medio del error se obtiene del análisis de varianza
       El valor de t se obtiene de la tabla de t de student con n-3 grados de libertad y un
       nivel α/2

8.2 Para el coeficiente c
       El intervalo de confianza para el coeficiente b se calcula así:


       El cuadrado medio del error se obtiene del análisis de varianza
       El valor de t se obtiene de la tabla de t de student con n-3 grados de libertad y un
       nivel α/2

8.3 Para el coeficiente a
       El intervalo de confianza para el coeficiente a se calcula así:

       El cuadrado medio del error se obtiene del análisis de varianza
       El valor de t se obtiene de la tabla de t de student con n-3 grados de libertad y un
       nivel α/2

8.5 para la respuesta media de y, con valores de x fijos
Un intervalo de confianza para la respuesta media de y, dado x0  sería:


       El cuadrado medio del error se obtiene del análisis de varianza
       El valor de t se obtiene de la tabla de t de student con n-3 grados de libertad y un
       nivel α/2
       El vector x0 contiene los valores de x para los que se calcula el valor de y. Para obtener el valor de y que se usa en ésta fórmula, se sustituye en la ecuación de regresión obtenida los valores de x y x al cuadrado.

8.4 para la estimación de y
El intervalo de confianza para la estimación de y, dado un valor de x0 se obtiene de la siguiente manera:


       El cuadrado medio del error se obtiene del análisis de varianza
       El valor de t se obtiene de la tabla de t de student con n-3 grados de libertad y un
       nivel α/2

10. Por fin un ejemplo!
Se realiza una prueba de frenado de un automóvil nuevo, midiendo la distancia de parada de acuerdo a la rapidez del vehículo al momento de aplicar los frenos, obteniéndose los siguientes resultados:

RAPIDEZ
Km/h
DISTANCIA
Metros
35
16
50
26
65
41
80
62
95
88
110
119

En base a los datos anteriores:
a)    Construya un diagrama de dispersión
b)    Efectúe la estimaciòn del modelo cuadrático
c)    Determine el grado de ajuste e interprételo
d)    Elabore el análisis de varianza y discútalo
e)    Si el vehículo viaja a 100 km/h, en qué distancia se detiene?
f)     Pruebe la hipòtesis que b=1 con un 99% de confianza
g)    Calcule intervalo de confianza al 95% para a y b
h)   Efectùe la estimaciòn del modelo, el andeva y obtenga el coeficiente de determinaciòn por medio de matrices.

a)    Diagrama de Dispersión

b) Estimadores del modelo

i)             Tabla de Datos:
x
y
x2
x3
x4
xy
x2y
y2
35
16
1,225
42,875
1,500,625
560
19,600
256
50
26
2,500
125,000
6,250,000
1,300
65,000
676
65
41
4,225
274,625
17,850,625
2,665
173,225
1,681
80
62
6,400
512,000
40,960,000
4,960
396,800
3,844
95
88
9,025
857,375
81,450,625
8,360
794,200
7,744
110
119
12,100
1,331,000
146,410,000
13,090
1,439,900
14,161
Σ=435
Σ=352
Σ=35,475
Σ=3,142,875
Σ=294,421,875
Σ=30,935
Σ=2,888,725
Σ=28,362


ii)            Estimadores del modelo



Ecuación Final: 
Yi=13.3587-.3394xi+0.01182xi2


c)            Grado de ajuste del modelo
El coeficiente de determinación se calcula así:


Se puede concluir que el grado de ajuste del modelo es alto (casi perfecto!), por lo que el modelo es confiable para hacer predicciones.

d)            Análisis de varianza del modelo

i) Suma de cuadrados de regresión:

ii) Suma de cuadrados Total

=7711.3333


iii)           Suma de cuadrados del error : 7711.3333-7711.2119=0.12143
iv)           Grados de libertad de regresion=2
v)            Grados de libertad totales= 6-1=5
vi)           Grados de libertad del error=6-3=3
vii)         Cuadrado medio de regresión= 7711.2119/2=3855.5069
viii)        Cuadrado medio del error= 0.1243/3=0.04048
ix)           F Calculada=3855.5069/0.04048=95256.147
x)            F Tabulada (2,3,0.01)=30.82
xi)           Tabla de Andeva:

Fuente de Variación
Grados de libertad
Suma de cuadrados
Cuadrado medio
F calculada
F tabulada
Regresión
      2
7711.2119
 3855.60595
 95256.14
 30.82**
Error
      3
0.12143
 0.04048


Total
      5
7711.33333




Debido a que F calculada es mayor que F tabulada, se rechaza la Ho y se acepta la Ha, con lo cual se concluye que el modelo sì explica el fenòmeno en estudio y que los resultados obtenidos no se deben a la casualidad.

e) Si el vehículo viaja a 100 km/h, en qué distancia se detiene?

Para esto, simplemente se utiliza la ecuaciòn anteriormente encontrada por estimaciòn, sustituyendo el valor de x por 100

y= 13.3587-.3394(100)+0.01182(100)2=97.618 m


f) Pruebe la hipòtesis de que b=1 con un 99% de confianza
    Inicialmente se plantea Ho:  b=1 y su alterna Ha: b≠1
    A continuaciòn se obtiene el error standard de b:

El valor de t de student de calcula de la siguiente manera:

El valor de t se obtiene en la tabla de t de student, con 6-3 grados de libertad y (1-.99)/2=0.005 de α, siendo el valor igual a 5.840

Finalmente, dado que t calculada es mayor que la tabulada, se concluye al 99% que el coeficiente b no es igual a 1.

g) Calcule intervalos de confianza al 95% para a y b 
     El valor de t de student al 95% (α/2=0.05/2=0.025) con 3 grados de libertad es= 3.182
Intervalo de confianza para  b:



El intervalo final será entonces el siguiente: -0.40766<B<-0.27114

Intervalo de confianza para a:



El intervalo final para a sería: 11.0775<A<15.6399

i)     Ajuste del modelo y análisis de varianza mediante matrices:

Matriz x:
1
35
1225
1
50
2500
1
65
4225
1
80
6400
1
95
9025
1
110
12100
     
Matriz x transpuesta ( x´ )
1
1
1
1
1
1
35 
50
65
80
95
110
1225
2500
4225
6400
9025
12100


Vector y:

16
26
41
62
88
119


Producto x´x:

6
435
35475
435
35475
3142875
35475
3142875
294421875

Matriz inversa de x´x:
12.6973
-0.3713
0.002433
-0.3713
0.01137
-0.00007671
0.002433
-0.00007671
0.0000005291

Producto x ´ y

352
30935
2888725

Producto Final b=(x´x)-1*  (x ´ y)
13.3587
-0.3394
0.01182

Análisis de varianza
ym=352/6=58.666
Suma de cuadrados de regresión= b´x´y-nym2=


Suma de cuadrados total= y´y- nym2=




Suma de cuadrados del error : 7711.3333-7711.2119=0.12143
Grados de libertad de regresion=2
Grados de libertad totales= 6-1=5
Grados de libertad del error=6-3=3
Cuadrado medio de regresión= 7711.2119/2=3855.5069
Cuadrado medio del error= 0.1243/3=0.04048
F Calculada=3855.5069/0.04048=95256.147
F Tabulada (2,3,0.01)=30.82


Análisis de  Varianza Final:

Fuente de Variación
Grados de libertad
Suma de cuadrados
Cuadrado medio
F calculada
F tabulada
Regresión
      2
7711.2119
 3855.60595
 95256.14
 30.82**
Error
      3
0.12143
 0.04048


Total
      5
7711.33333




2 comentarios:

  1. Muy interesante, gracias, la razón de entrar aquí fué que estoy calculando la relación entre el Déficit Chipriota y el español, me salen en SPSS R^2=0,732, sig: 0 y F: 16,426, con un modelo cuadrático en que parecen incrementarse ambos a la vez hasta un punto en que comienza la elipse. Gracias un blog muy interesante.

    ResponderEliminar
  2. me resulta de mucha ayuda este blog. muchas gracias

    ResponderEliminar