ANÁLISIS DE REGRESIÓN LINEAL, GEOMÉTRICA, LOGARÍTMICA
Y CUADRÁTICA EN SAS®
Ing. Luis
Manfredo Reyes
El
análisis de regresión es una técnica estadística que trata de encontrar un
modelo matemático que explique los cambios en una variable (dependiente) en
función de otra u otras (independiente o independientes).
Aunque el
modelo más enseñado y más utilizado es el lineal (y=a+bx), hay muchas
situaciones donde éste modelo no se adapta bien a los datos, surgiendo la
necesidad de probar otros modelos.
Afortunadamente,
la tecnología disponible actualmente permite el ajuste de muchos modelos con
los mismos datos. En ésta ocasión se discute el uso de SAS para el
ajuste.
El software
SAS (Statistical Analisys System) ha sido considerado como el más potente para
análisis estadístico, pero siempre tuvo el gran inconveniente de su elevado
costo (se paga una licencia anual).
Afortunadamente,
en una decisión sorpresiva pero agradable, el CEO de SAS decidió liberar el
software para uso de estudiantes, profesores e investigadores (más información
de cómo obtener el software aquí: http://reyesestadistica.blogspot.com/2015/06/milagro-sas-libera-version-gratuita.html
Se asume
que el lector ya instaló el software y conoce su uso básico.
Estudio
de caso:
Se tienen
los registros de población de una comunidad a partir de su fundación (tiempo
cero):
AÑO
|
POBLACION
|
0
|
200
|
25
|
425
|
50
|
950
|
70
|
2200
|
100
|
5000
|
1. Creación del archivo de datos
Para el
modelo lineal se ingresan los datos tal y como están originalmente
La
variable independiente es el año (x) y la dependiente la población (y)
Para el
modelo geométrico se calcula una nueva columna con los datos del logaritmo de
la población (ly)
OJO, ÉSTE DATO NO PUEDE VALER CERO, PORQUE EL LOGARITMO DE CERO NO EXISTE, EN SU LUGAR SE USA UN VALOR MUY PEQUEÑO POR EJEMPLO 0.000001)
OJO, ÉSTE DATO NO PUEDE VALER CERO, PORQUE EL LOGARITMO DE CERO NO EXISTE, EN SU LUGAR SE USA UN VALOR MUY PEQUEÑO POR EJEMPLO 0.000001)
Para el
modelo logarítmico se calculan dos nuevas columnas, la primera con el logaritmo de la población (ly) y otra con los datos del logaritmo del
año (lx).
OJO, ÉSTOS DOS DATOS NO PUEDEN VALER CERO, PORQUE EL LOGARITMO DE CERO NO EXISTE, EN SU LUGAR SE USA UN VALOR MUY PEQUEÑO POR EJEMPLO 0.000001)
OJO, ÉSTOS DOS DATOS NO PUEDEN VALER CERO, PORQUE EL LOGARITMO DE CERO NO EXISTE, EN SU LUGAR SE USA UN VALOR MUY PEQUEÑO POR EJEMPLO 0.000001)
Para el
modelo cuadrático se calcula una nueva columna con los datos del año al
cuadrado. Los datos pueden quedar en cualquier orden de columnas.
SAS puede
leer datos de varias formas y puede importar datos de otros programas, pero por
ser pocos datos, se recomienda el ingreso manual:
En la
ventana EDITOR se ingresan los siguientes datos:
Data regre;
Input x y ;
x2=x*x;
ly=log(y);
lx=log(x+0.00001);
Cards;
0 200
25 425
50 950
70 2200
100 5000
Run;
Se especifica el modelo lineal:
title "Regresión lineal";
proc reg;
model y=x;
run;
Se especifica el modelo geométrico:
title "Modelo geométrico";
proc reg;
model ly=x;
run;
Se especifica el modelo logarítmico
title "Modelo logaritmico";
proc reg;
model ly=lx;
run;
Se especifica el modelo cuadrático:
title "Modelo cuadrático";
proc reg;
model y=x x2;
run;
Todas las instrucciones se ingresan en la ventana EDITOR, luego se va a la pestana RUN y se escoge la opción SUBMIT.
Los resultados obtenidos en la ventana OUTPUT son:
Modelo lineal egresión lineal
Procedimiento REG
Modelo: MODEL1
Variable dependiente: y
Número de observaciones leídas | 5 |
---|---|
Número de observaciones usadas | 5 |
Análisis de la varianza | |||||
---|---|---|---|---|---|
Fuente | DF | Suma de cuadrados | Cuadrado de la media | F-Valor | Pr > F |
Modelo | 1 | 13224024 | 13224024 | 16.96 | 0.0259 |
Error | 3 | 2338976 | 779659 | ||
Total corregido | 4 | 15563000 |
Raíz MSE | 882.98289 | R-cuadrado | 0.8497 |
---|---|---|---|
Media dependiente | 1755.00000 | R-Sq Ajust | 0.7996 |
Coef Var | 50.31242 |
Estimadores de parámetros | |||||
---|---|---|---|---|---|
Variable | DF | Estimador del parámetro | Error estándar | Valor t | Pr > |t| |
Intercept | 1 | -541.56977 | 683.29253 | -0.79 | 0.4859 |
x | 1 | 46.86877 | 11.38031 | 4.12 | 0.0259 |
Modelo geométrico
Procedimiento REG
Modelo: MODEL1
Variable dependiente: ly
Número de observaciones leídas | 5 |
---|---|
Número de observaciones usadas | 5 |
Análisis de la varianza | |||||
---|---|---|---|---|---|
Fuente | DF | Suma de cuadrados | Cuadrado de la media | F-Valor | Pr > F |
Modelo | 1 | 6.51138 | 6.51138 | 854.68 | <.0001 |
Error | 3 | 0.02286 | 0.00762 | ||
Total corregido | 4 | 6.53423 |
Raíz MSE | 0.08728 | R-cuadrado | 0.9965 |
---|---|---|---|
Media dependiente | 6.88405 | R-Sq Ajust | 0.9953 |
Coef Var | 1.26791 |
Estimadores de parámetros | |||||
---|---|---|---|---|---|
Variable | DF | Estimador del parámetro | Error estándar | Valor t | Pr > |t| |
Intercept | 1 | 5.27254 | 0.06754 | 78.06 | <.0001 |
x | 1 | 0.03289 | 0.00112 | 29.23 | <.0001 |
El grado
de ajuste es de 0.99 y el modelo es significativo al 1%
Ojo: el
modelo queda así: Ln y =5.27254+0.03289 x
Para
convertirlo a su forma exponencial, se operan los antilogaritmos de 5.27254 y
0.03289, el modelo sería:
Y= 194.9104*1.0334X
Modelo logarítmico
Procedimiento REG
Modelo: MODEL1
Variable dependiente: ly
Número de observaciones leídas | 5 |
---|---|
Número de observaciones usadas | 5 |
Análisis de la varianza | |||||
---|---|---|---|---|---|
Fuente | DF | Suma de cuadrados | Cuadrado de la media | F-Valor | Pr > F |
Modelo | 1 | 3.61384 | 3.61384 | 3.71 | 0.1496 |
Error | 3 | 2.92039 | 0.97346 | ||
Total corregido | 4 | 6.53423 |
Raíz MSE | 0.98664 | R-cuadrado | 0.5531 |
---|---|---|---|
Media dependiente | 6.88405 | R-Sq Ajust | 0.4041 |
Coef Var | 14.33229 |
Estimadores de parámetros | |||||
---|---|---|---|---|---|
Variable | DF | Estimador del parámetro | Error estándar | Valor t | Pr > |t| |
Intercept | 1 | 6.76183 | 0.44578 | 15.17 | 0.0006 |
lx | 1 | 0.13667 | 0.07093 | 1.93 | 0.1496 |
El modelo
queda así: Ln y=6.76183+0.13667*Ln x
Puede
verse que el coeficiente de determinación es muy bajo y el modelo no es
significativo (porque el p es mayor que 0.05), por lo que debe ser desechado
Modelo cuadrático
Procedimiento REG
Modelo: MODEL1
Variable dependiente: y
Número de observaciones leídas | 5 |
---|---|
Número de observaciones usadas | 5 |
Análisis de la varianza | |||||
---|---|---|---|---|---|
Fuente | DF | Suma de cuadrados | Cuadrado de la media | F-Valor | Pr > F |
Modelo | 2 | 15520836 | 7760418 | 368.10 | 0.0027 |
Error | 2 | 42164 | 21082 | ||
Total corregido | 4 | 15563000 |
Raíz MSE | 145.19707 | R-cuadrado | 0.9973 |
---|---|---|---|
Media dependiente | 1755.00000 | R-Sq Ajust | 0.9946 |
Coef Var | 8.27334 |
Estimadores de parámetros | |||||
---|---|---|---|---|---|
Variable | DF | Estimador del parámetro | Error estándar | Valor t | Pr > |t| |
Intercept | 1 | 265.85261 | 136.41409 | 1.95 | 0.1906 |
x | 1 | -15.94644 | 6.30235 | -2.53 | 0.1271 |
x2 | 1 | 0.62983 | 0.06034 | 10.44 | 0.0091 |
la ecuación final es y=265.85261-15.94644x+0.62983x^2
Como hay dos modelos que tienen casi e mismo r cuadrado, el criterio que se aplica es seleccionar el que sea matemáticamente más simple, es decir el cuadrático
No hay comentarios:
Publicar un comentario