viernes, 10 de julio de 2015

ANÁLISIS DE REGRESIÓN LINEAL, GEOMÉTRICA, LOGARÍTMICA Y CUADRÁTICA EN SAS®

  ANÁLISIS DE REGRESIÓN LINEAL, GEOMÉTRICA, LOGARÍTMICA Y CUADRÁTICA EN SAS®
Ing. Luis Manfredo Reyes

El análisis de regresión es una técnica estadística que trata de encontrar un modelo matemático que explique los cambios en una variable (dependiente) en función de otra u otras (independiente o independientes).

Aunque el modelo más enseñado y más utilizado es el lineal (y=a+bx), hay muchas situaciones donde éste modelo no se adapta bien a los datos, surgiendo la necesidad de probar otros modelos.

Afortunadamente, la tecnología disponible actualmente permite el ajuste de muchos modelos con los mismos datos. En ésta ocasión se discute el uso de SAS  para el ajuste.


El software SAS (Statistical Analisys System) ha sido considerado como el más potente para análisis estadístico, pero siempre tuvo el gran inconveniente de su elevado costo (se paga una licencia anual).

Afortunadamente, en una decisión sorpresiva pero agradable, el CEO de SAS decidió liberar el software para uso de estudiantes, profesores e investigadores (más información de cómo obtener el software aquí: http://reyesestadistica.blogspot.com/2015/06/milagro-sas-libera-version-gratuita.html
Se asume que el lector ya instaló el software y conoce su uso básico.

Estudio de caso:
Se tienen los registros de población de una comunidad a partir de su fundación (tiempo cero):

AÑO
POBLACION
0
200
25
425
50
950
70
2200
100
5000

1.       Creación del archivo de datos
Para el modelo lineal se ingresan los datos tal y como están originalmente
La variable independiente es el año (x) y la dependiente la población (y)

Para el modelo geométrico se calcula una nueva columna con los datos del logaritmo de la población (ly)
OJO, ÉSTE DATO NO PUEDE VALER CERO, PORQUE EL LOGARITMO DE CERO NO EXISTE, EN SU LUGAR SE USA UN VALOR MUY PEQUEÑO POR EJEMPLO  0.000001)

Para el modelo logarítmico se calculan dos  nuevas columnas, la primera con el logaritmo de la población (ly) y otra con los datos del logaritmo del año (lx). 
OJO, ÉSTOS DOS DATOS NO PUEDEN  VALER  CERO, PORQUE EL LOGARITMO DE CERO NO EXISTE, EN SU LUGAR SE USA UN VALOR MUY PEQUEÑO POR EJEMPLO  0.000001)

Para el modelo cuadrático se calcula una nueva columna con los datos del año al cuadrado. Los datos pueden quedar en cualquier orden de columnas.

SAS puede leer datos de varias formas y puede importar datos de otros programas, pero por ser pocos datos, se recomienda el ingreso manual:
En la ventana EDITOR se ingresan los siguientes datos:

Data regre;
Input x  y ;
x2=x*x;
ly=log(y);
lx=log(x+0.00001);
Cards;
0 200
25 425
50 950
70 2200
100 5000
Run;

La función log de SAS calcula logaritmos naturales

Se especifica el modelo lineal:
title "Regresión lineal";
proc reg;
model y=x;
run;

Se especifica el modelo geométrico:
title "Modelo geométrico";
proc reg;
model ly=x;
run;
Se especifica el modelo logarítmico
title "Modelo logaritmico";
proc reg;
model ly=lx;
run;
Se especifica el modelo cuadrático:
title "Modelo cuadrático";
proc reg;
model y=x x2;
run;
Todas las instrucciones se ingresan en la ventana EDITOR, luego se va a la pestana RUN y se escoge la opción SUBMIT.
Los resultados obtenidos en la ventana OUTPUT son:
Modelo lineal                                            egresión lineal
Procedimiento REG
Modelo: MODEL1
Variable dependiente: y

Número de observaciones leídas5
Número de observaciones usadas5
Análisis de la varianza
FuenteDFSuma de
cuadrados
Cuadrado
de la media
F-ValorPr > F
Modelo1132240241322402416.960.0259
Error32338976779659
Total corregido415563000
Raíz MSE882.98289R-cuadrado0.8497
Media dependiente1755.00000R-Sq Ajust0.7996
Coef Var50.31242
Estimadores de parámetros
VariableDFEstimador del
parámetro
Error
estándar
Valor tPr > |t|
Intercept1-541.56977683.29253-0.790.4859
x146.8687711.380314.120.0259
La información más importante es: el coeficiente de determinación (0.849) y la significancia del modelo (0.0259) que por ser menor a 0.05 indica que el modelo sí es significativo al 5% de significancia. Estos datos se deben comparar con los de los otros modelos para escoger el mejor.

Modelo geométrico


Modelo geométrico
Procedimiento REG
Modelo: MODEL1
Variable dependiente: ly


Número de observaciones leídas5
Número de observaciones usadas5
Análisis de la varianza
FuenteDFSuma de
cuadrados
Cuadrado
de la media
F-ValorPr > F
Modelo16.511386.51138854.68<.0001
Error30.022860.00762
Total corregido46.53423
Raíz MSE0.08728R-cuadrado0.9965
Media dependiente6.88405R-Sq Ajust0.9953
Coef Var1.26791
Estimadores de parámetros
VariableDFEstimador del
parámetro
Error
estándar
Valor tPr > |t|
Intercept15.272540.0675478.06<.0001
x10.032890.0011229.23<.0001
El grado de ajuste es de 0.99 y el modelo es significativo al 1%
Ojo: el modelo queda así: Ln y  =5.27254+0.03289 x

Para convertirlo a su forma exponencial, se operan los antilogaritmos de 5.27254  y 0.03289, el modelo sería:
Y= 194.9104*1.0334X


Modelo logarítmico
Modelo logaritmico
Procedimiento REG
Modelo: MODEL1
Variable dependiente: ly


Número de observaciones leídas5
Número de observaciones usadas5
Análisis de la varianza
FuenteDFSuma de
cuadrados
Cuadrado
de la media
F-ValorPr > F
Modelo13.613843.613843.710.1496
Error32.920390.97346
Total corregido46.53423
Raíz MSE0.98664R-cuadrado0.5531
Media dependiente6.88405R-Sq Ajust0.4041
Coef Var14.33229
Estimadores de parámetros
VariableDFEstimador del
parámetro
Error
estándar
Valor tPr > |t|
Intercept16.761830.4457815.170.0006
lx10.136670.070931.930.1496



El modelo queda así: Ln y=6.76183+0.13667*Ln x

Puede verse que el coeficiente de determinación es muy bajo y el modelo no es significativo (porque el p es mayor que 0.05), por lo que debe ser desechado

Modelo cuadrático
Modelo cuadrático
Procedimiento REG
Modelo: MODEL1
Variable dependiente: y

Número de observaciones leídas5
Número de observaciones usadas5
Análisis de la varianza
FuenteDFSuma de
cuadrados
Cuadrado
de la media
F-ValorPr > F
Modelo2155208367760418368.100.0027
Error24216421082
Total corregido415563000
Raíz MSE145.19707R-cuadrado0.9973
Media dependiente1755.00000R-Sq Ajust0.9946
Coef Var8.27334
Estimadores de parámetros
VariableDFEstimador del
parámetro
Error
estándar
Valor tPr > |t|
Intercept1265.85261136.414091.950.1906
x1-15.946446.30235-2.530.1271
x210.629830.0603410.440.0091

El grado de ajuste es muy bueno (0.9973) y el modelo es significativo.
la ecuación final es y=265.85261-15.94644x+0.62983x^2

Como hay dos modelos que tienen casi e mismo r cuadrado, el criterio que se aplica es seleccionar el que sea matemáticamente más simple, es decir el cuadrático

No hay comentarios:

Publicar un comentario