ANÁLISIS DE REGRESIÓN LINEAL, GEOMÉTRICA, LOGARÍTMICA Y CUADRÁTICA EN R + RCOMMANDER
Ing. Luis Manfredo Reyes
Ing. Luis Manfredo Reyes
El análisis de regresión es una técnica estadística que trata de encontrar un modelo matemático que explique los cambios en una variable (dependiente) en función de otra u otras (independiente o independientes).
Aunque el modelo más enseñado y más utilizado es el lineal (y=a+bx), hay muchas situaciones donde éste modelo no se adapta bien a los datos, surgiendo la necesidad de probar otros modelos.
Afortunadamente, la tecnología disponible actualmente permite el ajuste de muchos modelos con los mismos datos. En ésta ocasión se discute el uso del programa R, muy difundido en el medio académico para el ajuste.
En R existe un complemento llamado R COMMANDER, que provee una intefase gráfica, el que se originó debido a las quejas sobre los extraños comandos que se deben ingresar al programa. Puede descargarse desde los llamados sitios espejo, que existen por todo el mundo. Se asume que el usuario tiene instalados ambos y tiene comocimientos básicos de su uso.
Estudio de caso:
Se tienen los registros de población de una comunidad a partir de su fundación (tiempo cero):
AÑO
|
POBLACION
|
0
|
200
|
25
|
425
|
50
|
950
|
70
|
2200
|
100
|
5000
|
1. Creación del archivo de datos
Para el modelo lineal se ingresan los datos tal y como están originalmente
La variable independiente es el año (x) y la dependiente la población (y)
Para el modelo geométrico se calcula una nueva columna con los datos del logaritmo de la población (OJO, ÉSTE DATO NO PUEDE DAR CERO, PORQUE EL LOGARITMO DE CERO NO EXISTE, EN SU LUGAR SE USA UN VALOR MUY PEQUEÑO POR EJEMPLO 0.000001)
Para el modelo geométrico se calcula una nueva columna con los datos del logaritmo del año (OJO, ÉSTE DATO NO PUEDE DAR CERO, PORQUE EL LOGARITMO DE CERO NO EXISTE, EN SU LUGAR SE USA UN VALOR MUY PEQUEÑO POR EJEMPLO 0.000001)
Para el modelo cuadrático se calcula una nueva columna con los datos del año al cuadrado.
Los datos pueden quedar en cualquier orden
Los datos pueden quedar en cualquier orden
Se puede trabajar con logaritmos naturales o base 10. En éste ejemplo se usarán logaritmos naturales
Por ser pocos datos se recomienda usar el editor de datos de R Commander
Se ingresa a Datos y luego a nuevo conjunto de datos
aparece el editor de datos de R Commander
Se ingresan los datos y luego se hace click sobre el nombre de las variables para definir el tipo (numérico) y el nombre: x,y,x2, lnx y lny
Por ser pocos datos se recomienda usar el editor de datos de R Commander
Se ingresa a Datos y luego a nuevo conjunto de datos
aparece el editor de datos de R Commander
Se ingresan los datos y luego se hace click sobre el nombre de las variables para definir el tipo (numérico) y el nombre: x,y,x2, lnx y lny
Permite visualizar si los datos tienen tendencia lineal o de otro tipo. Dentro de la galería de Gráficas de R se debe especificar: diagrama de dispersión, los datos de x van en el eje horizontal y los datos de y en el eje vertical.
Se ingresa a Gráficas y luego diagrama de dispersión
La especificación de la gráfica es la siguiente:
Al dar click en Aceptar, R presenta la gráfica:
La especificación de la gráfica es la siguiente:
Al dar click en Aceptar, R presenta la gráfica:
Es evidente que los datos no siguen una tendencia lineal, más bien geométrica o cuadrática.
3. Ajuste del modelo lineal
Se ingresa a Estadísticos, luego Ajuste de modelos y luego regresión lineal.
La variable explicada es la dependiente (y) y la explicativa la independiente (x)
El modelo se especifica así:
Y el resultado es el siguiente:
La variable explicada es la dependiente (y) y la explicativa la independiente (x)
El modelo se especifica así:
Y el resultado es el siguiente:
La información más importante es: el coeficiente de determinación (0.849) y la significancia del modelo (0.0259) que por ser menor a 0.05 indica que el modelo sí es significativo al 5% de significancia. Estos datos se deben comparar con los de los otros modelos para escoger el mejor.
4. Ajuste del modelo Geométrico
Se ingresa a Estadisticas, luego a Ajuste de Modelos y Regresión lineal
. Se ingresa como variable independiente x y como dependiente el logaritmo de x
. Se ingresa como variable independiente x y como dependiente el logaritmo de x
Y el resultado es:
El grado de ajuste es de 0.99 y el modelo es significativo al 1%
Ojo: el modelo queda así: Ln y =5.273+0.033 x
Para convertirlo a su forma exponencial, se operan los antilogaritmos de 2.21 y 0.04, el modelo sería:
Y= 194.4159*1.0304X
Ajuste del modelo logarítmico
El resultado que produce R Commander es el siguiente:
El modelo queda así: Ln y=6.664+0.162*Ln x
Puede verse que el coeficiente de determinación es muy bajo y el modelo no es significativo (porque el p es mayor que 0.05), por lo que debe ser desechado
Ajuste del modelo cuadrático
La variable dependiente es y, las dos independientes x y x cuadrado
Siendo los resultados producidos por el programa los siguientes:
DISCUSIÓN:
Debido a que existen dos modelos que tienen 0.99 de ajuste, la regla que se sigue es que se usa el modelo que matemáticamente sea más simple, en éste caso el geométrico.
Es posible probar muchos modelos más dependiendo del interés del investigador
El R Commander es un accesorio que a veces presenta inestabilidad ("se traba")
En algunos casos es necesario recargarlo antes de que funcione correctamente
El R Commander es un accesorio que a veces presenta inestabilidad ("se traba")
En algunos casos es necesario recargarlo antes de que funcione correctamente
No hay comentarios:
Publicar un comentario