Predice lo inesperado: Regresión múltiple

Predicción – Mcoder.AI

Fundamentos para una predicción de calidad (Parte III).

Mcoder.ai

LinkedIn: Gabriela de Jesús

La linealidad en los modelos predictivos nos otorga una fácil interpretación, sin embargo en algunas ocasiones se pueden tener limitaciones predictivas porque no alcanzan a describir la relación real entre las variables.

En artículos precedentes comentábamos acerca de modelos matemáticos capaces de predecir el valor de una variable dependiente Yi, con respecto a una variable independiente Xi. Si no lo has leído, te invitamos a visitarlos, porque presentan fundamentos importantes para la comprensión de esta tercera parte para predecir lo inesperado; Correlación lineal y Regresión lineal.

Regresión múltiple

Cuando hablamos de regresiones múltiples, volvemos a tener una variable dependiente Yi, pero ahora tenemos más de una variable independiente (X1, X2, X3, . . . , Xn). Por lo tanto, nuestra ecuación toma la siguiente forma:

Yi = ( β0 + β1 X1i + β2 X2i + ⋯ + βn Xni ) + e

Hay que notar que la estructura es similar a la de la Regresión lineal, porque seguimos considerando tres factores principales: variable dependiente (Yi), variables independientes (Xni) y nuestros errores (e)

La Regresión lineal múltiple debe considerar condiciones adicionales a las de la Regresión lineal simple, sólo mencionaremos la principal condición del modelo; Colinealidad.

No colinealidad o multicolinealidad

Retomando el concepto de Correlación lineal: significa una alta relación entre dos variables y es lo que buscamos entre la variable independiente con respecto la variable independiente para nuestro modelo. Ahora, consideremos que en la Regresión múltiple tenemos más de una variable independiente, la colinealidad sucede cuando existe una alta correlación entre dos o más variables independientes Xi.

La colinealidad provoca que el modelo no sea capaz de identificar la información que otorga cada una de las variables colineales sobre la variable respuesta, es decir, pierden su significancia estadística.

Para detectarlo no existe un procedimiento estadístico establecido, sólo se tienen algunas reglas prácticas que te ayudan a validar si tu modelo presenta colinealidad.

  • Matriz de correlación entre las variables independientes. Aunque es lo primero que se viene a la mente, el que las variables NO presenten un alto nivel de correlación, no descarta que exista colinealidad en el modelo.
  • Tener un coeficiente de determinación R2 alto, pero sin predictores significativos.
  • Modelar una regresión lineal entre cada una de las variables independientes Xi. Al presentarse en alguno de los modelos un coeficiente de determinación R2 indicaría una posible colinealidad.
  • Factor de Inflación de la Varianza (VIF), el cual nos ayuda a detectar la existencia de colinealidad.

Donde R2 es el coeficiente de determinación de la regresión del Xj sobre los otros predictores. Se interpreta de la siguiente manera:

  • VIF = 1 Ausencia total de colinealidad
  • VIF > 10 Existencia de colinealidad

Algunos autores consideran otra nomenclatura entre los valores del 1 y 10, donde mencionan la posible existencia de colinealidad. Mientras mayor sea el valor de VIF, mayor posibilidad de colinealidad se presenta.

Una solución para la colinealidad, es excluir uno de los predictores colineales implicados, lo cual no afectaría al modelo porque el otro predictor colineal otorgaría la información necesaria requerida.

Este es un primer acercamiento para los modelos de Regresión lineal múltiple, existen otras condiciones para el modelo y aspectos a considerar. La interpretación puede ser familiar a la Regresión lineal simple, sin embargo la información que nos otorga la Regresión lineal múltiple es más significativa para algunas variables.

-cienciadedatos.net

Data Science – Mcoder.ai

Dejar una contestacion

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *