Predice lo inesperado; Regresión lineal.

Predicción – Mcoder.AI

Fundamentos para una predicción de calidad (Parte II).

Mcoder.AI
LinkedIn: Gabriela de Jesús Instagram: @gabydjesus
Linkedin: Aranza Armas Twitter: @AArmasR

Predice lo inesperado; Regresión lineal.

La incertidumbre es una expresión que se utilizar al manifiestar el grado de desconocimiento acerca de una condición futura, pudiendo implicar una previsibilidad imperfecta de los hechos, es decir, un evento en el que no se conoce la probabilidad de que ocurra determinada situación.

Nosotros como seres humanos razonables, intentamos que nuestro actuar sea acorde a la información con la que contamos, sin embargo no siempre podemos tener toda la información posible para preveer los diversos eventos que sucederán y, aunque tengamos mucha información del futuro, hay factores ajenos a nosotros que no podemos controlar.

Hay diversos métodos matemáticos que nos ayudan a predecir el futuro, uno de los más conocidos es mediante las regresiones; lineales, no lineales o múltiples. En este artículo abordaremos con un poco más de detalle la regresión lineal.

Regresión Lineal Simple

La regresión lineal es un modelo matemático utilizado para aproximar la relación de dependencia entre una variable dependiente Yi, las variables independientes Xi, y un término aleatorio épsilon (ε). Tanto el coeficiente de correlación lineal, cómo la regresión lineal cumplen una propiedad muy importante, que es basarse en la fórmula de una línea recta.

Ejemplo I.

Mira la tabla graficada y haz incapié en la línea reacta roja que se forma al unir todos los puntos.

Material UtilizadoSustancia Contenida
50 cm²100ml
60 cm²120ml
75 cm²150ml
100 cm²200ml

Residuos del modelo

Para definir los residuos de una estimación veamos la siguiente imagen de un modelo de regresión lineal de alturas de plantas. 

Los residuos o errores del modelo anterior están representados con las flechas rojas, que representan la distancia desde la línea roja, hasta los puntos azules. 

En otras palabras, los residuos se definen como la diferencia entre el valor observado (puntos azules) y el valor esperado acorde al modelo (línea roja). También son importantes para el modelo, porque en ellos se basan las diferentes medidas de bondad de ajuste del modelo.

Bondad de ajuste del modelo

Cuando el modelo se ha ajustado, hay que verificar su eficiencia, porque aunque sea la línea que mejor se ajusta a las observaciones, el modelo puede ser malo. Existen diversas medidas que nos ayudan a verificar la eficiencia del modelo, pero las más utilizadas son: error estándar de los residuos, el test F y el coeficiente de determinación R². En este caso, solamente veremos el coeficiente de determinación R².

Coeficiente de determinación R²: Describe la proporción de variabilidad que es explicada por el modelo. Su valor está acotado entre 0 y 1. Mientras más pequeños sean los residuos, mayor será el estadístico R², por lo tanto, mientras el valor de R² se acerque más a 1 este representará un mejor ajuste del modelo de regresión lineal.

En el artículo «Fundamentos para una predicción de calidad (Parte I)», Connie Vega nos explicó el coeficiente de correlación de Pearson (r). Este coeficiente es importante en los modelos de regresión lineal simple, porque el valor de R² se corresponde con el cuadrado del coeficiente de correlación de Pearson (r). En cambio, para los modelos de regresión múltiple existe una modificación de R² conocida como R²−ajustado. Introduce una penalización cuantos más predictores se incorporan al modelo.

Predicción de valores

En el momento que ya tenemos nuestro modelo válido, podemos predecir el valor de la variable dependiente Y para los nuevos valores de la variable predictora X. Para ello se utiliza la ecuación generada por regresión. Es importante considerar que el modelo solamente tiene certeza en el rango de valores donde se encuentran las observaciones utilizadas para hacer el modelo. Además, hay que recordar que las estimaciones de los coeficientes de regresión tienen un error asociado, por ende, también lo tienen los valores de las predicciones. 

Intervalos de confianza: Banda alrededor de la recta de regresión ajustada, donde se aplica el valor promedio que se espera de Y para un determinado valor de X.

Intervalos de predicción: Estos intervalos son más amplios que los intervalos de confianza  porque además de mostrar la variabilidad de la recta estimada, muestra la variabilidad individual de la variable respuesta alrededor de la media verdadera.

Data Scientist

Dejar una contestacion

Tu dirección de correo electrónico no será publicada.