
Fundamentos para una predicción de calidad (Parte I).
Linkedin: Connie Vega Twitter: @ConnieVega_Mex
Si en algún momento consideraste la Ciencia de Datos o las matemáticas como una herramienta poderosa para predecir el futuro, estás en el lugar indicado. Esta de más decirte que este tema de la predicción es todo un mundo, y que las metodologías que nos llevan a predecir el futuro no solo son aplicadas hacia ese tipo de descubrimiento, sino que también puedes enfocarlos a problemáticas que requieren de un análisis completo de la información o registros que hay para predecir la respuesta más acertada.
Vamos con ejemplos no quedarnos con la idea que el futuro es lo único que podemos predecir, pues resulta que gracias a la ciencia de datos podemos predecir cualquier cosa; el perfil de nuestro cliente estrella, los grupos a los que pertenecen ciertas solicitudes sin tener etiquetas previas de éstas, predecir un mejor modelo de negocio que se ajuste a las necesidades de los clientes, los posibles clientes que tendrán incumplimiento después de otorgarles un crédito, predecir lo que las personas esperan escuchar en un discurso político, transacciones ilícitas dentro de clientes de un banco, etc. Como puedes ver, saber del futuro se ha vuelto parte del presente, y la ciencia de datos nos ofrece adelantarnos a los hechos con precisión.
Pero antes de llegar a conclusiones como esas hay fundamentos esenciales que hay que considerar para llegar a un modelo estadístico (como puede ser la regresión lineal o no lineal y múltiple) o a un modelo de Machine Learning. Y para eso aquí te traemos un conjunto de blogs que te permitirán comprender a detalle los conceptos que hacen posible una predicción.
Primero que nada recordemos que para predecir algo nuevo, requerimos de una base de datos que nos permita encontrar relaciones entre variables, es decir, cuáles son las características que influyen en una característica a determinar, de aquí el concepto de correlación entre variables sea tan importante, ya que esto nos permitirá desechar aquellas características que no influyen directamente en nuestra respuesta y optimizar nuestro modelos.
Correlación lineal
Para estudiar la relación lineal existente entre dos variables continuas es necesario disponer de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es la covarianza, que indica el grado de variación conjunta de dos variables aleatorias.



La covarianza depende de las escalas en que se miden las variables estudiadas, por lo tanto, no es comparable entre distintos pares de variables. Para poder hacer comparaciones se estandariza la covarianza, generando lo que se conoce como coeficientes de correlación. Existen diferentes tipos, de entre los que destacan el coeficiente de Pearson, Rho de Spearman y Tau de Kendall.
- Todos ellos varían entre +1 y -1. Siendo +1 una correlación positiva perfecta y -1 una correlación negativa perfecta.
- Se emplean como medida de fuerza de asociación (tamaño del efecto):
- 0: asociación nula.
- 0.1: asociación pequeña.
- 0.3: asociación mediana.
- 0.5: asociación moderada.
- 0.7: asociación alta.
- 0.9: asociación muy alta.
Las principales diferencias entre estos tres coeficientes de asociación son:
- La correlación de Pearson funciona bien con variables cuantitativas que tienen una distribución normal. En el libro Handbook of Biological Statatistics se menciona que sigue siendo bastante robusto a pesar de la falta de normalidad. Es más sensible a los valores extremos que las otras dos alternativas.
- La correlación de Spearman se emplea cuando los datos son ordinales, de intervalo, o bien cuando no se satisface la condición de normalidad para variables continuas y los datos se pueden transformar a rangos. Es un método no paramétrico.
- La correlación de Kendall es otra alternativa no paramétrica para el estudio de la correlación que trabaja con rangos. Se emplea cuando se dispone de pocos datos y muchos de ellos ocupan la misma posición en el rango, es decir, cuando hay muchas ligaduras.
Además del valor obtenido para el coeficiente de correlación, es necesario calcular su significancia. Solo si el p-value es significativo se puede aceptar que existe correlación, y esta será de la magnitud que indique el coeficiente. Por muy cercano que sea el valor del coeficiente de correlación a +1 o −1, si no es significativo, se ha de interpretar que la correlación de ambas variables es 0, ya que el valor observado puede deberse a simple aleatoriedad.
El test paramétrico de significancia estadística empleado para el coeficiente de correlación es el t-test. Al igual que ocurre siempre que se trabaja con muestras, por un lado está el parámetro estimado (en este caso el coeficiente de correlación) y por otro su significancia a la hora de considerar la población entera. Si se calcula el coeficiente de correlación entre X e Y en diferentes muestras de una misma población, el valor va a variar dependiendo de las muestras utilizadas. Por esta razón se tiene que calcular la significancia de la correlación obtenida y su intervalo de confianza.

Para este test de hipótesis, considera que las variables son independientes (coeficiente de correlación poblacional = 0) mientras que, la
, considera que existe relación (coeficiente de correlación poblacional ≠ 0)
La correlación lineal entre dos variables, además del valor del coeficiente de correlación y de sus significancia, también tiene un tamaño de efecto asociado. Se conoce como coeficiente de determinación . Se interpreta como la cantidad de varianza de Y explicada por X. En el caso del coeficiente de Pearson y el de Spearman,
se obtiene elevando al cuadrado el coeficiente de correlación. En el caso de Kendall no se puede calcular de este modo. (No he encontrado como se calcula).
También se puede calcular la significancia de un coeficiente de correlación mediante bootstrapping.
Coeficiente de Pearson
El coeficiente de correlación de Pearson es la covarianza estandarizada, y su ecuación difiere dependiendo de si se aplica a una muestra, Coeficiente de Pearson muestral (r), o si se aplica la población Coeficiente de Pearson poblacional (ρ).

Condiciones
- La relación que se quiere estudiar entre ambas variables es lineal (de lo contrario, el coeficiente de Pearson no la puede detectar).
- Las dos variables deben de ser cuantitativas.
- Normalidad: ambas variables se tienen que distribuir de forma normal. Varios textos defienden su robustez cuando las variables se alejan moderadamente de la normal.
- Homocedasticidad: La varianza de Y debe ser constante a lo largo de la variable X. Esto se puede identificar si en el scatterplot los puntos mantienen la misma dispersión en las distintas zonas de la variable X. Esta condición no la he encontrado mencionada en todos los libros.
Características
- Toma valores entre [-1, +1], siendo +1 una correlación lineal positiva perfecta y -1 una correlación lineal negativa perfecta.
- Es una medida independiente de las escalas en las que se midan las variables.
- No varía si se aplican transformaciones a las variables.
- No tiene en consideración que las variables sean dependientes o independientes.
- El coeficiente de correlación de Pearson no equivale a la pendiente de la recta de regresión.
- Es sensible a outliers, por lo que se recomienda en caso de poder justificarlos, excluirlos del análisis.
Interpretación
Además del valor obtenido para el coeficiente, es necesario calcular su significancia. Solo si el p-value es significativo se puede aceptar que existe correlación y esta será de la magnitud que indique el coeficiente. Por muy cercano que sea el valor del coeficiente de correlación a +1 o -1, si no es significativo, se ha de interpretar que la correlación de ambas variables es 0 ya que el valor observado se puede deber al azar. (Ver más adelante como calcular la significancia).
Coeficiente de Spearman (Spearman’s rho)
El coeficiente de Spearman es el equivalente al coeficiente de Pearson pero con una previa transformación de los datos a rangos. Se emplea como alternativa cuando los valores son ordinales, o bien, cuando los valores son continuos pero no satisfacen la condición de normalidad requerida por el coeficiente de Pearson y se pueden ordenar transformándolos en rangos. Al trabajar con rangos, es menos sensible que Pearson a valores extremos. Existe una diferencia adicional con respecto a Pearson. El coeficiente de Spearman requiere que la relación entre las variables sea monótona, es decir, que cuando una variable crece la otra también lo hace o cuando una crece la otra decrece (que la tendencia sea constante). Este concepto no es exactamente el mismo que linealidad.

Siendo la distancia entre los rangos de cada observación (
–
) y n el número de observaciones.
Coeficiente Tau de Kendall
Trabaja con rangos, por lo que requiere que las variables cuya relación se quiere estudiar sean ordinales o que se puedan transformar en rangos. Al ser no paramétrico, es otra alternativa al Coeficiente de correlación de Pearson cuando no se cumple la condición de normalidad. Parece ser más aconsejable que el coeficiente de Spearman cuando el número de observaciones es pequeño o los valores se acumulan en una región por lo que el número de ligaduras al generar los rangos es alto.

Siendo C el número de pares concordantes, aquellos en los que el rango de la segunda variable es mayor que el rango de la primera variable. D el número de pares discordantes, cuando el rango de la segunda es igual o menor que el rango de la primera variable.
Tau represents a probability; that is, it is the difference between the probability that the two variables are in the same order in the observed data versus the probability that the two variables are in different orders.
Jackknife correlation
El coeficiente de correlación de Pearson resulta efectivo en ámbitos muy diversos. Sin embargo, tiene la desventaja de no ser robusto frente a outliers a pesar de que se cumpla la condición de normalidad. Si dos variables tienen un pico o un valle común en una única observación, por ejemplo por un error de lectura, la correlación va a estar dominada por este registro a pesar de que entre las dos variables no haya correlación real alguna. Lo mismo puede ocurrir en la dirección opuesta. Si dos variables están altamente correlacionadas excepto para una observación en la que los valores son muy dispares, entonces la correlación existente quedará enmascarada. Una forma de evitarlo es recurrir a la Jackknife correlation, que consiste en calcular todos los posibles coeficientes de correlación entre dos variables si se excluye cada vez una de las observaciones. El promedio de todas las Jackknife correlations calculadas atenuará en cierta medida el efecto del outlier.


Además del promedio, se puede estimar su error estándar (SE) y así obtener intervalos de confianza para la Jackknife correlation y su correspondiente p-value.

Intervalo de confianza del 95% (Z=1.96)

P-value para la hipótesis nula de que


Cuando se emplea este método es conveniente calcular la diferencia entre el valor de correlación obtenido por Jackknife correlation y el que se obtiene si se emplean todas las observaciones. A esta diferencia se le conoce como Bias. Su magnitud es un indicativo de cuanto está influenciada la estimación de la correlación entre dos variables debido a un valor atípico u outlier.

Cuando el estudio requiere minimizar al máximo la presencia de falsos positivos, a pesar de que se incremente la de falsos negativos, se puede seleccionar como valor de correlación el menor de entre todos los calculados en el proceso de Jackknife.

A pesar de que el método de Jackknife permite aumentar la robustez de la correlación de Pearson, si los outliers son muy extremos su influencia seguirá siendo notable. Siempre es conveniente una representación gráfica de los datos para poder identificar si hay valores atípicos y eliminarlos. Otras alternativas robustas son la correlación de Spearman o el método de Bootsrapping.
-cienciadedatos.net
