Data Mining

Proceso de la Minería de Datos: Pre- Procesamiento de los Datos (Parte 2)

El Pre- Procesamiento de los datos es el segundo paso durante el proceso de Data Mining, ya que en esta parte se transforman los datos a formatos más simples de trabajar. 📝

Mcoder.ai – Data Mining

Los datos que el mundo nos proporciona, frecuentemente no están limpios, faltan valores, contienen inconsistencias y suelen mostrar ruido, ya que contienen errores y valores atípicos.📊📈

Sin un pre – procesamiento de datos, estos errores permanecerán y en consecuencia el resultado final tendrá menos fiabilidad.

Para evitar que eso nos suceda tenemos que:

📌

1️⃣ Extraer las Características

Consiste en crear un conjunto de características que sean relevantes para que el analista pueda trabajar con ellas.

⚠️⚠️ ¡¡¡IMPORTANTE!!! La naturaleza de la extracción de características depende del dominio del cual el dato está graficado.

    Por ejemplo:

Datos de sensores: datos de bajo nivel son extraídos en gran volúmen. Transformaciones como las de Wavelet o Fourier son requeridas y aplicadas a series de tiempo.

Datos de imágenes: datos representados de pixeles a histograma de colores para obtener las características en diferentes segmentos de la imagen.

LogsWeb: datos representados por cadenas de strings, la conversión a una tabla multidimensional con atributos numéricos y categóricos favorecía el análisis.

Tráfico de red: datos representados por paquetes, la extracción de características se usa para la extracción de bytes transferidos el protoco de red usado y más.

Portabilidad:

Es necesario para homogenizar los datos

Discretización de los datos: Conversión de la información de numérico a categóricos.

El proceso consiste en dividir los tributos numéricos en n rangos

Binzarización de los datos: Conversión de la información de categóricos a binarios.

2️⃣ Limpieza de los datos

Este paso es importante ya que se busca eliminar los errores que se cometieron en el proceso de recolección de los Datos.🧽

Por ejemplo:

✨Los Sensores: un error debido a sus límites asociados a su hardware

Las encuestas: Las personas no compartieron su información personal o se capturo mal la información en las encuestas teniendo así un error manual.

ASPECTOS IMPORTANTES DE LA LIMPIEZA DE DATOS SON:

🔅Rellenar valores faltantes

Para esto es importante identificar la causa de la falta de datos, para evitar que vuelva a ocurrir. La manera de hacerlo es en los valores faltantes se rellenan con la palabra “NA” lo que nos indica que el valor es desconocido.

🔅 Identificar y eliminar datos que se pueden considerar un ruido

Esto es identificar los valores atípicos, los cuales son puntos que están alejados de la media de la muestra.

🔅 Controlar las Entradas incorrectas

Esto se produce al tener múltiples fuentes de datos, por lo cual se recomienda tener una base de datos que aporte las variables con las que se desea trabajar.

🔅 Escalado y normalización

Se suele tener datos en diferentes escalas de medición por lo que es necesario tenerlas en la misma escala.

MaquinaTiempo de producciónMisma Escala
A14.5 horas870 min
B920 min920 min

🔅 Reducción de los datos

Aun que es importante tener muchos datos para analizar y tener una mayor fiabilidad en el resultado, realizar una reducción de los datos nos reduce el costo y el tiempo empleado.

La reducción consiste en la disminución de registros y atributos.

Los tipos de reducción de datos son:

✔️Muestreo de Datos

✔️Selección de características

✔️Reducción de datos con rotación de ejes

✔️Reducción de datos con transformación

Mcoder.ai – Data Mining

Dejar una contestacion

Tu dirección de correo electrónico no será publicada.