Y la ciencia de datos es realmente una ciencia? Sí, ésta utiliza el método científico, que implica la creación de hipótesis, experimentos y pruebas, a través del análisis de datos y la generación de modelos predictivos.

¿Cuáles son los pasos del proceso?
Paso 1: Plantearse una pregunta❓, esto porque claramente no puedes obtener respuestas sin antes preguntar algo! Podrías sacar información simplemente empezando a graficar tus datos o haciendo algunos ajustes, pero nunca terminarías ni llegarías a una conclusión.
Paso 2: La obtención de los datos🗃, si ya tienes claro el objetivo a resolver, ahora puedes saber qué base de datos te funcionará mejor y si es que ya la tienes o necesitas generarla. Aquí viene implícito ver qué software utilizarás.💻 (R y RStudio muy recomendados) y entonces importar tu base de datos a dicho software!
Paso 3: Preparar y limpiar los datos🧽🔍, este es el paso que seguramente te llevará más tiempo, todos quisiéramos que los datos ya vinieran perfectamente ordenados, en la tabla más eficiente, con las variables en la misma escala, etc ESTO JAMÁS PASARÁ! Tienes que hacerlo tú! Aquí entran las funciones de tu software para ayudarte a manipular los datos, obtener atípicos, eliminarlos o modificarlos de forma que no provoquen sesgos, verificar si hay datos vacíos, en finnnnn! Debes estar atento porque depende de tu resultado final de limpieza será el nivel de calidad de tus conclusiones✨
Paso 4: Explorar🔍 este paso tal vez la repitas múltiples veces, incluso puede que tengas que regresar al paso 3 en caso de que encuentres algún error, ya que se trata de visualizar los datos mediante gráficas para poder identificar patrones, las gráficas muchas veces nos ayudan a encontrar información que mediante las tablas sería imposible. Teniendo las gráficas correctas, se utiliza la estadística para argumentar los patrones encontrados, algoritmos de clasificación, etc. En este punto ya debes tener un modelo mental claro para plantear nuevas hipótesis.
Paso 5: Modelar, para este punto, ya tienes la información perfecta para resolver tu problema y es el momento de modelar el algoritmo que te dé esa solución. Apriori no se puede saber que algoritmo será la mejor opción, esto se concluye probando varias veces, prueba y error, hasta llegar al que rinda de manera más óptima. Es importante saber que será sólo una aproximación, por eso buscamos la que más se acerque a lo que necesitamos, debemos estar consientes de que nunca llegaremos a algo exacto.
Paso 6: Comunicar el resultado💬 se debe hallar la manera más limpia e intuitiva de visualizar los resultados, una vez más entra la habilidad de hacer buenos gráficos, ya que normalmente a quienes presentarás la información no necesitan todo el proceso explicado a detalle, solamente pedirán el resultado final que les ayude a tomar decisiones. Por lo que deben ser gráficos entendibles para cualquier persona. Deben ser resultados claros, consistentes y confiables.

Una vez que llegas cumplas todos los pasos, puedes decir que se tuvo un proceso exitoso de Ciencia de Datos✨
