Facebook: cliniacorderoDS Linkedin: Clinia Cordero

Desde hace unos años, esta profesión está de “moda” gracias, en parte, al mundo startup. Pero la ciencia de datos va mucho más allá y está convirtiéndose en una de las profesiones más prometedoras de hoy en día.
La fiebre de los datos ha hecho que comencemos a escuchar hablar de esta disciplina por todos lados. Pero, no podemos dejar de preguntarnos si es una moda pasajera o los científicos de datos hemos llegado para quedarnos.
Veamos qué es exactamente eso de la ciencia de datos o data science y sus oportunidades laborales. Josh Wills, es un Ingeniero y Estadístico, ex-Trabajador de Slack’s Search, formó parte del equipo de Aprendizaje e inteligencia, quien ayudó a construir la compañía, además de ser el fundador de Apache, usa esta definición muy acertada e intuitiva: «Científico de datos (n): Persona que sabe más de estadística que cualquier programador y que a la vez sabe más de programación que cualquier estadístico«. Siendo un poco más en serios, un científico de datos es sencillamente un profesional dedicado a analizar e interpretar grandes bases de datos. O lo que es lo mismo, uno de los profesionales más importantes en cualquier empresa de internet hoy en día.
¿Por qué se ha puesto de moda?
La tecnología actual no solo necesita del mejor talento sino de datos, muchos datos, es decir, que la moda por lo abierto y el giro hacia los datos no es más que la enésima máscara del mismo espíritu corporativo de siempre, buscando el próximo yacimiento. Y lo que vale para los entornos de inteligencia artificial y de machine learning, vale para casi cualquier tecnología.
Lo curioso es que este gran valor de los datos contrasta con que precisamente los datos son el recurso más abundante del planeta. Se calcula que la cantidad de datos que había en el mundo a principios de este 2020 era de aproximadamente 44 zettabytes. (Un zettabyte es una unidad de almacenamiento de información cuyo símbolo es el ZB, equivalente a 1021 bytes). Es decir, que el número de bytes en el universo digital era 40 veces mayor que el número de estrellas en el universo observable. No parecen cosas fáciles de compatibilizar. ¿Cómo es posible que algo tan abundante sea tan valioso? Aunque fuera por pura oferta y demanda, acumular datos debería ser algo trivial. Y lo es, lo complejo es procesarlos.
Hasta hace relativamente poco sencillamente no podíamos hacerlo. A finales de los años 90, el campo del machine learning (aprendizaje automático) empezó a tomar entidad autónoma, nuestra capacidad de trabajar con cantidades inmensas de datos se abarató y la irrupción social de internet hizo el resto. Desde hace unos años nos encontramos ante la primera gran ‘democratización’ de estas técnicas. Y, con ello, el boom de los científicos de datos: nadie quiere tener una mina de oro sin aprovechar.
En busca de un científico de datos

El problema es que todo esto ha conllevado que surgiera una gran demanda de un perfil que hasta hace no mucho prácticamente no existía. Recordemos que se precisan conocimientos estadísticos que un programador no suele tener y conocimientos informáticos que un estadístico no suele ni siquiera imaginar.
¿Qué lenguajes hay que aprender?
En programación la elección de un lenguaje u otro siempre es complicada. En esta elección intervienen desde factores técnicos o formativos a simples preferencias personales. Lo que sí está claro es que existen algunos lenguajes más populares que otros y que estos también van cambiando con el tiempo y según avanza esta ciencia de datos.
Los tres mosqueteros de la Ciencia de Datos
Un estudio de Kaggle de 2018 reveló que Python, R y SQL son los lenguajes que profesionales de la ciencia de datos recomendaron a los aspirantes a científicos de datos.
Un insustituible
SQL (por sus siglas en inglés Structured Query Language; en español lenguaje de consulta estructurada) es un lenguaje de dominio específico utilizado en programación, diseñado para administrar y recuperar información de sistemas de gestión de bases de datos relacionales.
El 44% de los científicos de datos usan SQL y si incluyéramos a todas las bases de datos, completaríamos casi el 100 por 100 de los encuestados. Es algo necesario no sólo por la inmensa cantidad de datos de los que hablamos sino porque la mayor parte de los datos que usa un científico de datos profesional provienen de internet.

La gran división
- R: En torno a un 36% de los dateros usan R para su trabajo usual. Tiene a su favor que ha sido el lenguaje estadístico por excelencia durante muchos años y podemos encontrar códigos y paquetes para casi cualquier cosa que se nos ocurra.
- Python: El 83% por ciento de los dateros usan Python de forma habitual. Es la némesis de R en este caso: tiene una sintaxis muy buena y moderna pero aún queda mucho trabajo por hacer desarrollando su ecosistema.

Otras herramientas: Un incombustible
Millones de personas en el mundo usan Excel para organizar, analizar y visualizar datos. Eso es más gente de la que programa en los cinco lenguajes de programación más usados, por lo que Microsoft no ha dudado en abrazar esa idea de que Excel es ahora el lenguaje de programación más usado de todos.

Pero todo no es tan simple, y «programar en Excel» puede ser considerado bastante complejo, especialmente para un usuario y no un entusiasta de la programación o matemático.
Hasta ahora Excel tenía dos limitaciones fundamentales que evitaban que pudiese ser considerado como un lenguaje de programación completo:
- Excel solo admitía valores escalares: números, cadenas y booleanos.
- No dejaba que los usuarios definiesen nuevas funciones.
- Esto ha cambiado gracias a LAMBDA, «la función definitiva de Excel». Esta función básicamente permite que los usuarios puedan definir nuevas funciones escritas en el propio lenguaje de formulas de Excel, y gracias a LAMBDA, Excel ahora es «Turing completo».
- Ser «Turing completo», según la informática teórica, significa que un lenguaje de programación puede implementar cualquier algoritmo posible. Esto nos habla de lo potente que es un lenguaje de programación, no de rendimiento o de capacidad de mantenimiento o de lo rico que es su ecosistema.
De hecho, de dice que con este proyecto están lanzando un experimento a escala global sobre la programación a nivel de usuario con funciones de alto nivel.
Actualmente, se debe considerar que para usar LAMBDA, es necesario ser un miembro del programa Insider de Office.
Clinia Cordero
