Estadística en la Ciencia de Datos (Parte 1)

Estadística – Mcoder.ai

Conceptos de estadística para Minería de Datos.

Mcoder.AI

Linkedin: Connie Vega Twitter: @ConnieVega_Mex

La estadística​ es la rama de las matemáticas que estudia la variabilidad, así como el proceso aleatorio que la genera siguiendo las leyes de la probabilidad. Como parte de la matemática, la estadística es una ciencia formal deductiva, con un conocimiento propio, dinámico y en continuo desarrollo obtenido a través del método científico formal.

La ciencia de datos es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea estructurados o no estructurados, lo cual uno de los objetivos es aplicar el aprendizaje automático, y la analítica predictiva.​

A través de este vídeo descubre como se relacionan los conceptos de estadística en las etapas de ciencia de datos y prepárate para poner en práctica todo este conocimiento en tu vida profesional. Comenzaremos con la etapa de minería de datos ya que es el primer paso para poder ejecutar todo un proceso científico y tecnológico, ya que es la exploración de datos al proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos.​​

Estadística – Mcoder.ai

Algunas de las fórmulas que se usan en estadística para calcular los diferentes parámetros son:

Esperanza (Media).

  • Para datos discretos
{\displaystyle \mathbb {E} [X]=x_{1}p(X=x_{1})+...+x_{n}p(X=x_{n})=\sum _{i=1}^{n}x_{i}p(x_{i})\,\!}
  • Para datos continuos
{\displaystyle \mathbb {E} [X]=\int _{-\infty }^{\infty }xf(x)dx\,\!}

Varianza

  • Para datos discretos
  • Para datos continuos

Coeficiente de asimetría

\sum _{{i=1}}^{{k}}f_{i}(x_{i}-\mu )=\sum _{{i=1}}^{{k}}f_{i}x_{i}-\mu \sum _{{i=1}}^{{k}}f_{i}=\mu -\mu =0\!
Cuando la distribución es simétrica completamente el coeficiente será igual a cero.

Curtosis

{\displaystyle \beta _{2}={\frac {\mu _{4}}{\sigma ^{4}}}}
Donde el término superior es el 4° momento con respecto a la media y el término inferior la desviación estándar.

Entropía

{\displaystyle H(X)=-\sum _{i}p(x_{i})\log _{2}p(x_{i})}

Si te es complicado entender el cálculo de estos parámetros, no te preocupes, poco a poco con el apoyo de más talleres y algunos cursos podremos profundizar en los temas, por ahora mientras sepas cuál es la interpretación de cada uno de ellos está perfecto.

-Connie Vega

Data Scientist

Dejar una contestacion

Tu dirección de correo electrónico no será publicada.