Saltar al contenido

Archivos del Blog

La profesión de científico de datos

El trabajo de científico de datos (data scientist) está de moda gracias a las startups. La fiebre de los datos ha hecho que empecemos a escuchar hablar de esta disciplina por todos lados. Pero, no podemos dejar de preguntarnos si es una moda pasajera o el trabajo de científico de datos ha venido para quedarse. Repasamos qué es exactamente eso de la data science, sus oportunidades laborales y las posibilidades que existen para formarse.

Un Científico de datos es una persona que está en un punto intermedio entre estadístico y programador. Es sencillamente un profesional dedicado a analizar e interpretar grandes bases de datos. O lo que es lo mismo, uno de los profesionales más importantes en cualquier empresa de internet hoy en día.

La tecnología actual no solo necesita del mejor talento sino de datos, mucho datos. Muchos. La moda por lo abierto y el giro hacia los datos no es más que el mismo espíritu corporativo de siempre buscando el próximo yacimiento. Y lo que vale para los entornos de inteligencia artificial y de machine learning, vale para casi cualquier tecnología.

Este gran valor de los datos contrasta con que los datos son el recurso más abundante del planeta. Se calcula que se crean 2.5 trillones de bytes de información nuevos al día. No parecen cosas fáciles de compatibilizar. ¿Cómo es posible que algo tan abundante sea tan valioso? Aunque fuera por pura oferta y demanda, acumular datos debería ser algo trivial. Y lo es, lo complejo es procesarlos.

Hasta hace relativamente poco sencillamente no podíamos hacerlo. A finales de los años 90, el campo del machine learning (aprendizaje automático) empezó a tomar entidad autónoma. Nuestra capacidad de trabajar con cantidades inmensas de datos se abarató y la irrupción social de internet hizo el resto. Desde hace unos años nos encontramos ante la primera gran ‘democratización’ de estas técnicas. Y, con ello, el boom del científico de datos: nadie quiere tener una mina de oro sin aprovechar.

En busca de un científico de datos

El problema es que, de repente, ha surgido una gran demanda de un perfil que hasta ahora prácticamente no existía. Recordemos que se precisan conocimientos estadísticos que un programador no suele tener y conocimientos informáticos que un estadístico no suele ni siquiera imaginar.

La mayor parte de las veces se ha solucionado con formación autodidacta que completa las habilidades básicas que debería tener un programa formativo pero no tiene. Por eso, hoy por hoy, podemos encontrar una gran diversidad de perfiles profesionales en el mundo del científico de datos. Según Burtch Works, el 32% de los científico de datos en activo vienen del mundo de las matemáticas y la estadística, el 19% de la ingeniería informática y el 16% de otras ingenierías.

Cómo formarse

Grados

A día de hoy, existen algunos grados dobles en ingeniería informática y matemáticas (Autónoma de Madrid, Granada, Politécnica de Madrid, Politécnica de Cataluña, Complutense, Murcia Autónoma de Barcelona) o en informática y estadística (Universidad de Valladolid) que parecen la mejor opción si nos planteamos esta especialización. De hecho, esta opción parece más interesante que los posibles ‘grados en ciencia de datos’ que pudieran surgir en el futuro: las posibilidades son más amplias, la formación más diversa y permite no encasillarnos.

Posgrados

El de los posgrados es un mundo muy diverso. Podemos encontrar posgrados, másteres o cursos de especialización en casi todas las universidades y una oferta privada realmente desmesurada. Por poner algunos ejemplos tenemos posgrados en la UGR, la UAB, la UAM, la UPM o la Pompeu Fabra. De todas formas, en posgrados es más difícil recomendar un curso en concreto. La clave está en buscar complementar nuestra formación previa y, en ese sentido, la diversidad es una buena noticia.

Lo que sí podemos encontrar en la formación de posgrado que no podemos encontrar en la formación previa es el componente de ‘orientación de negocio‘. No debemos olvidar que la mayor parte del trabajo de los científicos de datos está en empresas que buscan rentabilizar sus bases de datos, porque lo que la orientación al mercado es algo muy recomendable. De hecho, muchos de los másteres en ‘big data’ lo ofrencen escuelas de negocios como OEI o Instituto Empresa.

MOOCS

Uno de los recursos más interesantes que podréis encontrar son los moocs (ya sabéis, los cursos abiertos masivos online). Empezando por el programa de especialización en big data de Coursera, podemos encontrar cursos online de las mejores universidades del mundo. Si tuviera que recomendar alguno, los cuatro moocs que me parecen más interesantes el CS109 Data Science de Harvard, el curso de Machine Leaning de Standford, el The Analytics Edge del MIT o el Learning for data de CalTech. Todo esto sin hablar de las numerosas herramientas para aprender lenguajes como Python o R.

Certificados y otras opciones

También existen una serie de certificados o acreditaciones que permiten avalar nuestros conocimientos en ciencia de datos: el Certified Analytics Professional (CAP), Cloudera Certified Professional: Data Scientist (CCP:DS), EMC: Data Science Associate (EMCDSA) o certificados más específicos como los de SAS. Algunos de estos certificados tienen unos requisitos muy duros pero son una buena alternativa si hemos estado trabajando en este campo con anterioridad.

Otros recursos interesantes son las asociaciones (como R Hispano o Python España) y los grupos informales tipo Databeers que tanto éxito están teniendo por todo el país. Es verdad que el ecosistema de eventos y reuniones en data science está empezando a desarrollarse, pero con la experiencia acumulada en otros ámbitos seguro que se pone al día pronto.

¿Qué lenguajes hay que aprender?

En realidad, como cualquier iniciado sabe, en programación la elección de un lenguaje u otro siempre es complicada. En esta elección intervienen desde factores técnicos o formativos a simples preferencias personales.Lo que sí está claro es que hay algunos lenguajes más populares que otros.

Los tres grandes de la Ciencia de Datos: R  + Python + Sql

  • SQL: El 68% de los científicos de datos usan SQL y si incluyéramos a todas las bases de datos, completaríamos casi el 100 por 100 de los encuestados. Es algo necesario no sólo por la inmensa cantidad de datos de los que hablamos sino porque la mayor parte de los datos que usa un científico de datos profesional provienen de internet.
  • R: En torno a un 52% de los dateros usan R para su trabajo usual. Tiene a su favor que ha sido el lenguaje estadístico por excelencia durante muchos años y podemos encontrar códigos y paquetes para casi cualquier cosa que se nos ocurra. Tiene en su contra que su sintaxis es más antigua, compleja y fea que otros lenguajes más modernos que empujan fuertes. Es el lenguaje de los que se acercan desde un background científico.
  • Python: El 51% por ciento de los dateros usan Python de forma habitual. Es la némesis de R en este caso: tiene una sintaxis muy buena y moderna pero aún queda mucho por trabajo por hacer desarrollando su ecosistema. No obstante, para ser justos, Python cada vez es más competitivo y iniciativas como SciPy están poniéndole las cosas muy difíciles a R. Es el lenguaje de los que se acercan desde un background informático.

Aunque el sentido común nos dice que cada uno de los lenguajes es mejor para determinadas cosas, en la práctica hay cierta rivalidad. Personalmente, uso R pero suelo recomendar Python. No sólo porque es más bonito, sino porque es multipropósito y eso siempre es una ventaja.

Otras herramientas

  • Excel: No es un lenguaje y no suele gustar a aquellos que trabajan con datos a nivel profesional. O eso dicen porque las encuestas dicen lo contrario: Un 59% por ciento de los encuestados usan habitualmente excel. Así que, en fin, la aplicación de hojas de cálculo de Office sigue dando mucha guerra.
  • Algunos lenguajes o entornos gozan de cierto éxito empujados por la inercia corporativa. Es el caso del clásico Matlab pero progresivamente va perdiendo peso y uso hasta sólo un 6%.
  • Si examinamos las encuestas podemos encontrar muchos más lenguajes que obedecen a necesidades más particulares. Scala (17%), Slack (10%), Perl (12%), C# (6%), Mahout (3%), Apache Hadoop (13%) o Java (23%).
  • También hay muchos programas específicos (libres o privativos) que se usan en la ciencia de datos con distintos usos. Por poner algún ejemplo, podríamos hablar de Tableau, RapidMiner o de Weka.

El mercado laboral: sueldos y oportunidades

Los sueldos cambian mucho dependiendo de el lugar, las funciones y el empleador. No obstante, ahora mismo es una expertise bien pagada. Los sueldos/ingresos están en una media de 141.000 dólares para freelance; 107.000 para asalariados; 90.000 para trabajadores gubernamentales o en el sector sin ánimo de lucro y 70.000 dólares para trabajo en universidades.

No obstante, estos sueldos medios hay que tomarlas con mucha prudencia. El salario medio en Estados Unidos está entre 103.000 y 131.000 dólares. En Europa Occidental está entre 54.000 y 82.000 dólares. En España, estamos en cifras similares porque ya que tenemos grandes empresas que se han volcado en este campo.

Lo que diferencia a la ciencia de datos del resto del mundo del desarrollo es la escasez de profesionales. Este fenómeno hace que los sueldos estén relativamente inflados y que, conforme vayan apareciendo más perfiles dateros, se vayan ajustando. Por eso, se puede decir que es el momento para subirse a la ola de la ciencia de los datos. Dentro de un par de años el mercado habrá madurado y las oportunidades estarán en otro lugar.

0 Seguir leyendo →

Test Estadísticos: Spearman, Wilcoxon y Shapiro-Wilks

TEST ESTADÍSTICOS: CORRELACIÓN DE SPEARMAN

Dentro de los test estadísticos este se utiliza para describir la relación entre dos variables sin presuponer ninguna distribución de frecuencias de las variables. Es una variante del test de correlación de Pearson. Pero se aplica cuando cada valor en sí no es tan importante como su situación respecto a los restantes. Así que se usa si no se cumplen las condiciones para aplicar el test de Pearson.

Mide el grado de asociación entre dos variables cuantitativas que siguen una tendencia siempre creciente o siempre decreciente. Cubre más relaciones que el Coeficiente de correlación de Pearson. Se puede utilizar para calcular relaciones exponenciales o logarítmicas entre las variables. Así que no necesita asumir una relación lineal entre las variables como ocurre con el test de Pearson. Tampoco que sean medidas en escalas de intervalo, así que puede usarse para variables ordinales.

Es una medición de correlación sin parámetros y sus valores se interpretan igual que los del coeficiente de correlación de Pearson.

TEST ESTADÍSTICOS: TEST DE WILCOXON

Este test estadístico se usa cuando se comparan dos muestras relacionadas, emparejadas o medidas en una sola toma de datos. Evalúa si las diferencias positivas y negativas entre los valores de las variables es constante.

Puede ser utilizado como una alternativa a la prueba t de Student pareada, prueba t de pares emparejados o la prueba t para muestras dependientes. Es muy útil cuando la población no se puede suponer que se distribuye normalmente, por lo que no es necesario que las distribuciones sigan una normal.

TEST ESTADÍSTICOS: PRUEBA DE SHAPIRO-WILKS.

Esta prueba se recomienda para contrastar el ajuste de nuestros datos a una distribución normal, sobre todo cuando la muestra es pequeña (n<50). Se han realizado simulaciones de Monte Carlo para comparar su eficacia con otros test estadísticos. Se ha encontrando que éste es el mejor, seguido muy de cerca por el test de Anderson–Darling, Kolmogorov–Smirnov y Lilliefors.

Puedes ver más test en la categoría de tests estadísticos

Si tienes dudas o preguntas también puedes plantearlas en nuestro grupo de LinkedIn

2 Seguir leyendo →

Test Estadísticos: Test de Correlación de Pearson

Test de Correlación de Pearson. Resumen teorico.

El Test de Correlación de Pearson es una prueba que mide la diferencia entre una distribución observada y otra teórica. Es decir, mide su bondad de ajuste. Indica si las diferencias existentes entre las distribuciones se deben al azar. También se utiliza para probar la independencia de dos variables entre sí.

Hablamos de correlación cuando nos referimos a la relación existente entre dos variables, su intensidad y su sentido (positivo o negativo).

La covarianza, definida como el promedio de desviaciones conjuntas de dos variables sobre sus medias, no resulta ser una medida adecuada de la relación entre dos variables. Ya que el valor de Sxy está relacionado con el valor de la media de X y también con el valor de la media de Y. Por esto, si cambiamos la unidad de medida, la covarianza se verá afectada.

Como el valor de la covarianza depende de la unidad de medida, para evitarlo podemos dividir las diferencias a cada una de las medias por las respectivas desviaciones típicas Sx y Sy. El nuevo índice de relación que obtengamos tendrá la ventaja de ser invariante ante cualquier cambio en la unidad de medida.

A este índice de correlación se le denomina coeficiente de correlación de Pearson. También se le conoce como coeficiente de correlación producto momento.

{\displaystyle r_{xy}={\frac {\sum x_{i}y_{i}-n{\bar {x}}{\bar {y}}}{(n-1)s_{x}s_{y}}}={\frac {n\sum x_{i}y_{i}-\sum x_{i}\sum y_{i}}{{\sqrt {n\sum x_{i}^{2}-(\sum x_{i})^{2}}}~{\sqrt {n\sum y_{i}^{2}-(\sum y_{i})^{2}}}}}.}

Aplicación y uso

Aplicar el coeficiente de correlación de Pearson exige que las variables estén medidas al menos en una escala de intervalos y que se de una relación lineal entre ellas. Es decir, que los puntos del diagrama de dispersión se posicionen en la forma aproximada de una línea recta. Por tanto, usar el coeficiente de correlación de Pearson presupone la sospecha de que entre los grupos de puntuaciones se da una relación lineal.

El valor del coeficiente dado por el Test de Correlación de Pearson se encuentra comprendido entre -1 y 1.

  • Próximos a 1 indicarán fuerte asociación lineal positiva.
  • Valores próximos a -1 indicarán fuerte asociación lineal negativa.
  • Cercanos a 0 indicarán no asociación lineal, lo que no significa que no pueda existir otro tipo de asociación.

Resulta difícil precisar a partir de que valor de rxy podemos considerar que existe una correlación lineal entre dos variables. Siempre debemos tener en cuenta para la interpretación el tipo de variables a las que se aplica. Sin embargo, para tener un referente, y siendo conscientes de que estos coeficientes no son aplicables a todas las situaciones, tomamos los determinados por Bisquerra:

r = 1 correlación perfecta
0’8 < r < 1 correlación muy alta
0’6 < r < 0’8 correlación alta
0’4 < r < 0’6 correlación moderada
0’2 < r < 0’4 correlación baja
0 < r < 0’2 correlación muy baja
r = 0 correlación nula

Otras consideraciones

Debemos tener presente que la existencia de una correlación no implica que necesariamente deba existir una relación causal directa. Por relación causal directa se entiende que si X e Y están correlacionadas, entonces X es en gran parte la causa de Y, o Y es en parte la causa de X.
No obstante, es habitual que tras encontrar una elevada correlación entre variables se hipoteticen relaciones causa efecto. Pero la existencia de una relación de este tipo habrá de ser comprobada recurriendo a otras estrategias de investigación y a otras técnicas estadísticas.

Puedes ver más test en la categoría de tests estadísticos

Si tienes dudas o preguntas también puedes plantearlas en nuestro grupo de LinkedIn

0 Seguir leyendo →

Test Estadísticos: Test de Chi-Cuadrado (Ji-Cuadrado)

Introducción al test de chi-cuadrado

El test de Chi-cuadrado determina si existe asociación entre variables cualitativas. Se utiliza para analizar tablas de contingencia y compara las proporciones en datos independientes.

Existen diferentes procedimientos estadísticos para el análisis de las tablas de contingencia como el test de chi-cuadrado, la prueba exacta de fisher, la prueba de McNemar o la prueba Q de Cochran. En esta entrada me centro en el cálculo e interpretación de la prueba como método estándar de análisis en el caso de grupos independientes.

La prueba permite determinar si dos variables cualitativas están o no asociadas. Si al final del estudio concluimos que las variables no están relacionadas podremos decir, con un determinado nivel de confianza, previamente fijado, que ambas son independientes y que no hay relación entre ellas.

Guía rápida de ejecución

Para realizar este estudio se disponen los datos en una tabla de frecuencias. Para cada valor o intervalo de valores se indica la frecuencia absoluta observada. A continuación, y suponiendo que la hipótesis nula es cierta, se calculan para cada valor o intervalo de valores, la frecuencia absoluta que cabría esperar. El estadístico de prueba se basa en las diferencias entre la Oi y Ei y se define como:

Este estadístico tiene una distribución Chi-cuadrado con k-1 grados de libertad si n es suficientemente grande. Es decir, si todas las frecuencias esperadas son mayores que 5. En la práctica se tolera un máximo del 20% de frecuencias inferiores a 5.

Si existe concordancia perfecta entre las frecuencias observadas y las esperadas el estadístico tomará un valor igual a 0. Si existe una gran discrepancias entre estas frecuencias el estadístico tomará un valor grande. Cuando esto es así, se rechazará la hipótesis nula. Entonces, la región crítica está situada en el extremo superior de la distribución Chi-cuadrado con k-1 grados de libertad.

Puedes ver más test en la categoría de tests estadísticos

Si tienes dudas o preguntas también puedes plantearlas en nuestro grupo de LinkedIn

1 Seguir leyendo →