Saltar al contenido

Archivos de categoría Big Data

Retos a los que se enfrenta el Big Data

Retos del Big Data

Los retos a los que se enfrenta el Big data son muchos y variados. Cada fase del uso de la información tiene los suyo, pero desde el punto de vista general podemos distinguir los siguientes:

  • Falta de unificación: Hoy en día hay multitud de plataformas y tecnologías para el manejo de los datos. Cual es mejor o peor para las necesidades de cada uno es una cuestión difícil de responder. LA infraestructura que reciba y almacene cualquier tipo de dato para que puedan se procesados
  • Instrumentación: Se deben tener los instrumentos necesarios para medir la información.
  • Análisis: Al igual que ocurre con el almacenamiento, el análisis también cuenta con demasiadas formas de trabajo y pocas herramientas que realice un preprocesamiento de ellos. Se debe recoger y analizar cualquier tipo de datos, no solo los que están relacionados con el problema, si no también los que puedan influir en la decisión
  • Presentación: La visualización de los datos y de los resultados de manera que sean entendibles por cualquier usuario.
  • Mejora de las herramientas: Cada vez más se necesitan herramientas más sofisticadas que permitan extraer mejores conclusiones y más rápidas.
  • Limitación: Big Data no es la solución a todos los problemas, siempre hay que mirar más allá.
  • Predicciones incorrectas: No se debe caer en la trampa de pensar que los datos siempre son la solución. Big Data nos dice que es lo que ha ocurrido, pero no el porque.

Problemas en la recopilación de información

Ya desde el momento de recopilar los datos debemos tener e cuenta que pueden existir detalles que influyen negativamente:

  • Confianza: La fuente de información debe ser confiable, no podemos recoger cualquier tipo de dato, sin saber el como y por que se han recogido.
  • Protección: Durante todo el ciclo de vida de los datos, éstos deben estar protegidos y no deben ser cambiados o manejados de forma que puedan influir en el resultado.
  • Integración: Todo este aseguramiento de la información recopilada debe estar integrada dentro de la plataforma de manejo de datos
  • Privacidad: Aunque los datos recogidos sirvan para un determinado fin, no sabemos si pueden utilizarlos para otras tareas. La información debe protegerse escrupulosamente.
  • Legislación: Es necesario una legislación sobre el buen uso de la información. Se debe proteger a las personas frente a la intromisión en sus datos privados.
0 Seguir leyendo →

Datos, pilar fundamental en el Big Data.

La importancia de los datos en las empresas

Para muchas empresas, los datos han pasado a ser uno de los pilares fundamentales de su negocio. No solo puede venderlos, si no utilizarlos para poder realizar otras acciones que les recabe más dinero.

Gracias al Big Data los grandes volúmenes de información recogidos, por muy insignificante que sea, pueden utilizarse para crear modelos de conducta, responder preguntas complicadas, ver relaciones únicas y aprender detalles que la competencia puede no ver. Con esto se consigue una ventaja suficiente para triunfar frente a la competencia.

Así, cualquier tipo de compañía puede utilizar el Big Data para desatacar frente a otras. Podemos encontrar diversas compañías que utilizan como núcleo principal de su negocio la información:

  1. Recopiladoras: Recogen información y permiten su uso a otras compañías o se convierten en proveedoras de información: Twitter o compañías telefónicas
  2. Analistas: Utilizando la información que adquieren de otras empresas, se dedican a realizar estudios y análisis pero sin conocer el valor añadido de esos datos: Consultoras, empresas tecnológicas o empresas de análisis estadístico.
  3. Big Data real: No suelen tener datos ni los analizan, pero tienen ideas novedosas de como utilizar los datos. Waze o Amazon

La importancia de los datos en las personas

Al igual que el Big Data ofrece una gran oportunidad a las empresas, también se lo ofrece a las personas. Actualmente ha ofrecido la oportunidad de crear un nuevo perfil de estudios: el “data scientist”. Este perfil debe tener altos conocimientos en ciencia de la computación, en estadística y también como experto del negocio.

No hay una forma simple de llegar a ese perfil. No es sencillo que una sola persona sea experta en todos los conocimientos que engloba el Big Data. Así se podrá encontrar perfiles que tengan conocimientos globales, pero que sean más expertos en el análisis o en la recuperación o en la lógica de su uso.

0 Seguir leyendo →

La profesión de científico de datos

El trabajo de científico de datos (data scientist) está de moda gracias a las startups. La fiebre de los datos ha hecho que empecemos a escuchar hablar de esta disciplina por todos lados. Pero, no podemos dejar de preguntarnos si es una moda pasajera o el trabajo de científico de datos ha venido para quedarse. Repasamos qué es exactamente eso de la data science, sus oportunidades laborales y las posibilidades que existen para formarse.

Un Científico de datos es una persona que está en un punto intermedio entre estadístico y programador. Es sencillamente un profesional dedicado a analizar e interpretar grandes bases de datos. O lo que es lo mismo, uno de los profesionales más importantes en cualquier empresa de internet hoy en día.

La tecnología actual no solo necesita del mejor talento sino de datos, mucho datos. Muchos. La moda por lo abierto y el giro hacia los datos no es más que el mismo espíritu corporativo de siempre buscando el próximo yacimiento. Y lo que vale para los entornos de inteligencia artificial y de machine learning, vale para casi cualquier tecnología.

Este gran valor de los datos contrasta con que los datos son el recurso más abundante del planeta. Se calcula que se crean 2.5 trillones de bytes de información nuevos al día. No parecen cosas fáciles de compatibilizar. ¿Cómo es posible que algo tan abundante sea tan valioso? Aunque fuera por pura oferta y demanda, acumular datos debería ser algo trivial. Y lo es, lo complejo es procesarlos.

Hasta hace relativamente poco sencillamente no podíamos hacerlo. A finales de los años 90, el campo del machine learning (aprendizaje automático) empezó a tomar entidad autónoma. Nuestra capacidad de trabajar con cantidades inmensas de datos se abarató y la irrupción social de internet hizo el resto. Desde hace unos años nos encontramos ante la primera gran ‘democratización’ de estas técnicas. Y, con ello, el boom del científico de datos: nadie quiere tener una mina de oro sin aprovechar.

En busca de un científico de datos

El problema es que, de repente, ha surgido una gran demanda de un perfil que hasta ahora prácticamente no existía. Recordemos que se precisan conocimientos estadísticos que un programador no suele tener y conocimientos informáticos que un estadístico no suele ni siquiera imaginar.

La mayor parte de las veces se ha solucionado con formación autodidacta que completa las habilidades básicas que debería tener un programa formativo pero no tiene. Por eso, hoy por hoy, podemos encontrar una gran diversidad de perfiles profesionales en el mundo del científico de datos. Según Burtch Works, el 32% de los científico de datos en activo vienen del mundo de las matemáticas y la estadística, el 19% de la ingeniería informática y el 16% de otras ingenierías.

Cómo formarse

Grados

A día de hoy, existen algunos grados dobles en ingeniería informática y matemáticas (Autónoma de Madrid, Granada, Politécnica de Madrid, Politécnica de Cataluña, Complutense, Murcia Autónoma de Barcelona) o en informática y estadística (Universidad de Valladolid) que parecen la mejor opción si nos planteamos esta especialización. De hecho, esta opción parece más interesante que los posibles ‘grados en ciencia de datos’ que pudieran surgir en el futuro: las posibilidades son más amplias, la formación más diversa y permite no encasillarnos.

Posgrados

El de los posgrados es un mundo muy diverso. Podemos encontrar posgrados, másteres o cursos de especialización en casi todas las universidades y una oferta privada realmente desmesurada. Por poner algunos ejemplos tenemos posgrados en la UGR, la UAB, la UAM, la UPM o la Pompeu Fabra. De todas formas, en posgrados es más difícil recomendar un curso en concreto. La clave está en buscar complementar nuestra formación previa y, en ese sentido, la diversidad es una buena noticia.

Lo que sí podemos encontrar en la formación de posgrado que no podemos encontrar en la formación previa es el componente de ‘orientación de negocio‘. No debemos olvidar que la mayor parte del trabajo de los científicos de datos está en empresas que buscan rentabilizar sus bases de datos, porque lo que la orientación al mercado es algo muy recomendable. De hecho, muchos de los másteres en ‘big data’ lo ofrencen escuelas de negocios como OEI o Instituto Empresa.

MOOCS

Uno de los recursos más interesantes que podréis encontrar son los moocs (ya sabéis, los cursos abiertos masivos online). Empezando por el programa de especialización en big data de Coursera, podemos encontrar cursos online de las mejores universidades del mundo. Si tuviera que recomendar alguno, los cuatro moocs que me parecen más interesantes el CS109 Data Science de Harvard, el curso de Machine Leaning de Standford, el The Analytics Edge del MIT o el Learning for data de CalTech. Todo esto sin hablar de las numerosas herramientas para aprender lenguajes como Python o R.

Certificados y otras opciones

También existen una serie de certificados o acreditaciones que permiten avalar nuestros conocimientos en ciencia de datos: el Certified Analytics Professional (CAP), Cloudera Certified Professional: Data Scientist (CCP:DS), EMC: Data Science Associate (EMCDSA) o certificados más específicos como los de SAS. Algunos de estos certificados tienen unos requisitos muy duros pero son una buena alternativa si hemos estado trabajando en este campo con anterioridad.

Otros recursos interesantes son las asociaciones (como R Hispano o Python España) y los grupos informales tipo Databeers que tanto éxito están teniendo por todo el país. Es verdad que el ecosistema de eventos y reuniones en data science está empezando a desarrollarse, pero con la experiencia acumulada en otros ámbitos seguro que se pone al día pronto.

¿Qué lenguajes hay que aprender?

En realidad, como cualquier iniciado sabe, en programación la elección de un lenguaje u otro siempre es complicada. En esta elección intervienen desde factores técnicos o formativos a simples preferencias personales.Lo que sí está claro es que hay algunos lenguajes más populares que otros.

Los tres grandes de la Ciencia de Datos: R  + Python + Sql

  • SQL: El 68% de los científicos de datos usan SQL y si incluyéramos a todas las bases de datos, completaríamos casi el 100 por 100 de los encuestados. Es algo necesario no sólo por la inmensa cantidad de datos de los que hablamos sino porque la mayor parte de los datos que usa un científico de datos profesional provienen de internet.
  • R: En torno a un 52% de los dateros usan R para su trabajo usual. Tiene a su favor que ha sido el lenguaje estadístico por excelencia durante muchos años y podemos encontrar códigos y paquetes para casi cualquier cosa que se nos ocurra. Tiene en su contra que su sintaxis es más antigua, compleja y fea que otros lenguajes más modernos que empujan fuertes. Es el lenguaje de los que se acercan desde un background científico.
  • Python: El 51% por ciento de los dateros usan Python de forma habitual. Es la némesis de R en este caso: tiene una sintaxis muy buena y moderna pero aún queda mucho por trabajo por hacer desarrollando su ecosistema. No obstante, para ser justos, Python cada vez es más competitivo y iniciativas como SciPy están poniéndole las cosas muy difíciles a R. Es el lenguaje de los que se acercan desde un background informático.

Aunque el sentido común nos dice que cada uno de los lenguajes es mejor para determinadas cosas, en la práctica hay cierta rivalidad. Personalmente, uso R pero suelo recomendar Python. No sólo porque es más bonito, sino porque es multipropósito y eso siempre es una ventaja.

Otras herramientas

  • Excel: No es un lenguaje y no suele gustar a aquellos que trabajan con datos a nivel profesional. O eso dicen porque las encuestas dicen lo contrario: Un 59% por ciento de los encuestados usan habitualmente excel. Así que, en fin, la aplicación de hojas de cálculo de Office sigue dando mucha guerra.
  • Algunos lenguajes o entornos gozan de cierto éxito empujados por la inercia corporativa. Es el caso del clásico Matlab pero progresivamente va perdiendo peso y uso hasta sólo un 6%.
  • Si examinamos las encuestas podemos encontrar muchos más lenguajes que obedecen a necesidades más particulares. Scala (17%), Slack (10%), Perl (12%), C# (6%), Mahout (3%), Apache Hadoop (13%) o Java (23%).
  • También hay muchos programas específicos (libres o privativos) que se usan en la ciencia de datos con distintos usos. Por poner algún ejemplo, podríamos hablar de Tableau, RapidMiner o de Weka.

El mercado laboral: sueldos y oportunidades

Los sueldos cambian mucho dependiendo de el lugar, las funciones y el empleador. No obstante, ahora mismo es una expertise bien pagada. Los sueldos/ingresos están en una media de 141.000 dólares para freelance; 107.000 para asalariados; 90.000 para trabajadores gubernamentales o en el sector sin ánimo de lucro y 70.000 dólares para trabajo en universidades.

No obstante, estos sueldos medios hay que tomarlas con mucha prudencia. El salario medio en Estados Unidos está entre 103.000 y 131.000 dólares. En Europa Occidental está entre 54.000 y 82.000 dólares. En España, estamos en cifras similares porque ya que tenemos grandes empresas que se han volcado en este campo.

Lo que diferencia a la ciencia de datos del resto del mundo del desarrollo es la escasez de profesionales. Este fenómeno hace que los sueldos estén relativamente inflados y que, conforme vayan apareciendo más perfiles dateros, se vayan ajustando. Por eso, se puede decir que es el momento para subirse a la ola de la ciencia de los datos. Dentro de un par de años el mercado habrá madurado y las oportunidades estarán en otro lugar.

0 Seguir leyendo →

Iniciación e instalación del Framework Apache Hadoop

1. Introducción al Framework Apache Hadoop.

Primeros pasos con el Framework Apache Hadoop: Para poner en contexto lo que es Hadoop podemos decir que se trata de un framework opensource escrito en Java utilizado principalmente para ejecutar aplicaciones distribuidas bajo un cluster de máquinas ‘commodity’.

Dispone de un sistema de archivos propio: el HDFS (Hadoop Distributed File System). Se trata de un sistema de archivos distribuido en cada nodo del cluster. Utiliza un tamaño de bloque de entre 64Mb y 128Mb y está pensado para trabajar con grandes ficheros de datos. Está basado en el Google File System (GFS) creado en 2003 ya que en ese momento Google comprobó que los sistemas utilizados hasta entonces para tratar con toda la información de que disponían no eran suficientes. Necesitaban un sistema de ficheros distribuido, escalable, tolerante a fallos, con un intensivo acceso a datos y alta concurrencia.

En 2006 Dough Cutting crea Hadoop en un sistema de procesar datos a nivel web. En 2008 se gradúa como proyecto independiente de Apache Software Foundation.

Se basa en el paradigma MapReduce utilizado para paralelizar procesos en dos fases. La fase de mapeo donde se realiza el ‘escaneo’ o recogida de los datos de entrada produciendo una lista de pares (clave, valor). Estos pares son agrupados por clave y pasados a la función reduce que se encarga de procesarlos y generar un resultado agrupado de los mismos.

Hay varias formas de utilizar el Framework Apache Hadoop. Dependiendo de nuestras necesidades podemos optar a varios tipos de instalación o modos de funcionamiento:

  • Un único nodo en local (single node), utilizado por ejemplo para hacer pruebas de concepto corriendo Hadoop en una misma máquina
  • Un cluster pseudo-distribuido para simular un cluster de varios nodos pero corriendo en una misma máquina es decir en la misma Java VM.
  • Montar un cluster entre distintas máquinas (multi node) totalmente distribuido que sería el modo que utilizaríamos para montar un sistema Big Data en producción.

En este tutorial vamos a mostrar la forma de instalar el Framework Apache Hadoop en Linux de forma pseudo-distribuida.

2. Entorno.

El tutorial se ha realizado con el siguiente entorno:

  • Ubuntu 12.04 64 bits
  • Oracle Java SDK 1.6.0_27
  • Framework Apache Hadoop 2.2.0

3. Instalación de Framework Apache Hadoop.

Vamos a partir de que en la máquina ya está instalada una JDK de Java, preferiblemente la 1.6. Lo primero que haremos, obviamente será descargar el Framework Apache Hadoop de la página oficial. Descargar versión 2.2.0

A continuación muestro los pasos para descomprimir el archivo y copiarlo a un directorio de nuestro equipo.

Es una buena práctica crear un usuario y un grupo específico para configurar y administrar el Framework Apache Hadoop. Pongo los pasos necesarios para crear el usuario, asignarle la password, añadir el usuario al fichero sudoers, etc.

Nos logamos en la máquina con el usuario hadoop su hadoop. A continuacion añadimos las variables de entorno para hadoop en el $HOME/.bashrc.

Una vez editado el .bashrc hacemos un source .bashrc para cargar la nueva configuración. Para comprobar que todo ha ido bien escribimos en la consola hadoop version y nos debería devolver la versión del Framework Apache Hadoop con la que estamos trabajando.

3.1 Configuración de SSH.

Ahora vamos a configurar el ssh para que el Framework Apache Hadoop pueda autenticarse con una clave pública y acceder a los nodos del cluster y sobre la máquina local para el usuario que creamos anteriormente. Generaremos una nueva clave pública añadiéndola al directorio de claves del usuario. No debemos poner password ya que hadoop necesita poder conectarse al cluster directamente, imaginad si cada vez que intenta acceder a un nodo del cluster tuvieramos que meter contraseña!

Le damos permisos:

Para comprobar que se ha instalado correctamente puedes ejecutar el comando ssh localhost y si se conecta es que todo ha ido bien. Si no fuera así revisa los pasos anteriores. Salimos de la sesión ssh con exit.

Para dejar lista la configuración de Ubuntu debemos deshabilitar IPv6 ya que como dice la documentación oficial, Hadoop no lo admite para gestionar correctamente el cluster. Ubuntu trae por defecto esta configuración por lo que debemos desactivarla. Para ello añadimos las siguientes líneas al fichero /etc/sysctl.conf.

Para que coja los cambios debemos reiniciar la máquina. Una vez reiniciada podemos comprobar que ha cogido bien la nueva configuración con el comando cat /proc/sys/net/ipv6/conf/all/disable_ipv6.

4. Arquitectura HDFS.

HDFS es una implementación del sistema de ficheros descrito en el paper de Google (GFS). Sigue una filosofía “Write once, read more” en concreto para albergar grandes ficheros y principalmente pensado para programas batch donde los datos no son en tiempo real.

En HDFS se trabaja con una cantidad mínima de información llamada bloque que normalmente estará comprendida entre 64-128 Mb debido a que se trabaja con ficheros muy grandes (Gigabytes, Petabytes…). El objetivo de HDFS es dividir el fichero en bloques de tamaño fijo y distribuirlo en los distintos nodos del cluster. Debido a que se produce mucho tráfico por la red para distribuir la información con el coste que esto conlleva se opta por un tamaño de bloque alto. Recuerdo que HDFS es tolerante a fallos y caídas de nodos del cluster por lo que se replica la información en varios nodos (por defecto 3 veces).

La gestión del cluster la realiza el NameNode. Es el nodo maestro encargado de gestionar los metadatos de los ficheros y los directorios, coordina los bloques que se envían a cada datanode monitorizando su estado para asegurar que todos los trabajos se completan correctamente, redirigiendo bloques a otros datanodes si alguno estuviera caído. La información de los metadatos se almacena en memoria RAM para que el acceso sea más rápido. El NameNode es vital en el cluster por lo que se suele montar en una máquina mucho más potente que para los datanodes con mayor capacidad de proceso y sobre todo mucha memoria RAM.

Los DataNodes son los nodos esclavos encargados del almacenamiento de los bloques realizando las operaciones de lectura y escritura. Estos informan al NameNode de los bloques almacenados.

El SecondaryNameNode es un servicio auxiliar y opcional en el cluster. Es un error pensar que se trata de un segundo Namenode por si el primero fallara. Puede usarse como backup de los metadatos.

 

4.1 Configuración HDFS.

Con la instalación que hemos realizado hasta ahora tendríamos un nodo de hadoop instalado en la máquina. Si queremos configurar hadoop en un modo pseudo-distribuido debemos modificar algunos ficheros de configuración. Nos situamos en el directorio /user/local/hadoop/etc/hadoop y editamos el fichero core-site.xml

Esto configura el directorio hdfs por defecto en localhost.

A continuación configuramos algunas propiedades del sistema de ficheros en el fichero hdfs-site.xml. Como estamos configurando un cluster en un única máquina no tiene sentido indicar un factor de replicación mayor a 1.

Creamos los directorios /home/hadoop/workspace/dfs/name y /home/hadoop/workspace/dfs/data

Editamos ahora el fichero hadoop-env.sh para indicar el directorio JAVA_HOME de nuestra máquina.

Otra propiedad que vamos a configurar será la que configura los directorios donde se realiza el MapReduce, editamos el mapred-site.xml. También configuraremos el MapReduce de nuestro Hadoop al nuevo framework MapReduce disponible a partir de la versión 2 de Hadoop llamado Yarn (Yet Another Resource Negotiator). Es un framework MapReduce mejorado capaz de realizar más trabajos y un sinfín de cosas más que veremos en otros tutoriales. De momento lo dejaremos configurado. Como nuestro cluster es pseudo-distribuido únicamente habrá una tarea map y una reduce.

Por defecto viene como mapred-site.xml.template por lo que hacemos una copia y renombramos a mapred-site.xml

Creamos los directorios:

Por último configuramos un par de propiedades en el yarn-site.xml. Habilitamos la fase de Suffle para que se pueda hacer entre las fases de Map y Reduce ya que YARN por defecto no lo incluye.

Una vez instalado Hadoop vamos a comentar algunos comandos que se utilizan normalmente a la hora de trabajar con un cluster Hadoop. Lo primero será formatear el sistema de ficheros HDFS mediante el comando:

Lo siguiente será arrancar el cluster, es decir los diferentes demonios (Namenode, Datanode…) encargados de la ejecución de las tareas MapReduce y de la gestión del sistema de ficheros HDFS. Para hacer esto ejecutamos el script start-all.shz situado en /usr/local/hadoop/sbin/

Si ejecutamos el comando Jps que nos muestra los procesos Java corriendo en la máquina debería salir algo como esto:

Una vez arrancado podemos acceder al interfaz WebUI en http://localhost:8088/cluster/nodesdonde podemos realizar el seguimiento de los jobs que vayamos ejecutando. Es también muy útil para ver los logs, el histórico de jobs ejecutados, la configuración de MapReduce, etc.

Otra interfaz muy útil para ver la información del NameNode es accesible en http://localhost:50070/dfshealth.jsp. Aquí podemos ver la información de nuestro NameNode y también podemos acceder de forma visual al filesystem hdfs.

5. Conclusiones.

En este tutorial he querido hacer una primera introducción a la arquitectura de Hadoop, su instalación, configuración y arranque. En sucesivos tutoriales iremos entrando en detalle en los aspectos más destacados de la arquitectura y veremos las distintas partes en que se compone.

Espero que te haya sido de ayuda.

0 Seguir leyendo →

Big Data. Introducción breve.

Que es Big Data

El Big Data es un nuevo paradigma que permite poner en valor grandes volúmenes de datos. Este uso se hace mediante herramientas ya conocidas de minería de datos. Pero gracias a las nuevas tecnologías permite realizar los mismos estudios con toda la población, no solo con muestras.

Empieza a mostrar su viabilidad sobre el año 2000, mostrándose como una nueva revolución para la resolución de problemas. Desde entonces se ha visto que es una nueva forma de ver tendencias, predecir comportamientos y con ello obtener nuevos beneficios. Todo ello gracias al aumento de dispositivos de almacenamiento y la mejora en el procesamiento de datos.

Uso actual

Hoy en día, en un solo minuto, Internet es capaz de arrojar millones de acciones que se convierten en datos. Big Data intenta sacar un rendimiento extra a esos datos utilizando análisis estadístico. Al contrario de lo que se hacía hasta ahora, se utiliza toda la población de datos. Por esta razón el tamaño muestral pasa a segundo plano. Por consiguiente, el error muestral no existe. Los datos extraños y sesgos no se tienen que buscar y eliminar, dado que se diluyen y equilibran en la medida exacta que se producen.

El uso de los datos y su análisis busca más una relación causal entre los datos que una razón por la que se producen. Por esto, no se suelen utilizar para inteligencia artificial, si no para obtener tendencias y conocimientos globales. Estas tendencias permitan predecir acontecimientos futuros como causa relacional de acciones pasadas. Por ejemplo, es muy común ofrecer productos relacionados a una compra ya realizada.

Retos futuros

Sin duda, esta nueva herramienta trae consigo problemas que también hay que tener en cuenta. La seguridad, la privacidad de las personas o el coste de almacenamiento y procesamiento. En menor medida, las formas de visualizar y presentar los resultados son dificultades que hay que resolver a la hora de enfrentarse a esta nueva tecnología.

Las 3v del BigDataComo concepto práctico, a menudo se indica que el Big Data necesita de grandes ‘V’ para trabajar: Volumen, Velocidad y Variedad.

Algunos autores añaden dos más: Veracidad y Valor, pero son conceptos mucho más subjetivos.

0 Seguir leyendo →

Recopilación de datos en el Big Data

Recopilación de datos en grandes volúmenes

La recopilación de datos es el primer paso para poder realizar cualquier tipo de estudio con datos. Este proceso se realiza mediante la digitalización de los datos, es decir, convertir cualquier dato a formato digital.

Hasta ahora el proceso de capturar la información se realizaba de infinidad de formas, muchas de las cuales impedía el posterior análisis. Esto suponía perder esa información. Incluso hoy pueden haber acciones que no pueden ser medidas o digitalizadas, pero cada vez son menos.

Datos como los movimiento de personas, las revoluciones de un motor o el recorrido de las grúas, pueden convertirse a datos digitales para su posterior análisis. La idea es recoger toda la información que se produzca de cualquier evento. De esta forma no se pierde ningún detalle de lo que sucede con el fin de tener una información completa de ese evento.

Cada fuente de datos y cada tipología tiene su propia forma de recopilación. La forma más sencilla hoy en día es el uso de los sistemas informáticos. Pero depende del experto decidir la forma de recopilar información para que su uso sea lo más sencillo posible.

Uso de los datos

Uno de los principales objetivos de esta recopilación de datos es que posteriormente se pueda analizar para detectar patrones de comportamiento. Para realizar dicho análisis se utilizará el Big Data, por lo que la recopilación debe ir orientada a esa forma de analizar. Esto supone que el almacenamiento y la estructuración de la información debe estar en formatos utilizables y si es posible en bases de datos.

La fuente de los datos puede ser muchos y variados (usuarios, aplicaciones, sistemas, bases de datos, sensores…). Su uso posterior puede ser cualquiera, incluso algunos que en principio nada tienen que ver con la fuente.

Pongamos un ejemplo: la captura de movimiento de personas en un aeropuerto. Inicialmente estaba orientado a mejorar y optimizar el flujo de personas. Pero puede utilizarse para detectar movimientos extraños de personas particulares. Puede indicar que esa persona tiene problemas de salud o desorientación.

Si tienes dudas o preguntas también puedes plantearlas en nuestro grupo de LinkedIn

0 Seguir leyendo →