Qué es un data lake y como crear uno para tu negocio

Siguiendo las tendencias de la ciencia de datos, es posible que hayas escuchado los términos como big data, data lake, analytics, machine learning. Hoy en día, todo el mundo quiere entrar en este campo de la ciencia de datos y Google, Amazon, Microsoft, etc… Empresas gigantes como éstas dirigen el camino.

Sin embargo, no es tan fácil entrar en este campo de especialización para un nuevo negocio. Uno de los principales problemas es la dispersión de datos en diferentes sistemas y bases de datos. Además, es posible que estos conjuntos de datos se hayan mantenido durante muchos años, sin apenas aportar valor al negocio.

¿Por qué no crear un repositorio de datos en su lugar?

Sin embargo, sería maravilloso si pudiéramos crear un repositorio de datos, pero hay muchos retos prácticos a la hora de crear un repositorio de datos y es posible que para muchas empresas sea muy temprano. Una de las principales razones es conocer con precisión qué conjuntos de datos son relevantes para resolver los diferentes problemas de negocio, cómo se deben limpiar, enriquecer y transformar.

Imagina qué debes hacer en una primera etapa para identificar y extraer, limpiar, enriquecer y transformar conjuntos de datos de todos los sistemas. Si los datos científicos de la empresa no son expertos en el negocio, es posible que en una segunda etapa sea necesario transformar conjuntos de datos o tratamientos, lo que puede suponer un gran esfuerzo, muchas veces imposible.

¿Qué es un Data Lake?

Un lago de datos es un almacén centralizado para almacenar todos los datos estructurados y no estructurados. La verdadera ventaja de un lago de datos es que pueden conservarse tal y como son los datos, sin ningún tipo de pretratamiento o estructuración, pudiendo comenzar a recibir datos de los diferentes sistemas de forma inmediata.

Estos datos pueden estar incluidos en ficheros vivos, ficheros Excel, consultas de base de datos, ficheros de registro, etc. Estos datos pueden almacenarse en el lago de datos sin proporcionar ninguna estructura.

Una vez que los datos se encuentran en el lago durante un cierto tiempo, estos datos pueden ser utilizados para el procesamiento, para realizar análisis de diferentes tipos o para realizar visualizaciones de diferentes tipos. Además, sobre estos datos es posible aplicar algoritmos como el Machine Learning o el Deep Learning para ofrecer decisiones guiadas.

Ilustración Data Lake

Crear un lago de datos para tu negocio

Crear un lago de datos para un negocio y asegurarse de que los distintos conjuntos de datos se almacenan de forma compacta durante un tiempo prolongado requiere de un proceso y una automatización. Para seguir en esta dirección, en primer lugar es necesario seleccionar la tecnología de data lake y las herramientas adecuadas para implantar una solución de lago de datos.

Configurar una solución Data Lake

Si estás pensando en crear un lago de datos en la nube, puedes abrir un bucket AWS S3 usando ficheros parquet, servicios sin servidor, sin coste previo y sin casi esfuerzo.

Si se quiere montar algo en el local es necesario realizar una mayor inversión, puede ser un disco NFS, pero a medida que suban las necesidades de procesamiento sería más adecuado utilizar sistemas de almacenamiento tipo HDFS de Hadoop.

Identificar fuentes de datos

Es necesario identificar las fuentes de datos que se introducirán en el lago de datos y establecer las frecuencias de actualización. Una vez identificadas las fuentes de datos, se tomarán diferentes decisiones sobre el grado de limpieza, pre-transformación o normalización que se aplicará a estos datos. Además es muy importante establecer metadatos de diferentes grupos de datos: origen, frecuencia, si se deben procesar en bloque o en su totalidad, en streaming o no, tipo de datos, etc.

Implantación de procesos y automatización

Es posible que los datos provengan de diferentes sistemas y además sean diferentes departamentos de la empresa, por ello es muy importante que los procesos tengan coherencia.

Los datos se pueden dispersar en diferentes grupos para diferenciar las diferentes fases que va a sufrir a lo largo del tratamiento. Si además los datos que se van a insertar son uno a uno o en bloque, se pueden aplicar diferentes procesos.

Asegurar una gobernabilidad adecuada

Una vez configurado el lago de datos, es importante asegurar el correcto funcionamiento. Que los procesos se ejecutan correctamente, que no tienen errores y que se pueden ejecutar de nuevo. No se trata sólo de poner datos en el lago, sino de facilitar la recuperación de datos para que otros sistemas puedan generar decisiones de negocio guiadasy basadas en datos. De lo contrario, terminará siendo un cajón desastre a largo plazo.

Uso datos del Data Lake

Una vez que el lago está bien configurado y funciona sin errores, en los procesos y utilizando datos de las diferentes fases, estos datos pueden ser transportados a otro sistema utilizando técnicas como ETL (Extract Transform and Load), por ejemplo en un Warehouse, para mezclarlos con otros datos de negocio o para contrastarlos con aplicaciones de visualización como BI (Business Inteligent) y extraer métricas, KPIs, etc.

Bien, ¿y ahora qué?

Lo más importante es realizar las preguntas adecuadas de negocio para responder en base a la disponibilidad de los datos. Puede que sea evidente, pero muchos negocios son los que más errores cometen.

Aunque haya un lago de datos en funcionamiento, es importante ir más allá. El poder de un lago de datos se basa en el desarrollo continuo y la evaluación de soluciones.

Web orri honek cookiek erabiltzen ditu erabiltzailearen nabigazioa errazteko