9/3/2023

Que es un Data Lakehouse? Una explicación sencilla para todos y como te puede servir

Que es un Data Lakehouse? Una explicación sencilla para todos y como te puede servir

Primero, existía un almacén de datos, una arquitectura de almacenamiento de información que permitía archivar datos estructurados para fines específicos de inteligencia empresarial y reporting. El concepto de almacén de datos se remonta a la década de 1980 y ha servido bien a las empresas durante varias décadas, hasta el amanecer de la era de Big Data.

Fue entonces cuando las empresas comenzaron a desbloquear el valor de trabajar con datos no estructurados: información desordenada y cruda que puede tomar la forma de imágenes, videos o grabaciones de sonido. Este tipo de datos suele constituir del 80 al 90% de la información disponible para las organizaciones y a menudo tiene un valor fenomenal: piense en las ideas contenidas en años de comunicaciones de correo electrónico de los clientes o horas de imágenes de video de la línea de producción. Desafortunadamente, no se ajusta bien a la forma estructurada y ordenada en que se almacena la información en el modelo de almacén de datos.

Esto llevó al desarrollo de un tipo diferente de arquitectura conocida como el lago de datos, donde la información no estructurada se almacena en su formato sin procesar, lista para cualquier uso que podamos encontrar para ella, ahora o en el futuro.

El lago de datos es sin duda una arquitectura muy potente y flexible. Sin embargo, tiene algunos problemas. Para empezar, como puede imaginar, puede ser muy desordenado, de hecho, he oído decir que si no tienen cuidado, las empresas pueden terminar con algo que se parece más a un pantano de datos.

Esto puede crear problemas de gobernanza y privacidad, así como complejidades técnicas involucradas en la creación de sistemas que puedan capturar datos en una miríada de esquemas y formatos.

Lo que nos lleva a...

Entonces, hoy en día, las empresas y otras organizaciones que trabajan con conjuntos de datos que podrían considerarse Big Data tienen otra opción cuando se trata de la arquitectura de almacenamiento. Al igual que con las plataformas en la nube en general, con el almacenamiento de datos, cada vez escuchamos más sobre una arquitectura híbrida que se llama data lakehouse (enfoque "lago de datos y almacén de datos").

No hay premios por adivinar que la idea fundamental detrás de este enfoque es tomar los mejores conceptos de los modelos de almacén de datos y lago de datos y unirlos tratando de eliminar los peores conceptos de ambos modelos.

Al igual que un lago de datos, un data lakehouse está diseñado para alojar datos estructurados y no estructurados. Esto significa que las empresas que pueden beneficiarse al trabajar con datos no estructurados (que es prácticamente cualquier empresa) solo necesitan un repositorio de datos en lugar de requerir infraestructura de almacén y lago.

Donde las organizaciones usan ambos, generalmente los datos en el almacén alimentan la analítica de inteligencia empresarial, mientras que los datos en el lago se utilizan para la ciencia de datos, que podría incluir inteligencia artificial (IA) como el aprendizaje automático y el almacenamiento para casos de uso futuros aún no definidos.

Los data lakehouse permiten que se apliquen estructuras y esquemas como los utilizados en un almacén de datos a los datos no estructurados del tipo que normalmente se almacenarían en un lago de datos. Esto significa que los usuarios de datos pueden acceder a la información más rápidamente y comenzar a ponerla a trabajar. Y esos usuarios de datos podrían ser científicos de datos o, cada vez más, trabajadores en cualquier número de otros roles que ven cada vez más los beneficios de aumentar sus capacidades con capacidades analíticas.

Estos lagos de datos y almacén de datos podrían hacer uso de capas de metadatos inteligentes que actúan como una especie de "intermediario" entre los datos no estructurados y el usuario de datos para categorizar y clasificar los datos. Al identificar y extraer características de los datos, puede estructurarse de manera efectiva, lo que permite catalogarlo e indexarlo como si fueran datos estructurados ordenados.

Por ejemplo, parte de esta extracción de metadatos podría incluir el uso de algoritmos de visión por computadora o procesamiento de lenguaje natural para comprender el contenido de los archivos de imagen, texto o voz que se descargan como datos sin procesar y sin etiquetar en el lago de datos y almacén de datos.

Data lakehouse habilita el análisis inteligente

Entonces, ¿para quién es la arquitectura de data lakehouse? Para organizaciones que buscan dar el siguiente paso en su viaje analítico al graduarse de la inteligencia empresarial a la inteligencia artificial. Cada vez más, las empresas buscan datos no estructurados para informar sus operaciones y decisiones impulsadas por datos simplemente por la riqueza de las ideas que se pueden extraer de ella. Aquí hay un ejemplo muy simple: si cuenta el número de clientes que entran a su tienda cada día y almacena esos datos como un número simple, esos puntos de datos solo le dirán una cosa.

Sin embargo, si los graba entrando en video, además del número básico de clientes que entran, puede averiguar todo tipo de información adicional: ¿son sus clientes hombres o mujeres? ¿Cuál es su rango de edad, cómo les gusta vestirse? En el futuro, ¡incluso podría ajustar la tecnología de análisis facial y decir en qué estado de ánimo están cuando entran por la puerta!

Sí, podría descargar toda esa información en un lago de datos. Sin embargo, habría importantes problemas de gobernanza de datos que abordar, como el hecho de que está tratando con información personal. Una arquitectura de lago de datos y almacén de datos abordaría esto automatizando los procedimientos de cumplimiento, quizás incluso anonimizando los datos cuando fuera necesario.

A diferencia de los almacenes de datos, los data lakehouse son económicos para escalar porque la integración de nuevas fuentes de datos se automatiza, no tienen que adaptarse manualmente a los formatos y esquemas de datos de la organización. También son "abiertos", lo que significa que los datos se pueden consultar desde cualquier lugar utilizando cualquier herramienta, en lugar de estar limitados a ser accesibles a través de aplicaciones que solo pueden manejar datos estructurados (como SQL).

Es probable que el enfoque de lago de datos y almacén de datos se vuelva cada vez más popular a medida que más organizaciones comiencen a comprender el valor de utilizar datos no estructurados junto con la IA y el aprendizaje automático. En el viaje analítico, es un paso hacia la madurez del modelo de data lakehouse combinados, que hasta hace poco se consideraba la única opción para organizaciones que quieren continuar con los flujos de trabajo de BI y análisis heredados y, al mismo tiempo, migrar hacia iniciativas de datos inteligentes y automatizadas. Con más proveedores de infraestructura de datos convencionales (por ejemplo, AWS y Databricks) que ofrecen esta arquitectura, y herramientas de código abierto como Delta Lake que están ganando popularidad, es un término que escucharemos cada vez más en los próximos años.

Para obtener más información sobre cómo aprovechar los datos para su negocio, consulte mi libro Estrategia de datos: cómo beneficiarse de un mundo de Big Data, análisis e inteligencia artificial.

Suscríbete y ahorra

Saca el máximo de nuestros productos obteniendo una suscripción, accede a descuentos en las pruebas, reportes generales y modificaciones de los cuestionarios.