Zona Privada Asociados
 
FORMULARIO DE CONTACTO
Deseo suscribirme al Newsletter de la WCA
 

DATA LAKE Y DATA WAREHOUSE: ¿QUÉ SON Y EN QUÉ SE DIFERENCIAN?

MASSIMO GIGLIOTTI | TECHEDGE GROUP

La continua evolución de los sistemas de empresa ha contribuido, también a través de los procesos de transformación digital, a la introducción y optimización de nuevas tecnologías dedicadas a la analítica empresarial.

El objetivo principal es liderar el cambio dentro de un mercado en continuo y repentino crecimiento, a través de la adopción de nuevas tecnologías que incluyen Big Data, procesos de Inteligencia Artificial, Machine Learning y los cada vez más solicitados Data Lakes empresariales.

¿Qué es un Data Lake?

El Data Lake y el Data Warehouse son similares a primera vista: ambos sistemas están diseñados para permitir el almacenamiento de una gran cantidad de datos.

Para entender mejor las diferencias entre un Data Lake y un Data Warehouse, necesitamos examinar más de cerca sus utilidades principales.

El Data Lake es un repositorio compartido que le permite adquirir y almacenar grandes cantidades de datos procedentes de sistemas heterogéneos en formato nativo, es decir, datos en bruto estructurados, semiestructurados y no estructurados. La adquisición puede provenir de sistemas heredados, como CRM y ERP, o de fuentes externas, como feeds, Internet de las Cosas y datos de redes sociales.

El propósito de un Data Lake es, por lo tanto, proporcionar una visión no necesariamente refinada de los datos para apoyar las actividades de Data Discovery, lo que lo convierte en un sistema adecuado para usuarios expertos.

Por el contrario, el Data Warehouse está destinado a lograr una visión única de la empresa a través de herramientas de análisis empresarial y de análisis de Big Data. Una visión controlada y certificada a través de procesos especiales de ingesta, destinados a almacenar únicamente los datos procesados para un propósito o proceso de negocio específico.

Una de las principales fortalezas de los Data Lakes es la capacidad de almacenar cualquier tipo de datos. Esta característica es aún más evidente cuando los datos se adquieren con una frecuencia horaria o diaria, a través de estructuras en árbol (pensemos en una estructura de sistema de archivos en «carpetas» y «subcarpetas» organizadas por año, mes, día y, si es necesario, hora). En un Data Lake, la historización y posterior recuperación de los datos se puede llevar a cabo sin pérdida alguna del rendimiento, a diferencia de lo que podría ocurrir con los Data Warehouses para una enorme cantidad de datos.

Principales diferencias entre Data Lake y Data Warehouse

Las características específicas que distinguen a un Data Lake de un sistema tradicional de Data Warehouse son muchas, dependiendo del tipo de datos adquiridos y de la estructura de los mismos. A continuación, resumiremos las principales diferencias y analizaremos las más importantes.


DATA LAKE

DATA WAREHOUSE

Estructura de los datos

Brutos (estructurados, semiestructurados y no estructurados)

Estructurados, procesados

Finalidad de los datos

Por definir, definida
Nota: Es posible que haya datos cuyo propósito no se haya definido (para uso futuro)

Definida

Esquema

On Read

On Write

Usuarios

Data Scientists

Usuarios empresariales

Accessibilidad

Gran accesibilidad y fácil actualización

Acceso y actualizaciones más complicadas y costosas

Almacenamiento

Almacenamiento distribuido y costes limitados (potencialmente ampliable a la nube)

Costes y revisión de costosos procesos de ingesta


Estructura de los datos: Brutos vs. elaborados

Como ya hemos dicho, una de las principales características de los Data Lakes es la posibilidad de adquirir datos en bruto (datos de fuentes individuales en formato nativo) sin preocuparse por definir a priori una estructura en el proceso de adquisición: los Data Lakes almacenan principalmente datos en bruto no procesados.

Sin embargo, para alimentar un Data Warehouse es necesario realizar un análisis preventivo para optimizar la adquisición de datos a través de los procesos clásicos de ETL (la sigla en inglés de Extract, Transform & Load), durante los cuales, además de las lógicas de transformación, se pueden aplicar procesos adicionales de calidad de los datos.

No obstante, todos estos datos en bruto presentan un riesgo: los Data Lakes pueden convertirse en silos segmentados que, en ausencia de una política adecuada de calidad, gobierno y retención de datos, corren el riesgo de frustrar el análisis de los usuarios y los procesos relacionados. Esta eventualidad es más concreta de lo que parece y debe tenerse en cuenta, tanto durante la configuración como durante el mantenimiento.

Si quieres profundizar en este asunto, puedes echar un ojo a nuestros artículos recientes sobre recogida de datos no procesados y de consejos sobre la calidad, filtrado y almacenamiento de datos.


Usuarios: Data Scientist vs. Usuario empresarial

Dejemos esto claro de inmediato: no todo el mundo puede analizar un Data Lake.

Es un hecho que los principales proveedores de herramientas de Business Intelligence & Analytics -como Qlik, Microsoft, Oracle y Tableau, entre otros- están trabajando a ritmo acelerado para proporcionar cada vez más conectores que hagan transparente la fuente de datos (Data Lake, bases de datos relacionales, Data Warehouse y flujos de streaming).

A pesar de ello, el hecho es que un Data Lake requiere más conocimientos y, por lo tanto, está dirigido a usuarios avanzados.

Por el contrario, los cuadros de mando y los informes creados a través de Data Warehouses y Data Marts pueden ser utilizados por un público más amplio, cuyo objetivo principal es el análisis de la información sobre procesos de negocio y métricas predefinidas.


Data Lake y Data Warehouse: ¿Lastres u oportunidades?

En este breve artículo hemos enumerado las principales características de los Data Lakes y Data Warehouses. Llegados a este punto, vale la pena preguntarse:

«¿Cuál es la solución más adecuada para mi empresa? ¿Qué tengo que elegir?».

La respuesta es: «¡No tienes que elegir!».

Al contrario de lo que se podría pensar, las dos tecnologías no compiten entre sí, sino que son complementarias.

En los últimos años, especialmente gracias a la consolidación de los servicios en la nube (AWS y Azure principalmente), el paradigma relacionado con los sistemas de creación de informes ha seguido evolucionando introduciendo nuevos conceptos y arquitecturas que fusionan las tecnologías relacionadas con Data Lake, Big Data y Data Warehouse.

De esta fusión nacieron los Modern Data Warehouses y los Real Time Data Warehouses, que prevén como primer nivel de integración los Data Lakes y los módulos Big Data.

https://www.techedgegroup.com/es/data-intelligence 


 


 
Socios Honoríficos y Patrocinadores
Entidades Asociadas

Esta web utiliza cookies para obtener datos estadísticos de la navegación de sus usuarios.
Si continúas navegando consideramos que aceptas su uso. Más información X Cerrar