Diversas técnicas de modelado de almacenamiento de datos y su implementación en la plataforma Databricks Lakehouse

Diversas técnicas de modelado de almacenamiento de datos y su implementación en la plataforma Databricks Lakehouse

  • Big Data
  • junio 24, 2022
  • No Comment
  • 59
  • 16 minutes read


Lakehouse es un nuevo paradigma de plataforma de datos que combina las mejores cualidades de los lagos de datos y los almacenes de datos. Está diseñado como una plataforma de datos de nivel empresarial a gran escala que puede acomodar muchos casos de uso y productos de datos. Se puede utilizar como un repositorio de datos empresarial único y unificado para todos sus:

  • dominios de datos,
  • casos de uso de transmisión en tiempo real,
  • data marts,
  • diferentes almacenes de datos,
  • tiendas de características de ciencia de datos y sandboxes de ciencia de datos y
  • Sandboxes de análisis de autoservicio departamentales.

Dada la variedad de casos de uso, se pueden aplicar diferentes principios de organización de datos y técnicas de modelado a diferentes proyectos en una casa del lago. Técnicamente, la plataforma Databricks Lakehouse puede admitir muchos estilos de modelado de datos diferentes. En este artículo, nuestro objetivo es explicar la implementación de los principios de organización de datos Bronce/Plata/Oro de Seahouse y explicar cómo encajan las diferentes técnicas de modelado de datos en cada capa.

¿Qué es una bóveda de datos?

Una bóveda de datos es un patrón de diseño de modelado de datos más nuevo que se utiliza para construir almacenes de datos para análisis a escala empresarial en comparación con los métodos de Kimball e Inmon.

Las bóvedas de datos organizan los datos en tres tipos diferentes: centros, conexionesy satélites. Los concentradores representan las unidades comerciales principales, los enlaces representan las relaciones entre los concentradores y los satélites almacenan atributos sobre los concentradores o los enlaces.

Data Vault se centra en el desarrollo ágil de almacenes de datos donde la escalabilidad, la integración de datos/ETL y la velocidad de desarrollo son importantes. La mayoría de los clientes tienen una zona de aterrizaje, una zona de bóveda y una zona de data mart que se ajustan a los paradigmas organizativos de Databricks de los niveles bronce, plata y oro. El estilo de modelado de Data Vault de tablas de concentrador, enlace y satélite generalmente se adapta bien a la capa plateada de Lakehouse de Databrick.

Obtenga más información sobre el modelado de Data Vault en Data Vault Alliance.

Un diagrama que muestra cómo funciona el modelado de Data Vault, con concentradores, enlaces y satélites interconectados.
Un diagrama que muestra cómo funciona el modelado de Data Vault, con concentradores, enlaces y satélites interconectados.

¿Qué es el modelado dimensional?

El modelado dimensional es un enfoque de abajo hacia arriba para diseñar almacenes de datos para optimizarlos para el análisis. Los modelos dimensionales se utilizan para desnormalizar los datos comerciales. Dimensiones (como tiempo y producto) y hechos (como transacciones en Montos y Cantidades) y diferentes áreas temáticas están conectadas a través de dimensiones personalizadas para navegar a diferentes tablas de hechos.

La forma más común de modelado dimensional es el esquema en estrella. Un esquema en estrella es un modelo de datos multidimensional que se utiliza para organizar los datos de una manera que facilita su comprensión y análisis, y para crear informes de forma muy sencilla e intuitiva. Los esquemas en estrella estilo Kimball, o modelos dimensionales, son prácticamente el estándar de oro para la capa de presentación en almacenes de datos y data marts, e incluso para las capas semántica y de generación de informes. El diseño del esquema en estrella está optimizado para consultar grandes cantidades de datos.

Un ejemplo de un esquema de estrella
Un ejemplo de un esquema de estrella

Los estilos de modelado de datos Normalized Data Vault (optimizado para escritura) y Dimensional desnormalizado (optimizado para lectura) tienen un lugar en Databrick’s Lakehouse. Los concentradores y satélites de la bóveda de datos en el nivel plateado se utilizan para cargar las dimensiones en el esquema de estrella, y las tablas de enlace de la bóveda de datos se convierten en las tablas clave para cargar las tablas de hechos en el modelo de dimensión. Obtenga más información sobre el modelado dimensional de Kimball Group.

Principios de organización de datos en cada capa de Lakehouse

Un lago moderno es una plataforma de datos de nivel empresarial que lo abarca todo. Es altamente escalable y potente para todos los casos de uso posibles, como ETL, BI, ciencia de datos y transmisión, que pueden requerir diferentes enfoques de modelado de datos. Veamos cómo se organiza una típica casa del lago:

    Un diagrama que muestra las propiedades de las capas de bronce, plata y oro de la arquitectura Data Lakehouse.
Un diagrama que muestra las propiedades de las capas de bronce, plata y oro de la arquitectura Data Lakehouse.

Capa de bronce – la zona de aterrizaje

Todos los datos de los sistemas de origen terminan en la capa de bronce. Las estructuras de la tabla en este nivel corresponden a las estructuras de la tabla del sistema de origen «tal cual», excepto las columnas de metadatos opcionales que se pueden agregar para capturar la fecha/hora de carga, el ID del proceso, etc. El enfoque en esta capa es la captura de cambios de datos (CDC) y la capacidad de proporcionar un archivo histórico de datos de origen (almacenamiento en frío), linaje de datos, auditabilidad y reprocesamiento cuando sea necesario, sin volver a leer los datos del sistema de origen.

En la mayoría de los casos, es una buena idea mantener los datos en el nivel de bronce en formato delta para que las lecturas posteriores del nivel de bronce funcionen para ETL, y para que pueda realizar actualizaciones en bronce para adaptarse a los cambios de escritura de CDC. Cuando los datos llegan en formato JSON o XML, a veces vemos que los clientes los obtienen en el formato de datos de origen original y luego los proporcionan cambiándolos al formato delta. Entonces, a veces vemos clientes que manifiestan la capa de bronce lógica en una zona física de aterrizaje y preparación.

El almacenamiento de datos sin procesar en el formato de datos de origen original en una zona de destino también ayuda a mantener la coherencia al ingerir datos a través de herramientas de ingesta que no admiten delta como sumidero nativo, o cuando los sistemas de origen envían datos directamente al almacenamiento de objetos. Este patrón también encaja bien con el marco de ingestión del cargador automático, donde las fuentes depositan los datos en la zona de destino del archivo sin formato y el cargador automático de Databrick luego convierte los datos a la capa de preparación en formato delta.

Capa plateada: el repositorio central de la empresa

En el nivel de plata de Lakehouse, los datos del nivel de bronce se comparan, fusionan, ajustan y limpian («lo suficiente») para que el nivel de plata pueda proporcionar una «visión empresarial» de todas las unidades comerciales, conceptos y transacciones clave. Esto es comparable a un almacén de datos operativos empresariales (ODS) o un depósito central o dominios de datos de una red de datos (por ejemplo, clientes regulares, productos, transacciones no duplicadas y tablas de referencias cruzadas). Esta vista empresarial reúne los datos de diferentes fuentes y permite el análisis de autoservicio para informes ad hoc, análisis avanzado y ML. También sirve como un recurso para analistas departamentales, ingenieros de datos y científicos de datos para desarrollar aún más proyectos y análisis de datos para responder a problemas comerciales en proyectos de datos empresariales y departamentales en el nivel dorado.

En el paradigma de ingeniería de datos de Lakehouse, normalmente se sigue la metodología ELT (Extracción-Carga-Transformación) frente a la tradicional Extracción-Transformación-Carga (ETL). El enfoque de ELT significa que se aplican transformaciones mínimas o «suficientes» y reglas de limpieza de datos al cargar la capa plateada. Todas las reglas de «Nivel de empresa» se aplican en la capa Plata, en contraste con las reglas de transformación específicas del proyecto, que se aplican en la capa Oro. velocidad y agilidad Aquí se prioriza el registro y suministro de los datos en Lakehouse.

Desde el punto de vista del modelado de datos, la capa plateada tiene más modelos de datos similares a la tercera forma normal. En esta capa se pueden utilizar modelos de datos y arquitecturas de datos de rendimiento de escritura similares a Data Vault. Cuando se utiliza una metodología de bóveda de datos, tanto la bóveda de datos sin procesar como la bóveda empresarial encajan en la capa plateada lógica del lago, y las vistas de presentación de un punto en el tiempo (PIT), o vistas materializadas, se presentan en la capa dorada.

Capa dorada: la capa de presentación

Se pueden construir múltiples data marts o almacenes en la capa dorada de acuerdo con la metodología de modelado dimensional/Kimball. Como se mencionó anteriormente, el nivel dorado es para informes y utiliza modelos de datos más desnormalizados y optimizados para lectura con menos uniones en comparación con el nivel plateado. A veces, las tablas en la capa dorada se pueden desnormalizar por completo, generalmente cuando los científicos de datos así lo desean, para alimentar sus algoritmos de ingeniería de características.

Las reglas de calidad de datos y ETL que son «específicas del proyecto» se aplican al convertir datos de la capa plateada a la capa dorada. En esta capa se entregan las capas finales de presentación como almacenes de datos, data marts o productos de datos como análisis de clientes, análisis de productos/calidad, análisis de inventario, segmentación de clientes, recomendación de productos, análisis de marketing/ventas, etc. Los modelos de datos de estilo Kimball basados ​​en esquemas en estrella o data marts de estilo Inmon encajan en esta capa dorada de Lakehouse. Los laboratorios de ciencia de datos y los sandboxes departamentales para análisis de autoservicio también pertenecen a la capa dorada.

El paradigma de organización de datos de Lakehouse

El paradigma de organización de datos de Lakehouse

En resumen, los datos se seleccionan a medida que se mueven a través de las distintas capas de un lago.

  • Que capa de bronce utiliza los modelos de datos de los sistemas de origen. Cuando los datos llegan en formatos sin procesar, se convierten al formato DeltaLake dentro de esta capa.
  • Que capa de plata reúne, por primera vez, datos de fuentes dispares y los adapta para crear una vista empresarial de los datos, generalmente utilizando modelos de datos normalizados y optimizados para escritura que suelen ser similares a 3rd-Normal Form o Data Vault.
  • Que capa de oro es la capa de presentación con modelos de datos más desnormalizados o simplificados que la capa plateada, que normalmente usa modelos dimensionales o esquemas de estrella estilo Kimball. El nivel dorado también alberga sandboxes departamentales y de ciencia de datos para habilitar el análisis de autoservicio y la ciencia de datos en toda la empresa. La implementación de estos sandboxes y sus propios clústeres de cómputo separados evita que los equipos comerciales hagan sus propias copias de datos fuera del lago.

El enfoque de organización de datos de Lakehouse tiene como objetivo romper los silos de datos, reunir a los equipos y empoderarlos para realizar ETL, transmisión, BI e IA en una plataforma con un gobierno adecuado. Los equipos de datos centralizados deberían permitir la innovación en toda la organización, acelerando la incorporación de nuevos usuarios de autoservicio y el desarrollo paralelo de muchos proyectos de datos, en lugar de que el proceso de modelado de datos se convierta en el cuello de botella. El catálogo de Databricks Unity proporciona búsqueda y descubrimiento, gobernanza y linaje en Lakehouse para garantizar una buena cadencia de gobernanza de datos.

Cree sus bóvedas de datos y almacenes de datos Star Schema con Databricks SQL hoy.

Los datos se seleccionan a medida que se mueven a través de las diferentes capas de una casa del lago.
Cómo se seleccionan los datos a medida que se mueven a través de los diferentes niveles de Lakehouse.

Sigue leyendo:



Related post

Tratar los datos y la IA como un producto ofrece un ROI acelerado

Tratar los datos y la IA como un producto…

Los enormes beneficios de los datos y la IA para la fabricación han sido bien documentados. Según un estudio reciente de…
Informe: Los nuevos modelos de gestión de datos son esenciales para operar en la nube

Informe: Los nuevos modelos de gestión de datos son…

A medida que las organizaciones adoptan cada vez más los principios de la nube primero y la cantidad y variedad de…
Recopilación de datos de Apple y Spotify sobre mí: esto es lo que aprendí

Recopilación de datos de Apple y Spotify sobre mí:…

Introducción a la recopilación de datos Ya sea que lo apreciemos o no, todo lo que hacemos en nuestra vida diaria…

Leave a Reply

Tu dirección de correo electrónico no será publicada.