¿Qué es un almacén de datos y cómo se implementa en la plataforma Databricks Lakehouse?

¿Qué es un almacén de datos y cómo se implementa en la plataforma Databricks Lakehouse?

  • Big Data
  • junio 24, 2022
  • No Comment
  • 27
  • 10 minutes read


Hay muchos modelos de datos diferentes que puede usar al diseñar un sistema de análisis, como: B. Modelos de dominio específicos de la industria, métodos Kimball, Inmon y Data Vault. Dependiendo de sus necesidades únicas, puede usar estas diferentes técnicas de modelado al diseñar una casa en el lago. Todos tienen sus puntos fuertes, y cada uno puede ser una buena opción para diferentes casos de uso.

En última instancia, un modelo de datos no es más que una construcción que define varias tablas con relaciones definidas uno a uno, uno a muchos y muchos a muchos. Las plataformas de datos deben proporcionar las mejores prácticas para la fisicalización del modelo de datos para facilitar la recuperación de información y mejorar el rendimiento.

En un artículo anterior, cubrimos cinco sencillos pasos para implementar un esquema en estrella en Databricks con Delta Lake. En este artículo, nuestro objetivo es explicar qué es un Data Vault, cómo implementarlo dentro de la capa Bronze/Silver/Gold y cómo obtener el mejor rendimiento de Data Vault con la plataforma Lakehouse de Databrick.

Modelado de Data Vault, definido

El objetivo del modelado de Data Vault es adaptarse a las necesidades comerciales que cambian rápidamente y admitir un desarrollo más rápido y ágil de almacenes de datos por diseño. Una bóveda de datos se presta bien a la metodología Lakehouse porque el modelo de datos, con su diseño de concentrador, enlace y satélite, es fácilmente extensible y granular, lo que facilita la implementación de cambios de diseño y ETL.

Comprendamos algunos componentes básicos para una bóveda de datos. En general, un modelo de Data Vault tiene tres tipos de entidades:

  • centros — Un centro representa una entidad empresarial central, como clientes, productos, pedidos, etc. Los analistas utilizan las claves naturales/comerciales para obtener información sobre un centro. La clave principal de las tablas centrales normalmente se deriva de una combinación de ID de concepto empresarial, fecha de carga y otra información de metadatos.
  • conexiones — Los enlaces representan la relación entre las entidades centrales, solo tiene las claves de conexión. Es como una tabla de hechos sin hechos en el modelo de dimensión. Sin atributos, solo une claves.
  • satélites — Las tablas de satélite tienen los atributos de las entidades en el centro o enlaces. Tiene información descriptiva sobre las unidades comerciales principales. Se asemejan a una versión normalizada de una tabla de dimensiones. Por ejemplo, un hub de clientes puede tener muchas tablas satélite, como atributos geográficos de clientes, solvencia crediticia de clientes, niveles de fidelidad de clientes, etc.

Uno de los beneficios clave de la metodología de Data Vault es que los trabajos de ETL existentes requieren una refactorización significativamente menor cuando cambia el modelo de datos. Un estilo de modelado «optimizado para escritura», Data Vault admite enfoques de desarrollo ágiles y es ideal para lagos de datos y enfoques de lagos.

Un diagrama muestra cómo funciona el modelado de la bóveda de datos, con concentradores, enlaces y satélites interconectados
Un diagrama muestra cómo funciona el modelado de la bóveda de datos, con concentradores, enlaces y satélites interconectados.

Cómo encaja Data Vault en un Lakehouse

Veamos cómo algunos de nuestros clientes utilizan el modelado de almacenes de datos en una arquitectura de Databricks Lakehouse:

Arquitectura de bóveda de datos en Lakehouse
Arquitectura de bóveda de datos en Lakehouse

Consideraciones para implementar un modelo de Data Vault en Databricks Lakehouse

  • El modelado de Data Vault recomienda usar un hash de claves comerciales como clave principal. De forma predeterminada, Databricks admite funciones hash, MD5 y SHA para admitir claves comerciales.
  • Los niveles de Data Vault tienen el concepto de una zona de aterrizaje (y, a veces, una zona de preparación). Estas dos capas físicas coinciden naturalmente con la capa de bronce de Data Lakehouse. Si los datos llegan a la zona de aterrizaje en los formatos Avro, CSV, Parquet, XML, JSON, se convierten en tablas en formato delta en la zona de preparación para que el ETL posterior pueda tener un alto rendimiento.
  • Raw Vault se crea desde la zona de aterrizaje o preparación. Los datos se modelan en Raw Data Vault como centros, enlaces y tablas de satélites. Las reglas ETL «comerciales» adicionales normalmente no se aplican mientras se carga la bóveda de datos sin procesar.
  • Todas las reglas comerciales de ETL, las reglas de calidad de datos, las reglas de saneamiento y cumplimiento se aplican entre Raw y Business Vault. Las tablas de Business Vault se pueden organizar por dominios de datos, que sirven como un «repositorio central» para los datos limpios estandarizados de la organización. Los administradores de datos y las PYMES son dueños de la gobernanza, la calidad de los datos y las reglas comerciales en torno a sus áreas de Business Vault.
  • Las tablas de soporte de consultas, como las tablas de punto en el tiempo (PIT) y puente, se crean para el nivel de presentación en la parte superior de la bóveda empresarial. Las tablas PIT mejoran el rendimiento de las consultas, ya que algunos satélites y concentradores están preconectados y proporcionan algunas condiciones DONDE con filtrado de un punto en el tiempo. Las tablas de puente preconectan centros o entidades para proporcionar una «tabla dimensional» aplanada como vistas para las entidades. Las tablas en vivo de Delta son como las vistas materializadas y se pueden usar para crear tablas de puntos en el tiempo, así como tablas puente en el nivel dorado/de presentación en la parte superior de Business Data Vault.
  • A medida que los procesos comerciales cambian y se adaptan, el modelo de Data Vault se puede ampliar fácilmente sin la refactorización masiva que hacen los modelos dimensionales. Se pueden agregar fácilmente más centros (áreas temáticas) a los enlaces (tablas de combinación pura) y se pueden agregar más satélites (por ejemplo, segmentaciones de clientes) a un centro (cliente) con cambios mínimos.
  • Cargar un almacén de datos de modelos dimensionales en Gold Layer también se vuelve más fácil por las siguientes razones:
    • Los concentradores facilitan la administración de claves (las claves naturales de los concentradores se pueden convertir en claves sustitutas a través de las columnas de Identidad).
    • Los satélites facilitan la carga de dimensiones porque contienen todos los atributos.
    • Los enlaces facilitan la carga de tablas de hechos, ya que contienen todas las relaciones.

Sugerencias para obtener el mejor rendimiento de un modelo de Data Vault en Databricks Lakehouse

  • Use tablas con formato delta para las tablas Raw Vault, Business Vault y Gold Layer.
  • Asegúrese de utilizar los índices OPTIMIZE y Z-order para todas las claves de unión de concentrador, enlace y satélite.
  • No divida demasiado las tablas, especialmente las tablas satélite más pequeñas. Utilice la indexación del filtro Bloom en columnas de fecha, columnas de marca actual y columnas de predicado que normalmente se filtran para garantizar el mejor rendimiento, especialmente si necesita crear índices adicionales además del orden z.
  • Delta Live Tables (vistas materializadas) hace que crear y administrar tablas PIT sea muy fácil.
  • Reducir el optimize.maxFileSize a un número menor, como B. 32-64 MB frente al valor predeterminado de 1 GB. Al crear archivos más pequeños, puede beneficiarse del saneamiento de archivos y minimizar la E/S para obtener los datos que necesita fusionar.
  • El modelo de Data Vault tiene comparativamente más uniones, así que use la última versión de DBR, que garantiza que la ejecución de consultas adaptables esté habilitada de forma predeterminada para que la mejor estrategia de unión se use automáticamente. Use sugerencias para unirse solo cuando sea necesario. (para optimización avanzada del rendimiento).

Obtenga más información sobre el modelado de Data Vault en Data Vault Alliance.

Comience a construir su bóveda de datos en Lakehouse

Pruebe Databricks gratis durante 14 días.



Related post

MLOps en Databricks con Vertex AI en Google Cloud

MLOps en Databricks con Vertex AI en Google Cloud

Desde el lanzamiento de Databricks en Google Cloud a principios de 2021, Databricks y Google Cloud han estado trabajando juntos para…
¿Cómo funcionan los inversores aislados?

¿Cómo funcionan los inversores aislados?

Romain Metayé Doctor en Química, École Polytechnique 12 de agosto de 2022 1 panorama Un inversor aislado es el cerebro de…
Uso de análisis de datos para optimizar su enfoque de cobro de efectivo

Uso de análisis de datos para optimizar su enfoque…

La tecnología de análisis de datos se ha vuelto muy importante para ayudar a las empresas a administrar sus estrategias financieras.…

Leave a Reply

Tu dirección de correo electrónico no será publicada.