Consideraciones importantes al migrar a un lago de datos

Consideraciones importantes al migrar a un lago de datos

  • Big Data
  • marzo 30, 2022
  • No Comment
  • 44
  • 9 minutes read


Azure Data Lake Storage Gen2 se basa en Azure Blob Storage y ofrece una variedad de capacidades de análisis de big data. Se está convirtiendo rápidamente en la opción preferida para empresas y desarrolladores debido a su rendimiento superior. Si no comprende el concepto, puede leer nuestro artículo anterior sobre la diferencia entre lagos de datos y almacenes de datos.

Data Lake Storage Gen2 combina la semántica del sistema de archivos, el directorio, la seguridad a nivel de archivo y la escalabilidad de Azure Data Lake Storage Gen1 con el almacenamiento en niveles rentable y las capacidades de alta disponibilidad/recuperación ante desastres de Azure Blob Storage.

En este artículo, lo guiaré a través del proceso de migración de sus datos a lagos de datos.

1. Determina tu preparación

En primer lugar, debe conocer la solución Data Lake Storage Gen2, incluidas sus características, precios y diseño general. Compare y contraste las capacidades de Gen1 con las de Gen2. También desea comprender los beneficios de los lagos de datos.

Examine una lista de problemas conocidos para identificar brechas en las funciones. Las funciones de almacenamiento de blobs, como el registro de diagnóstico, los niveles de acceso y las políticas de administración del ciclo de vida del almacenamiento de blobs, son compatibles con Gen2. Compruebe el nivel de soporte actual si desea utilizar alguna de estas funciones. Examine los niveles de soporte actuales del ecosistema de Azure para asegurarse de que Gen2 admita todos los servicios en los que se basan sus soluciones.

¿Cuáles son las diferencias entre Gen1 y Gen2?

organización de datos

Gen 1 ofrece espacios de nombres jerárquicos con compatibilidad con archivos y carpetas. Gen 2 ofrece todo esto más seguridad y soporte de contenedores.

permiso

Gen 1 usa ACL para la autorización de datos, mientras que Gen 2 usa ACL y Azure RBAC para la autorización de datos.

autenticación

Gen 1 admite la autenticación de datos con identidad administrada de Azure Active Directory (Azure AD) y principios de servicio, mientras que Gen 2 admite la autenticación de datos con identidad administrada de Azure AD, principios de servicio y clave de acceso compartido.

Estas son las principales diferencias entre Gen 1 y Gen 2. Después de comprender estas diferencias de características, si siente la necesidad de mover sus datos de Gen 1 a Gen 2, simplemente siga los métodos que se mencionan a continuación.

2. Prepárese para la migración

Identifique los conjuntos de datos que migrará

Aproveche esta oportunidad para eliminar registros que ya no usa y migrar los datos específicos que necesita o desea en el futuro. A menos que planee mover todos sus datos a la vez, ahora es el momento de identificar categorías lógicas de datos que se pueden migrar de forma incremental.

Ejecute un análisis de antigüedad (o algo similar) en su cuenta Gen1 para determinar si es necesario conservar algún archivo o carpeta durante un período de tiempo prolongado o si está desactualizado.

Determinar el impacto de la migración.

Por ejemplo, considere si puede permitirse el tiempo de inactividad durante la mudanza. Dichos factores pueden ayudarlo a identificar un buen patrón de migración y elegir las mejores herramientas para el proceso.

Crear un plan de migración

Podemos elegir uno de estos patrones, combinarlos o diseñar nuestro propio patrón.

Patrón de elevación y cambio

Este es el patrón más básico.

Principalmente necesita pausar todas las escrituras Gen1. Luego, los datos se transfieren de Gen1 a Gen2 a través de Azure Data Factory o Azure Portal, lo que prefiera. Las ACL se copian junto con los datos. Todas las actividades de entrada y las cargas de trabajo se envían a Gen2. Eventualmente, Gen1 se desactivará.

Patrón de copia incremental

En este patrón, comienza a migrar datos de Gen1 a Gen2 (se recomienda encarecidamente Azure Data Factory para este patrón de migración). Las ACL se copian junto con los datos. Luego puede copiar gradualmente nuevos datos de Gen1. Cuando se hayan transferido todos los datos, detenga todas las escrituras en Gen1 y redirija todas las cargas de trabajo a Gen2. Eventualmente Gen1 será destruido.

Patrón de tubería doble

En este patrón, comienza a migrar datos de Gen1 a Gen2 (se recomienda encarecidamente Azure Data Factory para la migración de doble canalización). Las ACL se copian junto con los datos. Luego integra nuevos datos en Gen1 y Gen2. Cuando se hayan transferido todos los datos, detenga todas las escrituras en Gen1 y redirija todas las cargas de trabajo a Gen2. Eventualmente Gen1 será destruido.

Patrón de sincronización bidireccional

Configure la replicación bidireccional entre Gen1 y Gen2 (WanDisco es muy recomendable para la migración de sincronización bidireccional). Para los datos existentes, tiene una función de reparación de datos. Ahora detenga todas las escrituras en Gen1 y desactive la replicación bidireccional una vez que se hayan completado todos los movimientos. Eventualmente Gen1 será erradicado.

3. Migre datos, cargas de trabajo y aplicaciones

Migre datos, cargas de trabajo y aplicaciones en el patrón que prefiera. Sugerimos probar casos en pequeños incrementos.

Primero, cree una cuenta de almacenamiento y habilite la funcionalidad de espacio de nombres jerárquico. Luego mueva sus datos. También puede configurar los servicios de sus cargas de trabajo para que apunten a su terminal Gen2.

4. Cambiar de Gen1 a Gen2

Cuando esté seguro de que sus aplicaciones y cargas de trabajo pueden confiar en Gen2, puede comenzar a usar Gen2 para satisfacer sus necesidades comerciales. Deshabilite su cuenta Gen1 y deshabilite las tuberías restantes que se ejecutan en ella.

También puede migrar sus datos a través de Azure Portal.

Conclusión

Si bien pasar de Gen1 a Gen2 puede parecer una tarea compleja y desalentadora, trae una multitud de mejoras en las funciones que lo beneficiarán enormemente a largo plazo. Recuerde, la pregunta clave para hacer realidad esta transición es cómo puede aprovechar Gen2 para satisfacer sus necesidades comerciales.

Espero que este artículo le brinde una explicación clara de cómo migrar sus datos a Data Lake Storage.

Related post

Premios de socios globales de ladrillos de datos 2022

Premios de socios globales de ladrillos de datos 2022

Databricks tiene un ecosistema de socios de más de 600 socios en todo el mundo que son fundamentales para crear y…
¿Cuál es el uso de las estructuras de datos para el aprendizaje automático?

¿Cuál es el uso de las estructuras de datos…

Introducción La estructura de datos es la forma de organizar los datos para recuperarlos con el mínimo costo y uso de…
La colaboración es clave para desarrollar especialistas en datos en Italia

La colaboración es clave para desarrollar especialistas en datos…

«Las empresas farmacéuticas y de dispositivos médicos necesitan personas con talento para cubrir la amplitud de los desafíos relacionados con los…

Leave a Reply

Tu dirección de correo electrónico no será publicada.