
Consideraciones importantes al migrar a un lago de datos
- Big Data
- marzo 30, 2022
- No Comment
- 44
- 9 minutes read
Azure Data Lake Storage Gen2 se basa en Azure Blob Storage y ofrece una variedad de capacidades de análisis de big data. Se está convirtiendo rápidamente en la opción preferida para empresas y desarrolladores debido a su rendimiento superior. Si no comprende el concepto, puede leer nuestro artículo anterior sobre la diferencia entre lagos de datos y almacenes de datos.
Data Lake Storage Gen2 combina la semántica del sistema de archivos, el directorio, la seguridad a nivel de archivo y la escalabilidad de Azure Data Lake Storage Gen1 con el almacenamiento en niveles rentable y las capacidades de alta disponibilidad/recuperación ante desastres de Azure Blob Storage.
En este artículo, lo guiaré a través del proceso de migración de sus datos a lagos de datos.
1. Determina tu preparación
En primer lugar, debe conocer la solución Data Lake Storage Gen2, incluidas sus características, precios y diseño general. Compare y contraste las capacidades de Gen1 con las de Gen2. También desea comprender los beneficios de los lagos de datos.
Examine una lista de problemas conocidos para identificar brechas en las funciones. Las funciones de almacenamiento de blobs, como el registro de diagnóstico, los niveles de acceso y las políticas de administración del ciclo de vida del almacenamiento de blobs, son compatibles con Gen2. Compruebe el nivel de soporte actual si desea utilizar alguna de estas funciones. Examine los niveles de soporte actuales del ecosistema de Azure para asegurarse de que Gen2 admita todos los servicios en los que se basan sus soluciones.
¿Cuáles son las diferencias entre Gen1 y Gen2?
organización de datos
Gen 1 ofrece espacios de nombres jerárquicos con compatibilidad con archivos y carpetas. Gen 2 ofrece todo esto más seguridad y soporte de contenedores.
permiso
Gen 1 usa ACL para la autorización de datos, mientras que Gen 2 usa ACL y Azure RBAC para la autorización de datos.
autenticación
Gen 1 admite la autenticación de datos con identidad administrada de Azure Active Directory (Azure AD) y principios de servicio, mientras que Gen 2 admite la autenticación de datos con identidad administrada de Azure AD, principios de servicio y clave de acceso compartido.
Estas son las principales diferencias entre Gen 1 y Gen 2. Después de comprender estas diferencias de características, si siente la necesidad de mover sus datos de Gen 1 a Gen 2, simplemente siga los métodos que se mencionan a continuación.
2. Prepárese para la migración
Identifique los conjuntos de datos que migrará
Aproveche esta oportunidad para eliminar registros que ya no usa y migrar los datos específicos que necesita o desea en el futuro. A menos que planee mover todos sus datos a la vez, ahora es el momento de identificar categorías lógicas de datos que se pueden migrar de forma incremental.
Ejecute un análisis de antigüedad (o algo similar) en su cuenta Gen1 para determinar si es necesario conservar algún archivo o carpeta durante un período de tiempo prolongado o si está desactualizado.
Determinar el impacto de la migración.
Por ejemplo, considere si puede permitirse el tiempo de inactividad durante la mudanza. Dichos factores pueden ayudarlo a identificar un buen patrón de migración y elegir las mejores herramientas para el proceso.
Crear un plan de migración
Podemos elegir uno de estos patrones, combinarlos o diseñar nuestro propio patrón.
Patrón de elevación y cambio

Este es el patrón más básico.
Principalmente necesita pausar todas las escrituras Gen1. Luego, los datos se transfieren de Gen1 a Gen2 a través de Azure Data Factory o Azure Portal, lo que prefiera. Las ACL se copian junto con los datos. Todas las actividades de entrada y las cargas de trabajo se envían a Gen2. Eventualmente, Gen1 se desactivará.
Patrón de copia incremental

En este patrón, comienza a migrar datos de Gen1 a Gen2 (se recomienda encarecidamente Azure Data Factory para este patrón de migración). Las ACL se copian junto con los datos. Luego puede copiar gradualmente nuevos datos de Gen1. Cuando se hayan transferido todos los datos, detenga todas las escrituras en Gen1 y redirija todas las cargas de trabajo a Gen2. Eventualmente Gen1 será destruido.
Patrón de tubería doble

En este patrón, comienza a migrar datos de Gen1 a Gen2 (se recomienda encarecidamente Azure Data Factory para la migración de doble canalización). Las ACL se copian junto con los datos. Luego integra nuevos datos en Gen1 y Gen2. Cuando se hayan transferido todos los datos, detenga todas las escrituras en Gen1 y redirija todas las cargas de trabajo a Gen2. Eventualmente Gen1 será destruido.
Patrón de sincronización bidireccional

Configure la replicación bidireccional entre Gen1 y Gen2 (WanDisco es muy recomendable para la migración de sincronización bidireccional). Para los datos existentes, tiene una función de reparación de datos. Ahora detenga todas las escrituras en Gen1 y desactive la replicación bidireccional una vez que se hayan completado todos los movimientos. Eventualmente Gen1 será erradicado.
3. Migre datos, cargas de trabajo y aplicaciones
Migre datos, cargas de trabajo y aplicaciones en el patrón que prefiera. Sugerimos probar casos en pequeños incrementos.
Primero, cree una cuenta de almacenamiento y habilite la funcionalidad de espacio de nombres jerárquico. Luego mueva sus datos. También puede configurar los servicios de sus cargas de trabajo para que apunten a su terminal Gen2.
4. Cambiar de Gen1 a Gen2
Cuando esté seguro de que sus aplicaciones y cargas de trabajo pueden confiar en Gen2, puede comenzar a usar Gen2 para satisfacer sus necesidades comerciales. Deshabilite su cuenta Gen1 y deshabilite las tuberías restantes que se ejecutan en ella.
También puede migrar sus datos a través de Azure Portal.
Conclusión
Si bien pasar de Gen1 a Gen2 puede parecer una tarea compleja y desalentadora, trae una multitud de mejoras en las funciones que lo beneficiarán enormemente a largo plazo. Recuerde, la pregunta clave para hacer realidad esta transición es cómo puede aprovechar Gen2 para satisfacer sus necesidades comerciales.
Espero que este artículo le brinde una explicación clara de cómo migrar sus datos a Data Lake Storage.