Detecte errores de datos en los datos de Snowflake en 60 segundos

Detecte errores de datos en los datos de Snowflake en 60 segundos

  • Big Data
  • junio 20, 2022
  • No Comment
  • 70
  • 9 minutes read


Sin una validación completa y eficaz, un almacén de datos se convierte en un pantano de datos.

Con la creciente adopción de Snowflake como el almacén de datos en la nube elegido, la necesidad de una validación autónoma de los datos se ha vuelto crítica.

Si bien las soluciones de calidad de datos existentes ofrecen la capacidad de validar los datos de Snowflake, estas soluciones se basan en un enfoque basado en reglas que no se adapta a cientos de conjuntos de datos y, a menudo, es propenso a problemas de cobertura de reglas. Más importante aún, estas soluciones brindan una manera fácil de acceder a los registros de auditoría de los resultados.

Según un estudio de 2021 realizado por Boston Consulting Group, la calidad de los datos se está quedando atrás en la mayoría de las empresas.

Enfoque y desafíos actuales

El enfoque actual en los proyectos de almacenamiento de datos de Snowflake es la ingestión de datos, el proceso de mover datos de múltiples fuentes de datos (a menudo en diferentes formatos) a un solo destino. Después de la ingestión de datos, las partes interesadas de la empresa los utilizan y analizan; aquí es donde comienzan a aparecer los errores/problemas de datos. Como resultado, la confianza de las empresas en los datos alojados en Snowflake está disminuyendo. Nuestra investigación estima que un promedio de 20 a 30 % de todos los proyectos de análisis e informes en Snowflake se dedican a identificar y resolver problemas de datos. En casos extremos, el proyecto puede abandonarse por completo.

Las herramientas de validación de datos actuales están diseñadas para establecer reglas de calidad de datos de una tabla a la vez, por lo que existen importantes problemas de costos al implementar estas soluciones para cientos de tablas. El enfoque centrado en la tabla a menudo da como resultado un conjunto incompleto de reglas o la no implementación de reglas para tablas específicas, lo que genera riesgos no mitigados.

A pesar de las importantes inversiones en soluciones de calidad de datos, la mayoría de las organizaciones no pueden garantizar la calidad de sus activos de datos debido a los siguientes desafíos:

Altos costos de implementación: Las soluciones de calidad de datos existentes se basan en un enfoque basado en reglas. En consecuencia, el esfuerzo de implementación es linealmente proporcional al número de tablas en Snowflake. Mantener miles de reglas implementadas a medida que evolucionan los datos aumenta el costo total de propiedad

Restricciones arquitectónicas: Muchas de las herramientas existentes no están diseñadas para validar los miles de millones de registros que pueden contener algunas de las tablas de Snowflake. Además, los datos deben trasladarse de Snowflake a la solución Data Quality, lo que presenta latencia y riesgos de seguridad significativos.

brecha de conocimiento: Los analistas de calidad de datos a menudo no están familiarizados con los activos de datos. Para crear reglas de calidad de datos, deben consultar extensamente a expertos en la materia. Debido a que las organizaciones en Snowflake Data Cloud comparten conjuntos de datos, es posible que los analistas de calidad de datos no tengan acceso a los expertos en la materia de otra organización.

¿Qué es DataBuck?

DataBuck es una solución de validación de datos autónoma «Powered by Snowflake» para Snowflake. Crea una huella digital de datos y una puntuación de confianza de datos objetiva para cada objeto de datos (esquema, tablas, columnas) presentado en Snowflake con sus capacidades de ML. La confianza en los datos dejará de ser un concurso de popularidad. No se requiere que las personas brinden su opinión subjetiva sobre el estado de una tabla/archivo. En general, todas las partes interesadas pueden comprender la puntuación de confianza de los datos objetiva.

Más específicamente, utiliza el aprendizaje automático para medir el puntaje de confianza de los datos a través de la lente de las dimensiones estandarizadas de la calidad de los datos, como se muestra a continuación:

1. frescura – determinar si los datos han llegado antes del siguiente paso del proceso

2. lo completo – determinar la integridad de los campos contextualmente importantes. Los campos contextualmente importantes deben identificarse utilizando diversas técnicas matemáticas y/o de aprendizaje automático.

3. conformidad – Determinar la conformidad con un patrón, longitud, formato de campos contextualmente importantes.

4. unicidad – determinar la unicidad de los conjuntos de datos individuales.

5. deriva – Determinación de la deriva de los campos categóricos y continuos más importantes a partir de la información histórica

6. anomalía – Determinar anomalías de volumen y valor de columnas críticas

DataBuck puede activar el puntaje de confianza de datos automáticamente a medida que nuevos datos llegan a una tabla de Snowflake, o puede programarse para ejecutarse en un momento específico o como parte de la canalización de datos.

¿Cómo funciona DataBuck?

El usuario proporciona información de conexión de Snowflake junto con los detalles de la base de datos y activa el proceso continuo de validación de datos. Una vez que se habilita el proceso de validación de datos, DataBuck envía su motor ML a Snowflake para analizar los datos e identificar problemas de calidad de datos. Luego, los resultados resumidos se presentan al usuario a través de la consola web. En ningún momento de este proceso, el usuario tiene que escribir reglas o mover datos fuera de Snowflake.

Configuración en 60 segundos.

Como se muestra a continuación, el usuario sigue el siguiente proceso de configuración:

  1. Proporciona nombres de bases de datos y esquemas para los que se debe realizar la validación de datos.

2. Indica si es necesario realizar o no una validación continua de datos

3. Inicie el proceso de validación de datos haciendo clic en el botón «Comprobación de estado».

Resultados de DataBuck:

Puede validar una base de datos Snowflake independientemente del número de tablas y el tamaño de cada tabla. Devuelve los siguientes resultados:

  1. Calidad de datos de una violación de esquema:

2. Resumen de los resultados de calidad de datos para cada tabla

3. Resultados detallados de la calidad de los datos de cada tabla

4. Perfil de datos detallado de cada tabla

5. Reglas de calidad de datos detectadas para cada tabla

resumen

Los datos son el activo más valioso para las organizaciones modernas. Los enfoques actuales para validar datos, especialmente SNOWFLAKE, están plagados de desafíos operativos que conducen a la falta de confianza, métodos costosos y que consumen mucho tiempo para corregir errores de datos. Existe una necesidad urgente de adoptar un enfoque autónomo estandarizado para validar los datos de SNOWFLAKE para evitar que el almacén de datos se convierta en un pantano de datos.

DataBuck proporciona un enfoque seguro y escalable para validar continuamente los datos de Snowflake. Con un solo clic, puede validar cientos de sus tablas de Snowflake.

Detectar errores de datos en Snowflake Data en 60 segundos apareció por primera vez en Datafloq.

Related post

Extracción de oro de los desechos usando gráficos (con video)

Extracción de oro de los desechos usando gráficos (con…

17 de agosto de 2022 (Noticias de Nanowerk) A lo largo de la historia, los alquimistas creyeron en la existencia de…
La opción de conjunto de datos ADDROWID conserva el orden de sus datos cuando ejecuta un paso DATA en SAS® Cloud Analytic Services (CAS).

La opción de conjunto de datos ADDROWID conserva el…

Esta publicación explica: cómo puede diferir el orden de sus datos cuando ejecuta un paso DATA con una declaración BY en…
Los 7 mejores calentadores de agua solares en los EE. UU.

Los 7 mejores calentadores de agua solares en los…

Los mejores calentadores de agua solares son un poco como elegir su destino de vacaciones: ¡se trata de preferencias personales y…

Leave a Reply

Tu dirección de correo electrónico no será publicada.