Cómo usar Databricks y Anomalo para detectar datos obsoletos, faltantes, dañados y anómalos

Cómo usar Databricks y Anomalo para detectar datos obsoletos, faltantes, dañados y anómalos

  • Big Data
  • mayo 24, 2022
  • No Comment
  • 19
  • 11 minutes read


Esta es una contribución conjunta de Databricks y Anomalo. Agradecemos a Amy Reams, VP Business Development, Anomalo, por sus contribuciones.

La calidad de los datos de una empresa se degrada naturalmente con el tiempo a medida que aumenta la complejidad de los datos, se introducen dependencias en el código y se agregan fuentes de datos de terceros. Los clientes de Databricks ahora pueden usar Anomalo, la plataforma completa de calidad de datos, para comprender y monitorear el estado de la calidad de los datos de sus tablas.

A diferencia de los enfoques tradicionales basados ​​en reglas para la calidad de los datos, Anomalo proporciona comprobaciones automatizadas de la calidad de los datos mediante el aprendizaje automático que se ajusta automáticamente con el tiempo para seguir siendo resistente a medida que evolucionan los datos y el negocio. Cuando el sistema detecta un problema, proporciona una variedad de visualizaciones para contextualizar y explicar el problema, así como un análisis instantáneo de la causa raíz que indica la causa probable del problema. Eso significa que su equipo pasa más tiempo tomando decisiones basadas en datos y menos tiempo investigando y solucionando problemas con sus datos.

Además, Anomalo tiene como objetivo hacer que el estado de los datos sea visible y accesible para todos los involucrados: desde científicos e ingenieros de datos hasta analistas de BI y ejecutivos. Cualquiera puede agregar fácilmente reglas sin código y realizar un seguimiento de las métricas clave de los registros que les interesan. Con Anomalo, puede examinar filas y columnas individuales u obtener un resumen general de la salud de toda su casa del lago.

Calidad de datos en la pila de datos moderna usando el ejemplo de Databricks y Anomolo.

Supervise la calidad de los datos en sus tablas de Lakehouse

La plataforma Databricks Lakehouse combina los mejores elementos de los lagos de datos y los almacenes de datos para brindar la confiabilidad, el gobierno de datos sólido y el rendimiento de los almacenes de datos con la apertura, la flexibilidad y el soporte de aprendizaje automático de los lagos de datos.

Al conectarse a Databricks, Anomalo proporciona una capa unificadora que garantiza que pueda confiar en la calidad de sus datos antes de que los consuman diversas herramientas de análisis e inteligencia comercial o marcos de modelado y aprendizaje automático. Anomalo se enfoca en proporcionar un monitoreo e información transparentes sobre cada mesa en su casa del lago.

1. Conexión de Anomalo a Databricks

Conectar Anomalo a su plataforma Databricks Lakehouse es tan fácil como agregar una nueva fuente de datos en Anomalo con solo unos pocos clics.

Conectar Anomalo a su plataforma Databricks Lakehouse es tan fácil como agregar una nueva fuente de datos en Anomalo con solo unos pocos clics.

2. Identificar datos faltantes y anómalos

Una vez que Anomalo está conectado a Databricks, puede configurar cada tabla para monitorear los problemas de calidad de los datos. Luego, Anomalo monitorea automáticamente las tablas en busca de cuatro características clave:

  • frescura de los datos,
  • volumen de datos,
  • faltan datos y
  • anomalías de la tabla.

Las comprobaciones de frescura y volumen buscan datos que se entregan tarde o cuando la cantidad de datos recibidos es inferior a la habitual. Los datos faltantes pueden ocurrir cuando se ha eliminado un segmento de datos o se han saltado datos nulos en una columna. Las anomalías de la tabla, o la detección de anomalías, incluyen datos duplicados, cambios en el esquema de la tabla y otros cambios significativos en los datos sin procesar, como: B. Cambios en distribuciones continuas, valores categóricos, duraciones de tiempo o incluso relaciones entre columnas.

Una vez conectados a Databricks, los equipos de datos pueden configurar cualquier tabla para que Anomalo supervise automáticamente los datos faltantes o anómalos.

3. Configure reglas de validación sin código y métricas clave

Además de las comprobaciones automáticas integradas en Anomalo, cualquiera puede agregar sus propias comprobaciones sin código (o con SQL). De esta manera, un experto en el dominio puede introducir restricciones a las que deben ajustarse ciertos datos, incluso si no es un ingeniero. También puede agregar métricas clave que sean importantes para su negocio, o métricas que muestren si la tendencia de los datos va en la dirección correcta.

Cualquier usuario interno puede especificar rápidamente los requisitos de datos y los KPI a través de la interfaz de usuario de Anomalo.  Cualquier número de pruebas complejas también se puede definir con SQL.

Cualquier usuario interno puede especificar rápidamente los requisitos de datos y los KPI a través de la interfaz de usuario. Cualquier número de pruebas complejas también se puede definir con SQL.

4. Alertas y análisis de causa raíz

Si sus datos fallan en el monitoreo automático o se salen de los límites de las reglas y métricas que estableció, Anomalo emitirá una alerta de inmediato. Los equipos pueden suscribirse a estas notificaciones en tiempo real por correo electrónico, Slack, Microsoft Teams o PagerDuty. También está disponible una API completamente funcional.

Para clasificar los problemas de datos, es importante comprender las implicaciones e identificar rápidamente la fuente. Los usuarios pueden ir a Anomalo para ver el porcentaje de filas afectadas, así como un análisis más profundo de la causa raíz, incluida la ubicación del error en la tabla y ejemplos de filas buenas y malas.

Con la solución de monitoreo de calidad de datos de Databricks Anomalo, los usuarios pueden ver el porcentaje de filas afectadas, así como un análisis más profundo de la causa raíz directamente desde la interfaz de usuario de Anomalo.

5. Comprenda el estado de los datos de su Lakehouse

El panel Pulse de Anomalo también brinda a los usuarios una vista de alto nivel de la calidad de sus datos para obtener información sobre la cobertura de datos, los tiempos de llegada, las tendencias y los infractores reincidentes. Al comprender el estado general de los datos en el lago de su organización, puede identificar las áreas problemáticas y las estrategias de mejora.

El panel Pulse de Anomalo también brinda a los usuarios una vista de alto nivel de la calidad de sus datos para obtener información sobre la cobertura de datos, los tiempos de llegada, las tendencias y los infractores reincidentes.

Primeros pasos con Databricks y Anomalo

Democratizar sus datos va de la mano con democratizar la calidad de sus datos. Anomalo es una plataforma que lo ayuda a identificar y solucionar problemas con sus datos antes de que afecten su negocio y le brinda una visión muy necesaria del panorama general de la salud de sus datos. Los clientes de Databricks pueden obtener más información sobre Anomalo en anomalo.com o comenzar con Anomalo hoy mismo solicitando una demostración gratuita.



Related post

El aprendizaje automático se encuentra con los dedos, las manos y los codos para mejorar la terapia robótica

El aprendizaje automático se encuentra con los dedos, las…

25 de junio de 2022 (Noticias de Nanowerk) Los accidentes cerebrovasculares y las lesiones de la médula espinal dejan a millones…
Nanotechnology Now – Comunicado de prensa: La Sociedad Nacional del Espacio ayuda a financiar la expansión de la Academia de Empresarios de Verano de Brownsville de Frontier: La Sociedad Nacional del Espacio y el Club para el Futuro apoyan el Programa de Desarrollo Juvenil del Sur de Texas

Nanotechnology Now – Comunicado de prensa: La Sociedad Nacional…

Inicio > Prensa > La Sociedad Nacional del Espacio ayuda a financiar la expansión de la Academia de Empresarios de Verano…
Tesla establece un sorteo aleatorio para la Junta General de Accionistas de 2022

Tesla establece un sorteo aleatorio para la Junta General…

Tesla realizará un sorteo al azar para seleccionar accionistas para asistir a la AGM de 2022, informa oráculo de tesla, que…

Leave a Reply

Tu dirección de correo electrónico no será publicada.