Monte Carlo y Databricks se asocian para ayudar a las empresas a crear lagos de datos más confiables

Monte Carlo y Databricks se asocian para ayudar a las empresas a crear lagos de datos más confiables

  • Big Data
  • agosto 3, 2022
  • No Comment
  • 7
  • 14 minutes read


Esta es una publicación colaborativa entre Monte Carlo y Databricks. Agradecemos a Matt Sulkis, Jefe de Asociaciones, Monte Carlo, por su aporte.

A medida que las organizaciones aprovechan cada vez más los conocimientos basados ​​en datos para innovar y mantener su ventaja competitiva, es imperativo que estos datos sean precisos y confiables. La asociación de Monte Carlo y Databricks permite que los equipos confíen en sus datos a través de la observabilidad de datos de extremo a extremo en sus entornos de Lakehouse.

¿Alguna vez su CTO le dijo que los números en un informe que le mostró se veían bastante mal?

¿Alguna vez un científico de datos le hizo ping cuando no se pudo ejecutar un trabajo crítico de Spark?

¿Qué pasa con un aumento en la tasa nula de un campo que pasó desapercibido durante días o semanas hasta que causó un error significativo en un modelo de aprendizaje automático posterior?

No estás solo si respondiste afirmativamente a alguna de estas preguntas. El tiempo de inactividad de los datos (períodos en los que faltan datos, estos son inexactos o están corruptos) es una realidad demasiado familiar incluso para los mejores equipos de datos. Cuesta millones de dólares en ingresos desperdiciados y hasta el 50 por ciento del tiempo de un equipo de ingeniería de datos que podría dedicarse a desarrollar productos de datos y modelos de ML que son críticos para el negocio.

Para ayudar a las organizaciones a acelerar la adopción de productos de datos más confiables, Monte Carlo y Databricks se complacen en anunciar nuestra asociación que brinda herramientas de automatización de calidad y observabilidad de datos de extremo a extremo a Data Lakehouse. Los equipos de análisis y desarrollo de datos que confían en Databricks para descubrir información clave sobre su negocio y crear modelos de ML que ahora pueden aprovechar el poder de la observación y el monitoreo de datos automatizados para evitar que los datos incorrectos afecten a los consumidores intermedios.

Logre canalizaciones confiables de Databricks con observabilidad de datos

Con nuestra nueva asociación y la integración actualizada, Monte Carlo ofrece una cobertura completa de extremo a extremo en los entornos de Data Lake y Lakehouse con tecnología de Databricks.
Con nuestra nueva asociación y la integración actualizada, Monte Carlo ofrece una cobertura completa de extremo a extremo en los entornos de Data Lake y Lakehouse con tecnología de Databricks.

En los últimos años, Databricks ha establecido la categoría Lakehouse y revolucionado la forma en que las empresas almacenan y procesan sus datos a una escala sin precedentes para casos de uso casi ilimitados. Los lagos de datos en la nube como Delta Lake se han vuelto tan poderosos (y populares) que se prevé que el mercado de lagos de datos crezca de $ 3,74 mil millones en 2020 a $ 17,60 mil millones en 2026, según Mordor Intelligence, lo que corresponde a una tasa de crecimiento anual compuesta de casi 30 %

El propio Monte Carlo se basa en la plataforma Databricks Lakehouse, que permite a nuestros equipos de datos e ingeniería crear y entrenar nuestros modelos de detección de anomalías a una velocidad y escala sin precedentes. Construir sobre Databricks nos ha permitido centrarnos en nuestro valor central de mejorar la observabilidad y la calidad de los datos para nuestros clientes mientras aprovechamos las herramientas de análisis, gestión de infraestructura y automatización de Lakehouse a escala. Esto hace que nuestros recursos sean más eficientes y más capaces de cumplir con los requisitos de calidad de datos de nuestros clientes. A medida que crece nuestro negocio, confiamos en que escalará con Databricks y aumentará el valor de nuestra oferta principal.

Gracias a la asociación entre Monte Carlo y Databricks, los equipos de datos ahora pueden garantizar que estas inversiones aprovechen datos confiables y precisos en cada etapa del proceso.

«A medida que las canalizaciones de datos se vuelven más complejas y las empresas ingieren más datos, a menudo de fuentes de terceros, es primordial que esos datos sean confiables», dijo Barr Moses, cofundador y director ejecutivo de Monte Carlo. «Monte Carlo se complace en asociarse con Databricks para ayudar a las organizaciones a confiar en sus datos a través de la observabilidad de datos de extremo a extremo en su lago».

Con Monte Carlo, los equipos de datos obtienen una cobertura completa de la plataforma Databricks Lakehouse, independientemente del metastore.
Con Monte Carlo, los equipos de datos obtienen una cobertura completa de la plataforma Databricks Lakehouse, independientemente del metastore.

Junto con nuestro nuevo Databricks Unity Catalog y las integraciones de Delta Lake, esta asociación facilitará que las organizaciones aprovechen al máximo las capacidades de Monte Carlo para el monitoreo de calidad de datos, alertas y análisis de causa raíz. Al mismo tiempo, los clientes de Monte Carlo se benefician de la velocidad, escalabilidad y flexibilidad de Databricks. Con Databricks, las tareas de análisis o aprendizaje automático que solían llevar horas o incluso días ahora se pueden implementar en minutos, lo que hace que sea más rápido y escalable crear productos de datos impactantes para el negocio.

Así es como los equipos de Databricks y Monte Carlo pueden beneficiarse de nuestra asociación estratégica:

  • Logre una observabilidad de datos integral en su plataforma Databricks Lakehouse sin escribir ningún código. Obtenga una cobertura completa y automatizada de sus canalizaciones de datos con un proceso de implementación de bajo código. Acceda a la visibilidad inmediata de la actualización, el volumen, la distribución, el esquema y el linaje de los datos conectando Monte Carlo a su casa del lago.
  • Sepa cuándo se rompen los datos tan pronto como suceda. Monte Carlo monitorea continuamente sus activos de Databricks y alerta de manera proactiva a las partes interesadas sobre problemas de datos. El enfoque de aprendizaje automático de Monte Carlo brinda a los equipos de datos una cobertura completa para la actualización, el volumen y los cambios de esquema, y ​​los monitores de distribución optativos y las verificaciones específicas del contexto comercial en capas garantizan que esté cubierto en cada etapa de su flujo de datos.
  • Encuentre rápidamente la causa raíz de los problemas de calidad de los datos. El monitoreo y la detección de anomalías preempaquetados basados ​​en el aprendizaje automático ahorran tiempo y recursos, lo que brinda a los equipos un panel único para investigar y resolver problemas de datos. Al reunir toda la información y el contexto de sus canalizaciones en un solo lugar, los equipos pasan menos tiempo resolviendo problemas de datos y más tiempo innovando para el negocio.
  • Comprenda de inmediato el impacto comercial de los datos incorrectos. Con el linaje de Spark de extremo a extremo en Unity Catalog para sus canalizaciones desde que ingresan a Databricks (¡o más arriba!) hasta la capa de inteligencia comercial, los equipos de datos pueden clasificar y evaluar el impacto comercial de sus problemas de datos, reduciendo el riesgo y mejorando la productividad en toda la empresa.
  • Evite el tiempo de inactividad de los datos. Proporcione a sus equipos una visibilidad completa de sus canalizaciones de Databricks y cómo afectan los informes y paneles posteriores para tomar decisiones de desarrollo más informadas. Con Monte Carlo, los equipos pueden administrar mejor los cambios importantes en los ELT, los modelos Spark y los activos de BI, sabiendo qué se ve afectado y a quién notificar.

Además de respaldar a los clientes mutuos existentes, Monte Carlo brinda cobertura automatizada de extremo a extremo para los equipos que migran de sus pilas heredadas a la plataforma Databricks Lakehouse. Además, el enfoque centrado en la seguridad de Monte Carlo para la observación de datos garantiza que los datos nunca abandonen su plataforma Databricks Lakehouse.

Monte Carlo puede monitorear y alertar automáticamente sobre el esquema de datos, el volumen, la actualización y las anomalías de distribución dentro de la plataforma Databricks Lakehouse.
Monte Carlo puede monitorear y alertar automáticamente sobre el esquema de datos, el volumen, la actualización y las anomalías de distribución dentro de la plataforma Databricks Lakehouse.

Lo que nuestros clientes mutuos tienen que decir

Los clientes de Monte Carlo y Databricks como ThredUp, un mercado de consignación en línea líder, e Ibotta, una aplicación global de devolución de dinero y recompensas, están emocionados de aprovechar las nuevas integraciones de Delta Lake y Unity Catalog para llevar la confiabilidad de los datos a escala a sus entornos de Improve Lakehouse.

Los equipos de ingeniería de datos de ThredUp usan las capacidades de Monte Carlo para saber en tiempo real dónde y cómo se corrompen sus datos. La solución ha permitido que ThredUp identifique inmediatamente los datos incorrectos antes de que afecten al negocio, lo que ahorra tiempo y recursos en la extinción manual del tiempo de inactividad de los datos.

“Con Monte Carlo, mi equipo está mejor posicionado para comprender el impacto de un problema de datos detectado y decidir los próximos pasos, como comunicarse con las partes interesadas y priorizar los recursos. La línea de extremo a extremo de Monte Carlo ayuda al equipo a establecer esas conexiones entre las tablas de datos críticas y los informes, tableros y KPI de Looker en los que se basa la empresa para tomar decisiones comerciales», dijo Satish Rane, director de ingeniería de datos de ThredUp. «Espero aprovechar la observabilidad de datos de Monte Carlo para nuestro entorno de Databricks».

En Ibotta, el jefe de datos, Jeff Hepburn, y su equipo confían en Monte Carlo para brindar visibilidad integral sobre el estado de sus canalizaciones de datos, desde la incorporación a Databricks hasta la capa de inteligencia comercial.

“La toma de decisiones basada en datos es una prioridad para Ibotta, pero nuestros análisis son tan confiables como los datos detrás de ellos. Con Monte Carlo, mi equipo tiene las herramientas para detectar y remediar incidentes de datos antes de que afecten a las partes interesadas posteriores, y su linaje de extremo a extremo nos ayuda a comprender el funcionamiento interno de nuestro ecosistema de datos para que podamos responder cuando ocurran. problemas y cómo solucionarlos”, dijo Jeff Hepburn, director de datos de Ibotta. «Espero aprovechar la observabilidad de datos de Monte Carlo con Databricks».

Pioneros en el futuro de la observabilidad de datos para lagos de datos

Estas actualizaciones permiten a los equipos aprovechar Databricks para casos de uso de ingeniería de datos, ciencia de datos y aprendizaje automático para evitar el tiempo de inactividad de los datos a escala.

Cuando se trata de garantizar la confiabilidad de los datos en la casa del lago, Monte Carlo y Databricks son mejores juntos. Consulte nuestra documentación para obtener más detalles sobre cómo ejecutar estas integraciones.



Related post

Tesco está electrificando las entregas a más de 400 tiendas del centro de la ciudad en el Gran Londres

Tesco está electrificando las entregas a más de 400…

Tesco es el primer minorista en lanzar un camión eléctrico de cero emisiones para realizar entregas desde sus centros de distribución…
Tennis League VR para Quest podría ayudarte a mejorar tu juego

Tennis League VR para Quest podría ayudarte a mejorar…

Amor. Frase. realidad virtual Liga de tenis VR es una experiencia de tenis increíblemente genial que te ayudará a mejorar todo,…
El panel de la FAA analiza las mejores prácticas de seguridad pública con drones

El panel de la FAA analiza las mejores prácticas…

El canal de YouTube de la FAA incluye una grabación de un evento reciente donde un panel de expertos en seguridad…

Leave a Reply

Tu dirección de correo electrónico no será publicada.