Introducción de salas limpias de datos para Lakehouse

Introducción de salas limpias de datos para Lakehouse

  • Big Data
  • junio 28, 2022
  • No Comment
  • 27
  • 10 minutes read


Nos complace anunciar las salas limpias de datos para Lakehouse, que permiten a las empresas colaborar fácilmente con sus clientes y socios en cualquier nube de manera segura para la privacidad. Los participantes de la sala limpia de datos pueden dividir y fusionar sus datos existentes y ejecutar cargas de trabajo complejas en cualquier idioma (Python, R, SQL, Java y Scala) en los datos mientras mantienen la privacidad.

Con la demanda de datos externos mayor que nunca, las organizaciones buscan formas de compartir sus datos de forma segura y aprovechar los datos externos para impulsar la innovación basada en datos. Históricamente, las organizaciones han utilizado soluciones de intercambio de datos para compartir datos con sus socios, confiando en la confianza mutua para mantener la privacidad. Pero las organizaciones ceden el control de los datos una vez que se comparten y tienen poca o ninguna visibilidad de cómo sus socios utilizan los datos en todas las plataformas. Esto descubre posibles abusos de datos y violaciones de la privacidad. Ante las estrictas normas de protección de datos, es imperativo que las empresas tengan control y transparencia sobre cómo se utilizan sus datos confidenciales. Como tal, las organizaciones necesitan una forma segura, controlada y privada de colaborar con los datos, y ahí es donde entran las salas limpias de datos.

Este blog analiza las salas limpias de datos, la demanda de salas limpias de datos y nuestra visión de una sala limpia de datos escalable en la plataforma Databricks Lakehouse.

¿Qué es una sala limpia de datos y por qué es importante para su empresa?

Una sala limpia de datos proporciona un entorno seguro, controlado y respetuoso con la privacidad en el que varios participantes pueden consolidar sus datos propios y realizar análisis de los datos sin el riesgo de que sus datos queden expuestos a otros participantes. Los participantes tienen control total sobre sus datos y pueden decidir qué participantes pueden realizar qué análisis de sus datos sin revelar datos confidenciales como la información de identificación personal (PII).

Las salas limpias de datos abren una amplia gama de casos de uso en todas las industrias. Por ejemplo, las empresas de bienes de consumo (CPG) pueden ver un aumento en las ventas al fusionar sus datos de publicidad propios con datos de transacciones de punto de venta (POS) de sus socios minoristas. En la industria de los medios, los anunciantes y los especialistas en marketing pueden publicar anuncios más específicos con un mayor alcance, una mejor segmentación y una mayor visibilidad de la eficacia de los anuncios mientras mantienen la privacidad. Las empresas de servicios financieros pueden colaborar en toda la cadena de valor para desarrollar estrategias proactivas de detección de fraude o antilavado de dinero. De hecho, IDC predice que para 2024, el 65 % de las empresas del G2000 formarán asociaciones para compartir datos con partes interesadas externas a través de salas limpias de datos para aumentar la interdependencia y garantizar la privacidad.

Sala limpia de datos segura para la privacidad

Sala limpia de datos segura para la privacidad

Veamos algunas de las razones convincentes que impulsan la demanda de salas limpias:
Panorama de seguridad, cumplimiento y privacidad que cambia rápidamente: Las estrictas normas de protección de datos como GDPR y CCPA, junto con los cambios radicales en la medición de terceros, han transformado la forma en que las empresas recopilan, usan y comparten datos, especialmente para casos de uso de publicidad y marketing. Por ejemplo, el Marco de Transparencia de Seguimiento de Aplicaciones (ATT) de Apple ofrece a los usuarios de dispositivos Apple la libertad y flexibilidad para optar fácilmente por el seguimiento de aplicaciones. Google también planea eliminar gradualmente el soporte para cookies de terceros en Chrome para fines de 2023. A medida que evolucionan estas leyes y prácticas de privacidad, es probable que aumente la demanda de salas limpias de datos a medida que la industria se mueve hacia nuevos identificadores basados ​​en PII, como por ejemplo, UID 2.0. Las empresas intentarán encontrar nuevas soluciones para fusionar datos con sus socios de una manera centrada en la privacidad para lograr sus objetivos comerciales en una realidad sin cookies.
Colaboración en un ecosistema de datos fragmentados: Los consumidores ahora tienen más opciones que nunca sobre dónde, cuándo y cómo interactúan con el contenido. Como resultado, la huella digital de los consumidores se fragmenta en diferentes plataformas, lo que requiere que las empresas trabajen con sus socios para crear una visión unificada de las necesidades y requisitos de sus clientes. Para facilitar la colaboración entre organizaciones, las salas limpias brindan una forma segura y privada de combinar sus datos con otros datos para desbloquear nuevos conocimientos o habilidades.
Nuevas formas de monetizar los datos: La mayoría de las empresas ya tienen o planean desarrollar estrategias de monetización para sus datos existentes o propiedad intelectual. Con las leyes de privacidad actuales, las empresas intentarán encontrar todos los beneficios posibles para monetizar sus datos sin arriesgarse a infringir las reglas de privacidad. Esto abre la posibilidad de que los proveedores o editores de datos reúnan los datos para el análisis de big data sin tener acceso directo a los datos.

Las soluciones de sala limpia de datos existentes tienen grandes desventajas

A medida que las organizaciones exploran diferentes soluciones de salas limpias, existen algunas deficiencias evidentes en las soluciones existentes que no logran aprovechar todo el potencial de las «salas limpias» y no cumplen con las necesidades comerciales de las organizaciones.

Movimiento y replicación de datos : Los proveedores de salas limpias de datos existentes requieren que los participantes muevan sus datos a las plataformas del proveedor, lo que resulta en el bloqueo de la plataforma y costos adicionales de almacenamiento de datos para los participantes. Además, a los participantes les lleva mucho tiempo preparar los datos en un formato estandarizado antes de realizar un análisis de los datos agregados. Además, para facilitar la colaboración con los participantes en diferentes nubes y regiones, los participantes deben replicar los datos en diferentes nubes y regiones, lo que genera gastos generales operativos y de costos.

Limitado a SQL: Las soluciones de salas limpias existentes no ofrecen mucha flexibilidad para ejecutar cualquier carga de trabajo y análisis, y a menudo se limitan a declaraciones SQL simples. Si bien SQL es poderoso y absolutamente necesario para las salas limpias, hay momentos en los que necesita cálculos complejos como aprendizaje automático, integración con API u otras cargas de trabajo de análisis donde SQL simplemente no es suficiente.

Difícil de escalar: La mayoría de las soluciones de salas limpias existentes están vinculadas a un solo proveedor y no son escalables para extender la colaboración a más de dos participantes a la vez. Por ejemplo, un anunciante puede querer una vista detallada del rendimiento de su anuncio en diferentes plataformas, lo que requiere un análisis de datos agregados de múltiples editores de datos. Debido a que la colaboración está limitada a solo dos participantes, las organizaciones reciben información parcial en una plataforma de sala limpia y, finalmente, transfieren sus datos a otro proveedor de sala limpia, lo que genera una sobrecarga operativa al ensamblar manualmente información parcial.

Implemente una solución de sala limpia de datos escalable y flexible con la plataforma Databricks Lakehouse

Databricks Lakehouse Platform proporciona un conjunto integral de herramientas para crear, implementar e implementar una sala limpia de datos escalable y flexible en función de sus necesidades de protección y gobernanza de datos.
Intercambio seguro de datos sin replicación: Con Delta Sharing, los participantes de la sala limpia pueden compartir de forma segura datos de sus lagos de datos con otros participantes sin replicación de datos entre nubes o regiones. Sus datos permanecen con usted y no están vinculados a una plataforma. Además, los participantes de la sala limpia pueden verificar y monitorear el uso de sus datos de manera centralizada.
Soporte completo para ejecutar cualquier carga de trabajo e idioma: La plataforma Lakehouse de Databricks brinda a los participantes de la sala limpia la flexibilidad para ejecutar cálculos complejos, como aprendizaje automático o cargas de trabajo de datos en cualquier lenguaje (SQL, R, Scala, Java, Python) en los datos.
Fácilmente escalable con experiencia de incorporación guiada: Las salas limpias en la plataforma Databricks Lakehouse escalan fácilmente a múltiples participantes en cualquier nube o región. Es fácil comenzar y guiar a los participantes a través de casos de uso comunes utilizando plantillas predefinidas (por ejemplo, trabajos, flujos de trabajo, tableros), lo que reduce el tiempo para obtener información.
Protección de la privacidad con controles de acceso detallados: Con Unity Catalog, puede habilitar controles de acceso granular a los datos y satisfacer sus necesidades de privacidad. El gobierno incorporado permite a los participantes tener un control completo sobre las consultas o trabajos que se pueden ejecutar en sus datos. Todas las consultas o trabajos en los datos se ejecutan en un proceso confiable alojado por Databricks. Los participantes nunca tienen acceso a los datos sin procesar de otros participantes, lo que garantiza la privacidad. Los participantes también pueden usar marcos de protección de datos diferenciales de código abierto o de terceros para preparar su sala limpia para el futuro.

Para obtener más información sobre las salas limpias de datos en Databricks Lakehouse, comuníquese con sus representantes de cuentas de Databricks.



Related post

Sunrun ahora ofrece cargadores para vehículos eléctricos

Sunrun ahora ofrece cargadores para vehículos eléctricos

Conducir bajo el sol. conducir a la luz del sol. Este es el sueño que se ha hecho realidad para millones…
puede tesla [TSLA] ¿Alcanzar una capitalización de mercado de 2 billones de dólares para 2025?

puede tesla [TSLA] ¿Alcanzar una capitalización de mercado de…

Las acciones de Tesla se han polarizado desde la salida a bolsa inicial del fabricante de automóviles, pero después de que…
El cambio climático es una amenaza existencial y las empresas necesitan datos para combatirlo

El cambio climático es una amenaza existencial y las…

La cumbre climática COP26 del año pasado en Glasgow calificó la década de 2020 como la década crucial para prevenir los…

Leave a Reply

Tu dirección de correo electrónico no será publicada.