Nuevo Acelerador de Soluciones: Resolución de la Entidad del Cliente

Nuevo Acelerador de Soluciones: Resolución de la Entidad del Cliente

  • Big Data
  • agosto 4, 2022
  • No Comment
  • 16
  • 11 minutes read


Consulte nuestro nuevo Acelerador de soluciones de resolución de entidades de clientes para obtener más información y descargar los cuadernos.

Cada vez más clientes esperan interacciones personalizadas como parte de su experiencia de compra. Ya sea que estén navegando por la aplicación, recibiendo ofertas por correo electrónico o siendo rastreados por anuncios en línea, cada vez más personas esperan que las marcas con las que interactúan reconozcan sus necesidades y preferencias únicas y adapten el compromiso en consecuencia. De hecho, es más probable que el 76% de los consumidores consideren comprar de una marca personalizada. Y a medida que las empresas se esfuerzan por lograr la excelencia omnicanal, las mismas altas expectativas se extienden a la experiencia en la tienda a través de interacciones de empleados habilitadas digitalmente, ofertas de servicios personales especializados y más. En una era de elección del consumidor, los minoristas reciben cada vez más el mensaje de que el compromiso personalizado es fundamental para atraer y retener clientes.

La clave para diseñar adecuadamente las interacciones personalizadas es obtener información procesable de toda la información que se puede recopilar sobre un cliente. Los datos de primera mano generados a través de transacciones de ventas, navegación en sitios web, revisiones y encuestas de productos, encuestas de clientes y llamadas al centro de soporte, datos de terceros adquiridos de agregadores de datos y rastreadores en línea, e incluso datos de terceros proporcionados por los propios clientes, todos se unen. una vista de 360 ​​grados del cliente. Si bien las conversaciones sobre las plataformas de Customer 360 generalmente se enfocan en el volumen y la variedad de datos con los que la empresa debe trabajar y el rango de casos de uso de ciencia de datos que a menudo se les aplican, la realidad es que una vista de Customer 360 no se puede lograr sin crear un común identidad del cliente, vinculando registros de clientes a través de registros dispares.

Hacer coincidir los registros de los clientes es un desafío

En la superficie, la idea de establecer una identidad de cliente común en todos los sistemas parece bastante simple. Pero entre diferentes fuentes de datos con diferentes tipos de datos, es raro que un identificador único esté disponible para respaldar la vinculación de registros. En cambio, la mayoría de las fuentes de datos tienen sus propios identificadores, que se traducen en información básica de nombre y dirección para admitir la coincidencia entre registros. Además del desafío de que los atributos del cliente y, por lo tanto, los datos, pueden cambiar con el tiempo, la coincidencia automática de nombres y direcciones puede ser increíblemente desafiante debido a los formatos no estándar y la interpretación frecuente de datos y errores de entrada.

Por ejemplo, tomemos el nombre de uno de nuestros autores: bryan. Este nombre fue registrado en varios sistemas como bryan, brian, Ryan, Byron e incluso Cerebro. si bryan Vive en Calle principal 123él puede encontrar esta dirección como escrita Calle principal 123, calle principal 123 o 123 principal a través de diferentes sistemas, todos los cuales son perfectamente válidos, incluso si son inconsistentes.

Es bastante fácil para un intérprete humano cotejar los registros con las variantes comunes del nombre de un cliente y las variantes comúnmente aceptadas de una dirección. Pero para hacer coincidir las millones de identidades de clientes que enfrentan la mayoría de las empresas minoristas, debemos confiar en el software para automatizar el proceso. La mayoría de los primeros intentos tienden a capturar el conocimiento humano de variaciones conocidas de reglas y patrones para que coincidan con esos registros, pero esto a menudo da como resultado una red de lógica de software inmanejable y, a veces, impredecible. Para evitar esto, cada vez más organizaciones enfrentan el desafío de hacer coincidir a los clientes en función de atributos variables y recurren al aprendizaje automático.

El aprendizaje automático ofrece un enfoque escalable

Un enfoque de aprendizaje automático (ML) para la resolución de entidades traduce los atributos textuales, como el nombre, la dirección, el número de teléfono, etc., en representaciones numéricas que se pueden usar para cuantificar el grado de similitud entre dos valores de atributos cualesquiera. Luego, los modelos se entrenan para sopesar la importancia relativa de cada uno de estos puntajes para determinar si un par de registros coinciden.

Por ejemplo, las diferencias menores en la ortografía de un nombre pueden tener menos importancia cuando se encuentra una coincidencia perfecta entre algo como un número de teléfono. En cierto modo, este enfoque refleja las tendencias naturales que la gente usa al examinar registros, mientras que es mucho más escalable y consistente cuando se aplica a un gran conjunto de datos.

Sin embargo, nuestra capacidad para entrenar dicho modelo depende de nuestro acceso a datos de entrenamiento bien etiquetados, es decir Pares de registros verificados por expertos y clasificados como estar de acuerdo o en desacuerdo. En última instancia, los datos que sabemos que son correctos son los datos de los que nuestro modelo puede aprender. En la fase inicial de la mayoría de los enfoques de resolución de entidades basados ​​en ML, un subconjunto relativamente pequeño de pares que probablemente coincidan se ensambla, se anota y se alimenta al algoritmo. Es un ejercicio que requiere mucho tiempo, pero si se hace correctamente, el modelo aprende a reflejar los juicios de los examinadores humanos.

Con un modelo entrenado en la mano, nuestro próximo desafío es ubicar de manera eficiente los pares de conjuntos de datos para comparar. Un enfoque simplificado para la comparación de registros sería comparar cada registro con todos los demás registros del conjunto de datos. Si bien este enfoque de fuerza bruta es sencillo, da como resultado una explosión de comparaciones que rápidamente sale del cómputo.

Un enfoque más inteligente es reconocer que a conjuntos de datos similares se les asignan puntajes numéricos similares asociados con sus atributos. Al restringir las comparaciones solo a aquellos registros dentro de uno dado distancia (según las diferencias en estas calificaciones) entre sí, podemos identificar rápidamente exactamente las comparaciones que valen la pena, es decir parejas de candidatos. Una vez más, esto refleja la intuición humana, ya que eliminaríamos rápidamente dos registros de una comparación detallada si esos registros tuvieran los nombres de pila de Tomás y guillermo o direcciones en estados o provincias completamente diferentes.

Al unir estos dos elementos de nuestro enfoque, ahora tenemos un medio para identificar rápidamente los pares de registros que vale la pena comparar y un medio para calificar cada par según la probabilidad de una coincidencia. Estos valores se presentan como probabilidades entre 0,0 y 1,0, que reflejan la confianza del modelo de que dos registros representan a la misma persona. En los extremos de los rangos de probabilidad, a menudo podemos definir umbrales por encima o por debajo de los cuales simplemente aceptamos el juicio del modelo y seguimos adelante. Pero en el medio nos quedamos con un grupo (con suerte pequeño) de parejas que nuevamente necesitarán experiencia humana para hacer un juicio final.

Zingg simplifica la resolución de entidades basada en ML

El campo de la resolución de entidades está repleto de técnicas, variaciones de esas técnicas y mejores prácticas en evolución que los investigadores han encontrado que funcionan bien para identificar coincidencias de calidad en diferentes conjuntos de datos. En lugar de mantener la experiencia necesaria para aplicar los conocimientos académicos más recientes a desafíos como la resolución de la identidad del cliente, muchas organizaciones confían en las bibliotecas para encapsular ese conocimiento para crear sus aplicaciones y flujos de trabajo.

Una de esas bibliotecas es Zingg, una biblioteca de código abierto que reúne los últimos enfoques basados ​​en ML para la generación inteligente de pares de candidatos y la puntuación de pares. Centrado en la creación de flujos de trabajo personalizados, Zingg presenta estas capacidades en el contexto de los pasos de uso común, como el mapeo de etiquetas de datos de capacitación, la capacitación de modelos, la deduplicación de conjuntos de datos y la coincidencia de conjuntos de datos (entre conjuntos de datos).

Desarrollado como una aplicación nativa de Apache Spark, Zingg escala bien para aplicar estas técnicas a conjuntos de datos de escala empresarial. Luego, las organizaciones pueden usar Zingg en combinación con plataformas como Databricks para proporcionar el back-end para aplicaciones de flujo de trabajo humano en el medio que automatizan la mayor parte del trabajo de resolución de entidades y brindan a los profesionales de datos un conjunto más manejable de pares de casos de borde para interpretar. Como una solución de aprendizaje activo, los modelos se pueden volver a entrenar para aprovechar este aporte humano adicional para mejorar las predicciones futuras y reducir aún más la cantidad de casos que requieren revisión de expertos.

¿Te gustaría ver cómo funciona esto? Luego, asegúrese de consultar el acelerador de soluciones de resolución de entidades de clientes de Databricks. En este acelerador, mostramos cómo se pueden aplicar las mejores prácticas para la resolución de entidades de clientes mediante Zingg y Databricks para deduplicar conjuntos de datos que representan a 5 millones de personas. Siguiendo las instrucciones paso a paso provistas, los usuarios pueden aprender cómo ensamblar los componentes básicos proporcionados por estas tecnologías para habilitar sus propias aplicaciones de flujo de trabajo de resolución de entidades de clientes a escala empresarial.



Related post

Actualización del costo de mantenimiento de Tesla Model 3 Standard Range después de 3 años y 27,000 millas

Actualización del costo de mantenimiento de Tesla Model 3…

Uno de nuestros autores, Fritz Hasler, escribió recientemente una breve reseña de su Tesla Model 3 Long Range después de 75…
Tesco está electrificando las entregas a más de 400 tiendas del centro de la ciudad en el Gran Londres

Tesco está electrificando las entregas a más de 400…

Tesco es el primer minorista en lanzar un camión eléctrico de cero emisiones para realizar entregas desde sus centros de distribución…
Las estrellas más brillantes en el cielo nocturno pueden despojar a los planetas del tamaño de Neptuno hasta sus núcleos rocosos.

Las estrellas más brillantes en el cielo nocturno pueden…

12 de agosto de 2022 (Noticias de Nanowerk) En los últimos 25 años, los astrónomos han encontrado miles de exoplanetas que…

Leave a Reply

Tu dirección de correo electrónico no será publicada.