La tecnología protege la privacidad en las recomendaciones online |  Noticias del MIT

La tecnología protege la privacidad en las recomendaciones online | Noticias del MIT



Los algoritmos recomiendan productos mientras compramos en línea o sugieren canciones que nos pueden gustar mientras escuchamos música en aplicaciones de transmisión.

Estos algoritmos utilizan información personal, como nuestras compras anteriores y el historial de navegación, para generar recomendaciones personalizadas. La sensibilidad de tales datos hace que mantener la privacidad sea extremadamente importante, pero los métodos existentes para resolver este problema se basan en herramientas criptográficas pesadas que requieren enormes cantidades de potencia informática y ancho de banda.

Los investigadores del MIT pueden tener una mejor solución. Desarrollaron un protocolo de protección de la privacidad que es tan eficiente que se puede ejecutar en un teléfono inteligente a través de una red muy lenta. Su tecnología protege los datos personales al tiempo que garantiza que los resultados de las recomendaciones sean precisos.

Además de la privacidad del usuario, su protocolo minimiza la transmisión no autorizada de información desde la base de datos, lo que se conoce como fuga, incluso cuando un agente malicioso intenta engañar a una base de datos para que revele información secreta.

El nuevo protocolo podría ser particularmente útil en situaciones en las que las filtraciones de datos podrían violar las leyes de privacidad del usuario, p. B. cuando un proveedor de atención médica utiliza el historial médico de un paciente para buscar en una base de datos a otros pacientes con síntomas similares, o cuando una empresa ofrece publicidad dirigida a los usuarios según las normas europeas de protección de datos.

«Es un problema realmente difícil. Nos basamos en una amplia gama de trucos criptográficos y algorítmicos para llegar a nuestro protocolo», dice Sacha Servan-Schreiber, estudiante de doctorado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y autora principal del artículo que presenta este nuevo protocolo.

Servan-Schreiber fue coautor del artículo con su estudiante de CSAIL, Simon Langowski, y su asesor y autor principal, Srinivas Devadas, profesor de ingeniería eléctrica Edwin Sibley Webster. Los resultados de la investigación se presentarán en el Simposio IEEE sobre seguridad y privacidad.

Los datos de al lado

La técnica en el corazón de los motores de recomendación algorítmica se conoce como búsqueda del vecino más cercano, que implica encontrar el punto de datos en una base de datos que está más cerca de un punto de consulta. Los puntos de datos cercanos asignados tienen atributos similares y se denominan vecinos.

Estas búsquedas implican un servidor conectado a una base de datos en línea que contiene representaciones concisas de los atributos de los elementos de datos. En el caso de un servicio de transmisión de música, estos atributos, llamados vectores de funciones, podrían ser el género o la popularidad de diferentes canciones.

Para encontrar una recomendación de canción, el cliente (usuario) envía una solicitud al servidor que contiene un vector de características específico, como B. un género musical que le gusta al usuario o una historia resumida de sus hábitos de escucha. Luego, el servidor devuelve la ID de un vector de características en la base de datos que más se aproxima a la solicitud del cliente, sin revelar el vector real. En el caso de la transmisión de música, esta ID probablemente sea el título de una canción. El cliente aprende el título de la canción recomendada sin aprender el vector de características asociado con él.

“El servidor debe poder hacer este cálculo sin ver los números sobre los que está haciendo el cálculo. En realidad, no puede ver las características, pero aun así tiene que brindarle lo más parecido en la base de datos”, dice Langowski.

Para lograr esto, los investigadores crearon un protocolo basado en dos servidores separados que acceden a la misma base de datos. El uso de dos servidores hace que el proceso sea más eficiente y permite el uso de una técnica criptográfica conocida como recuperación de información privada. Esta técnica permite que un cliente consulte una base de datos sin revelar lo que está buscando, explica Servan-Skripter.

superando los desafíos de seguridad

Pero si bien la recuperación de información privada del lado del cliente es segura, no ofrece privacidad en la base de datos. La base de datos le presenta al cliente un conjunto de vectores candidatos (posibles vecinos más cercanos) que normalmente el cliente aplica por fuerza bruta más adelante. Sin embargo, esto puede decirle mucho al cliente sobre la base de datos. El desafío de privacidad adicional es evitar que el cliente aprenda estos vectores adicionales.

Los investigadores utilizaron una técnica de ajuste que elimina muchos de los vectores adicionales en primer lugar, y luego usaron otro truco que llaman enmascaramiento inconsciente para ocultar todos los puntos de datos adicionales, excepto el vecino más cercano real. Esto preserva eficientemente la privacidad de la base de datos para que el cliente no conozca los vectores de características en la base de datos.

Después de diseñar este protocolo, lo probaron con una implementación no privada en cuatro conjuntos de datos del mundo real para ver cómo se podía modificar el algoritmo para maximizar la precisión. Luego usaron su registro para realizar búsquedas privadas de vecinos más cercanos en esos registros.

Su técnica requiere unos segundos de tiempo de procesamiento del servidor por consulta y menos de 10 megabytes de comunicación entre el cliente y los servidores, incluso para bases de datos que contienen más de 10 millones de elementos. Por el contrario, otros métodos seguros pueden requerir gigabytes de comunicaciones u horas de tiempo de computación. Con cada consulta, su método logró una precisión de más del 95 por ciento (lo que significa que encontró el vecino real más cercano al punto de consulta casi siempre).

Las técnicas que utilizaron para habilitar la privacidad de la base de datos frustrarán a un cliente malicioso, incluso si envía consultas falsas para intentar engañar al servidor para que revele información.

“Un cliente malicioso no aprende mucha más información que un cliente honesto que sigue el protocolo. Y también protege contra servidores maliciosos. Si se desvía del protocolo, es posible que no obtenga el resultado correcto, pero nunca sabrá cuál fue la solicitud del cliente», dice Langowski.

En el futuro, los investigadores planean adaptar el protocolo para que pueda mantener la privacidad con un solo servidor. Esto podría permitir su aplicación en situaciones más reales, ya que no requeriría el uso de dos entidades no colusorias (que no comparten información entre sí) para administrar la base de datos.

“La búsqueda del vecino más cercano impulsa muchas aplicaciones importantes impulsadas por el aprendizaje automático, desde proporcionar a los usuarios recomendaciones de contenido hasta la clasificación de enfermedades. Sin embargo, por lo general, es necesario compartir una gran cantidad de datos con un sistema central para agregarlos y habilitar la búsqueda”, dice Bayan Bruss, jefe de investigación de aprendizaje automático aplicado en Capital One, que no participó en este trabajo. «Esta investigación es un paso importante para garantizar que el usuario obtenga los beneficios de las búsquedas de vecinos más cercanos mientras confía en que el sistema central no está utilizando sus datos para otros fines».

Related post

Resumen del laboratorio de aplicaciones: misterio y destrucción

Resumen del laboratorio de aplicaciones: misterio y destrucción

Cada semana echamos un vistazo a algunos de los próximos videojuegos, demostraciones y experiencias únicas que llegarán a los visores Meta…
El «efecto boomerang» en las gotas podría ayudar a limpiar superficies sensibles (con video)

El «efecto boomerang» en las gotas podría ayudar a…

21 de mayo de 2022 (Noticias de Nanowerk) Un grupo de científicos dirigido por Nate Cira de la Universidad de Harvard…
El diseño de referencia de las gafas Qualcomm AR deja caer la atadura

El diseño de referencia de las gafas Qualcomm AR…

Qualcomm ha presentado su último diseño de referencia para gafas AR, que ofrece como modelo para que otras empresas construyan…

Leave a Reply

Tu dirección de correo electrónico no será publicada.