Desembalaje de modelos Black Box |  Noticias del MIT

Desembalaje de modelos Black Box | Noticias del MIT



Los modelos modernos de aprendizaje automático, como las redes neuronales, a menudo se denominan «cajas negras» porque son tan complejos que incluso los investigadores que los diseñan no pueden comprender completamente cómo hacen predicciones.

Para obtener algunos conocimientos, los investigadores utilizan métodos explicativos que intentan describir las decisiones del modelo individual. Por ejemplo, pueden resaltar palabras en una reseña de una película que influyeron en la decisión del modelo de que la reseña fue positiva.

Pero estos métodos de explicación son inútiles si la gente no puede entenderlos fácilmente o incluso malinterpretarlos. Por lo tanto, los investigadores del MIT crearon un marco matemático para cuantificar y evaluar formalmente la comprensibilidad de las explicaciones de los modelos de aprendizaje automático. Esto puede ayudar a obtener información sobre el comportamiento del modelo que puede perderse si el investigador evalúa solo un puñado de explicaciones individuales para tratar de comprender todo el modelo.

«Con este marco, podemos obtener una imagen muy clara no solo de lo que sabemos sobre el modelo a partir de estas explicaciones locales, sino, lo que es más importante, de lo que no sabemos al respecto», dice Yilun Zhou, graduado en ingeniería eléctrica e informática. Estudiante del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y autor principal de un artículo que presenta este marco.

Los coautores de Zhou incluyen a Marco Tulio Ribeiro, investigador principal de Microsoft Research, y la autora principal Julie Shah, profesora de aeroespacial y directora del Grupo de robótica interactiva de CSAIL. Los resultados de la investigación se presentarán en la conferencia del capítulo norteamericano de la Asociación de Lingüística Computacional.

Comprender las explicaciones locales.

Una forma de entender un modelo de aprendizaje automático es encontrar otro modelo que imite sus predicciones pero use patrones de razonamiento transparentes. Sin embargo, los modelos recientes de redes neuronales son tan complejos que esta técnica suele fallar. En cambio, los investigadores recurren a explicaciones locales que se enfocan en aportes individuales. A menudo, estas explicaciones resaltan palabras en el texto para aclarar su importancia para una predicción hecha por el modelo.

Luego, la gente implícitamente generaliza estas explicaciones locales a todo modelo de comportamiento. Alguien puede ver que un método local de explicación destacó las palabras positivas (como «memorable», «impecable» o «encantador») como las más influyentes cuando el modelo decidió que la crítica de una película tenía una vibra positiva. Entonces probablemente asuman que todas las palabras positivas hacen contribuciones positivas a las predicciones de un modelo, pero ese puede no ser siempre el caso, dice Zhou.

Los investigadores desarrollaron un marco llamado ExSum (abreviatura de Resumen explicativo) que formaliza este tipo de afirmaciones en reglas que se pueden probar con métricas cuantificables. ExSum evalúa una regla para un conjunto de datos completo y no solo para la única instancia para la que se creó.

Usando una interfaz gráfica de usuario, una persona escribe reglas que luego se pueden modificar, ajustar y calificar. Por ejemplo, al examinar un modelo que aprende a clasificar las reseñas de películas como positivas o negativas, se podría escribir una regla que establezca que «las palabras negativas tienen connotaciones negativas», lo que significa que palabras como «no», «no» y «nada» contribuyen negativamente al estado de ánimo de las críticas cinematográficas.

ExSum permite al usuario ver si esta regla se aplica en función de tres métricas específicas: cobertura, validez y nitidez. La cobertura mide la amplitud de aplicación de la regla en todo el conjunto de datos. La validez resalta el porcentaje de cada muestra que coincide con la regla. La nitidez describe qué tan precisa es la regla; una regla más válida podría ser tan genérica que no sea útil para comprender el modelo.

suposiciones de prueba

Si un investigador busca una comprensión más profunda de cómo se comporta su modelo, puede usar ExSum para probar ciertas suposiciones, dice Zhou.

Si sospecha que su modelo es discriminatorio de género, podría establecer reglas que establezcan que los pronombres masculinos contribuyen positivamente y los pronombres femeninos negativamente. Si estas reglas tienen una validez alta, significa que son verdaderas en general y que es probable que el modelo esté sesgado.

ExSum también puede revelar información inesperada sobre el comportamiento de un modelo. Por ejemplo, al evaluar el clasificador de críticas cinematográficas, los investigadores se sorprendieron al descubrir que las palabras negativas tendían a contribuir de manera más aguda y aguda a las decisiones del modelo que las palabras positivas. Esto podría deberse a que los críticos tratan de ser educados y menos directos cuando critican una película, explica Zhou.

“En muchos casos, para validar realmente su comprensión, debe evaluar estas afirmaciones con mucho más rigor. Este tipo de comprensión en este nivel de grano fino, hasta donde sabemos, nunca se ha descubierto en trabajos anteriores”, dice.

“La transición de las explicaciones locales a la comprensión global ha sido un gran vacío en la literatura. ExSum es un buen primer paso para cerrar esta brecha”, agrega Ribeiro.

extensión del marco

En el futuro, Zhou espera desarrollar este trabajo extendiendo la noción de inteligibilidad a otros criterios y formas de explicación, como B. Explicaciones contrafactuales (que indican cómo se debe cambiar una entrada para cambiar la predicción del modelo). Por ahora, se centran en los métodos de mapeo de características que describen las características individuales que usa un modelo para tomar una decisión (como las palabras en una reseña de una película).

Además, le gustaría mejorar aún más el marco y la interfaz de usuario para que los usuarios puedan crear reglas más rápido. Escribir reglas puede requerir horas de participación humana, y cierto nivel de participación humana es crucial, ya que los humanos en última instancia necesitan poder comprender las explicaciones, pero el soporte de IA podría agilizar el proceso.

Mientras reflexiona sobre el futuro de ExSum, Zhou espera que su trabajo resalte la necesidad de cambiar la forma en que los investigadores piensan sobre la explicación de los modelos de aprendizaje automático.

“Antes de este trabajo, si tiene una explicación local correcta, ya está. Has alcanzado el santo grial de explicar tu modelo. Proponemos esta dimensión extra para asegurar que estas explicaciones sean comprensibles. La comprensibilidad debe ser otro punto de referencia para evaluar nuestras explicaciones”, dice Zhou.

Esta investigación es apoyada en parte por la Fundación Nacional de Ciencias.

Related post

Se revela el prototipo del Dodge Charger Daytona SRT (con video)

Se revela el prototipo del Dodge Charger Daytona SRT…

Para todos los fanáticos de los muscle cars que están tristes porque Dodge planea finalizar la producción del Charger y el…
Informe: Los nuevos modelos de gestión de datos son esenciales para operar en la nube

Informe: Los nuevos modelos de gestión de datos son…

A medida que las organizaciones adoptan cada vez más los principios de la nube primero y la cantidad y variedad de…
Un dispositivo ultradelgado de carga automática que genera electricidad a partir de la humedad del aire

Un dispositivo ultradelgado de carga automática que genera electricidad…

18 de agosto de 2022 (Noticias de Nanowerk) Imagine poder generar electricidad aprovechando la humedad del aire que lo rodea con…

Leave a Reply

Tu dirección de correo electrónico no será publicada.