¿Pueden los modelos de aprendizaje automático superar conjuntos de datos sesgados?  – Ciencia diaria

¿Pueden los modelos de aprendizaje automático superar conjuntos de datos sesgados? – Ciencia diaria


Si bien los sistemas de inteligencia artificial pueden completar tareas rápidamente, eso no significa que siempre lo hagan de manera justa. Si los conjuntos de datos utilizados para entrenar modelos de aprendizaje automático contienen datos sesgados, es probable que el sistema muestre el mismo sesgo al tomar decisiones en el mundo real.

Por ejemplo, si un conjunto de datos contiene principalmente imágenes de hombres blancos, un modelo de reconocimiento facial entrenado con estos datos puede ser menos preciso para mujeres o personas con diferentes tonos de piel.

Un grupo de investigadores del MIT, en colaboración con investigadores de la Universidad de Harvard y Fujitsu, Ltd. comprender cuándo y cómo un modelo de aprendizaje automático puede superar este tipo de sesgo de conjuntos de datos. Utilizaron un enfoque neurocientífico para estudiar cómo los datos de entrenamiento afectan si una red neuronal artificial puede aprender a reconocer objetos que no ha visto antes. Una red neuronal es un modelo de aprendizaje automático que imita el cerebro humano en la forma en que contiene capas de nodos interconectados o «neuronas» que procesan datos.

Los nuevos resultados muestran que la diversidad de los datos de entrenamiento tiene un gran impacto en la capacidad de una red neuronal para superar el sesgo, pero al mismo tiempo la diversidad de los conjuntos de datos puede afectar el rendimiento de la red. También muestran que la forma en que se entrena una red neuronal y los tipos específicos de neuronas que surgen durante el proceso de entrenamiento pueden desempeñar un papel importante en su capacidad para superar un conjunto de datos sesgado.

“Una red neuronal puede superar el sesgo del conjunto de datos, lo cual es alentador. Pero el aspecto más importante de esto es que tenemos que tener en cuenta la variedad de datos que tienes en alguna parte. En primer lugar, debemos tener mucho cuidado con la forma en que diseñamos los conjuntos de datos», dice Xavier Boix, investigador del Departamento de Ciencias Cognitivas y del Cerebro (BCS) y el Centro de Cerebros, Mentes y Máquinas (CBMM) y autor principal del papel

Los coautores incluyen a los exestudiantes de posgrado Spandan Madan, un autor correspondiente que actualmente está cursando su doctorado en Harvard, Timothy Henry, Jamell Dozier, Helen Ho y Nishchal Bhandari; Tomotake Sasaki, ex investigador visitante convertido en investigador en Fujitsu; Frédo Durand, Profesor de Ingeniería Eléctrica y Ciencias de la Computación y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial; y Hanspeter Pfister, Profesor Wang de Informática en la Escuela de Ingeniería y Ciencias Aplicadas de Harvard. La investigación aparece hoy en Naturaleza Máquina Inteligencia.

Piensa como un neurocientífico

Boix y sus colegas abordaron el problema del sesgo del conjunto de datos pensando como neurocientíficos. En neurociencia, explica Boix, es común usar conjuntos de datos controlados en experimentos, es decir, un conjunto de datos en el que los investigadores saben tanto como sea posible sobre la información que contiene.

El equipo creó conjuntos de datos que contenían imágenes de diferentes objetos en diferentes poses y controló cuidadosamente las combinaciones para que algunos conjuntos de datos mostraran más variedad que otros. En este caso, un conjunto de datos tenía menos diversidad cuando contenía más imágenes que mostraban objetos desde un solo ángulo. Un conjunto de datos más diverso contenía más imágenes que mostraban objetos desde múltiples ángulos. Cada conjunto de datos contenía el mismo número de imágenes.

Los investigadores utilizaron estos conjuntos de datos cuidadosamente construidos para entrenar una red neuronal para la clasificación de imágenes y luego examinaron qué tan bien podía identificar objetos desde puntos de vista que la red no vio durante el entrenamiento (conocido como una combinación externa de distribución).

Por ejemplo, cuando los investigadores están entrenando a un modelo para clasificar autos en imágenes, quieren que el modelo aprenda cómo son los diferentes autos. Pero si cada Ford Thunderbird se muestra de frente en el conjunto de datos de entrenamiento, si al modelo entrenado se le da una foto de un Ford Thunderbird tomada de lado, puede clasificarlo erróneamente, incluso cuando se entrena con millones de fotos de autos.

Los investigadores encontraron que cuando el conjunto de datos es más diverso, cuando más imágenes muestran objetos desde diferentes ángulos, la red es más capaz de generalizar a nuevas imágenes o ángulos. La diversidad de datos es la clave para superar los prejuicios, dice Boix.

“Pero no es que más variedad de datos sea siempre mejor; hay una tensión aquí. A medida que la red neuronal mejora en el reconocimiento de cosas nuevas que no ha visto antes, se le hace más difícil reconocer cosas que ya ha visto. » él dice.

métodos de entrenamiento de prueba

Los investigadores también estudiaron métodos para entrenar la red neuronal.

En el aprendizaje automático, es común entrenar una red para realizar múltiples tareas simultáneamente. La idea es que cuando hay una relación entre las tareas, la red aprende a realizar mejor cada una aprendiendo juntas.

Pero los investigadores descubrieron que lo contrario era cierto: un modelo entrenado en cada tarea por separado era mucho mejor para superar el sesgo que un modelo entrenado en ambas tareas juntas.

“Los resultados fueron realmente impresionantes. Cuando realizamos este experimento por primera vez, pensamos que era un error. Nos tomó varias semanas darnos cuenta de que el resultado era real porque fue muy inesperado”, dice.

Profundizaron en las redes neuronales para comprender por qué sucede esto.

Descubrieron que la especialización de las neuronas parece desempeñar un papel importante. Cuando la red neuronal se entrena para reconocer objetos en imágenes, parecen surgir dos tipos de neuronas: una que se especializa en reconocer la categoría de objetos y otra que se especializa en reconocer el punto de vista.

Cuando la red está entrenada para realizar tareas por separado, estas neuronas especializadas se vuelven más prominentes, explica Boix. Pero cuando una red está entrenada para realizar ambas tareas simultáneamente, algunas neuronas se diluyen y no se especializan en una tarea. Estas neuronas no especializadas tienen más probabilidades de confundirse, dice.

“Pero la siguiente pregunta ahora es ¿cómo llegaron estas neuronas allí? Entrenan la red neuronal y surgen del proceso de aprendizaje. Nadie le dijo a la red que incluyera este tipo de neuronas en su arquitectura. Eso es lo fascinante”, dice.

Esta es un área que los investigadores esperan explorar en trabajos futuros. Quieren ver si pueden obligar a una red neuronal a desarrollar neuronas con esa especialización. También quieren aplicar su enfoque a tareas más complejas, como B. Objetos con texturas complicadas o diferente iluminación.

Boix se siente alentada de que una red neuronal pueda aprender a superar los sesgos y espera que su trabajo pueda inspirar a otros a pensar en los conjuntos de datos que usan en las aplicaciones de IA.

Este trabajo fue apoyado en parte por la Fundación Nacional de Ciencias, un Premio de Investigación de la Facultad de Google, el Instituto de Investigación de Toyota, el Centro de Cerebros, Mentes y Máquinas, Fujitsu Laboratories Ltd. y la Alianza MIT-Sensetime sobre Inteligencia Artificial.

Related post

Hacer del mundo un lugar mejor con datos

Hacer del mundo un lugar mejor con datos

Publicado en Técnicamente | 24 de junio de 2022 3 leer minuto Gran parte de la exageración que rodea a los…
Diversas técnicas de modelado de almacenamiento de datos y su implementación en la plataforma Databricks Lakehouse

Diversas técnicas de modelado de almacenamiento de datos y…

Lakehouse es un nuevo paradigma de plataforma de datos que combina las mejores cualidades de los lagos de datos y los…
Descentralización de los ensayos clínicos: cómo la COVID-19 ha cambiado el desarrollo de fármacos

Descentralización de los ensayos clínicos: cómo la COVID-19 ha…

La pandemia de COVID-19 trajo una enorme urgencia al sector de las ciencias de la vida. Las empresas compitieron por los…

Leave a Reply

Tu dirección de correo electrónico no será publicada.