Reequilibrio restringido para entrenar redes neuronales profundas con etiquetas ruidosas

Reequilibrio restringido para entrenar redes neuronales profundas con etiquetas ruidosas


En los últimos años, las redes neuronales profundas (DNN) han tenido mucho éxito en el logro de ganancias de rendimiento impresionantes en varias aplicaciones del mundo real, desde el reconocimiento de imágenes hasta la genómica. Sin embargo, las DNN modernas a menudo tienen muchos más parámetros de modelo entrenables que la cantidad de ejemplos de entrenamiento, y las redes sobreparametrizadas resultantes pueden adaptarse fácilmente a etiquetas ruidosas o dañadas (es decir, ejemplos a los que se les asignó una etiqueta de clase incorrecta). Como resultado, el entrenamiento con etiquetas ruidosas a menudo conduce a la degradación de la precisión del modelo entrenado en datos de prueba limpios. Desafortunadamente, las etiquetas ruidosas pueden aparecer en varios escenarios del mundo real debido a múltiples factores como: B. Errores e inconsistencias en la anotación manual y el uso de fuentes de etiquetas inherentemente ruidosas (por ejemplo, Internet o etiquetas automatizadas de un sistema existente).

El trabajo anterior ha demostrado que las representaciones aprendidas mediante el entrenamiento previo de modelos grandes en datos ruidosos pueden ser útiles para la predicción cuando se usan en un clasificador lineal entrenado en datos limpios. En principio, es posible entrenar modelos de aprendizaje automático (ML) directamente en datos ruidosos sin recurrir a este enfoque de dos pasos. Para tener éxito, tales métodos alternativos deben tener las siguientes propiedades: (i) deben encajar fácilmente en las canalizaciones de entrenamiento estándar con poca sobrecarga computacional o de memoria; (ii) deben ser aplicables en entornos de «transmisión» donde se agregan continuamente nuevos datos durante el entrenamiento; y (iii) no deben exigir datos con etiquetas limpias.

En «Reponderación de instancias restringidas y clases para un aprendizaje robusto bajo ruido de etiquetas» proponemos un método novedoso y basado en principios denominado Reponderación de instancias restringidas (CIW) con estas propiedades, que funciona mediante la asignación dinámica de ponderaciones de importancia tanto a las instancias individuales como a las etiquetas de clase B. a Mini lote, con el objetivo de reducir el efecto de muestras potencialmente ruidosas. Formulamos una familia de problemas de optimización con restricciones que brindan soluciones simples a estos pesos de importancia. Estos problemas de optimización se resuelven por minilote, lo que evita la necesidad de almacenar y actualizar los pesos de importancia en todo el conjunto de datos. Este marco de optimización también proporciona una perspectiva teórica sobre las heurísticas de suavizado de etiquetas existentes que se ocupan del ruido de etiquetas, como B. Arranque de etiquetas. Evaluamos el método con cantidades variables de ruido sintético en los puntos de referencia estándar CIFAR-10 y CIFAR-100 y observamos mejoras significativas en el rendimiento con respecto a varios métodos existentes.

método
Al entrenar modelos ML, se minimiza una función de pérdida que indica qué tan bien se ajustan los parámetros actuales a los datos de entrenamiento dados. En cada paso de entrenamiento, esta pérdida se aproxima como la suma (ponderada) de las pérdidas de instancias individuales en el mini lote de datos en el que opera. En el entrenamiento estándar, cada instancia se trata por igual para actualizar los parámetros del modelo, lo que equivale a asignar pesos uniformes (es decir, iguales) en la minipila.

Sin embargo, las observaciones empíricas de trabajos anteriores indican que las instancias ruidosas o mal etiquetadas tienden a tener valores de pérdida más altos que las limpias, particularmente durante las etapas temprana y media del entrenamiento. Por lo tanto, asignar pesos de importancia uniformes a todas las instancias significa que las instancias ruidosas pueden potencialmente dominar las instancias limpias debido a sus valores de pérdida más altos y degradar la precisión en los datos de prueba limpios.

Motivados por estas observaciones, proponemos una familia de problemas de optimización con restricciones que resuelven este problema al asignar pesos de importancia a instancias individuales en el conjunto de datos para reducir el impacto de aquellas que probablemente sean ruidosas. Este enfoque proporciona control sobre cuánto se desvían los pesos de la uniformidad, según lo cuantificado por una medida de divergencia. Resulta que se pueden obtener fórmulas simples para los pesos de instancia para varios tipos de medidas de divergencia. La pérdida final se calcula como una suma ponderada de las pérdidas de una sola instancia, que se utiliza para actualizar los parámetros del modelo. A esto lo llamamos el método de reponderación de instancias restringidas (CIW). Este método permite controlar la suavidad o pico de los pesos eligiendo la divergencia y un hiperparámetro correspondiente.

Esquema del método propuesto de reponderación de instancias restringidas (CIW).

Figura con límite de decisión en un conjunto de datos 2D
Como ejemplo para ilustrar el comportamiento de este método, considere una versión ruidosa del conjunto de datos Two Moons, que consta de puntos seleccionados aleatoriamente de dos clases en forma de dos medias lunas. Corrompemos el 30 % de las etiquetas y entrenamos una red de perceptrones multicapa para clasificarlas binariamente. Usamos la pérdida de entropía cruzada binaria estándar y un SGD con optimizador de momento para entrenar el modelo. En la figura a continuación (panel izquierdo) mostramos los puntos de datos y visualizamos un límite de decisión aceptable que separa las dos clases con una línea de puntos. Los puntos marcados en rojo en la media luna superior y los marcados en verde en la media luna inferior indican puntos de datos ruidosos.

El modelo base entrenado con pérdida de entropía cruzada binaria asigna ponderaciones uniformes a las instancias en cada mini lote, eventualmente sobreajustando las instancias ruidosas y resultando en un límite de decisión pobre (panel central en la figura a continuación).

El método CIW vuelve a ponderar las instancias en cada minilote en función de sus valores de pérdida correspondientes (panel derecho en la imagen a continuación). Asigna pesos más grandes a las instancias limpias que están en el lado derecho del límite de decisión y amortigua el efecto de las instancias ruidosas que causan un valor de pérdida más alto. Los pesos más pequeños para las instancias ruidosas ayudan a evitar que el modelo las sobreajuste, lo que permite que el modelo entrenado por CIW converja con éxito a un buen límite de decisión al evitar los efectos del ruido de la etiqueta.

Ilustración del límite de decisión en el transcurso del entrenamiento para el método CIW de referencia y propuesto en el conjunto de datos Two Moons. Izquierda: Conjunto de datos ruidoso con límite de decisión deseable. Centrar: Límite de decisión para entrenamiento estándar con pérdida de entropía cruzada. A la derecha: Entrenamiento con el método CIW. El tamaño de los puntos en (centrar) y (A la derecha) son proporcionales a los pesos de importancia asignados a estas muestras en el minilote.

Reequilibrio de clases restringidas
Cuando se reequilibran las instancias, a las instancias con mayores pérdidas se les asignan pesos más bajos. Extendemos esta intuición aún más para asignar pesos de importancia a todas las designaciones de clases posibles. El entrenamiento estándar utiliza un vector de una etiqueta caliente como pesos de clase, asignando un peso de 1 a la clase etiquetada y 0 a todas las demás clases. Sin embargo, para las instancias potencialmente mal etiquetadas, tiene sentido asignar pesos distintos de cero a las clases que podrían ser la etiqueta verdadera. Obtenemos estos pesos de clase como soluciones a una familia de problemas de optimización con restricciones en los que la desviación de los pesos de clase de la etiqueta de distribución caliente, medida por una divergencia de elección, está controlada por un hiperparámetro.

Nuevamente, podemos obtener fórmulas simples para los pesos de clase para varias medidas de divergencia. Nos referimos a esto como instancia restringida y reponderación de clase (CICW). La solución a este problema de optimización también restaura los métodos propuestos anteriormente basados ​​en el arranque de etiquetas estáticas (también conocido como suavizado de etiquetas) cuando la divergencia se toma como la distancia de variación total. Esto proporciona una perspectiva teórica sobre el popular método de arranque de etiquetas estáticas.

Usar pesos de instancia con Mixup
También proponemos una forma de usar los pesos de instancia obtenidos con mixup, que es una forma popular de regularizar modelos y mejorar el rendimiento de la predicción. Funciona muestreando un par de muestras del conjunto de datos original y generando una nueva muestra artificial utilizando una combinación aleatoria convexa de estas. El modelo se entrena minimizando la pérdida en estos puntos de datos confusos. Vanilla Mixup no tiene en cuenta las pérdidas de una sola instancia, lo que puede ser problemático para los datos ruidosos, ya que Mixup trata las muestras limpias y las ruidosas de la misma manera. Dado que un peso de instancia alto obtenido con nuestro método CIW es más indicativo de una muestra limpia, usamos nuestros pesos de instancia para realizar un muestreo sesgado por confusión, y también usamos los pesos en combinaciones convexas (en lugar de combinaciones convexas aleatorias en mezcla de vainilla). Esto hace que los ejemplos confusos se desvíen hacia puntos de datos más limpios, lo que llamamos confusión CICW.

Aplicamos estos métodos a los conjuntos de datos de referencia estándar CIFAR-10 y CIFAR-100 con cantidades variables de ruido sintético (es decir, la etiqueta de cada instancia cambia aleatoriamente a otras etiquetas). Mostramos la precisión de la prueba en datos limpios con ruido sintético simétrico, variando la relación de ruido entre 0,2 y 0,8.

Observamos que el CICW propuesto supera varios métodos y es consistente con los resultados de la mezcla dinámica, que mantiene los pesos de importancia en todo el conjunto de entrenamiento con mezcla. El uso de nuestros pesos de importancia con confusión en CICW-M dio como resultado un rendimiento significativamente mejorado con respecto a estos métodos, especialmente a tasas de ruido más altas (como se muestra en las líneas en la parte superior y derecha de los gráficos a continuación).

Resumen y direcciones futuras
Formulamos una nueva familia de problemas de optimización con restricciones para lidiar con el ruido de etiquetas que proporciona fórmulas matemáticas simples para reequilibrar las instancias de entrenamiento y las etiquetas de clase. Estas formulaciones también brindan una perspectiva teórica sobre los métodos existentes basados ​​en el suavizado de etiquetas para aprender con etiquetas ruidosas. También proponemos formas de usar los pesos de instancia con confusión, lo que da como resultado ganancias de rendimiento más significativas en comparación con el reequilibrio de instancias y clases. Nuestro método funciona exclusivamente en el nivel de mini lotes, lo que evita la sobrecarga adicional de mantener pesos de nivel de registro como con algunos de los métodos más nuevos.

Como dirección para el trabajo futuro, nos gustaría evaluar el método en etiquetas ruidosas realistas que se encuentran en grandes entornos prácticos. También creemos que estudiar la interacción de nuestro marco con el suavizado de etiquetas es una dirección interesante que puede conducir a una versión del suavizado de etiquetas adaptable a pérdidas. También nos complace lanzar el código para CICW, que ahora está disponible en Github.

Gracias
Agradecemos a Kevin Murphy por sus comentarios constructivos a lo largo del proyecto.

Related post

El programa interactivo de los científicos informáticos ayuda a planificar el movimiento para entornos con obstáculos – ScienceDaily

El programa interactivo de los científicos informáticos ayuda a…

Al igual que nosotros, los robots no pueden ver a través de las paredes. A veces necesitan un poco de ayuda…
Toma lecciones en realidad virtual con Immerse, una aplicación de voz para Quest 2

Toma lecciones en realidad virtual con Immerse, una aplicación…

En el metaverso, imagínese llegando tarde a la escuela. Bucear es una plataforma educativa de metaverso desarrollada en colaboración con los…
Apple revela mejoras en ARKit 6 para desarrolladores

Apple revela mejoras en ARKit 6 para desarrolladores

A principios de este mes, durante la conferencia anual de desarrolladores WWDC 2022 de Apple, la compañía les dio a…

Leave a Reply

Tu dirección de correo electrónico no será publicada.