Agregar comprensión del lenguaje a los modelos de imagen

Agregar comprensión del lenguaje a los modelos de imagen


La capacidad de categorizar imágenes ha sido transformada por el aprendizaje profundo. También se ha acelerado significativamente a través del aprendizaje por transferencia, donde los modelos se entrenan previamente en grandes conjuntos de datos como ImageNet para aprender representaciones visuales, que luego se ajustan y se transfieren a una nueva tarea con menos datos (por ejemplo, clasificar animales). Trabajos anteriores como BiT y ViT utilizaron estos métodos para lograr un rendimiento de vanguardia en una variedad de tareas de clasificación, como el punto de referencia VTAB.

Sin embargo, el ajuste fino tiene algunas desventajas: aunque el entrenamiento previo se realiza solo una vez, se requiere un ajuste fino para cada nuevo conjunto de datos que requiera datos específicos de la tarea. El aprendizaje contrastivo multimodal es un paradigma alternativo recientemente popularizado (por ejemplo, CLIP, ALIGN) que supera estos problemas al aprender a unir texto de forma libre con imágenes. Estos modelos luego pueden resolver nuevas tareas reformulándolas como problemas de coincidencia de imagen y texto sin datos adicionales (lo que se conoce como aprendizaje de «disparo cero»). El aprendizaje contrastivo es flexible y fácil de adaptar a nuevas tareas, pero tiene sus propias limitaciones, a saber, la necesidad de una gran cantidad de datos emparejados de imagen y texto y un rendimiento más débil que los enfoques de aprendizaje por transferencia.

Dadas estas limitaciones, proponemos que LiT: Zero-Shot Transfer with Locked-image Text Tuning se lance en CVPR 2022. Los modelos LiT aprenden a hacer coincidir el texto usando un codificador de imágenes ya entrenado. Esta configuración simple pero efectiva ofrece lo mejor de ambos mundos: fuertes representaciones visuales desde el entrenamiento previo más una transferencia flexible de tiro cero a nuevas tareas a través del aprendizaje contrastivo. LiT logra una precisión de clasificación de tiro cero de última generación, lo que reduce significativamente la brecha entre los dos estilos de aprendizaje. Creemos que la mejor manera de entender esto es probarlo usted mismo, por lo que hemos incluido una demostración de los modelos LiT al final de esta publicación.

Afinar (Izquierda) requiere datos específicos de la tarea y entrenamiento para adaptar un modelo previamente entrenado a una nueva tarea. Un modelo LiT (A la derecha) se puede utilizar para cualquier tarea sin datos adicionales ni personalización.

Aprendizaje contrastivo sobre datos imagen-texto
Los modelos de aprendizaje contrastivos aprenden representaciones de ejemplos «positivos» y «negativos», de modo que las representaciones de ejemplos «positivos» son similares entre sí pero diferentes de los ejemplos «negativos».

El aprendizaje contrastivo multimodal aplica esto a pares de imágenes y texto asociado. Un codificador de imágenes calcula representaciones a partir de imágenes y un codificador de texto hace lo mismo con el texto. Cada representación de imagen debe estar cerca de la representación del texto asociado («positivo»), pero diferente de la representación de otro texto («negativo») en los datos, y viceversa. Esto generalmente se ha hecho con modelos inicializados aleatoriamente («desde cero»), lo que significa que los codificadores tienen que aprender representaciones al mismo tiempo. y cómo juntarlos.

El aprendizaje contrastivo multimodal entrena modelos para producir representaciones similares para imágenes y texto muy parecidos.

Este entrenamiento se puede realizar en pares de imagen y texto ruidosos y vagamente alineados que ocurren naturalmente en la web. Esto evita la necesidad de etiquetado manual y simplifica el escalado de datos. Además, el modelo aprende conceptos visuales mucho más ricos: no se limita a lo que se define en el espacio de la etiqueta de clasificación. En lugar de clasificar una imagen como «café», puede entender si se trata de «un espresso pequeño en una taza blanca» o «un café con leche grande en una botella roja».

Una vez entrenado, un modelo que alinea imagen y texto se puede usar de muchas maneras. Para la clasificación de disparo cero, comparamos las representaciones de imágenes con las representaciones textuales de los nombres de las clases. Por ejemplo, se puede crear un clasificador «wombat vs. jaguar» usando las representaciones de los textos «jaguar» y «uómbat‘ y clasificar una imagen como un jaguar si su representación se ajusta mejor a la primera. Este enfoque escala a miles de clases y hace que sea muy fácil resolver tareas de clasificación sin los datos adicionales necesarios para el ajuste fino. Otra aplicación de los modelos contrastivos es la búsqueda de imágenes (también conocida como recuperación de imagen y texto) mediante la búsqueda de la imagen cuya representación coincida mejor con la de un texto dado, o viceversa.

Lo mejor de ambos mundos con ajuste de imagen bloqueado
Como se mencionó, Transfer Learning logra una precisión de vanguardia pero requiere etiquetas, conjuntos de datos y capacitación por tarea. Por otro lado, los modelos contrastivos son flexibles, escalables y fácilmente adaptables a nuevas tareas, pero de bajo rendimiento. A modo de comparación, en el momento de escribir este artículo, el estado del arte para la clasificación de ImageNet mediante el aprendizaje por transferencia es del 90,94 %, pero los mejores modelos contrastivos de tiro cero alcanzan el 76,4 %.

El ajuste de LiT cierra esta brecha: entrenamos de manera contrastiva un modelo de texto para calcular representaciones que se ajustan bien a las representaciones de alto rendimiento disponibles de un codificador de imágenes previamente entrenado. Importante para que esto funcione bien, el codificador de imágenes debe estar «bloqueado», lo que significa que no debe actualizarse durante el entrenamiento. Esto puede ser contradictorio ya que la información adicional generalmente se espera de los cursos de educación continua. incrementar rendimiento, pero descubrimos que bloquear el codificador de imágenes produce mejores resultados de manera constante.

Por el contrario, el ajuste de LiT entrena un codificador de texto para que coincida con un codificador de imagen previamente entrenado. El codificador de texto aprende a calcular representaciones que se alinean con las del codificador de imágenes.

Esto puede verse como una alternativa al ajuste fino clásico, donde el codificador de imágenes se ajusta por separado para cada nueva tarea de clasificación; En cambio, tenemos una fase de ajuste de LiT, después de la cual el modelo puede clasificar cualquier dato. Los modelos ajustados por LiT logran una precisión de disparo cero del 84,5 % en la clasificación de ImageNet, muestran mejoras significativas con respecto a los métodos anteriores que entrenan modelos desde cero y reducen a la mitad la brecha de rendimiento entre el ajuste fino y el aprendizaje contrastivo.

Izquierda: LiT-Tuning cierra la brecha entre los mejores modelos de alto contraste y los mejores modelos ajustados con etiquetas. Derecha: El uso de un codificador de imágenes entrenado previamente siempre es útil, pero sorprendentemente el bloqueo es una parte clave de la receta para el éxito. modelos de imagen desbloqueados (punteado) dan como resultado un rendimiento significativamente peor.

Un beneficio impresionante de los modelos contrastivos es una mayor robustez: mantienen una alta precisión en los conjuntos de datos que normalmente engañan a los modelos finamente ajustados como ObjectNet e ImageNet-C. Del mismo modo, los modelos ajustados por LiT demuestran un alto rendimiento en varias versiones exigentes de ImageNet, logrando, por ejemplo, una precisión de vanguardia del 81,1 % en ObjectNet.

La afinación LiT tiene aún más ventajas. Si bien el trabajo comparativo anterior requiere grandes cantidades de datos y lleva mucho tiempo entrenarlo, el enfoque de LiT tiene mucha menos necesidad de datos. Los modelos LiT entrenados en 24 millones de pares de imagen y texto disponibles públicamente compiten con el rendimiento de clasificación de disparo cero de modelos anteriores entrenados en 400 millones de pares de imagen y texto de datos privados. El codificador de imágenes bloqueado también da como resultado un entrenamiento más rápido con menos consumo de memoria. Para conjuntos de datos más grandes, las representaciones de imágenes se pueden precalcular; No ejecutar el modelo de imagen durante el entrenamiento mejora aún más la eficiencia y también desbloquea tamaños de lotes mucho más grandes, lo que aumenta la cantidad de «negativos» que ve el modelo y es clave para un aprendizaje contrastivo poderoso. El método funciona bien con varias formas de entrenamiento previo de imágenes (p. ej., incluido el aprendizaje autosupervisado) y con muchos modelos de imágenes disponibles públicamente. Esperamos que estos beneficios hagan de LiT un excelente banco de pruebas para los investigadores.

Conclusión
Presentamos Locked-Image Tuning (LiT), que entrena contrastivamente un codificador de texto para que coincida con las representaciones de imágenes de un potente codificador de imágenes previamente entrenado. Este método simple es eficiente desde el punto de vista informático y de datos y mejora significativamente el rendimiento de la clasificación de disparo cero en comparación con los enfoques de aprendizaje contrastivos existentes.

¿Quieres probarlo tú mismo?

Una vista previa de la demostración: ¡utilícela para hacer coincidir las descripciones de texto de forma libre con las imágenes y cree su propio clasificador de tiro cero!

Hemos preparado una pequeña demostración interactiva para probar algunos modelos sintonizados con LiT. También ofrecemos un Colab con casos de uso más avanzados y modelos más grandes que son una excelente manera de comenzar.

Gracias
Nos gustaría agradecer a Xiaohua Zhai, Xiao Wang, Daniel Keysers, Alexander Kolesnikov y Lucas Beyer, coautores del artículo de LiT y que participaron en todos los aspectos de su desarrollo, y al equipo de Brain en Zúrich. También nos gustaría agradecer a Tom Small por crear las animaciones utilizadas en esta publicación de blog.

Related post

Nanotechnology Now – Comunicado de prensa: La Sociedad Nacional del Espacio ayuda a financiar la expansión de la Academia de Empresarios de Verano de Brownsville de Frontier: La Sociedad Nacional del Espacio y el Club para el Futuro apoyan el Programa de Desarrollo Juvenil del Sur de Texas

Nanotechnology Now – Comunicado de prensa: La Sociedad Nacional…

Inicio > Prensa > La Sociedad Nacional del Espacio ayuda a financiar la expansión de la Academia de Empresarios de Verano…
Hacer del mundo un lugar mejor con datos

Hacer del mundo un lugar mejor con datos

Publicado en Técnicamente | 24 de junio de 2022 3 leer minuto Gran parte de la exageración que rodea a los…
Descentralización de los ensayos clínicos: cómo la COVID-19 ha cambiado el desarrollo de fármacos

Descentralización de los ensayos clínicos: cómo la COVID-19 ha…

La pandemia de COVID-19 trajo una enorme urgencia al sector de las ciencias de la vida. Las empresas compitieron por los…

Leave a Reply

Tu dirección de correo electrónico no será publicada.