Preentrenamiento imagen-texto con subtítulos contrastivos

Preentrenamiento imagen-texto con subtítulos contrastivos


A menudo, los desarrolladores de modelos de aprendizaje automático (ML) comienzan su diseño con un modelo básico genérico que está altamente capacitado y tiene capacidades que se pueden transferir a una variedad de tareas posteriores. En el procesamiento del lenguaje natural, una serie de modelos troncales populares, incluidos BERT, T5, GPT-3 (a veces denominados «modelos fundamentales»), se entrenan previamente con datos a escala web y, por lo tanto, han demostrado capacidades multitarea genéricas con zero-shot, little-shot o transferencia de aprendizaje. En comparación con la capacitación de modelos individuales demasiado especializados, la capacitación previa de modelos básicos para una gran cantidad de tareas posteriores puede amortizar los costos de capacitación, lo que puede superar las limitaciones de recursos en la creación de modelos a gran escala.

En visión por computadora, un trabajo pionero ha demostrado la efectividad de los modelos de codificador único, entrenados previamente para la clasificación de imágenes, para capturar representaciones visuales genéricas efectivas para otras tareas posteriores. Más recientemente, se han estudiado enfoques de codificador dual contrastivo (CLIP, ALIGN, Florence) y codificador-decodificador generativo (SimVLM) entrenados en pares ruidosos de imagen-texto a escala web. Los modelos de codificador dual tienen capacidades notables de clasificación de imágenes de disparo cero, pero son menos efectivos para comprender la visión y el lenguaje juntos. Por otro lado, los métodos de codificador-descodificador son buenos para subtitular imágenes y responder preguntas visualmente, pero no pueden realizar tareas de estilo de recuperación.

En «CoCa: los subtítulos contrastivos son modelos básicos de imagen y texto» presentamos un modelo de columna vertebral de visión unificada llamado » Leyenda contrastante (Coca). Nuestro modelo es un enfoque novedoso de codificador-decodificador que produce simultáneamente incrustaciones de texto e imágenes unimodales alineadas y representaciones multimodales compartidas, lo que lo hace lo suficientemente flexible como para ser directamente aplicable a todo tipo de tareas posteriores. En particular, CoCa logra resultados de vanguardia en una variedad de tareas visuales y de lenguaje visual que involucran reconocimiento visual, alineación intermodal y comprensión multimodal. Además, aprende representaciones muy genéricas, por lo que puede funcionar tan bien o mejor que los modelos totalmente ajustados con aprendizaje de disparo cero o codificadores congelados.

Descripción general de subtituladores contrastivos (CoCa) frente a modelos de codificador único, codificador dual y codificador-descodificador.

método
Proponemos CoCa, un marco de entrenamiento unificado que combina la pérdida de contraste y la pérdida de subtítulos en un solo flujo de entrenamiento compuesto por anotaciones de imagen y pares de imagen-texto ruidosos, fusionando efectivamente los paradigmas de codificador único, codificador dual y codificador-decodificador.

Con este fin, presentamos una arquitectura novedosa de codificador-decodificador donde el codificador es un transformador de visión (ViT) y el decodificador-transformador de texto está desacoplado en dos partes, un decodificador de texto unimodal y un decodificador de texto multimodal. Omitimos la atención cruzada en las capas del decodificador unimodal para codificar representaciones de solo texto para la pérdida de contraste, y las capas del decodificador multimodal en cascada con atención cruzada a las salidas del codificador de imágenes para aprender representaciones multimodales de imagen a texto para la pérdida de subtítulos. Este diseño maximiza la flexibilidad y la universalidad del modelo para adaptarse a una amplia gama de tareas y, al mismo tiempo, puede entrenarse de manera eficiente con una sola propagación hacia adelante y hacia atrás para ambos objetivos de entrenamiento, lo que resulta en un esfuerzo computacional mínimo. Por lo tanto, el modelo se puede entrenar de extremo a extremo desde cero con un costo de entrenamiento comparable al de un modelo de codificador-decodificador ingenuo.

Gráfica de propagación hacia adelante utilizada por CoCa tanto para el contraste como para la pérdida de subtítulos.

Resultados de referencia
El modelo CoCa se puede ajustar directamente a muchas tareas con una personalización mínima. De esta manera, nuestro modelo logra una serie de resultados de última generación en la visión popular y puntos de referencia multimodales, que incluyen (1) reconocimiento visual: ImageNet, Kinetics-400/600/700 y MiT; (2) alineación intermodal: MS-COCO, Flickr30K y MSR-VTT; y (3) comprensión multimodal: VQA, SNLI-VE, NLVR2 y NoCaps.

Comparación de CoCa con otros modelos de columna vertebral de imagen y texto (sin ajuste específico de tareas) y varios modelos específicos de tareas de última generación.

Es de destacar que CoCa logra estos resultados como un solo modelo, adecuado para todas las tareas, mientras que a menudo es más liviano que los modelos anteriores especializados de alto rendimiento. Por ejemplo, CoCa logra una precisión ImageNet Top 1 del 91,0 % mientras utiliza menos de la mitad de los parámetros de los modelos anteriores de última generación. Además, CoCa también gana una fuerte capacidad generativa para subtítulos de alta calidad.

El rendimiento de escalado de la clasificación de imágenes compara la precisión ajustada de ImageNet top 1 con el tamaño del modelo.
Leyendas de texto generadas por CoCa con imágenes NoCaps como entrada.

Rendimiento de tiro cero
Además de lograr un excelente rendimiento de ajuste fino, CoCa también supera a los modelos de última generación anteriores en tareas de aprendizaje de disparo cero, incluida la clasificación de imágenes y la recuperación multimodal. CoCa logra una precisión de disparo cero del 86,3 % en ImageNet y también supera a los modelos anteriores en pruebas comparativas de variantes exigentes como ImageNet-A, ImageNet-R, ImageNet-V2 e ImageNet-Sketch. Como se muestra en la figura a continuación, CoCa logra una mejor precisión de tiro cero con tamaños de modelo más pequeños en comparación con los métodos anteriores.

Rendimiento de escalado de clasificación de imágenes que compara la precisión de ImageNet top 1 de disparo cero con el tamaño del modelo.

Representación de codificador congelado
Una observación particularmente emocionante es que con solo a, CoCa logra resultados comparables a los mejores modelos ajustados. congelado Codificador visual, que utiliza funciones extraídas después del entrenamiento del modelo para entrenar un clasificador, en lugar del esfuerzo computacional más intensivo de ajustar un modelo. En ImageNet, un codificador de CoCa congelado con un cabezal de clasificación aprendido logra una precisión de 1 superior del 90,6 %, que es mejor que el rendimiento completamente ajustado de los modelos troncales existentes (90,1 %). Descubrimos que esta configuración también funciona muy bien para el reconocimiento de video. Alimentamos fotogramas de video muestreados individualmente al codificador de imágenes congeladas CoCa y fusionamos las características de salida mediante el enfoque de atención antes de aplicar un clasificador aprendido. Este enfoque simple que utiliza un codificador de imágenes congeladas de CoCa logra una precisión de detección de acción de video Top 1 del 88,0 % en el conjunto de datos Kinetics 400 y muestra que con los objetivos de entrenamiento combinados, CoCa aprende una representación visual altamente genérica.

Comparación del codificador visual de Frozen CoCa con (varios) modelos ajustados de mejor rendimiento.

Conclusión
Presentamos Contrastive Captioner (CoCa), un nuevo paradigma de preentrenamiento para modelos de columna vertebral de imagen y texto. Este método simple es aplicable a muchos tipos de tareas posteriores de visión y lenguaje de visión y logra un rendimiento de vanguardia con ajustes mínimos o incluso sin ajustes específicos de la tarea.

Gracias
Nos gustaría agradecer a nuestros coautores Vijay Vasudevan, Legg Yeung, Mojtaba Seyedhosseini y Yonghui Wu, quienes participaron en todos los aspectos del proyecto. También nos gustaría Yi-Ting Chen, Kaifeng Chen, Ye Xia, Zhen Li, Chao Jia, Yinfei Yang, Zhengdong Zhang, Wei Han, Yuan Cao, Tao Zhu, Futang Peng, Soham Ghosh, Zihang Dai, Xin Li, Anelia Angelova, Jason Baldridge, Izhak Shafran, Shengyang Dai, Abhijit Ogale, Zhifeng Chen, Claire Cui, Paul Natsev, Tom Duerig por las discusiones útiles, Andrew Dai por la ayuda con los modelos contrastivos, Christopher Fifty y Bowen Zhang por la ayuda con los modelos de video, Yuanzhong Xu para obtener ayuda con el escalado del modelo, Lucas Beyer para ayudar con la preparación de datos, Andy Zeng para ayudar con la evaluación de MSR-VTT, Hieu Pham y Simon Kornblith para ayudar con las evaluaciones de disparo cero, Erica Moreira y Victor Gomes para ayudar con la coordinación de recursos, Liangliang Cao por corregir, Tom Small por crear las animaciones utilizadas en esta publicación de blog y otros en el equipo de Google Brain por su apoyo durante todo el proyecto.

Related post

Hacer del mundo un lugar mejor con datos

Hacer del mundo un lugar mejor con datos

Publicado en Técnicamente | 24 de junio de 2022 3 leer minuto Gran parte de la exageración que rodea a los…
Una conversación con Samuel Bouchard @ Automatica

Una conversación con Samuel Bouchard @ Automatica

Hoy tuvimos la oportunidad de sentarnos con Samuel Bouchard, CEO de Robotiq. En nuestra charla, nos contó cómo ha cambiado la…
El último día en Automatica comienza con Silent Labs y Noisy Doosan

El último día en Automatica comienza con Silent Labs…

¡Este es el último día de Automatica! Y estamos listos para un día final espectacular. Comenzamos caminando por algunos de los…

Leave a Reply

Tu dirección de correo electrónico no será publicada.