El co-entrenamiento de Transformer con videos e imágenes mejora el reconocimiento de acciones

El co-entrenamiento de Transformer con videos e imágenes mejora el reconocimiento de acciones


El reconocimiento de acciones se ha convertido en un área importante de enfoque para la comunidad de investigación, ya que muchas aplicaciones pueden beneficiarse de un modelado mejorado, como B. recuperación de video, subtítulos de video, respuesta de preguntas de video, etc. Los enfoques basados ​​en transformadores han demostrado recientemente un rendimiento de vanguardia en múltiples puntos de referencia. Si bien los modelos de Transformer necesitan datos para aprender mejores antecedentes visuales en comparación con ConvNets, los conjuntos de datos de detección de acciones son relativamente pequeños. Los modelos de transformadores grandes generalmente se entrenan primero usando conjuntos de datos de imágenes y luego se ajustan usando un conjunto de datos de detección de acción del objetivo.

Si bien el paradigma actual de reconocimiento de acciones antes del entrenamiento y el ajuste es sencillo y muestra sólidos resultados empíricos, puede ser demasiado restrictivo para construir modelos de reconocimiento de acciones de propósito general. Los conjuntos de datos de detección de acciones como Kinetics y Something-Something-v2 (SSv2) se relacionan con temas limitados en comparación con un conjunto de datos como ImageNet, que cubre una amplia gama de clases de detección de objetos. Por ejemplo, Kinetics incluye acciones centradas en objetos, como saltar acantilados y escalar hielo, mientras que SSv2 incluye actividades agnósticas de objetos, como pretender poner algo encima de otra cosa. Como resultado, observamos un rendimiento deficiente al ajustar un modelo de detección de acciones ajustado para un conjunto de datos a otro conjunto de datos diferente.

Las diferencias en objetos y fondos de video entre conjuntos de datos complican aún más el aprendizaje de un modelo de clasificación de reconocimiento de acción de propósito general. A pesar del hecho de que los conjuntos de datos de video pueden estar creciendo en tamaño, el trabajo anterior sugiere que se requiere un aumento y una regulación significativos de los datos para lograr un rendimiento sólido. Este último hallazgo puede indicar que el modelo se adapta rápidamente al conjunto de datos de destino y, como resultado, dificulta su capacidad de generalizar a otras tareas de reconocimiento de acciones.

En «Transformador de formación conjunta con vídeos e imágenes mejora el reconocimiento de acciones», proponemos una estrategia de formación denominada página de inicio, que aprovecha los datos de imagen y video para aprender colectivamente un único modelo de reconocimiento de acción de propósito general. Nuestro enfoque está respaldado por dos hallazgos principales. Primero, diferentes conjuntos de datos de video cubren una variedad de actividades, y entrenar juntos en un solo modelo podría resultar en un modelo que sobresale en una variedad de actividades. En segundo lugar, el video es una fuente perfecta para aprender información de movimiento, mientras que las imágenes son excelentes para explotar la apariencia estructural. Aprovechar una distribución diversa de muestras de imágenes puede ser beneficioso para crear representaciones espaciales sólidas en modelos de video. Específicamente, CoVereR primero entrena el modelo en un conjunto de datos de imagen antes y durante el ajuste fino, entrena simultáneamente un solo modelo en múltiples conjuntos de datos de video e imagen para crear representaciones espaciales y temporales sólidas para un modelo de comprensión de video universal.

Arquitectura y estrategia de formación

Aplicamos el enfoque CoVer al transformador de video espaciotemporal propuesto recientemente llamado TimeSFormer, que contiene 24 capas de bloques de transformadores. Cada bloque contiene una atención temporal, una atención espacial y una capa de perceptrón multicapa (MLP). Para aprender de múltiples conjuntos de datos de video e imágenes, adoptamos un paradigma de aprendizaje de tareas múltiples y equipamos el modelo de reconocimiento de acciones con múltiples cabezas de clasificación. Entrenamos previamente todos los parámetros no temporales en el gran conjunto de datos JFT. Durante el ajuste fino, se muestrean una serie de videos e imágenes de múltiples conjuntos de datos de video e imágenes. La frecuencia de muestreo es proporcional al tamaño de los conjuntos de datos. TimeSFormer procesa cada muestra dentro del lote y luego la distribuye al clasificador apropiado para obtener las predicciones.

En comparación con la estrategia de capacitación estándar, CoVer tiene dos ventajas. En primer lugar, debido a que el modelo se entrena directamente en múltiples conjuntos de datos, las gráficas de video aprendidas son más generales y se pueden evaluar directamente en esos conjuntos de datos sin ajustes adicionales. En segundo lugar, los modelos basados ​​en transformadores pueden sobreajustar fácilmente una distribución de video más pequeña, degradando la generalización de las representaciones aprendidas. La capacitación en múltiples conjuntos de datos mitiga este desafío al reducir el riesgo de sobreajuste.

CoVer aplica una estrategia de aprendizaje multitarea entrenada en múltiples conjuntos de datos, cada uno con su propio clasificador.

Resultados de referencia

Evaluamos el enfoque de CoVer para el entrenamiento en conjuntos de datos Kinetics-400 (K400), Kinetics-600 (K600), Kinetics-700 (K700), SomethingSomething-V2 (SSv2) y Moments-in-Time (MiT). En comparación con otros enfoques, como TimeSFormer, Video SwinTransformer, TokenLearner, ViViT, MoViNet, VATT, VidTr y OmniSource, CoVer estableció el nuevo estado del arte en varios conjuntos de datos (ver más abajo). A diferencia de los enfoques anteriores que entrenan un modelo dedicado en un solo conjunto de datos, un modelo entrenado por CoVer se puede aplicar directamente a varios conjuntos de datos sin necesidad de ajustes adicionales.

modelo pre-entrenamiento afinar Precisión K400
IVA AudioSet+Vídeos K400 82.1
omnifuente IG cinética 65M K400 83.6
Vivir JFT-300M K400 85.4
Vídeo SwinTrans ImageNet21K+externo K400 86.8
página de inicio JFT-3B K400+SSv2+MiT+ImNet 87.2
Comparación de precisión con el conjunto de datos Kinetics 400 (K400).
modelo pre-entrenamiento afinar Precisión SSv2
TiempoSAnterior ImageNet21k SSv2 62.4
VidTr ImageNet21k SSv2 63.0
Vivir ImageNet21k SSv2 65,9
Vídeo SwinTrans ImageNet21K+externo SSv2 69.6
página de inicio JFT-3B K400+SSv2+MiT+ImNet 70,9
Comparación de precisión para el conjunto de datos SomethingSomething-V2 (SSv2).
modelo pre-entrenamiento afinar Precisión MiT
Vivir ImageNet21k Con 38.5
VidTr ImageNet21k SSv2 41.1
página de inicio JFT-3B K400+SSv2+MiT+ImNet 46.1
Comparación de precisión en el conjunto de datos Moments-in-Time (MiT).

transferir el aprendizaje

Utilizamos el aprendizaje por transferencia para verificar aún más el rendimiento de la detección de acciones de video y lo comparamos con el entrenamiento conjunto en múltiples conjuntos de datos. Los resultados se resumen a continuación. En particular, entrenamos los conjuntos de datos de origen y luego optimizamos y evaluamos los conjuntos de datos de destino.

Primero consideramos K400 como el registro de datos de destino. CoVere entrenado en SSv2 y MiT juntos mejora la precisión del top 1 en K400→K400 (donde el modelo se entrena en K400 y luego se ajusta en K400) en un 1,3 %, SSv2→K400 en un 1,7 % y MiT→K400 en un 0,4 %. De manera similar, observamos que al cambiar a SSv2, CoVer logra una mejora del 2 %, 1,8 % y 1,1 % sobre SSv2→SSv2, K400→SSv2 y MiT→SSv2, respectivamente. La mejora del rendimiento del 1,2 % y el 2 % en K400 y SSv2 indica que CoVer entrenó en múltiples conjuntos de datos simultáneamente y pudo aprender mejores representaciones visuales que el paradigma de entrenamiento estándar, lo cual es útil para tareas posteriores.

Comparación del aprendizaje de transferencia de la representación aprendida de CoVer y el paradigma de entrenamiento estándar. A→B significa que el modelo se entrena en el conjunto de datos A y luego se refina en el conjunto de datos B.

Conclusión

En este trabajo, presentamos CoVer, un paradigma de entrenamiento que aprende conjuntamente el reconocimiento de acciones y tareas de reconocimiento de objetos en un solo modelo para construir un marco universal de reconocimiento de acciones. Nuestro análisis muestra que puede ser beneficioso integrar muchos conjuntos de datos de video en un paradigma de aprendizaje multitarea. Hacemos hincapié en la importancia de seguir aprendiendo sobre las imágenes durante el ajuste fino para mantener representaciones espaciales sólidas. Nuestros resultados empíricos sugieren que CoVer puede aprender un solo modelo de comprensión de video de uso general que logra un rendimiento impresionante en muchos conjuntos de datos de detección de acciones sin requerir una fase adicional de ajuste para cada aplicación posterior.

Gracias

Agradecemos a Christopher Fifty, Wei Han, Andrew M. Dai, Ruoming Pang y Fei Sha por preparar el artículo de CoVeR, a Yue Zhao, Hexiang Hu, Zirui Wang, Zitian Chen, Qingqing Huang, Claire Cui y Yonghui Wu por sus útiles debates y comentarios y otros miembros del Brain Team por su ayuda durante este proyecto.

Related post

Mantente borracho para seguir con vida en este divertido juego de zombis de realidad virtual

Mantente borracho para seguir con vida en este divertido…

El hecho de que el mundo se esté acabando no significa que no puedas divertirte. Gran parte de la población mundial…
Cómo funcionan las canalizaciones de datos con almacenes

Cómo funcionan las canalizaciones de datos con almacenes

Las empresas a menudo reciben datos de diferentes fuentes. Los datos pueden ser datos estructurados, semiestructurados o incluso no estructurados, como…
Micropartículas con sentimiento

Micropartículas con sentimiento

23 de mayo de 2022 (Noticias de Nanowerk) La superficie de un coral es rugosa. Su esqueleto duro está poblado de…

Leave a Reply

Tu dirección de correo electrónico no será publicada.