Aprendiendo de videos mal etiquetados sobre subconceptos

Aprendiendo de videos mal etiquetados sobre subconceptos


El reconocimiento de video es una tarea central en la visión artificial con aplicaciones que van desde el análisis de contenido de video hasta el reconocimiento de acciones. Sin embargo, la capacitación de modelos para el reconocimiento de video a menudo requiere la anotación manual de videos sin recortar, lo que puede consumir mucho tiempo. Con el fin de reducir el esfuerzo de recopilar videos con anotaciones, aprender conocimiento visual de videos con etiquetas débiles, es decir, donde la anotación se genera automáticamente sin intervención manual, tiene un interés de investigación creciente gracias a la gran cantidad de datos de video de fácil acceso extraídos. Por ejemplo, el video sin recortar a menudo se captura consultando palabras clave para las clases que el modelo de detección de video está diseñado para clasificar. A cada video íntegro recibido se le asigna una palabra clave, a la que llamamos etiqueta débil.

Aunque los videos grandes con etiquetas débiles son más fáciles de recopilar, el entrenamiento con etiquetas débiles no verificadas presenta otro desafío en el desarrollo de modelos robustos.Estudios recientes han demostrado que además del ruido de etiquetas (por ejemplo, etiquetas de acción incorrectas en videos sin recortar) hay ruido temporal debido a la falta de localización temporal precisa de la acción, es decir, un video sin recortar puede contener otro contenido no dirigido o puede mostrar solo la acción objetivo en una pequeña parte del video.

La reducción de los efectos del ruido para la capacitación previa a gran escala y mal supervisada es fundamental, pero particularmente desafiante en la práctica. Un trabajo reciente indica que consultar videos cortos (p. ej., de alrededor de 1 minuto de duración) para obtener una localización temporal más precisa de las acciones objetivo, o aplicar un modelo de maestro para filtrar, puede generar mejores resultados. Sin embargo, dichos métodos de preprocesamiento de datos impiden que los modelos utilicen completamente los datos de video disponibles, especialmente videos más largos con contenido más rico.

En «Aprendizaje de videos web débilmente etiquetados mediante la exploración de subconceptos», proponemos una solución a estos problemas que utiliza un marco de aprendizaje simple para realizar una capacitación previa efectiva para videos completos. En lugar de simplemente filtrar el ruido temporal potencial, este enfoque convierte esos datos «ruidosos» en un monitoreo útil mediante la creación de un nuevo conjunto de pseudoetiquetas significativas «en el medio» que amplían el espacio de etiqueta débil original, un concepto novedoso, que llamamos Sub pseudo etiqueta (SPL). El modelo se entrena previamente en este espacio «más detallado» y luego se ajusta a un conjunto de datos de destino. Nuestros experimentos muestran que las representaciones aprendidas son mucho mejores que los enfoques anteriores. Además, SPL ha demostrado ser eficaz para mejorar la calidad del modelo de detección de acciones para Google Cloud Video AI, lo que permite a los productores de contenido buscar fácilmente en vastas bibliotecas de sus activos de video para encontrar rápidamente contenido interesante.

Los clips de entrenamiento de muestra pueden representar una acción visual diferente (batir huevos) que la etiqueta de consulta de todo el video sin recortar (hornear galletas). SPL convierte el ruido de etiqueta potencial en señales de monitoreo útiles mediante la creación de un nuevo conjunto de pseudoclases «intermedias» (es decir, subconceptos) a través de la extrapolación de dos clases de acción relacionadas. Se proporciona supervisión extendida para una formación previa eficaz del modelo.

Sub-Pseudo-Etiqueta (SPL)
SPL es una técnica simple que avanza en el marco de capacitación de maestros y estudiantes conocido por ser efectivo para la autocapacitación y mejorar el aprendizaje semisupervisado. En el marco maestro-estudiante, se entrena un modelo de maestro con datos etiquetados de alta calidad y luego asigna pseudoetiquetas a los datos no etiquetados. El modelo de estudiante se entrena tanto con datos etiquetados de alta calidad como con datos no etiquetados que tienen las etiquetas predichas por el maestro. Si bien los métodos anteriores sugirieron varias formas de mejorar la calidad del pseudoetiquetado, SPL adopta un enfoque novedoso que combina el conocimiento de las etiquetas débiles (es decir, el texto de consulta utilizado para recopilar datos) y las etiquetas predichas por el maestro, lo que da como resultado mejores pseudoetiquetas. conduce -etiquetas en conjunto. Este método se enfoca en la detección de video, donde el ruido temporal es un desafío, pero puede extenderse fácilmente a otras áreas, como la clasificación de imágenes.

El marco general de preentrenamiento para aprender de videos con etiquetas débiles a través de SPL. Cada clip de video recortado se vuelve a etiquetar usando SPL usando las etiquetas predichas del maestro y las etiquetas débiles utilizadas para consultar el video sin recortar correspondiente.

El método SPL está motivado por la observación de que los videoclips «ruidosos» en un video sin recortar tienen relaciones semánticas con la acción de destino (es decir, una clase débilmente etiquetada), pero también pueden contener componentes visuales significativos de otras acciones, como B. El modelo del profesor – clase predicha. Nuestro enfoque utiliza los SPL extrapolados de las etiquetas débiles junto con las etiquetas destiladas para capturar las señales de monitoreo enriquecidas y fomentar el aprendizaje de mejores representaciones durante el entrenamiento previo que se pueden usar para tareas de ajuste fino posteriores.

Es fácil determinar la clase de SPL para cada clip de video. Primero realizamos inferencias en cada clip de video utilizando el modelo de maestro entrenado a partir de un conjunto de datos de destino para obtener una clase de predicción del maestro. Cada clip también se identifica por la clase (es decir, el texto de consulta) del vídeo de origen sin recortar. Se utiliza una matriz de confusión bidimensional para resumir las alineaciones entre las inferencias del modelo del maestro y las anotaciones débiles originales. Con base en esta matriz de confusión, realizamos una extrapolación de etiquetas entre las predicciones del modelo docente y las etiquetas débiles para obtener el espacio de etiquetas SPL sin procesar.

Izquierda: La matriz de confusión que forma la base del espacio de etiquetas SPL sin procesar. Centrar: Los espacios de etiquetas SPL resultantes (16 clases en este ejemplo). A la derecha: SPL-B, otra versión de SPL que reduce el espacio de etiquetas al clasificar las entradas acordadas y no coincidentes de cada fila como clases de SPL independientes, lo que da como resultado solo 8 clases en este ejemplo.

Efectividad de SPL
Evaluamos la efectividad de SPL en comparación con varios métodos de entrenamiento previo aplicados a un modelo 3D ResNet50 ajustado a Kinetics-200 (K200). Un enfoque previo al entrenamiento simplemente inicializa el modelo con ImageNet. Los otros métodos de entrenamiento previo utilizan 670 000 clips de video tomados de un conjunto de datos interno de 147 000 videos recopilados mediante procesos estándar similares a los descritos para Kinetics-200, que cubren una amplia gama de acciones. En el entrenamiento de etiquetas débiles y el entrenamiento de predicción del maestro, se usan en los videos las etiquetas débiles o las etiquetas predichas por el maestro. El filtrado de acuerdo utiliza solo los datos de entrenamiento para los que coinciden las etiquetas débiles y las etiquetas previstas por el profesor. Encontramos que SPL supera cualquiera de estos métodos. Aunque el conjunto de datos utilizado para ilustrar el enfoque SPL se creó para este trabajo, en principio, el método que describimos se aplica a cualquier conjunto de datos débilmente etiquetado.

metodo antes de entrenar 1 superior los 5 mejores
ImageNet inicializado 80.6 94.7
Tirón de etiqueta débil 82.8 95.6
Tren de predicción del maestro 81,9 95.0
Tren de filtrado de acuerdos 82,9 95.4
SPL 84.3 95.7

También mostramos que muestrear más clips de video de una cantidad determinada de videos sin recortar puede ayudar a mejorar el rendimiento del modelo. Con una cantidad suficiente de clips de video disponibles, SPL supera consistentemente el entrenamiento previo de etiqueta débil al proporcionar una supervisión enriquecedora.

A medida que se muestrean más clips de video de 147K, el ruido de anotación aumentará gradualmente. SPL se está volviendo cada vez más eficaz en el uso de clips débilmente marcados para lograr un mejor entrenamiento previo.

Visualizamos los conceptos visuales aprendidos de SPL con visualización atencional aplicando Grad-CAM al modelo entrenado. Es interesante notar algunos conceptos útiles de «término medio» que se pueden aprender de SPL.

Ejemplos de visualización de atención para clases de SPL. Se pueden aprender algunos conceptos útiles de «término medio» de SPL, como mezclar huevos y harina (Izquierda) y el uso de dispositivos de rappel (A la derecha).

Conclusión
Mostramos que los SPL pueden proporcionar una supervisión enriquecedora para la formación previa. SPL no aumenta la complejidad de la formación y puede tratarse como una técnica estándar para la integración en marcos de formación basados ​​en profesores y alumnos. Creemos que esta es una dirección prometedora para descubrir conceptos visuales significativos al unir las etiquetas débiles y el conocimiento destilado de los modelos docentes. SPL también ha mostrado una generalización prometedora en el campo del reconocimiento de imágenes, y esperamos extensiones futuras que se apliquen a tareas que involucran ruido en las etiquetas. Hemos aplicado con éxito SPL a Google Cloud Video AI, donde mejora la precisión de los modelos de detección de acciones y ayuda a los usuarios a comprender, buscar y monetizar mejor su biblioteca de contenido de video.

Gracias
Agradecemos a otros coautores por sus contribuciones, incluidos Kunpeng Li, Xuehan Xiong, Chen-Yu Lee, Zhichao Lu, Yun Fu y Tomas Pfister. También agradecemos a Debidatta Dwibedi, David A. Ross, Chen Sun, Jonathan C. Stroud y Wei Hua por sus valiosos comentarios y ayuda con este trabajo, y a Tom Small por la creación de personajes.

Related post

Mercedes de Lightspeed se inclinó sobre por qué el metaverso no está sobrevalorado – TechCrunch

Mercedes de Lightspeed se inclinó sobre por qué el…

En el podcast Chain Reaction de esta semana, profundizamos en un tema que tiende a evocar emociones fuertes, incluso de quienes…
Episodio 317: Habla sobre la circularidad

Episodio 317: Habla sobre la circularidad

El tiempo de ejecución de esta semana es 1:03:05. CONSIDERANDO CIRCULACIÓN (8:50) Con un resumen de entrevistas e historias de Circularity…
Sense Arena recauda $ 3 millones para expandir las herramientas de entrenamiento de realidad virtual de hockey sobre hielo y agregar nuevos deportes – Road to VR

Sense Arena recauda $ 3 millones para expandir las…

La empresa de entrenamiento de hockey sobre hielo VR Sense Arena anunció que cerró una ronda de inversión de $…

Leave a Reply

Tu dirección de correo electrónico no será publicada.