Una nueva interfaz de lenguaje para el reconocimiento de objetos

Una nueva interfaz de lenguaje para el reconocimiento de objetos


La detección de objetos es una tarea de visión artificial de larga data que intenta detectar y localizar todos los objetos de interés en una imagen. La complejidad surge cuando se trata de identificar o localizar todas las instancias de objetos evitando la duplicación. Los enfoques existentes, como Faster R-CNN y DETR, están cuidadosamente diseñados y muy personalizados en la elección de la arquitectura y la función de pérdida. Esta especialización de los sistemas existentes ha creado dos barreras principales: (1) aumenta la complejidad en el ajuste y entrenamiento de las diferentes partes del sistema (por ejemplo, red de sugerencia de región, comparación de gráficos con pérdida GIOU, etc.) y (2) puede reducir la capacidad de generalización de un modelo disminuye, lo que requiere un rediseño del modelo para su aplicación a otras tareas.

En Pix2Seq: un marco de modelado de lenguaje para la detección de objetos, publicado en ICLR 2022, presentamos un método simple y genérico que aborda la detección de objetos desde una perspectiva muy diferente. A diferencia de los enfoques existentes, que son específicos de la tarea, presentamos el reconocimiento de objetos como una tarea de modelado de lenguaje que depende de las entradas de píxeles observadas. Mostramos que Pix2Seq logra resultados competitivos en el conjunto de datos COCO de reconocimiento de objetos a gran escala en comparación con los algoritmos de detección altamente especializados y bien optimizados existentes, y su rendimiento se puede mejorar aún más al entrenar previamente el modelo en un conjunto de datos de reconocimiento de objetos más grande. Para fomentar una mayor investigación en esta dirección, también nos complace lanzar el código y los modelos preentrenados de Pix2Seq, junto con una demostración interactiva, para la comunidad de investigación en general.

Descripción general de Pix2Seq

Nuestro enfoque se basa en la intuición de que si una red neuronal sabe dónde y cuáles son los objetos en una imagen, simplemente se le puede enseñar a leerlos. Al aprender a «describir» objetos, el modelo puede aprender a basar las descripciones en observaciones de píxeles, lo que resulta en representaciones de objetos útiles. Dada una imagen, el modelo Pix2Seq genera una secuencia de descripciones de objetos, donde cada objeto se describe con cinco tokens discretos: las coordenadas de las esquinas del cuadro delimitador [ymin, xmin, ymax, xmax] y una designación de clase.

Framework Pix2Seq para la detección de objetos. La red neuronal toma una imagen y genera una secuencia de tokens correspondientes a cuadros delimitadores y etiquetas de clase para cada objeto.

Con Pix2Seq, proponemos un esquema de cuantificación y serialización que convierte los cuadros delimitadores y las etiquetas de clase en secuencias de tokens discretos (similares a los títulos de las imágenes) y utiliza una arquitectura de codificador-decodificador para percibir entradas de píxeles y generar la secuencia de descripciones de objetos. La función de objetivo de entrenamiento es simplemente la máxima probabilidad de tokens que dependen de las entradas de píxeles y los tokens anteriores.

Construcción de secuencias a partir de descripciones de objetos.

En los conjuntos de datos de detección de objetos de uso común, las imágenes tienen un número variable de objetos representados como conjuntos de cuadros delimitadores y etiquetas de clase. En Pix2Seq, un solo objeto definido por un cuadro delimitador y una etiqueta de clase se representa como [ymin, xmin, ymax, xmax, class]. Sin embargo, los modelos de lenguaje típicos están diseñados para manejar tokens discretos (o enteros) y no pueden entender números consecutivos. Entonces, en lugar de representar las coordenadas de la imagen como números secuenciales, normalizamos las coordenadas entre 0 y 1 y las cuantificamos en uno de unos pocos cientos o miles de contenedores discretos. Luego, las coordenadas se convierten en tokens discretos, al igual que las descripciones de los objetos, similares a las leyendas, que a su vez pueden ser interpretadas por el modelo de lenguaje. El proceso de cuantificación se logra multiplicando la coordenada normalizada (por ejemplo, yMínimo) por el número de contenedores menos uno y redondee al número entero más cercano (vea nuestro artículo para el proceso detallado).

Cuantificación de las coordenadas de los cuadros delimitadores con diferentes números de contenedores en una imagen de 480 × 640. Con una pequeña cantidad de bins/tokens, por ejemplo 500 bins (∼1 píxel/bin), se logra una alta precisión incluso con objetos pequeños.

Después de la cuantificación, las anotaciones de objetos proporcionadas con cada imagen de entrenamiento se ordenan en una secuencia de tokens discretos (que se muestra a continuación). Porque el orden de los objetos es irrelevante para la tarea de detección per se, aleatorizamos el orden de los objetos cada vez que se muestra una imagen durante el entrenamiento. También agregamos un token de Fin de secuencia (EOS) al final, ya que las diferentes imágenes a menudo tienen una cantidad diferente de objetos y, por lo tanto, longitudes de secuencia.

Los cuadros delimitadores y las etiquetas de clase de los objetos detectados en la imagen de la izquierda se representan en las secuencias que se muestran a la derecha. En nuestro trabajo se utiliza una estrategia de ordenación aleatoria de objetos, pero también se podrían utilizar otros enfoques de ordenación.

La arquitectura del modelo, la función objetivo y la inferencia

Tratamos las secuencias que construimos a partir de descripciones de objetos como un «dialecto» y abordamos el problema a través de un modelo de lenguaje potente y general que utiliza un codificador de imágenes y un codificador de voz autorregresivo. De manera similar al modelado de lenguaje, Pix2Seq está capacitado para predecir tokens con una imagen dada y tokens anteriores con máxima probabilidad de pérdida. En el momento de la inferencia, muestreamos tokens de la probabilidad del modelo. La secuencia muestreada finaliza cuando se genera el token EOS. Una vez que se genera la secuencia, la dividimos en piezas de 5 tokens para extraer y descuantificar las descripciones de los objetos (es decir, para obtener los cuadros delimitadores previstos y las etiquetas de clase). Vale la pena señalar que tanto la arquitectura como la función de pérdida son independientes de la tarea en el sentido de que no asumen ningún conocimiento previo de detección de objetos (por ejemplo, cuadros delimitadores). En nuestro trabajo, describimos cómo podemos incorporar conocimientos previos específicos de la tarea utilizando una técnica de aumento de secuencia.

Resultados

A pesar de su simplicidad, Pix2Seq logra un rendimiento empírico impresionante en conjuntos de datos de referencia. En particular, comparamos nuestro método con líneas de base bien establecidas, Faster R-CNN y DETR, en el conjunto de datos COCO ampliamente utilizado y mostramos que produce resultados competitivos de precisión promedio (AP).

Pix2Seq logra resultados AP competitivos en comparación con los sistemas existentes que requieren especialización durante el diseño del modelo y, al mismo tiempo, es significativamente más simple. El modelo Pix2Seq de mayor rendimiento logró una puntuación AP de 45.

Como nuestro enfoque introduce un sesgo inductivo mínimo o un conocimiento previo de la tarea de detección de objetos en el diseño del modelo, investigamos más a fondo cómo el entrenamiento previo del modelo con el conjunto de datos COCO de detección de objetos grandes puede afectar su rendimiento. Nuestros resultados muestran que esta estrategia de entrenamiento (junto con el uso de modelos más grandes) puede aumentar aún más el rendimiento.

La precisión promedio del modelo Pix2Seq con entrenamiento previo seguido de ajuste fino. El modelo de Pix2Seq con mejor rendimiento sin entrenamiento previo logró una puntuación AP de 45. Cuando el modelo se entrena previamente, observamos una mejora del 11 % con una puntuación AP de 50.

Pix2Seq puede detectar objetos en escenas densas y complejas como las que se muestran a continuación.

Ejemplo de escenas complejas y densas etiquetadas por un modelo Pix2Seq entrenado. Pruébalo aquí.

Conclusión y trabajo futuro

Con Pix2Seq convertimos la detección de objetos en una tarea de modelado de lenguaje que depende de entradas de píxeles para las cuales la arquitectura del modelo y la función de pérdida son genéricas y no están diseñadas específicamente para la tarea de detección. Por lo tanto, uno puede extender fácilmente este marco a varios dominios o aplicaciones donde la salida del sistema puede representarse mediante una secuencia relativamente corta de tokens discretos (por ejemplo, detección de puntos clave, anotación de imágenes, respuesta visual a preguntas) o integrarse en un sistema de percepción que el admite inteligencia general, para lo cual proporciona una interfaz de voz para una variedad de tareas visuales y de lenguaje. También esperamos que el lanzamiento de nuestro código Pix2Seq, los modelos preentrenados y la demostración interactiva estimulen más investigaciones en esta dirección.

Gracias

Esta publicación refleja el trabajo colaborativo con nuestros coautores: Saurabh Saxena, Lala Li, Geoffrey Hinton. También agradecemos a Tom Small por visualizar el personaje de ilustración de Pix2Seq.

Related post

Los investigadores están desarrollando tintas de nanotecnología para la bioelectrónica portátil imprimible en 3D

Los investigadores están desarrollando tintas de nanotecnología para la…

18 de agosto de 2022 (Noticias de Nanowerk) La electrónica flexible ha permitido el diseño de sensores, actuadores, microfluidos y electrónica…
Impresionantes gráficos alimentan una secuela inmersiva

Impresionantes gráficos alimentan una secuela inmersiva

Si Red Matter estableció un nuevo punto de referencia para gráficos en hardware de realidad virtual independiente, entonces Red Matter 2…
Proporciona una protección contra la corrosión superior y avanzada.

Proporciona una protección contra la corrosión superior y avanzada.

Un artículo publicado en la revista Cerámica internacional informó sobre el desarrollo de un recubrimiento orgánico-inorgánico hecho de polidimetilsiloxano (PDMS) en…

Leave a Reply

Tu dirección de correo electrónico no será publicada.