Cámara lidar Deep Fusion para detección multimodal 3D

Cámara lidar Deep Fusion para detección multimodal 3D


LiDAR y las cámaras visuales son dos tipos de sensores complementarios que se utilizan para el reconocimiento de objetos 3D en vehículos y robots autónomos. LiDAR, una técnica de detección remota que utiliza luz en forma de láser pulsado para medir distancias, proporciona información de forma y profundidad de baja resolución, mientras que las cámaras proporcionan información de forma y textura de alta resolución. Si bien las características capturadas por LiDAR y las cámaras deben fusionarse para permitir una detección óptima de objetos en 3D, resulta que la mayoría de los detectores de objetos en 3D modernos usan LiDAR como única entrada. La razón principal es que la mayoría de los métodos para desarrollar modelos robustos de reconocimiento de objetos en 3D necesitan aumentar y transformar los datos de ambas modalidades, lo que dificulta la alineación precisa de las características.

Los algoritmos existentes para fusionar LiDAR y las salidas de la cámara, como PointPainting, PointAugmenting, EPNet, 4D-Net y ContinuousFusion, generalmente siguen dos enfoques: fusión de nivel de entrada, en la que las características se fusionan en una etapa temprana, donde los puntos en el LiDAR -La nube de puntos está decorada con las funciones de cámara correspondientes o fusión de nivel medio donde las funciones se extraen de ambos sensores y luego se combinan. A pesar de reconocer la importancia de una alineación efectiva, estos métodos luchan por procesar de manera eficiente el escenario común en el que las características se mejoran y agregan antes de la fusión. Esto sugiere que la fusión efectiva de las señales de ambos sensores puede no ser fácil y sigue siendo un desafío.

En nuestro documento de CVPR 2022 «DeepFusion: LiDAR-Camera Deep Fusion para la detección de objetos 3D multimodales», presentamos un marco de detección 3D multimodal de extremo a extremo llamado DeepFusion que aplica una estrategia de fusión de nivel profundo simple pero efectiva para unificar las señales de las dos modalidades de sensor. A diferencia de los enfoques tradicionales que decoran nubes de puntos LiDAR sin procesar con funciones de cámara seleccionadas manualmente, nuestro método combina la cámara de profundidad y las funciones LiDAR de profundidad en un marco de extremo a extremo. Comenzamos describiendo dos técnicas novedosas, InverseAug y LearnableAlign, que mejoran la calidad de la alineación de características y se aplican al desarrollo de DeepFusion. Luego demostramos el rendimiento de vanguardia de DeepFusion en el conjunto de datos abierto de Waymo, uno de los conjuntos de datos más grandes para el reconocimiento de objetos 3D en la industria automotriz.

agosto inverso: Alineación precisa bajo aumento geométrico

Para funcionar bien en los puntos de referencia de detección de objetos 3D existentes para automóviles autónomos, la mayoría de los métodos requieren un gran aumento de datos durante el entrenamiento para evitar el sobreajuste. Sin embargo, la necesidad de aumento de datos plantea un desafío no trivial en la canalización de DeepFusion.Específicamente, los datos de las dos modalidades utilizan diferentes estrategias de aumento, p. B. Rotación a lo largo del eje z para nubes de puntos 3D combinada con volteo aleatorio para imágenes de cámara 2D, lo que a menudo resulta en una alineación imprecisa. Luego, los datos LiDAR aumentados deben pasar por un paso de voxelización que convierte las nubes de puntos en datos volumétricos almacenados en una matriz tridimensional de vóxeles. Las características voxelizadas son bastante diferentes en comparación con los datos sin procesar, lo que dificulta aún más la alineación. Para resolver el problema de alineación causado por el aumento de datos con reconocimiento de geometría, presentamos Inverse Augmentation (InverseAug), una técnica utilizada para invertir el aumento antes de la fusión durante la fase de entrenamiento del modelo.

En el siguiente ejemplo, demostramos las dificultades para hacer coincidir los datos LiDAR extendidos con los datos de la cámara. En este caso, la nube de puntos LiDAR se aumenta mediante la rotación, lo que da como resultado un punto clave 3D determinado, que podría ser cualquier coordenada 3D, como un punto de datos LiDAR, no simplemente mediante el uso del LiDAR original en el espacio 2D. Se pueden alinear y los parámetros de la cámara. . Para que la localización sea factible, InverseAug primero almacena los parámetros de aumento antes de aplicar el aumento de datos relacionado con la geometría. En la fase de fusión, invierte todas las extensiones de datos para obtener la coordenada original del punto clave 3D y luego encuentra las coordenadas 2D correspondientes en el espacio de la cámara.

Durante el entrenamiento, InverseAug corrige la alineación imprecisa a través del aumento geométrico.
Izquierda: Alineación sin InversaAug. Derecha: Mejora de la calidad de la alineación con InverseAug.

LearnableAlign: Un módulo de atención de modalidad cruzada para la alineación del aprendizaje

También presentamos Learnable Alignment (LearnableAlign), una técnica de alineación basada en la atención de nivel de función de modalidad cruzada para mejorar la calidad de la alineación. Para las técnicas de fusión de capas de entrada como PointPainting y PointAugmenting, dado un punto LiDAR 3D, solo el píxel de la cámara correspondiente puede ubicarse con precisión debido a un mapeo uno a uno. Por el contrario, cuando se fusionan características profundas en la canalización de DeepFusion, cada característica LiDAR representa un vóxel que contiene un subconjunto de puntos y, por lo tanto, los píxeles de la cámara correspondientes están en un polígono. La alineación se convierte así en el problema de aprender el mapeo entre una celda vóxel y un conjunto de píxeles.

Un enfoque ingenuo es promediar todos los píxeles que corresponden al vóxel dado. Sin embargo, intuitivamente, y como lo respaldan nuestros resultados visualizados, estos píxeles no son igualmente importantes porque la información de la función de profundidad LiDAR está alineada de manera desigual con cada píxel de la cámara. Por ejemplo, algunos píxeles pueden contener información crítica para la detección (p. ej., el objeto de destino), mientras que otros pueden ser menos informativos (p. ej., consisten en fondos como carreteras, plantas, oclusores, etc.).

LearnableAlign utiliza un mecanismo de atención de modalidad cruzada para capturar dinámicamente las correlaciones entre dos modalidades. Aquí, la entrada contiene las características de LiDAR en una celda de vóxel y todas sus características de cámara correspondientes. El resultado de la atención es esencialmente una suma ponderada de las capacidades de la cámara, donde los pesos están determinados conjuntamente por una función de las capacidades de LiDAR y de la cámara. Más específicamente, LearnableAlign usa tres capas completamente conectadas para transformar las características de LiDAR en un vector cada una (qyo) y funciones de cámara en vectores (kC) y (vC). Para cada vector (qyo), calculamos los productos punto entre (qyo) y (kC) para obtener la matriz de afinidad atencional que contiene las correlaciones entre las características de LiDAR y las características de la cámara correspondiente. La matriz de afinidad de atención normalizada por un operador softmax se usa para calcular pesos y agregar los vectores (vC) que contiene información de la cámara. La información agregada de la cámara luego se procesa y se concatena mediante una capa completamente conectada (concat) con la función LiDAR original. Luego, la salida se alimenta a cualquier marco de reconocimiento 3D estándar, como PointPillars o CenterPoint para el entrenamiento de modelos.

LearnableAlign utiliza el mecanismo de atención cruzada para alinear LiDAR y las funciones de la cámara.

fusión profunda: Una mejor manera de fusionar información de diferentes modalidades

Sobre la base de nuestras dos nuevas técnicas de alineación de funciones, desarrollamos DeepFusion, un marco de reconocimiento 3D multimodal totalmente integral. En la canalización de DeepFusion, los puntos LiDAR se extraen primero en un extractor de características existente (p. Columna Función Malla de PointPillars) para obtener funciones LiDAR (por ejemplo, pseudoimágenes). Mientras tanto, las imágenes de la cámara se introducen en un extractor de características de imagen 2D (por ejemplo, ResNet) para obtener las características de la cámara. Luego se aplican InverseAug y LearnableAlign para fusionar las capacidades de la cámara y LiDAR. Finalmente, las características combinadas son procesadas por los componentes restantes del modelo de reconocimiento 3D seleccionado (por ejemplo, la columna vertebral y el cabezal de reconocimiento de PointPillars) para obtener los resultados del reconocimiento.

La canalización de DeepFusion.

Resultados de referencia

Evaluamos DeepFusion en Waymo Open Dataset, uno de los mayores desafíos de reconocimiento 3D para automóviles autónomos, utilizando la métrica de precisión promedio con rumbo (APH) en el nivel de dificultad 2, la métrica predeterminada para clasificar el rendimiento de un modelo en la tabla de clasificación. Entre los 70 equipos participantes de todo el mundo, los modelos individuales y de conjunto de DeepFusion logran la excelencia en sus respectivas categorías.

El modelo único de DeepFusion logra un nuevo rendimiento de vanguardia en Waymo Open Dataset.
El modelo Ensemble DeepFusion supera a todos los demás métodos en Waymo Open Dataset y ocupa el puesto número 1 en las clasificaciones.

El impacto de InverseAug y LearnableAlign

También estamos realizando estudios de ablación sobre la eficacia de las técnicas propuestas InverseAug y LearnableAlign. Mostramos que tanto InverseAug como LearnableAlign contribuyen individualmente a un aumento del rendimiento con respecto al modelo LiDAR puro, y la combinación de ambos puede generar un aumento aún más significativo.

Estudios de ablación InverseAug (IA) y LearnableAlign (LA) medidos en precisión promedio (AP) y APH. La combinación de ambas técnicas contribuye a la mejor ganancia de rendimiento.

Conclusión

Mostramos que la fusión profunda de características en la última etapa puede ser más efectiva cuando las características están bien alineadas, pero alinear características de dos modalidades diferentes puede ser un desafío. Para abordar este desafío, proponemos dos técnicas, InverseAug y LearnableAlign, para mejorar la calidad de la alineación entre las características multimodales. Al integrar estas técnicas en la fase de fusión de nuestro método DeepFusion propuesto, logramos un rendimiento de vanguardia en Waymo Open Dataset.

Expresiones de gratitud:

Un agradecimiento especial a los coautores Tianjian Meng, Ben Caine, Jiquan Ngiam, Daiyi Peng, Junyang Shen, Bo Wu, Yifeng Lu, Denny Zhou, Quoc Le, Alan Yuille, Mingxing Tan.

Related post

Mantente borracho para seguir con vida en este divertido juego de zombis de realidad virtual

Mantente borracho para seguir con vida en este divertido…

El hecho de que el mundo se esté acabando no significa que no puedas divertirte. Gran parte de la población mundial…
Shores Of Loci es un magnífico juego de rompecabezas de realidad virtual para Quest, PC VR

Shores Of Loci es un magnífico juego de rompecabezas…

Si quieres que tu acertijo de realidad virtual sea un poco más sobrenatural que Puzzling Places (o si literalmente solo quieres…
Roles acelerados para RPA en tecnología de la información

Roles acelerados para RPA en tecnología de la información

Publicación patrocinada La automatización robótica de procesos (RPA) es una forma contemporánea de automatización de procesos comerciales que permite a cualquiera…

Leave a Reply

Tu dirección de correo electrónico no será publicada.