Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MetaOcc: Fusión espacio-temporal de radar y cámara 4D de vista envolvente para predicción de ocupación 3D con estrategias de entrenamiento dual

Created by
  • Haebom

Autor

Long Yang, Lianqing Zheng, Wenjin Ai, Minghao Liu, Sen Li, Qunshu Lin, Shengyu Yan, Jie Bai, Zhixiong Ma, Tao Huang, Xichan Zhu

Describir

Este artículo presenta MetaOcc, un marco multimodal para la predicción robusta de ocupación 3D, incluso en condiciones climáticas adversas. MetaOcc realiza predicciones de ocupación 3D omnidireccionales utilizando imágenes y radares 4D multivista. Para superar las limitaciones de la aplicación directa de codificadores basados en LiDAR a datos de radar dispersos, proponemos un módulo de autoatención de altura de radar que mejora la inferencia espacial vertical y la extracción de características. Además, mitigamos el desajuste espaciotemporal y enriquecemos la representación de características fusionadas mediante una estrategia de fusión multimodal multiescala jerárquica que realiza una fusión adaptativa local-global entre modalidades y tiempo. Para reducir la dependencia de costosas anotaciones de nubes de puntos, proponemos un flujo de generación de pseudoetiquetas basado en un segmentador de conjunto abierto, que implementa una estrategia de aprendizaje semisupervisado que alcanza el 90 % del rendimiento supervisado general utilizando solo el 50 % de las etiquetas de verdad de campo. Los resultados experimentales muestran que MetaOcc logra un rendimiento de última generación al mejorar los métodos existentes en +0,47 SC IoU y +4,02 mIoU en el conjunto de datos OmniHD-Scenes, y en +1,16 SC IoU y +1,24 mIoU en el conjunto de datos SurroundOcc-nuScenes.

Takeaways, Limitations

Takeaways:
Se presenta un marco de fusión multimodal eficaz para una predicción robusta de la ocupación 3D incluso en condiciones climáticas adversas.
Propuesta de un módulo de autoatención de altura de radar para la extracción efectiva de características a partir de datos de radar dispersos.
Propuesta de una estrategia de fusión multimodal jerárquica y multiescalar para la mitigación del desajuste espaciotemporal y el enriquecimiento de la representación de características.
Reducir costos de anotación y mejorar el rendimiento mediante estrategias de aprendizaje semisupervisado.
Lograr un rendimiento de última generación en los conjuntos de datos OmniHD-Scenes y SurroundOcc-nuScenes.
Presentando la aplicabilidad práctica a los sistemas de conducción autónoma reales.
Limitations:
El rendimiento del proceso de generación de pseudoetiquetas propuesto todavía es algo inferior (alrededor del 90%) al del aprendizaje totalmente supervisado.
Se necesita una mayor validación del rendimiento de la generalización en una variedad de condiciones climáticas adversas.
Se requiere una evaluación del rendimiento en tiempo real en entornos de conducción autónoma reales.
👍