Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CoCMT: Communication-Efficient Cross-Modal Transformer for Collaborative Perception

Created by
  • Haebom
Category
Empty

저자

Rujia Wang, Xiangbo Gao, Hao Xiang, Runsheng Xu, Zhengzhong Tu

개요

본 논문은 다중 에이전트 협력 지각 시스템의 통신 효율을 높이기 위해 객체 쿼리 기반 협업 프레임워크인 CoCMT를 제안합니다. 기존 시스템이 중간 특징 맵을 전송하여 높은 대역폭을 요구하는 문제를 해결하기 위해, CoCMT는 필수적인 특징만 선택적으로 추출하고 전송합니다. 효율적인 쿼리 변환기(EQFormer)를 사용하여 다중 에이전트 객체 쿼리를 효과적으로 융합하고, 심층적 상호 감독을 통해 단계 간의 긍정적 강화를 향상시켜 전반적인 성능을 개선합니다. OPV2V 및 V2V4Real 데이터셋 실험 결과, CoCMT는 기존 최고 성능 방법보다 우수한 성능을 보이며 통신량을 대폭 줄이는 것을 확인했습니다. 특히 V2V4Real 데이터셋에서 상위 50개 객체 쿼리를 사용하는 모델은 기존 최고 성능 방법보다 83배 적은 0.416Mb의 대역폭만을 사용하면서 AP70을 1.1% 향상시켰습니다. 이는 대역폭 제약 환경에서도 정확도 저하 없이 실용적인 협력 지각 시스템 배포를 가능하게 합니다.

시사점, 한계점

시사점:
객체 쿼리 기반 협업 프레임워크를 통해 다중 에이전트 협력 지각 시스템의 통신 효율을 획기적으로 향상시켰습니다.
제한된 대역폭 환경에서도 높은 정확도를 유지하며 협력 지각 시스템을 실용적으로 배포할 수 있는 가능성을 제시했습니다.
EQFormer와 심층적 상호 감독 기법을 통해 다중 에이전트 객체 쿼리 융합 및 성능 향상을 이끌었습니다.
한계점:
제안된 방법의 성능은 특정 데이터셋에 대한 실험 결과에 기반하며, 다른 데이터셋이나 환경에서의 일반화 성능은 추가적인 연구가 필요합니다.
객체 쿼리 선택 전략의 최적화에 대한 추가적인 연구가 필요할 수 있습니다.
실제 환경에서의 실시간 처리 성능 및 안정성에 대한 검증이 필요합니다.
👍