Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AirCopBench: A Benchmark for Multi-drone Collaborative Embodied Perception and Reasoning

Created by
  • Haebom
Category
Empty

저자

Jirong Zha, Yuxuan Fan, Tianyu Zhang, Geng Chen, Yingfeng Chen, Chen Gao, Xinlei Chen

개요

멀티모달 대규모 언어 모델(MLLM)의 협업적 인식 능력을 평가하기 위한 벤치마크 부재 문제를 해결하고자, 본 논문은 열악한 인식 환경에서 구현된 항공 협업적 인식을 평가하는 최초의 종합 벤치마크인 AirCopBench를 소개합니다. AirCopBench는 시뮬레이터와 실제 데이터를 기반으로 14,600개 이상의 질문을 포함하며, Scene Understanding, Object Understanding, Perception Assessment, Collaborative Decision의 4가지 주요 과제 차원과 14가지 작업 유형을 포괄합니다. 40개의 MLLM에 대한 평가는 협업적 인식 작업에서 상당한 성능 격차를 보였으며, 최상의 모델도 인간보다 평균 24.38% 뒤쳐졌습니다. 또한, fine-tuning 실험을 통해 항공 협업적 인식 및 추론에서 sim-to-real 전이 가능성을 확인했습니다.

시사점, 한계점

시사점:
AirCopBench는 MLLM의 협업적 인식 능력을 평가하는 새로운 벤치마크를 제공합니다.
AirCopBench는 열악한 인식 조건에서의 성능 평가를 가능하게 합니다.
실험을 통해 협업적 인식 작업에서 MLLM의 성능 격차를 확인했습니다.
sim-to-real 전이 가능성을 확인하여 실제 환경 적용 가능성을 제시했습니다.
한계점:
최고 모델의 성능이 인간에 비해 여전히 24.38% 뒤쳐집니다.
일부 작업에서 모델 간의 일관성이 부족합니다.
👍