멀티모달 대규모 언어 모델(MLLM)의 협업적 인식 능력을 평가하기 위한 벤치마크 부재 문제를 해결하고자, 본 논문은 열악한 인식 환경에서 구현된 항공 협업적 인식을 평가하는 최초의 종합 벤치마크인 AirCopBench를 소개합니다. AirCopBench는 시뮬레이터와 실제 데이터를 기반으로 14,600개 이상의 질문을 포함하며, Scene Understanding, Object Understanding, Perception Assessment, Collaborative Decision의 4가지 주요 과제 차원과 14가지 작업 유형을 포괄합니다. 40개의 MLLM에 대한 평가는 협업적 인식 작업에서 상당한 성능 격차를 보였으며, 최상의 모델도 인간보다 평균 24.38% 뒤쳐졌습니다. 또한, fine-tuning 실험을 통해 항공 협업적 인식 및 추론에서 sim-to-real 전이 가능성을 확인했습니다.