자율 비행 시스템의 미션 계획, 인식, 의사 결정에 LLM을 활용하는 추세에 따라, UAV의 추론 능력 체계적 평가를 위한 표준화되고 물리적으로 기반한 벤치마크 부재 문제를 해결하고자 함. Taxonomy-guided LLM 프롬프팅 및 다단계 안전성 검증을 통해 생성된 50,000개의 유효한 UAV 비행 시나리오를 포함하는 개방형 벤치마크 데이터 세트인 UAVBench를 소개. 또한, UAVBench_MCQ는 10가지 인지 및 윤리적 추론 스타일을 포괄하는 50,000개의 객관식 질문을 포함하는 추론 지향 확장 프로그램임. GPT-5, ChatGPT-4o, Gemini 2.5 Flash, DeepSeek V3, Qwen3 235B, ERNIE 4.5 300B를 포함한 32개의 최첨단 LLM을 평가한 결과, 인식 및 정책 추론에서 강점을 보였지만, 윤리적 인식 및 자원 제약적 의사 결정에서 지속적인 문제점을 발견. UAVBench는 자율 비행 시스템에서 에이전트 AI를 벤치마킹하고 차세대 UAV 추론 인텔리전스를 발전시키기 위한 재현 가능하고 물리적으로 기반한 기반을 마련하며, 데이터 세트, 벤치마크, 평가 스크립트 및 관련 자료를 GitHub에서 공개.