Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

UAVBench: An Open Benchmark Dataset for Autonomous and Agentic AI UAV Systems via LLM-Generated Flight Scenarios

Created by
  • Haebom
Category
Empty

저자

Mohamed Amine Ferrag, Abderrahmane Lakas, Merouane Debbah

개요

자율 비행 시스템의 미션 계획, 인식, 의사 결정에 LLM을 활용하는 추세에 따라, UAV의 추론 능력 체계적 평가를 위한 표준화되고 물리적으로 기반한 벤치마크 부재 문제를 해결하고자 함. Taxonomy-guided LLM 프롬프팅 및 다단계 안전성 검증을 통해 생성된 50,000개의 유효한 UAV 비행 시나리오를 포함하는 개방형 벤치마크 데이터 세트인 UAVBench를 소개. 또한, UAVBench_MCQ는 10가지 인지 및 윤리적 추론 스타일을 포괄하는 50,000개의 객관식 질문을 포함하는 추론 지향 확장 프로그램임. GPT-5, ChatGPT-4o, Gemini 2.5 Flash, DeepSeek V3, Qwen3 235B, ERNIE 4.5 300B를 포함한 32개의 최첨단 LLM을 평가한 결과, 인식 및 정책 추론에서 강점을 보였지만, 윤리적 인식 및 자원 제약적 의사 결정에서 지속적인 문제점을 발견. UAVBench는 자율 비행 시스템에서 에이전트 AI를 벤치마킹하고 차세대 UAV 추론 인텔리전스를 발전시키기 위한 재현 가능하고 물리적으로 기반한 기반을 마련하며, 데이터 세트, 벤치마크, 평가 스크립트 및 관련 자료를 GitHub에서 공개.

시사점, 한계점

시사점:
UAVBench 및 UAVBench_MCQ를 통해 UAV의 추론 능력을 평가하기 위한 표준화된 벤치마크 제공.
다양한 LLM의 UAV 관련 인지 능력 평가 가능.
향후 자율 비행 시스템 연구 및 개발을 위한 기반 제공.
한계점:
윤리적 인식 및 자원 제약적 의사 결정에서의 LLM의 지속적인 문제점.
벤치마크가 특정 시나리오에 한정될 수 있으며, 실제 환경에서의 일반화 능력에 대한 추가 연구 필요.
LLM의 발전 속도에 따라 벤치마크의 지속적인 업데이트 필요.
👍