Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

UAV-CodeAgents: Scalable UAV Mission Planning via Multi-Agent ReAct and Vision-Language Reasoning

Created by
  • Haebom

저자

Oleg Sautenkov, Yasheerah Yaqoot, Muhammad Ahsan Mustafa, Faryal Batool, Jeffrin Sam, Artem Lykov, Chih-Yung Wen, Dzmitry Tsetserukou

개요

대규모 언어 및 비전-언어 모델(LLM/VLM)을 기반으로 하는 확장 가능한 다중 에이전트 프레임워크인 UAV-CodeAgents를 제시합니다. 이 시스템은 ReAct(Reason + Act) 패러다임을 활용하여 위성 이미지, 지상 고수준 자연어 지침을 해석하고 최소한의 인간 감독으로 UAV 궤적을 공동으로 생성합니다. 핵심 구성 요소는 항공 지도에서 의미적 대상의 정확한 위치 확인을 가능하게 하는 비전 기반 픽셀 지정 메커니즘입니다. 실시간 적응성을 지원하기 위해 반응적 사고 루프를 도입하여 에이전트가 관찰 결과를 반복적으로 반영하고, 임무 목표를 수정하고, 진화하는 환경에서 동적으로 조정할 수 있도록 합니다. 산업 및 환경 화재 감지와 관련된 대규모 임무 시나리오에서 UAV-CodeAgents를 평가했습니다. 결과는 낮은 디코딩 온도(0.5)가 계획 신뢰성을 높이고 실행 시간을 단축하며, 평균 임무 생성 시간은 96.96초, 성공률은 93%임을 보여줍니다. 또한 9,000개의 주석이 달린 위성 이미지에 대해 Qwen2.5VL-7B를 미세 조정하여 다양한 시각적 범주에서 강력한 공간 기반을 달성했습니다. 재현성과 미래 연구를 촉진하기 위해 전체 코드베이스와 비전-언어 기반 UAV 계획을 위한 새로운 벤치마크 데이터셋을 공개할 것입니다.

시사점, 한계점

시사점:
대규모 언어 및 비전-언어 모델을 활용한 효율적이고 확장 가능한 UAV 임무 생성 프레임워크 제시.
ReAct 패러다임과 픽셀 지정 메커니즘을 통한 정확하고 효과적인 임무 계획.
실시간 적응성을 위한 반응적 사고 루프 도입.
높은 성공률(93%)과 짧은 임무 생성 시간(평균 96.96초) 달성.
새로운 벤치마크 데이터셋과 코드베이스 공개를 통한 연구 재현성 및 후속 연구 지원.
한계점:
현재는 산업 및 환경 화재 감지에 대한 평가에 국한됨. 다른 유형의 임무에 대한 일반화 가능성 추가 검증 필요.
대규모 모델의 계산 비용 및 자원 소모에 대한 고려 필요.
실제 환경에서의 장기간 안정성 및 견고성에 대한 추가 연구 필요.
비전-언어 모델의 한계로 인한 오류 발생 가능성 존재.
👍