대규모 언어 및 비전-언어 모델(LLM/VLM)을 기반으로 하는 확장 가능한 다중 에이전트 프레임워크인 UAV-CodeAgents를 제시합니다. 이 시스템은 ReAct(Reason + Act) 패러다임을 활용하여 위성 이미지, 지상 고수준 자연어 지침을 해석하고 최소한의 인간 감독으로 UAV 궤적을 공동으로 생성합니다. 핵심 구성 요소는 항공 지도에서 의미적 대상의 정확한 위치 확인을 가능하게 하는 비전 기반 픽셀 지정 메커니즘입니다. 실시간 적응성을 지원하기 위해 반응적 사고 루프를 도입하여 에이전트가 관찰 결과를 반복적으로 반영하고, 임무 목표를 수정하고, 진화하는 환경에서 동적으로 조정할 수 있도록 합니다. 산업 및 환경 화재 감지와 관련된 대규모 임무 시나리오에서 UAV-CodeAgents를 평가했습니다. 결과는 낮은 디코딩 온도(0.5)가 계획 신뢰성을 높이고 실행 시간을 단축하며, 평균 임무 생성 시간은 96.96초, 성공률은 93%임을 보여줍니다. 또한 9,000개의 주석이 달린 위성 이미지에 대해 Qwen2.5VL-7B를 미세 조정하여 다양한 시각적 범주에서 강력한 공간 기반을 달성했습니다. 재현성과 미래 연구를 촉진하기 위해 전체 코드베이스와 비전-언어 기반 UAV 계획을 위한 새로운 벤치마크 데이터셋을 공개할 것입니다.