RaceVLA: VLA-based Racing Drone Navigation with Human-like Behaviour
작성자
Haebom
저자
Valerii Serpiva, Artem Lykov, Artyom Myshlyaev, Muhammad Haris Khan, Ali Alridha Abdulkarim, Oleg Sautenkov, Dzmitry Tsetserukou
개요
RaceVLA는 시각-언어-행동(VLA)을 활용하여 인간과 유사한 행동을 모방하는 자율 주행 드론 내비게이션을 위한 혁신적인 접근 방식을 제시합니다. 본 연구는 드론이 실시간 환경 피드백에 따라 항법 전략을 적응시킬 수 있도록 하는 고급 알고리즘의 통합을 탐구하며, 인간 조종사의 의사결정 과정을 모방합니다. 수집된 레이싱 드론 데이터셋으로 미세 조정된 모델은 드론 레이싱 환경의 복잡성에도 불구하고 강력한 일반화 성능을 보여줍니다. RaceVLA는 OpenVLA에 비해 동작(75.0 대 60.0) 및 의미적 일반화(45.5 대 36.3)에서 우수한 성능을 보이며, 동적인 카메라와 단순화된 동작 작업의 이점을 누립니다. 그러나 다양한 크기의 물체가 있는 역동적인 환경에서의 조종의 어려움으로 인해 시각적(79.6 대 87.0) 및 물리적(50.0 대 76.7) 일반화는 약간 감소했습니다. RaceVLA는 또한 모든 축(시각적: 79.6 대 52.0, 동작: 75.0 대 55.0, 물리적: 50.0 대 26.7, 의미적: 45.5 대 38.8)에서 RT-2를 능가하여 복잡한 환경에서 실시간 조정에 대한 강력함을 보여줍니다. 실험 결과 평균 속도는 1.04m/s, 최대 속도는 2.02m/s이며, 일관된 조종성을 보여 RaceVLA가 고속 시나리오를 효과적으로 처리할 수 있음을 보여줍니다. 이러한 결과는 경쟁적인 레이싱 환경에서 고성능 내비게이션을 위한 RaceVLA의 잠재력을 강조합니다. RaceVLA 코드베이스, 사전 훈련된 가중치 및 데이터셋은 https://racevla.github.io/에서 사용할 수 있습니다.