[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RaceVLA: VLA-based Racing Drone Navigation with Human-like Behaviour

작성자
  • Haebom

저자

Valerii Serpiva, Artem Lykov, Artyom Myshlyaev, Muhammad Haris Khan, Ali Alridha Abdulkarim, Oleg Sautenkov, Dzmitry Tsetserukou

개요

RaceVLA는 시각-언어-행동(VLA)을 활용하여 인간과 유사한 행동을 모방하는 자율 주행 드론 내비게이션을 위한 혁신적인 접근 방식을 제시합니다. 본 연구는 드론이 실시간 환경 피드백에 따라 항법 전략을 적응시킬 수 있도록 하는 고급 알고리즘의 통합을 탐구하며, 인간 조종사의 의사결정 과정을 모방합니다. 수집된 레이싱 드론 데이터셋으로 미세 조정된 모델은 드론 레이싱 환경의 복잡성에도 불구하고 강력한 일반화 성능을 보여줍니다. RaceVLA는 OpenVLA에 비해 동작(75.0 대 60.0) 및 의미적 일반화(45.5 대 36.3)에서 우수한 성능을 보이며, 동적인 카메라와 단순화된 동작 작업의 이점을 누립니다. 그러나 다양한 크기의 물체가 있는 역동적인 환경에서의 조종의 어려움으로 인해 시각적(79.6 대 87.0) 및 물리적(50.0 대 76.7) 일반화는 약간 감소했습니다. RaceVLA는 또한 모든 축(시각적: 79.6 대 52.0, 동작: 75.0 대 55.0, 물리적: 50.0 대 26.7, 의미적: 45.5 대 38.8)에서 RT-2를 능가하여 복잡한 환경에서 실시간 조정에 대한 강력함을 보여줍니다. 실험 결과 평균 속도는 1.04m/s, 최대 속도는 2.02m/s이며, 일관된 조종성을 보여 RaceVLA가 고속 시나리오를 효과적으로 처리할 수 있음을 보여줍니다. 이러한 결과는 경쟁적인 레이싱 환경에서 고성능 내비게이션을 위한 RaceVLA의 잠재력을 강조합니다. RaceVLA 코드베이스, 사전 훈련된 가중치 및 데이터셋은 https://racevla.github.io/에서 사용할 수 있습니다.

시사점, 한계점

시사점:
VLA 기반 접근 방식을 통해 인간과 유사한 자율 주행 드론 내비게이션 구현 가능성 제시.
OpenVLA 및 RT-2 대비 우수한 성능으로 고속 및 복잡한 환경에서의 효과적인 항법 가능성 확인.
공개된 코드베이스, 사전 훈련된 가중치 및 데이터셋을 통한 추가 연구 및 개발 가능성 확대.
한계점:
다양한 크기의 물체가 있는 역동적인 환경에서의 시각적 및 물리적 일반화 성능 저하.
평균 속도 및 최대 속도는 상대적으로 낮은 수치를 기록. (개선의 여지 존재)
👍