# Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features

### 저자

Makram Chahine, Alex Quach, Alaa Maalouf, Tsun-Hsuan Wang, Daniela Rus

### 개요

본 논문은 End-to-end 학습 기반 로봇 제어 정책의 일반화 문제를 해결하기 위해, 사전 학습된 Vision Language Model (VLM)을 활용한 Flex 프레임워크를 제시합니다.  Flex는 VLM을 고정된 패치 단위 특징 추출기로 사용하여 시각 및 의미 정보를 통합하는 공간 인식 임베딩을 생성합니다.  소규모 시뮬레이션 데이터셋으로 행동 복제를 통해 훈련된 에이전트가 다양한 새로운 목표와 명령어 구성을 가진 실제 환경에 성공적으로 일반화되는 쿼드로터 비행 제어 과제를 통해 이 접근 방식의 효과를 보여줍니다.  본 연구는 제한된 데이터로도 강건한 폐루프 성능을 달성하기 위한 최소 데이터 요구 사항 및 아키텍처 적응에 대해 조사합니다.

### 시사점, 한계점

- **시사점:**

    - 제한된 데이터로도 End-to-End 학습 기반 로봇 제어 정책의 일반화 성능 향상 가능성 제시

    - 사전 훈련된 VLM을 활용한 효율적인 시각-언어 정보 통합 방법 제시

    - 실제 환경에서의 성공적인 일반화 성능 검증

    - 새로운 시각적 분포 및 텍스트 명령어에 대한 적응력 향상

- **한계점:**

    - 제시된 방법의 효과가 특정 과제(쿼드로터 비행 제어)에 국한될 가능성

    - 사용된 VLM의 성능에 의존적일 수 있음

    - 더욱 복잡하고 다양한 로봇 제어 과제에 대한 일반화 성능 검증 필요

    - 실제 환경의 다양성을 충분히 반영하지 못했을 가능성

[PDF 보기](https://arxiv.org/pdf/2410.13002)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
