Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Enhancing Generalization in Vision-Language-Action Models by Preserving Pretrained Representations

Created by
  • Haebom

저자

Shresth Grover, Akshay Gopalkrishnan, Bo Ai, Henrik I. Christensen, Hao Su, Xuanlin Li

개요

본 논문은 다양한 작업과 환경에서 일반적인 로봇을 구축하기 위해 사전 훈련된 풍부한 표현을 활용할 것을 약속하는 비전-언어-행동(VLA) 모델에 대해 제시한다. 기존 VLA 모델들은 비전-언어 모델(VLMs)에서 미세 조정되지만, 로봇 데이터에 대한 직접적인 미세 조정은 종종 이러한 표현을 방해하고 일반화를 제한한다. 본 연구는 사전 훈련된 특징을 유지하면서 로봇 조작을 위해 이를 적응시키는 프레임워크를 제시한다. 이는 세 가지 구성 요소, 즉 (i) 사전 훈련된 특징을 유지하기 위한 고정된 비전 인코더와 작업 적응을 위한 훈련 가능한 또 다른 인코더를 갖춘 이중 인코더 설계, (ii) 모델의 사전 훈련 도메인과 정렬된 문자 시퀀스로 연속적인 행동을 변환하는 문자열 기반 행동 토크나이저, (iii) 공간 추론 및 여건을 강조하는 비전-언어 데이터셋과 로봇 데모를 결합하는 공동 훈련 전략으로 구성된다. 시뮬레이션과 실제 로봇에서의 평가 결과, 제안된 방법이 기준선과 비교하여 시각적 방해에 대한 강인성, 새로운 지시 및 환경에 대한 일반화, 전반적인 작업 성공률을 향상시키는 것을 보여준다.

시사점, 한계점

시사점:
사전 훈련된 비전-언어 모델의 표현을 효과적으로 활용하여 로봇 조작 성능을 향상시키는 새로운 프레임워크 제시.
시각적 방해에 대한 강인성, 새로운 지시 및 환경에 대한 일반화 능력 향상.
로봇 조작 작업의 성공률 향상.
이중 인코더, 문자열 기반 행동 토크나이저, 공동 훈련 전략의 효과성 증명.
한계점:
제안된 프레임워크의 성능은 사용된 사전 훈련된 VLMs의 질에 의존적일 수 있음.
다양한 로봇 플랫폼 및 작업에 대한 일반화 능력에 대한 추가적인 연구 필요.
실제 환경에서의 로봇 조작의 복잡성을 완전히 포착하지 못할 가능성 존재.
문자열 기반 행동 토크나이저의 표현력에 대한 추가적인 고찰 필요.
👍