Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance

Created by
  • Haebom

저자

Yang Zhang, Chenwei Wang, Ouyang Lu, Yuan Zhao, Yunfei Ge, Zhenglong Sun, Xiu Li, Chi Zhang, Chenjia Bai, Xuelong Li

개요

본 논문은 대규모 다양한 데이터셋으로 사전 훈련된 Vision-Language-Action (VLA) 모델을 다운스트림 작업에 적용하는 어려움을 해결하기 위해 Align-Then-stEer (ATE) 프레임워크를 제시합니다. ATE는 사전 훈련 데이터와 로봇의 구현 또는 작업 자체 간의 불일치로 인한 액션 분포 불일치 문제를 해결하기 위해, 역 KL 발산으로 제약된 변이 자동 인코더를 사용하여 통합된 잠재 공간을 구축하고, 이를 통해 적응 액션을 사전 훈련 액션 잠재 분포의 모드에 포함시킵니다. 그 후, 모델의 출력 분포를 목표 도메인으로 이동시키는 안내 메커니즘을 통해 미세 조정 중 확산 또는 흐름 기반 VLA의 생성 프로세스를 제어합니다. 시뮬레이션 및 실제 환경에서의 크로스-구현 및 크로스-작업 조작에 대한 광범위한 실험을 통해 기존 VLA의 직접 미세 조정과 비교하여 시뮬레이션에서 평균 다중 작업 성공률을 최대 9.8% 향상시키고, 실제 환경의 크로스-구현 설정에서 32%의 성공률 향상을 달성함을 보여줍니다.

시사점, 한계점

시사점:
VLA 모델의 실제 로봇 플랫폼 및 작업으로의 적용 가능성을 크게 향상시키는 일반적이고 경량의 솔루션을 제공합니다.
데이터 효율적인 방식으로 VLA 모델을 새로운 로봇 플랫폼 및 작업에 적응시킬 수 있습니다.
시뮬레이션 및 실제 환경 모두에서 크로스-구현 및 크로스-작업 조작 성능을 크게 향상시킵니다.
한계점:
본 논문에서 제시된 ATE 프레임워크의 일반화 성능에 대한 추가적인 연구가 필요합니다. 다양한 작업 및 로봇 플랫폼에 대한 테스트가 더 필요할 수 있습니다.
역 KL 발산을 사용한 제약이 최적의 방법인지, 다른 제약 방법을 사용하면 더 나은 성능을 얻을 수 있는지에 대한 추가적인 연구가 필요합니다.
실제 세계 적용에서의 샘플 수 제약이나 환경적 요인에 대한 고려가 부족할 수 있습니다.
👍