Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance
Created by
Haebom
저자
Yang Zhang, Chenwei Wang, Ouyang Lu, Yuan Zhao, Yunfei Ge, Zhenglong Sun, Xiu Li, Chi Zhang, Chenjia Bai, Xuelong Li
개요
본 논문은 대규모 다양한 데이터셋으로 사전 훈련된 Vision-Language-Action (VLA) 모델을 다운스트림 작업에 적용하는 어려움을 해결하기 위해 Align-Then-stEer (ATE) 프레임워크를 제시합니다. ATE는 사전 훈련 데이터와 로봇의 구현 또는 작업 자체 간의 불일치로 인한 액션 분포 불일치 문제를 해결하기 위해, 역 KL 발산으로 제약된 변이 자동 인코더를 사용하여 통합된 잠재 공간을 구축하고, 이를 통해 적응 액션을 사전 훈련 액션 잠재 분포의 모드에 포함시킵니다. 그 후, 모델의 출력 분포를 목표 도메인으로 이동시키는 안내 메커니즘을 통해 미세 조정 중 확산 또는 흐름 기반 VLA의 생성 프로세스를 제어합니다. 시뮬레이션 및 실제 환경에서의 크로스-구현 및 크로스-작업 조작에 대한 광범위한 실험을 통해 기존 VLA의 직접 미세 조정과 비교하여 시뮬레이션에서 평균 다중 작업 성공률을 최대 9.8% 향상시키고, 실제 환경의 크로스-구현 설정에서 32%의 성공률 향상을 달성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
VLA 모델의 실제 로봇 플랫폼 및 작업으로의 적용 가능성을 크게 향상시키는 일반적이고 경량의 솔루션을 제공합니다.
◦
데이터 효율적인 방식으로 VLA 모델을 새로운 로봇 플랫폼 및 작업에 적응시킬 수 있습니다.
◦
시뮬레이션 및 실제 환경 모두에서 크로스-구현 및 크로스-작업 조작 성능을 크게 향상시킵니다.
•
한계점:
◦
본 논문에서 제시된 ATE 프레임워크의 일반화 성능에 대한 추가적인 연구가 필요합니다. 다양한 작업 및 로봇 플랫폼에 대한 테스트가 더 필요할 수 있습니다.
◦
역 KL 발산을 사용한 제약이 최적의 방법인지, 다른 제약 방법을 사용하면 더 나은 성능을 얻을 수 있는지에 대한 추가적인 연구가 필요합니다.