RoboFlamingo-Plus는 복잡한 다중 모드 상호작용 및 조작 작업을 위한 로봇 기술 발전에 있어서 비전-언어 모델(VLMs) 통합의 중요성을 강조하는 논문입니다. 기존의 RoboFlamingo 프레임워크를 개선하여 깊이 데이터를 VLMs에 통합함으로써 로봇 조작 성능을 크게 향상시켰습니다. 사전 훈련된 비전 트랜스포머(ViT)와 재샘플링 기법을 통합하여 RGB와 깊이 정보를 정교하게 융합하고, 언어적 단서와의 정합성을 높여 다중 모드 이해 능력을 향상시켰습니다. 깊이 데이터 처리를 위한 입력 적응, 사전 훈련된 재샘플러를 이용한 깊이 특징 추출, 그리고 최적의 특징 통합을 위한 크로스 어텐션 메커니즘을 활용하는 것이 핵심적인 개선 사항입니다. 실험 결과, RoboFlamingo-Plus는 기존 방법 대비 로봇 조작 성능을 10-20% 향상시켰습니다. 코드와 모델 가중치는 공개되어 있습니다.