본 논문은 육체화된 AI의 일반화 문제를 해결하기 위해 '가리키기(pointing)'를 통합적이고 구현체에 무관한 중간 표현으로 제시합니다. 고차원 시각-언어 이해와 저차원 행동 원시어 사이를 연결하는 네 가지 핵심적인 육체화된 가리키기 능력을 정의하고, 육체화된 추론 및 가리키기에 특화된 30억 매개변수의 시각-언어 모델인 Embodied-R1을 소개합니다. 다양한 데이터셋을 활용하여 20만 개의 데이터를 포함하는 대규모 데이터셋 Embodied-Points-200K를 구축하고, 특수 다중 작업 보상 설계를 사용하는 2단계 강화된 미세 조정(RFT) 커리큘럼으로 Embodied-R1을 훈련시켰습니다. Embodied-R1은 11개의 육체화된 공간 및 가리키기 벤치마크에서 최첨단 성능을 달성하였으며, 특히 작업별 미세 조정 없이 SIMPLEREnv에서 56.2%, 8개의 실제 XArm 작업에서 87.5%의 성공률을 달성하여 강력한 기준 모델보다 62% 향상된 강력한 제로샷 일반화 능력을 보여줍니다. 또한 다양한 시각적 방해에 대한 높은 강건성을 나타냅니다. 결론적으로, 가리키기 중심 표현과 RFT 훈련 패러다임의 조합은 로봇 공학에서 지각-행동 간극을 해소하는 효과적이고 일반화 가능한 방법을 제공합니다.
시사점, 한계점
•
시사점:
◦
'가리키기'를 중간 표현으로 사용하여 시각-언어 이해와 행동을 효과적으로 연결하는 새로운 접근법 제시.
◦
육체화된 AI의 제로샷 일반화 능력을 크게 향상시키는 강력한 모델(Embodied-R1) 개발.
◦
다양한 환경과 작업에서 높은 강건성을 보이는 모델 구현.
◦
대규모 육체화된 가리키기 데이터셋(Embodied-Points-200K) 구축.
◦
강화된 미세 조정(RFT) 커리큘럼을 통한 효과적인 모델 훈련 전략 제시.
•
한계점:
◦
Embodied-Points-200K 데이터셋의 크기와 다양성에 대한 추가적인 검증 필요.
◦
실제 세계 적용에 대한 추가적인 테스트와 검증 필요. 현재 실험은 제한된 수의 XArm 작업에만 국한됨.