본 논문은 로봇 조작 분야에서 데이터 다양성 부족으로 인한 기하학적 변화 문제를 해결하기 위해 AffordGen이라는 새로운 프레임워크를 제안합니다. AffordGen은 3D 생성 모델과 비전 기반 모델(VFMs)을 활용하여 의미 있는 키포인트의 의미론적 상응을 통해 다양한 로봇 조작 궤적을 생성하며, 이를 통해 학습된 정책은 제로샷 일반화 성능을 크게 향상시킵니다.
🔑 시사점 및 한계
•
다양한 3D 메시와 비전 기반 모델을 활용하여 풍부하고 의미론적으로 일반화 가능한 로봇 조작 시연 데이터를 생성할 수 있습니다.
•
생성된 데이터를 통해 학습된 로봇 정책은 실제 보지 못한 객체에 대한 제로샷 일반화 능력을 효과적으로 보여줍니다.
•
3D 생성 모델의 퀄리티 및 현실적인 시뮬레이션 환경 구축에 대한 의존성이 존재할 수 있으며, 실제 환경에서의 복잡하고 예측 불가능한 요소를 완전히 포괄하는 데에는 한계가 있을 수 있습니다.