# CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining

### 저자

I-Chun Arthur Liu, Krzysztof Choromanski, Sandy Huang, Connor Schenck

### 💡 개요

본 논문은 로봇 조작을 위한 3D 멀티뷰 액션 조건 행동 복제 정책의 성능 향상을 목표로 합니다. RGB-D 이미지와 카메라 정보를 융합하여 생성된 3D 포인트 클라우드와 동적 손목 뷰를 활용하는 CLAMP(Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining)라는 새로운 3D 사전 학습 프레임워크를 제안합니다. 이 프레임워크는 대규모 시뮬레이션 데이터를 사용하여 3D 기하학적 및 위치 정보를 로봇 행동 패턴과 연관시키는 인코더를 학습하며, 사전 학습된 Diffusion Policy를 통해 정책 가중치를 초기화하여 파인튜닝 성능을 향상시킵니다.

### 🔑 시사점 및 한계

- 2D 이미지 기반 사전 학습의 한계를 극복하고 3D 공간 정보를 효과적으로 활용하여 로봇 조작의 정밀도를 향상시킬 수 있습니다.

- 제안된 CLAMP 프레임워크는 제한된 태스크 시연만으로도 학습 효율성과 정책 성능을 크게 개선하며, 시뮬레이션 및 실제 로봇 환경 모두에서 최신 기술을 능가하는 성과를 보여줍니다.

- 3D 포인트 클라우드 생성을 위한 RGB-D 센서 및 카메라 외부 매개변수의 정확성이 중요하며, 복잡하거나 동적인 환경에서의 3D 정보 추출 및 해석에 대한 추가 연구가 필요할 수 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2602.00937)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).