# CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining

### 저자

I-Chun Arthur Liu, Krzysztof Choromanski, Sandy Huang, Connor Schenck

### 💡 개요

본 논문은 로봇 조작을 위한 3D 다중 시점 행동 조건부 사전 학습 프레임워크인 CLAMP를 제안합니다. CLAMP는 RGB-D 이미지와 로봇 행동을 활용하여 3D 공간 정보를 담은 다중 시점 이미지를 생성하고, 이를 통해 3D 기하학적 및 위치 정보를 로봇 행동 패턴과 연결하는 자기 대조 학습을 수행합니다. 사전 학습된 인코더와 Diffusion Policy 초기화를 통해 제한된 데이터로도 높은 성능을 달성하며, 시뮬레이션 및 실제 로봇 조작 작업에서 최신 기술을 능가하는 성능을 보여줍니다.

### 🔑 시사점 및 한계

- 2D 이미지 표현의 한계를 극복하고 3D 공간 정보를 효과적으로 활용하여 로봇 조작 성능을 향상시킬 수 있습니다.

- 자기 대조 학습과 Diffusion Policy 사전 학습을 통해 적은 시연 데이터로도 효율적인 학습 및 높은 성능 달성이 가능합니다.

- 본 프레임워크는 다양한 시뮬레이션 및 실제 로봇 조작 작업에서 유효성을 입증하며, 향후 로봇 조작 연구에 기여할 수 있습니다.

- 현재 연구는 시뮬레이션 환경에서의 대규모 데이터에 의존하며, 실제 환경 적용 시 발생할 수 있는 도메인 불일치 문제에 대한 추가적인 연구가 필요할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2602.00937)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).