본 논문은 모방 학습(IL)을 이용한 로봇 조작 작업에서 관측값이 훈련 분포 밖에 있을 때 성능 저하 문제를 해결하기 위해 Adaptive 3D Scene Representation (Adapt3R)을 제안합니다. Adapt3R은 하나 이상의 RGBD 카메라로부터 데이터를 합성하여 임의의 IL 알고리즘에 대한 조건으로 사용할 수 있는 단일 벡터를 생성하는 3D 관측값 인코더입니다. 기존의 3D 시각 표현 방식의 일반화 성능 한계를 극복하기 위해, 2D 백본을 활용하여 장면의 의미 정보를 추출하고, 3D 정보는 이러한 의미 정보를 엔드 이펙터에 대해 국재화하는 매개체로 사용하는 독창적인 구조를 제안합니다. 다양한 최첨단 다중 작업 IL 알고리즘과의 통합 학습을 통해 새로운 임베디먼트와 카메라 자세에 대한 제로샷 전이 성능을 보이며 다중 작업 학습 능력을 유지함을 보여줍니다. 또한, 포인트 클라우드 관측값 인코더 설계 공간을 명확히 하기 위한 다양한 ablation 및 감도 실험 결과를 제시합니다.