본 논문은 3D 멀티모달 대규모 언어 모델(MLLM) 기반의 end-to-end 자동 재구성 프레임워크인 URDF-Anything을 제안한다. 이는 관절 객체의 정확한 디지털 트윈을 구축하기 위한 것으로, 기하학적 분할과 운동학적 파라미터 예측을 공동으로 최적화한다. Point cloud와 텍스트 멀티모달 입력을 기반으로 한 자동 회귀 예측 프레임워크를 사용하며, $[SEG]$ 토큰 메커니즘을 통해 세분화된 부분 수준 분할을 가능하게 한다. 실험 결과는 기존 접근 방식보다 기하학적 분할, 운동학적 파라미터 예측, 물리적 실행 가능성 측면에서 성능이 우수하며, 훈련 세트 외의 객체에 대해서도 뛰어난 일반화 능력을 보인다.