본 논문은 제한된 3D 인간-물체 상호작용(HOI) 데이터셋에 의존하는 기존 방법들의 한계를 극복하기 위해, 사전 훈련된 다중 모달 모델로부터 풍부한 HOI 지식을 활용하는 새로운 제로샷 HOI 합성 프레임워크를 제안합니다. 텍스트 설명을 입력으로 받아, 이미지 또는 비디오 생성 모델을 사용하여 시간적으로 일관된 2D HOI 이미지 시퀀스를 생성하고, 이를 인간과 물체의 자세에 대한 3D HOI 마일스톤으로 상향 변환합니다. 사전 훈련된 인체 자세 추정 모델을 사용하여 인체 자세를 추출하고, 2D HOI 이미지에서 물체 자세를 얻기 위해 일반화 가능한 카테고리 수준의 6-DoF 추정 방법을 도입합니다. 추정 방법은 텍스트-3D 모델 또는 온라인 검색을 통해 얻은 다양한 물체 템플릿에 적응적입니다. 물리 기반 3D HOI 동역학 마일스톤 추적을 추가로 적용하여 신체 동작과 물체 자세를 모두 개선하여 더욱 물리적으로 타당한 HOI 생성 결과를 얻습니다. 실험 결과는 제안된 방법이 물리적 현실성과 의미적 다양성을 갖춘 개방형 어휘 HOI를 생성할 수 있음을 보여줍니다.