Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors

Created by
  • Haebom
Category
Empty

저자

Yuke Lou, Yiming Wang, Zhen Wu, Rui Zhao, Wenjia Wang, Mingyi Shi, Taku Komura

개요

본 논문은 제한된 3D 인간-물체 상호작용(HOI) 데이터셋에 의존하는 기존 방법들의 한계를 극복하기 위해, 사전 훈련된 다중 모달 모델로부터 풍부한 HOI 지식을 활용하는 새로운 제로샷 HOI 합성 프레임워크를 제안합니다. 텍스트 설명을 입력으로 받아, 이미지 또는 비디오 생성 모델을 사용하여 시간적으로 일관된 2D HOI 이미지 시퀀스를 생성하고, 이를 인간과 물체의 자세에 대한 3D HOI 마일스톤으로 상향 변환합니다. 사전 훈련된 인체 자세 추정 모델을 사용하여 인체 자세를 추출하고, 2D HOI 이미지에서 물체 자세를 얻기 위해 일반화 가능한 카테고리 수준의 6-DoF 추정 방법을 도입합니다. 추정 방법은 텍스트-3D 모델 또는 온라인 검색을 통해 얻은 다양한 물체 템플릿에 적응적입니다. 물리 기반 3D HOI 동역학 마일스톤 추적을 추가로 적용하여 신체 동작과 물체 자세를 모두 개선하여 더욱 물리적으로 타당한 HOI 생성 결과를 얻습니다. 실험 결과는 제안된 방법이 물리적 현실성과 의미적 다양성을 갖춘 개방형 어휘 HOI를 생성할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
제한된 3D HOI 데이터셋 문제를 해결하는 제로샷 HOI 합성 프레임워크 제시
사전 훈련된 다중 모달 모델을 활용하여 다양한 물체와 상호작용 패턴을 생성 가능
물리 기반 추적을 통해 물리적으로 타당한 HOI 생성
개방형 어휘 HOI 생성 가능
한계점:
사전 훈련된 모델의 성능에 의존적일 수 있음.
2D 이미지에서 3D 정보로의 변환 과정에서 정확도 저하 가능성 존재.
물리 기반 추적의 정확도와 계산 비용 문제.
다양한 상호작용 유형에 대한 일반화 성능 평가 필요.
👍