본 논문은 물리적 환경에서 다양한 스타일의 인간-장면 상호작용(HSI)을 시뮬레이션하는 새로운 계층적 프레임워크인 SIMS를 제안한다. SIMS는 고수준 스크립트 기반 의도와 저수준 제어 정책을 원활하게 연결하여 표현력 있고 다양한 HSI를 가능하게 한다. 특히, 검색 증강 생성(RAG)을 사용하는 대규모 언어 모델을 통해 일관성 있고 다양한 장문의 스크립트를 생성하여 운동 계획의 기반을 마련한다. 또한, 생성된 스크립트의 텍스트 임베딩을 사용하여 스타일 큐를 인코딩하고, 동시에 환경 기하학을 인지하며 작업 목표를 달성하는 다중 조건 물리 기반 제어 정책을 개발한다. RAG에 의해 생성된 포괄적인 계획 데이터셋과 다양한 이동 및 상호 작용을 특징으로 하는 스타일리쉬한 모션 데이터셋을 함께 소개한다. 광범위한 실험을 통해 SIMS가 다양한 작업을 실행하고 다양한 시나리오에서 일반화하는 효과를 보이며, 기존 방법보다 성능이 크게 향상됨을 보여준다.
시사점, 한계점
•
시사점:
◦
고수준 스크립트와 저수준 제어 정책의 통합을 통한 다양하고 표현력 있는 HSI 시뮬레이션 가능.