Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SIMS: Simulating Stylized Human-Scene Interactions with Retrieval-Augmented Script Generation

Created by
  • Haebom
Category
Empty

저자

Wenjia Wang, Liang Pan, Zhiyang Dou, Jidong Mei, Zhouyingcheng Liao, Yuke Lou, Yifan Wu, Lei Yang, Jingbo Wang, Taku Komura

개요

본 논문은 물리적 환경에서 다양한 스타일의 인간-장면 상호작용(HSI)을 시뮬레이션하는 새로운 계층적 프레임워크인 SIMS를 제안한다. SIMS는 고수준 스크립트 기반 의도와 저수준 제어 정책을 원활하게 연결하여 표현력 있고 다양한 HSI를 가능하게 한다. 특히, 검색 증강 생성(RAG)을 사용하는 대규모 언어 모델을 통해 일관성 있고 다양한 장문의 스크립트를 생성하여 운동 계획의 기반을 마련한다. 또한, 생성된 스크립트의 텍스트 임베딩을 사용하여 스타일 큐를 인코딩하고, 동시에 환경 기하학을 인지하며 작업 목표를 달성하는 다중 조건 물리 기반 제어 정책을 개발한다. RAG에 의해 생성된 포괄적인 계획 데이터셋과 다양한 이동 및 상호 작용을 특징으로 하는 스타일리쉬한 모션 데이터셋을 함께 소개한다. 광범위한 실험을 통해 SIMS가 다양한 작업을 실행하고 다양한 시나리오에서 일반화하는 효과를 보이며, 기존 방법보다 성능이 크게 향상됨을 보여준다.

시사점, 한계점

시사점:
고수준 스크립트와 저수준 제어 정책의 통합을 통한 다양하고 표현력 있는 HSI 시뮬레이션 가능.
RAG 기반의 스크립트 생성을 통해 일관성 있고 다양한 장면 생성 가능.
다중 조건 물리 기반 제어 정책을 통해 스타일리쉬하고 물리적으로 타당한 모션 생성 가능.
새로운 계획 및 스타일리쉬 모션 데이터셋 제공.
기존 방법 대비 성능 향상.
한계점:
제안된 프레임워크의 일반화 성능에 대한 추가적인 평가 필요.
실제 환경에서의 적용 가능성 및 한계에 대한 추가적인 연구 필요.
RAG에 의존하기 때문에 RAG 모델의 한계가 SIMS의 성능에 영향을 미칠 수 있음.
다양한 스타일의 정의 및 범위에 대한 명확한 기준이 필요할 수 있음.
👍