Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MIDAS: Multimodal Interactive Digital-humAn Synthesis via Real-time Autoregressive Video Generation

Created by
  • Haebom

저자

Ming Chen, Liyuan Cui, Wenyuan Zhang, Haoxian Zhang, Yan Zhou, Xiaohan Li, Songlin Tang, Jiwen Liu, Borui Liao, Hejia Chen, Xiaoqiang Liu, Pengfei Wan

개요

본 논문은 실시간 상호작용이 가능한 디지털 인간 비디오 생성 프레임워크를 제시합니다. 기존 방법들의 높은 계산 비용과 제한적인 제어성 문제를 해결하기 위해, 저지연 추론이 가능한 자기회귀 비디오 생성 방식을 제안합니다. 대규모 언어 모델(LLM)을 최소한으로 수정하여 오디오, 포즈, 텍스트 등 다양한 조건부 인코딩을 받아들여, 확산 모델의 잡음 제거 과정을 안내하는 공간적, 의미적으로 일관된 표현을 출력합니다. 약 20,000시간 분량의 대규모 대화 데이터셋을 구축하여 모델 학습에 사용하며, 최대 64배의 압축률을 제공하는 심층 압축 오토인코더를 도입하여 자기회귀 모델의 장기 추론 부하를 효과적으로 줄입니다. 이를 통해 양방향 대화, 다국어 인간 합성, 상호 작용형 월드 모델 등 다양한 실험에서 저지연, 고효율, 세밀한 다중 모달 제어성을 보여줍니다.

시사점, 한계점

시사점:
실시간 상호작용이 가능한 디지털 인간 비디오 생성의 새로운 가능성 제시
다양한 모달(오디오, 포즈, 텍스트)을 활용한 정교한 제어성 확보
심층 압축 오토인코더를 통한 저지연, 고효율 추론 달성
대규모 대화 데이터셋 구축을 통한 실제 대화 시나리오 반영
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 평가 필요
압축 과정에서 발생할 수 있는 정보 손실 및 화질 저하 문제에 대한 분석 필요
20,000시간의 대화 데이터셋의 구성 및 품질에 대한 자세한 설명 부족
다른 최첨단 방법과의 비교 분석이 더욱 상세하게 필요함.
👍