Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein
개요
장시간 비디오 생성을 위한 모델은 긴 컨텍스트를 유지하고 검색해야 하는 근본적인 장기 컨텍스트 메모리 문제에 직면합니다. 확산 변압기를 긴 컨텍스트 비디오 생성에 적용하는 것은 자기 주의의 2차 비용으로 인해 제한됩니다. 이 문제를 해결하기 위해, 본 논문에서는 내부 정보 검색 작업으로 간주하고, 효과적인 장기 메모리 검색 엔진인 Mixture of Contexts (MoC)라는 간단하고 학습 가능한 희소 주의 라우팅 모듈을 제안합니다. MoC에서 각 쿼리는 정보가 풍부한 몇 개의 청크와 필수 앵커(캡션, 로컬 윈도우)를 동적으로 선택하여 주의를 기울입니다. 이는 루프 클로저를 방지하는 인과 라우팅을 사용합니다. 데이터 크기를 늘리고 라우팅을 점진적으로 희소화하면서, 모델은 주요 기록에 컴퓨팅을 할당하여 몇 분 분량의 콘텐츠에 걸쳐 신원, 동작 및 장면을 보존합니다. 이러한 검색 기반 접근 방식은 효율성을 높이고 (거의 선형 스케일링), 실질적인 학습과 합성을 가능하게 하며, 분 단위의 규모에서 메모리 및 일관성이 나타나게 합니다.