Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mixture of Contexts for Long Video Generation

Created by
  • Haebom

저자

Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein

개요

장시간 비디오 생성을 위한 모델은 긴 컨텍스트를 유지하고 검색해야 하는 근본적인 장기 컨텍스트 메모리 문제에 직면합니다. 확산 변압기를 긴 컨텍스트 비디오 생성에 적용하는 것은 자기 주의의 2차 비용으로 인해 제한됩니다. 이 문제를 해결하기 위해, 본 논문에서는 내부 정보 검색 작업으로 간주하고, 효과적인 장기 메모리 검색 엔진인 Mixture of Contexts (MoC)라는 간단하고 학습 가능한 희소 주의 라우팅 모듈을 제안합니다. MoC에서 각 쿼리는 정보가 풍부한 몇 개의 청크와 필수 앵커(캡션, 로컬 윈도우)를 동적으로 선택하여 주의를 기울입니다. 이는 루프 클로저를 방지하는 인과 라우팅을 사용합니다. 데이터 크기를 늘리고 라우팅을 점진적으로 희소화하면서, 모델은 주요 기록에 컴퓨팅을 할당하여 몇 분 분량의 콘텐츠에 걸쳐 신원, 동작 및 장면을 보존합니다. 이러한 검색 기반 접근 방식은 효율성을 높이고 (거의 선형 스케일링), 실질적인 학습과 합성을 가능하게 하며, 분 단위의 규모에서 메모리 및 일관성이 나타나게 합니다.

시사점, 한계점

시사점:
장기 비디오 생성 문제를 내부 정보 검색으로 재정의하여 해결.
MoC 모듈을 통해 희소 주의를 구현하여 장기 기억 문제를 효율적으로 해결.
분 단위의 비디오 생성에서 신원, 동작, 장면의 일관성을 유지.
효율적인 연산으로 실제적인 학습 및 합성을 가능하게 함.
한계점:
논문에서 구체적인 한계점 언급은 없음.
👍