Presto는 15초 길이의 장기간 일관성과 풍부한 콘텐츠를 가진 비디오를 생성하도록 설계된 새로운 비디오 확산 모델입니다. 기존의 비디오 생성 방법들은 긴 시간에 걸쳐 다양한 시나리오를 유지하는 데 어려움을 겪습니다. 이를 해결하기 위해, Presto는 시간적 차원을 따라 은닉 상태를 세그먼트로 분할하여 각 세그먼트가 해당 하위 캡션에 크로스 어텐션을 적용하는 세그먼트 크로스 어텐션(SCA) 전략을 제안합니다. SCA는 추가적인 매개변수가 필요 없어 기존 DiT 기반 아키텍처에 매끄럽게 통합될 수 있습니다. 고품질의 긴 비디오 생성을 용이하게 하기 위해, 시나리오 일관성을 갖춘 풍부한 콘텐츠의 26만1천 개 비디오로 구성된 LongTake-HD 데이터셋을 구축했습니다. 이 데이터셋은 전체 비디오 캡션과 5개의 점진적인 하위 캡션으로 주석이 달려 있습니다. 실험 결과, Presto는 VBench Semantic Score에서 78.5%, Dynamic Degree에서 100%를 달성하여 기존 최첨단 비디오 생성 방법들을 능가했습니다. 이는 Presto가 콘텐츠 풍부함을 크게 향상시키고 장기간 일관성을 유지하며 복잡한 텍스트 세부 정보를 포착함을 보여줍니다.