Beyond End-to-End Video Models: An LLM-Based Multi-Agent System for Educational Video Generation

Created by

Haebom

저자

Lingyong Yan, Jiulong Wu, Dong Xie, Weixian Shi, Deguo Xia, Jizhou Huang

💡 개요

기존의 종단 간(end-to-end) 비디오 생성 모델은 교육용 콘텐츠처럼 엄격한 논리적 정확성과 지식 표현이 요구되는 시나리오에서 한계를 보입니다. 본 논문은 이러한 문제를 해결하기 위해 교육 문제로부터 고품질 교육용 비디오를 생성하는 계층적 LLM 기반 다중 에이전트 시스템인 LAVES를 제안합니다. LAVES는 단계별 추론, 교육적 서사, 의미론적으로 충실한 시각적 시연, 정확한 시청각적 동기화를 동시에 요구하는 다목적 작업으로 교육 비디오 생성을 공식화합니다.

🔑 시사점 및 한계

•

LAVES는 전문화된 에이전트와 중앙 조정 에이전트를 통해 교육용 비디오 생성 워크플로우를 분해하고, 품질 게이트와 반복적 비판 메커니즘을 통합하여 절차적 충실도, 생산 비용, 제어 가능성의 한계를 극복합니다.

•

픽셀을 직접 합성하는 대신, 구조화된 실행 가능한 비디오 스크립트를 구축하여 템플릿 기반 조립 규칙을 통해 동기화된 시각 효과와 서사를 결정론적으로 컴파일함으로써 수동 편집 없이 완전 자동화된 종단 간 생산을 가능하게 합니다.

•

대규모 배포에서 LAVES는 현재 업계 표준 접근 방식에 비해 95% 이상의 비용 절감을 달성하고 높은 수용률을 유지하며 하루에 백만 개 이상의 비디오를 생성하는 처리량을 능가합니다.

PDF 보기

Made with Slashpage