この論文は、研究論文を構造化ビデオサマリーに変換する「紙からビデオ」の作業について説明します。既存の最先端のビデオ生成モデルは、制限されたコンテキストウィンドウ、固定されたビデオ持続時間の制約、制限されたスタイルの多様性、およびドメイン固有の知識を表現できない制限を持っていることを指摘し、これらの制限を解決するために最初のPaper-to-videoエージェントシステムである「Preacher」を提示します。 Preacherは、上位と下位のアプローチを活用して論文を分解、要約、再構成し、さまざまなビデオセグメントを組み合わせて一貫したサマリービデオを作成します。クロスモーダル表現をソートするための主要なシーンを定義し、細かい反復計画のためのProgressive Chain of Thought(P-CoT)を導入します。 Preacherは、5つの研究分野で高品質のビデオサマリーをうまく生成し、既存のビデオ生成モデルを超えた専門知識を実証しています。