学術発表映像は研究コミュニケーションに不可欠な媒体となったが、短い2~10分分の映像を制作するのにもスライドデザイン、録画、編集に多くの時間がかかる。この論文は、研究論文、密集したマルチモーダル情報(テキスト、図、表)、スライド、字幕、音声、人のプレゼンターなど、複数のソートされたチャンネルを調整する必要がある問題を解決するために、Paper2Videoという101の研究論文と著者が作成した発表ビデオ、スライド、およびプレゼンターのメタデータをまとめた最初のベンチです。さらに、Meta Similarity、PresentArena、PresentQuiz、IP Memoryの4つのカスタム評価指標を設計し、ビデオが論文の情報を聴衆に伝える方法を測定します。これに基づいて、スライド作成、効果的なレイアウト改善、カーソル固定、字幕、音声合成、プレゼンターレンダリングを統合するPaperTalkerという学術発表ビデオ生成のための最初のマルチエージェントフレームワークを提案します。 Paper2Videoの実験を通して、提案されたアプローチは、既存のベースラインよりも忠実で有益な発表ビデオを生成し、自動化されたすぐに利用可能な学術ビデオ生成への実質的な進歩を示しています。