학술 발표 영상은 연구 커뮤니케이션에 필수적인 매체가 되었지만, 짧은 2~10분 분량의 영상을 제작하는 데에도 슬라이드 디자인, 녹화 및 편집에 많은 시간이 소요된다. 이 논문은 연구 논문, 밀집된 다중 모달 정보 (텍스트, 그림, 표) 및 슬라이드, 자막, 음성 및 사람 발표자와 같은 여러 정렬된 채널을 조정해야 하는 문제를 해결하기 위해 Paper2Video라는 101개의 연구 논문과 저자가 만든 발표 영상, 슬라이드 및 발표자 메타데이터를 묶은 첫 번째 벤치마크를 소개한다. 또한, Meta Similarity, PresentArena, PresentQuiz 및 IP Memory의 네 가지 맞춤형 평가 지표를 설계하여 비디오가 논문의 정보를 청중에게 전달하는 방식을 측정한다. 이를 기반으로, 슬라이드 생성, 효과적인 레이아웃 개선, 커서 고정, 자막, 음성 합성 및 발표자 렌더링을 통합하는 PaperTalker라는 학술 발표 비디오 생성을 위한 최초의 다중 에이전트 프레임워크를 제안한다. Paper2Video에 대한 실험을 통해 제안된 접근 방식이 기존 기준선보다 더 충실하고 유익한 발표 비디오를 생성하며, 자동화되고 즉시 사용 가능한 학술 비디오 생성에 대한 실질적인 발전을 보여준다.