본 논문은 과학적 의사소통에서 중요하지만 어려운 과제인 학술 포스터 생성을 위한 첫 번째 벤치마크 및 지표 모음을 제시합니다. 최근 학회 논문과 저자들이 직접 디자인한 포스터를 짝지어, 시각적 품질, 텍스트 일관성, 전체적 평가(VLM 기반 6가지 미적 및 정보 기준), 그리고 포스터가 핵심 논문 내용을 전달하는 능력(VLM 기반 퀴즈)을 평가합니다. 이 벤치마크를 기반으로, 상위-하향식 시각적 반복 다중 에이전트 파이프라인인 PosterAgent를 제안합니다. Parser는 논문을 구조화된 자산 라이브러리로 추출하고, Planner는 텍스트-시각 쌍을 읽는 순서와 공간 균형을 유지하는 이진 트리 레이아웃으로 정렬하며, Painter-Commenter 루프는 렌더링 코드를 실행하고 VLM 피드백을 사용하여 오버플로를 제거하고 정렬을 보장합니다. 평가 결과, GPT-4 기반 출력물은 시각적으로 매력적이지만 잡음이 많은 텍스트와 낮은 PaperQuiz 점수를 보이며, 독자 참여가 주요 미적 병목 현상임을 발견했습니다. Qwen-2.5 기반 오픈소스 변형은 거의 모든 지표에서 기존 GPT-4 기반 다중 에이전트 시스템보다 성능이 우수하며, 토큰 사용량은 87% 적습니다. 22페이지 논문을 편집 가능한 .pptx 포스터로 변환하는 데 비용은 0.005달러에 불과합니다.